鍍金池/ 問答/Python  網(wǎng)絡(luò)安全/ python3 取 baidu 關(guān)鍵字十條結(jié)果為何與實(shí)際通過瀏覽器搜索的結(jié)果不同

python3 取 baidu 關(guān)鍵字十條結(jié)果為何與實(shí)際通過瀏覽器搜索的結(jié)果不同?

#coding:utf-8
from collections import Counter
import requests
from bs4 import BeautifulSoup
from urllib import request
import urllib
url = 'https://www.baidu.com.cn/s?wd=' + urllib.parse.quote('python3') + '&pn='  # word為關(guān)鍵詞,pn是百度用來分頁的..

headers = {    
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',    
'Connection': 'keep-alive',       
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'}

r=requests.get(url,headers=headers)
soup = BeautifulSoup(r.text.replace('<b>', '').replace('</b>', ''),'lxml')

url_list=soup.select('div.result > h3 > a')
for i in url_list:
    print(i.getText())

以下是在瀏覽器搜索python3,前四個(gè)結(jié)果,當(dāng)我用python3以上程序取前十結(jié)果時(shí),結(jié)果內(nèi)容是不一致的,試過n多關(guān)鍵詞都是,哪位朋友能給講講原因,是我程序的問題還是百度做了什么,謝謝!
以下是在瀏覽器搜索python3,前四個(gè)結(jié)果,當(dāng)我用python3以上程序取前十結(jié)果時(shí),結(jié)果內(nèi)容是不一致的,試過n多關(guān)鍵詞都是,哪位朋友能給講講原因,是我程序的問題還是百度做了什么,謝謝!

回答
編輯回答
哚蕾咪

你把你本地的瀏覽器里的cookie帶上試試

2017年11月23日 02:48
編輯回答
心悲涼

我試了一上,百度搜索結(jié)果的頁面url中有N多個(gè)參數(shù),遠(yuǎn)遠(yuǎn)不只wd和pn 。

2017年3月3日 09:21