鍍金池/ 問答/Python  網(wǎng)絡(luò)安全  HTML/ 如何用python或jQuery爬下網(wǎng)站簡(jiǎn)單開獎(jiǎng)動(dòng)態(tài)數(shù)據(jù)?

如何用python或jQuery爬下網(wǎng)站簡(jiǎn)單開獎(jiǎng)動(dòng)態(tài)數(shù)據(jù)?

各位大神,如何用python或jQuery爬下網(wǎng)站簡(jiǎn)單開獎(jiǎng)動(dòng)態(tài)數(shù)據(jù)?我只會(huì)一點(diǎn)html和css。看了半天沒看懂,需不需要用正則表達(dá)式?網(wǎng)站的開獎(jiǎng)數(shù)據(jù)是動(dòng)態(tài)的,https,GET,想要獲取的數(shù)據(jù)有ID,下面的Div那時(shí)間怎么獲取的,可以自動(dòng)跳。在此謝謝大神們的指導(dǎo)。

https://m.033055.com/chajian/...
這個(gè)是想獲取的數(shù)據(jù)的網(wǎng)站,大神幫忙指導(dǎo)下!謝謝
圖片描述

回答
編輯回答
膽怯

提供兩個(gè)思路:

1.分析動(dòng)態(tài)鏈接

如下F12->網(wǎng)絡(luò)network->xhr里面有這些異步加載的鏈接response

clipboard.png

點(diǎn)開動(dòng)態(tài)鏈接,你可以得到json格式的數(shù)據(jù)

clipboard.png

你要做的是分析這些動(dòng)態(tài)鏈接URL的規(guī)律,然后requests發(fā)出請(qǐng)求,獲取json數(shù)據(jù)然后用json.loads解析獲取。

2.瀏覽器內(nèi)核

這個(gè)可以參考@thechosenone的答案


歡迎關(guān)注我的專欄或微信公眾號(hào):Python網(wǎng)絡(luò)爬蟲分享

2017年8月24日 15:43
編輯回答
久不遇

那個(gè)時(shí)間是js異步加載的,需要解析js,對(duì)于請(qǐng)求進(jìn)行分析,不過可以使用phantomjs這個(gè)來(lái)幫你解析,chrome和Firefox 也推出了headless模式
對(duì)于這個(gè)網(wǎng)頁(yè),如果使用phantomjs獲取時(shí)間
需要配置兩個(gè)環(huán)境
1:phantomjs,如果你安裝了火狐或者谷歌也也可以直接調(diào)用,代碼有注釋
2:selenium3.7
import time
from selenium import webdriver
driver = webdriver.PhantomJS() #webdriver.Firefox()
driver.get('https://m.033055.com/chajian/...')
time.sleep(0.5) #等待js加載的時(shí)間
print driver.find_element_by_xpath(".//*[@id='tmpinfo']").get_attribute('innerHTML')

圖片描述

2017年8月23日 02:04