使用xpath爬取網(wǎng)站的文字描述，在chrome中有用，但是在代碼中就沒有用了

問題描述：

我想爬取電影網(wǎng)站的描述信息，一開始用的是正則，但是不是很熟練，就用了xpath，xpath在chrome中可以使用，但是放到代碼里就失效了，我用了自己寫的xpath還有chrome獲取的xpath（沒有tbody的問題）都沒有用。

（以 http://www.ygdy8.com/html/gnd... 為例）
我想要爬取的是以下文字信息:

代碼（一部分）：

def getContent(url):
    html = ulr.urlopen('http://www.ygdy8.net%s' %url).read()
    con_text = html.decode('gb2312', 'ignore')
    data = etree.HTML(con_text)
    
    #reg = r'<div class="co_content8">(.+?)<p><strong><font color="#ff0000" size="4">'
    #reg = r'◎簡　　介 <br /><br />(.*?)<br />'
    #text = re.compile(reg).findall(con_text)
    #text = data.xpath('//*[@id="Zoom"]/span/p[1]/text()')  #chrome瀏覽器中獲取
    #text = data.xpath('//div[@id="Zoom"]/span/p/text()')   #自己嘗試的
    #text = data.xpath('/html/body/div/div/div[@class="bd2"]/div[@class="bd3"]/div[@class="bd3r"]/div[@class="co_area2"]/div[@class="co_content8"]/ul/div[@align="left"]/div[@id="Zoom"]/span/p/text()')   #從根目錄處開始嘗試查找
    
    if text:
        text = text[0]
    reg = r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(.+?)"'
    link = re.findall(reg,con_text)[0]
    return text,link

注釋的地方就是有問題的地方

執(zhí)行結(jié)果：

在chrome瀏覽器中使用xpath：

在代碼中使用xpath：

嘗試過直接獲取所有p標(biāo)簽以下的內(nèi)容，發(fā)現(xiàn)前面的一些文字可以獲取，但是想要的信息獲取不到。

請問該如何實現(xiàn)爬取想要的信息，xpath和正則分別應(yīng)該怎么寫呢？

并且：

對于這種已經(jīng)轉(zhuǎn)換為html信息的輸出具體有什么意思

回答

編輯回答

挽青絲

你要看一下頁面內(nèi)容是不是動態(tài)加載的，瀏覽器里那是已經(jīng) js 加載過的了。

2017年4月17日 03:33

編輯回答

不討喜

把html內(nèi)容保存成文件，再用瀏覽器打開。如果有想要的內(nèi)容，檢查xpath；如果沒有，可能被服務(wù)器反爬蟲了。

2017年7月14日 03:21

編輯回答

舊言

import requests
from lxml import etree

response = requests.get('http://www.ygdy8.com/html/gndy/dyzz/20170802/54644.html')
htmlStr = response.content.decode('gbk')
tree = etree.HTML(htmlStr)
info = tree.xpath('string(//div[@id="Zoom"]//p[1])')

print(info)

圖片描述

2018年3月16日 22:23

相關(guān)信息

熱門機構(gòu)

北大青鳥昌平沙河校區(qū)

北大青鳥APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景，秉承“教育改變生活”的發(fā)展理念，致力于培養(yǎng)中國IT技能型緊缺人才，是大數(shù)據(jù)專業(yè)的國家
北大青鳥中博軟件學(xué)院

北大青鳥中博軟件學(xué)院創(chuàng)立于2003年，作為華東區(qū)著名互聯(lián)網(wǎng)學(xué)院和江蘇省首批服務(wù)外包人才培訓(xùn)基地，中博成功培育了近30000名軟件工程師走向高薪崗位，合作企業(yè)超4
中公教育IT品牌優(yōu)就業(yè)

中公教育集團創(chuàng)建于1999年，經(jīng)過二十年潛心發(fā)展，已由一家北大畢業(yè)生自主創(chuàng)業(yè)的信息技術(shù)與教育服務(wù)機構(gòu)，發(fā)展為教育服務(wù)業(yè)的綜合性企業(yè)集團，成為集合面授教學(xué)培訓(xùn)、網(wǎng)
達內(nèi)教育

達內(nèi)教育集團成立于2002年，是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機構(gòu)，是中國一站式人才培養(yǎng)平臺、一站式人才輸送平臺。2014年4月3日在美國成功上市，融資1

熱門課程

北大青鳥android課程

適合人群：大專以上學(xué)歷

開班時間：每月1號
北大青鳥java軟件工程師

適合人群：大學(xué)畢業(yè)生

開班時間：每月1號
北大青鳥ACCP初中課程

適合人群：初中以上學(xué)歷

開班時間：每月1號
北大青鳥大數(shù)據(jù)課程

適合人群：18歲以上人群

開班時間：每月1號

熱門教師

劉國斌Java講師

曾工作于聯(lián)想擔(dān)任系統(tǒng)開發(fā)工程師，曾在博彥科技股份有限公司擔(dān)任項目經(jīng)理從事移動互聯(lián)網(wǎng)管理及研發(fā)工作，曾創(chuàng)辦藍懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負(fù)責(zé)iOS教學(xué)及管理工作。
王克晶Java講師

浪潮集團項目經(jīng)理。精通Java與.NET 技術(shù)，熟練的跨平臺面向?qū)ο箝_發(fā)經(jīng)驗，技術(shù)功底深厚。授課風(fēng)格授課風(fēng)格清新自然、條理清晰、主次分明、重點難點突出、引人入勝。
張老師web前端講師

精通HTML5和CSS3；Javascript及主流js庫，具有快速界面開發(fā)的能力，對瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁制作和網(wǎng)頁游戲開發(fā)。
劉蒼松Java教研總監(jiān)

具有10 年的Java 企業(yè)應(yīng)用開發(fā)經(jīng)驗。曾經(jīng)歷任德國Software AG 技術(shù)顧問，美國Dachieve 系統(tǒng)架構(gòu)師，美國AngelEngineers Inc. 系統(tǒng)架構(gòu)師。

熱門資訊

熱門城市

熱門教程

熱門問題

使用xpath爬取網(wǎng)站的文字描述，在chrome中有用，但是在代碼中就沒有用了

相關(guān)信息

劉國斌Java講師

王克晶Java講師

張老師web前端講師

劉蒼松Java教研總監(jiān)

使用xpath爬取網(wǎng)站的文字描述，在chrome中有用，但是在代碼中就沒有用了