問題描述:
我想爬取電影網(wǎng)站的描述信息,一開始用的是正則,但是不是很熟練,就用了xpath,xpath在chrome中可以使用,但是放到代碼里就失效了,我用了自己寫的xpath還有chrome獲取的xpath(沒有tbody的問題)都沒有用。
(以 http://www.ygdy8.com/html/gnd... 為例)
我想要爬取的是以下文字信息:
代碼(一部分):
def getContent(url):
html = ulr.urlopen('http://www.ygdy8.net%s' %url).read()
con_text = html.decode('gb2312', 'ignore')
data = etree.HTML(con_text)
#reg = r'<div class="co_content8">(.+?)<p><strong><font color="#ff0000" size="4">'
#reg = r'◎簡 介 <br /><br />(.*?)<br />'
#text = re.compile(reg).findall(con_text)
#text = data.xpath('//*[@id="Zoom"]/span/p[1]/text()') #chrome瀏覽器中獲取
#text = data.xpath('//div[@id="Zoom"]/span/p/text()') #自己嘗試的
#text = data.xpath('/html/body/div/div/div[@class="bd2"]/div[@class="bd3"]/div[@class="bd3r"]/div[@class="co_area2"]/div[@class="co_content8"]/ul/div[@align="left"]/div[@id="Zoom"]/span/p/text()') #從根目錄處開始嘗試查找
if text:
text = text[0]
reg = r'<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(.+?)"'
link = re.findall(reg,con_text)[0]
return text,link
注釋的地方就是有問題的地方
執(zhí)行結(jié)果:
在chrome瀏覽器中使用xpath:
在代碼中使用xpath:
嘗試過直接獲取所有p標(biāo)簽以下的內(nèi)容,發(fā)現(xiàn)前面的一些文字可以獲取,但是想要的信息獲取不到。
請問該如何實現(xiàn)爬取想要的信息,xpath和正則分別應(yīng)該怎么寫呢?
并且:
對于這種已經(jīng)轉(zhuǎn)換為html信息的輸出具體有什么意思
北大青鳥APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景,秉承“教育改變生活”的發(fā)展理念,致力于培養(yǎng)中國IT技能型緊缺人才,是大數(shù)據(jù)專業(yè)的國家
北大青鳥中博軟件學(xué)院創(chuàng)立于2003年,作為華東區(qū)著名互聯(lián)網(wǎng)學(xué)院和江蘇省首批服務(wù)外包人才培訓(xùn)基地,中博成功培育了近30000名軟件工程師走向高薪崗位,合作企業(yè)超4
中公教育集團創(chuàng)建于1999年,經(jīng)過二十年潛心發(fā)展,已由一家北大畢業(yè)生自主創(chuàng)業(yè)的信息技術(shù)與教育服務(wù)機構(gòu),發(fā)展為教育服務(wù)業(yè)的綜合性企業(yè)集團,成為集合面授教學(xué)培訓(xùn)、網(wǎng)
達內(nèi)教育集團成立于2002年,是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機構(gòu),是中國一站式人才培養(yǎng)平臺、一站式人才輸送平臺。2014年4月3日在美國成功上市,融資1
曾工作于聯(lián)想擔(dān)任系統(tǒng)開發(fā)工程師,曾在博彥科技股份有限公司擔(dān)任項目經(jīng)理從事移動互聯(lián)網(wǎng)管理及研發(fā)工作,曾創(chuàng)辦藍懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負(fù)責(zé)iOS教學(xué)及管理工作。
浪潮集團項目經(jīng)理。精通Java與.NET 技術(shù), 熟練的跨平臺面向?qū)ο箝_發(fā)經(jīng)驗,技術(shù)功底深厚。 授課風(fēng)格 授課風(fēng)格清新自然、條理清晰、主次分明、重點難點突出、引人入勝。
精通HTML5和CSS3;Javascript及主流js庫,具有快速界面開發(fā)的能力,對瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁制作和網(wǎng)頁游戲開發(fā)。
具有10 年的Java 企業(yè)應(yīng)用開發(fā)經(jīng)驗。曾經(jīng)歷任德國Software AG 技術(shù)顧問,美國Dachieve 系統(tǒng)架構(gòu)師,美國AngelEngineers Inc. 系統(tǒng)架構(gòu)師。