鍍金池/ 問答/人工智能  數(shù)據(jù)分析&挖掘  Python/ scrapy如何獲取超鏈接中的文字

scrapy如何獲取超鏈接中的文字

我想用scrapy爬取自己csdn上的所有博客,但是遇到置頂?shù)倪@個(gè)文章就不知道怎么處理了。

HTML代碼如下。span里面有一個(gè)紅色的font,這種情況下應(yīng)該如何忽略這個(gè)置頂而獲取鏈接其他部分的文字呢?

<a href="/u011054333/article/details/49305291">
        <font color="red">[置頂]</font>
        計(jì)算機(jī)專業(yè)學(xué)生必看!各個(gè)公司的學(xué)生優(yōu)惠活動(dòng)            
        </a>
        
回答
編輯回答
毀與悔

/a/@href 好像是這么寫的

2018年4月30日 04:53
編輯回答
心上人

response.xpath("http://a//text()")[1].extract()

2018年7月14日 11:25
編輯回答
選擇

寫兩次正則,第一次匹配a標(biāo)簽所有鏈接,第二次正則,去掉a標(biāo)簽內(nèi)容里面的font標(biāo)簽

2018年5月26日 18:37
編輯回答
你的瞳

可以先提取<span>,如果能提取到那么就是置頂,用if判斷一下就可以,如果你想直接用xpath智能幫你去掉這個(gè)置頂標(biāo)簽的話暫時(shí)也不清楚能不能做到

2018年2月7日 14:52