鍍金池/ 問答/數(shù)據(jù)分析&挖掘  Java/ 如何整理爬蟲抓取信息的格式?

如何整理爬蟲抓取信息的格式?

例如我需要爬很多網(wǎng)站的新聞、文章頁。我需要提取對應(yīng)頁面的標(biāo)題、內(nèi)容、發(fā)布時間等信息。但每個網(wǎng)站的頁面格式不一樣,難道我要給每個網(wǎng)站寫一個爬蟲嗎?
還有,信息被抓取來后,每個網(wǎng)站個信息格式也不同,我需要調(diào)整為我網(wǎng)站的格式,有沒有一套可以適用于所有格式的調(diào)整方法?

回答
編輯回答
妖妖

1.如何抓取多個網(wǎng)站的文章?
答:不同的網(wǎng)站,意味著html結(jié)構(gòu)、分頁格式都會不一樣,只能針對不同的網(wǎng)頁,寫不同的解析程序。
2.如何整理爬蟲信息?
答:你肯定是知道要抓取什么內(nèi)容的不是嗎?如標(biāo)題,內(nèi)容,作者等等,無非就是key-value,將值存在數(shù)據(jù)庫對應(yīng)的字段即可。

2017年10月16日 05:12