鍍金池/ 問答/數(shù)據(jù)分析&挖掘  Java  HTML/ 關(guān)于爬蟲識別聯(lián)系信息的問題?

關(guān)于爬蟲識別聯(lián)系信息的問題?

爬蟲爬取頁面就不多說了,框架很多,現(xiàn)在說解析的一部分。
如圖
圖片描述

紅色框是我們需要的內(nèi)容,查出地址,電話,郵箱等字段,使用正則匹配,手機和郵箱識別率還行,雖然有誤差,就是不是手機或者郵箱頁扣出來了。
問題就是地址,正則很難寫,請問有人用過類似的框架或問題嗎?
在此感謝。

回答
編輯回答
毀了心

一般地址和聯(lián)系電話之類的都在一個div里,你可以臨近信息匹配,應(yīng)該能增加識別率

2018年2月8日 09:33
編輯回答
抱緊我

你可能只能以/地址[::].*\B/之類的來過濾啊,這個是一個麻煩。

2018年7月16日 10:18