鍍金池/ 問答/數(shù)據(jù)分析&挖掘  Python/ 請教下,文本類的頁面解析怎樣又精準效率又高?

請教下,文本類的頁面解析怎樣又精準效率又高?

做爬蟲的時候,經(jīng)常會遇見對方頁面是文本類的,前后關鍵詞又換來換去,希望能有同行來探討一下,怎樣解析文本類的頁面更好。
文本類頁面比如:

clipboard.png

1.如果頁面很規(guī)整,無論BeautifulSoup,Xpath,還是re,都還ok;而BS和Xpath都是基于定位的,位置換了就不靈了。
2.希望用關鍵詞,剛開始學的時候,用了如下方法:

clipboard.png

沒錯,很蠢,但比較準,也只是懶到往前后加關鍵詞即可,無論有多少相關關鍵詞。
3.后來嘗試用了正則表達式,語言精煉了些,但是碰到前后關鍵詞太多時,有可能出現(xiàn)匹配錯的時候(當然,前后關鍵詞少的時候正則表達式更好)。
正則表達式剛學,類似如下(其他項目的):

clipboard.png

所以想問下有沒有大神,探討下如何解析這種文本類的頁面?

回答
編輯回答
六扇門

可用“工程名稱”,“招標單位”等這些項目名稱作為前綴,再結合xpath搞定,相當穩(wěn)定的。不論它怎么換位置,只要項目名稱不變,就能準確提取項目內(nèi)容。

2017年6月10日 23:22
編輯回答
你好胸

如果有時間有精力的話,你可以嘗試一下文本識別的機器學習,用神經(jīng)網(wǎng)絡,輸入的是全文的單個中文字,然后通過模擬神經(jīng)網(wǎng)絡移動來理解文本意思。
我是不是跑題了?如果只是搜索文字的話,用死循環(huán)查詢就好了,參考各類編譯器對于代碼的解析。

2017年2月21日 19:06
編輯回答
別傷我

如果界面內(nèi)容規(guī)范的話,可以考慮選擇器抽取,比如xpath lxml 之類的.

2018年8月2日 01:51