鍍金池/ 問答/數(shù)據(jù)分析&挖掘  Java  Python/ python 正則處理本地txt文件

python 正則處理本地txt文件

最近在學習爬蟲,然后用get連接網(wǎng)頁,然后問題好多,我一個個說,get的時候我加了下面信息

params = header
header = {user-agent: xxxx}

結果出來的文本基本在每一章的最后那里加上了我的user-agent信息,如圖,應該是頁面的script導致的,這個不會,先不理

clipboard.png

然后我就想著用正則來匹配替換掉,因為已經(jīng)是本地文檔了,下面是我用正則處理的代碼

clipboard.png

我搜了下大多用正則處理文件的,都是導入然后 for in 循環(huán)替換的,一定要這樣么?

再,為什么我我使用 (^http.*$com) 無法匹配呢? 我的意思是匹配http開頭,中間多個字符,然后用com結尾的字符串,python不是有這個語法么,我找了好幾個測試好像都不支持,我語法錯了么 Orz

求解?。?/p>

辛苦了,洗洗眼睛

回答
編輯回答
墨小白

re.sub 第三個參數(shù)類型錯誤,應該改成

old_content = open('1.txt', 'rb').read()
new_content = re.sub(br'http://[^\s]+', b'', old_content)
2017年5月21日 20:13