這節(jié)我們介紹爬蟲能用來干什么.如今每天互聯(lián)網(wǎng)上的流量足足有10億GB左右,不可能毫無選擇的全部爬取下來,這是要根據(jù)我們自己的需求來有選擇的爬取相對應(yīng)的數(shù)據(jù).那爬蟲可以用來干什么呢?我們根據(jù)實際需要將爬蟲的目標(biāo)分為三類.
第一類是通過搜索引擎的網(wǎng)絡(luò)爬蟲來充實搜索引擎的索引列表.這部分需求所需要的數(shù)據(jù)是各種網(wǎng)頁的地址,標(biāo)題,主題字等等.這方面比較知名的有g(shù)oogle爬蟲,baidu爬蟲,Yahoo爬蟲等等。可以大致分為 批量型爬蟲(Batch Crawler),增量型爬蟲(Incremental Crawler),垂直型爬蟲(Focused Crawter).
第二類建立自己的數(shù)據(jù)倉庫,然后用各種機器學(xué)習(xí)模型來得出一些尋常無法得出的預(yù)測和分析.我們可以通過這些數(shù)據(jù)集來進行預(yù)測.比如說股票,比特幣和各種風(fēng)險交易.
比如說,MIT發(fā)表過一篇論文.[Bayesian regression and Bitcoin].這篇論文以比特幣市場為例,用爬蟲爬取的各種高頻交易的信息,通過機器學(xué)習(xí)建立的人工智能成功的預(yù)測比特幣短期價格的漲跌,然后做高頻交易.下面就是一張MIT只用了3天的training data訓(xùn)練出的部分交易結(jié)果圖,綠色點買入,紅色點賣出。
.只不過要達到這種水平,那么需要爬取到特別優(yōu)質(zhì)的數(shù)據(jù)集.而比特幣市場比起股票來說是一個很簡單的市場,但是這也能證明爬蟲在該方面的運用.
注:該MIT論文的鏈接是https://arxiv.org/pdf/1410.1231v1.pdf
第三類為各種論文以及文章提供有力的數(shù)據(jù)支撐.
我們一般在報告中看到的有關(guān)于各行各業(yè)的數(shù)據(jù)分析圖,那都是通過抓取特定行業(yè)的專業(yè)數(shù)據(jù),然后用各種數(shù)據(jù)分析也好,自己使用第三方可視化js庫也好,最終得出的這些表圖.同樣用例子來說明.比例如,我們要找出全國氣溫最低的地方并直觀的表示出來,那么我們僅僅需要爬取一下全國的氣象信息,然后通過類似于D3.js這種可視化js庫就可以得到一張柱狀圖.如下圖所示,這樣,全國最低氣溫就能直觀的顯示出來。同時也可以用過各種氣象論文中論點的有力支撐.
那么,看完了有關(guān)爬蟲的用途,你是不是應(yīng)該想想自己想要做的爬蟲最后會用來干什么呢?