Scrapy是什么?
Scrapy是使用
Python編寫的一個快速開源Web抓取框架,使用基于XPath選擇器來提取網(wǎng)頁中的數(shù)據(jù)。
歷史
Scrapy最初是在 2008年6月26日在BSD許可協(xié)議下發(fā)布,并在2015年6月發(fā)布的一個里程碑版本1.0。
為什么要使用Scrapy?
Scrapy的特點
-
Scrapy是一個開源和免費使用的網(wǎng)絡(luò)爬蟲框架;
-
Scrapy生成格式導(dǎo)出如:
JSON,CSV和XML;
-
Scrapy內(nèi)置支持從源代碼,使用XPath或CSS表達(dá)式的選擇器來提取數(shù)據(jù);
-
Scrapy基于爬蟲,允許以自動方式從網(wǎng)頁中提取數(shù)據(jù);
優(yōu)點
-
Scrapy很容易擴展,快速和功能強大;
-
這是一個跨平臺應(yīng)用程序框架(在Windows,Linux,Mac OS和BSD)。
-
Scrapy請求調(diào)度和異步處理;
-
Scrapy附帶了一個名為Scrapyd的內(nèi)置服務(wù),它允許使用JSON Web服務(wù)上傳項目和控制蜘蛛。
-
也能夠刮削任何網(wǎng)站,即使該網(wǎng)站不具有原始數(shù)據(jù)訪問API;
缺點
-
Scrapy只面向Python2.7+以上版本;
-
不同的操作系統(tǒng)安裝不太相同;