鍍金池/ 教程/ Java/ Scrapy教程
Scrapy項目加載器(Item Loader)
Scrapy快速入門
Scrapy蜘蛛(Spider)
Scrapy教程
Scrapy定義項目
Scrapy執(zhí)行爬行捉取
Scrapy項目(Items)
Scrapy安裝
Scrapy提取項目
Scrapy第一個Spider
Scrapy選擇器(Selector)
Scrapy Shell
Scrapy創(chuàng)建項目
Scrapy命令行工具
Scrapy日志
Scrapy使用項目

Scrapy教程

Scrapy是什么?

Scrapy是使用Python編寫的一個快速開源Web抓取框架,使用基于XPath選擇器來提取網(wǎng)頁中的數(shù)據(jù)。

歷史

Scrapy最初是在 2008年6月26日在BSD許可協(xié)議下發(fā)布,并在2015年6月發(fā)布的一個里程碑版本1.0。

為什么要使用Scrapy?

  • 它更容易構(gòu)建和大規(guī)模的抓取項目;
  • 它內(nèi)置的機制被稱為選擇器,用于從網(wǎng)站(網(wǎng)頁)上提取數(shù)據(jù);
  • 它異步處理請求,速度十分快;
  • 它可以使用自動調(diào)節(jié)機制自動調(diào)整爬行速度;
  • 確保開發(fā)人員可訪問性;

Scrapy的特點

  • Scrapy是一個開源和免費使用的網(wǎng)絡(luò)爬蟲框架;
  • Scrapy生成格式導(dǎo)出如:JSON,CSV和XML;
  • Scrapy內(nèi)置支持從源代碼,使用XPath或CSS表達(dá)式的選擇器來提取數(shù)據(jù);
  • Scrapy基于爬蟲,允許以自動方式從網(wǎng)頁中提取數(shù)據(jù);

優(yōu)點

  • Scrapy很容易擴展,快速和功能強大;
  • 這是一個跨平臺應(yīng)用程序框架(在Windows,Linux,Mac OS和BSD)。
  • Scrapy請求調(diào)度和異步處理;
  • Scrapy附帶了一個名為Scrapyd的內(nèi)置服務(wù),它允許使用JSON Web服務(wù)上傳項目和控制蜘蛛。
  • 也能夠刮削任何網(wǎng)站,即使該網(wǎng)站不具有原始數(shù)據(jù)訪問API;

缺點

  • Scrapy只面向Python2.7+以上版本;
  • 不同的操作系統(tǒng)安裝不太相同;