教育行業(yè)A股IPO第一股(股票代碼 003032)

全國(guó)咨詢/投訴熱線:400-618-4000

Scrapy框架的工作原理和工作流程

更新時(shí)間:2020年12月11日17時(shí)02分 來(lái)源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,我們只需要實(shí)現(xiàn)少量代碼,就能夠快速的抓取到數(shù)據(jù)內(nèi)容。Scrapy使用了Twisted異步網(wǎng)絡(luò)框架來(lái)處理網(wǎng)絡(luò)通訊,可以加快我們的下載速度,不用自己去實(shí)現(xiàn)異步框架,并且包含了各種中間件接口,可以靈活的完成各種需求。

Scrapy框架的工作流程

1.首先Spiders(爬蟲(chóng))將需要發(fā)送請(qǐng)求的url(requests)經(jīng)ScrapyEngine(引擎)交給Scheduler(調(diào)度器)。

2.Scheduler(排序,入隊(duì))處理后,經(jīng)ScrapyEngine,DownloaderMiddlewares(可選,主要有User_Agent, Proxy代理)交給Downloader。

3.Downloader向互聯(lián)網(wǎng)發(fā)送請(qǐng)求,并接收下載響應(yīng)(response)。將響應(yīng)(response)經(jīng)ScrapyEngine,SpiderMiddlewares(可選)交給Spiders。

4.Spiders處理response,提取數(shù)據(jù)并將數(shù)據(jù)經(jīng)ScrapyEngine交給ItemPipeline 保存(可以是本地,可以是數(shù)據(jù)庫(kù))。提取url重新經(jīng)ScrapyEngine交給Scheduler進(jìn)行下一個(gè)循環(huán)。直到無(wú)Url請(qǐng)求程序停止結(jié)束。獲取【Python爬蟲(chóng)視頻教程+筆記+源碼】加播妞1605146928606_課程資料.jpg:435946716。


猜你喜歡:

Python爬蟲(chóng)入門教程

常用的反反爬蟲(chóng)應(yīng)對(duì)策略

Python中爬蟲(chóng)框架或模塊的區(qū)別

Python+數(shù)據(jù)分析培訓(xùn)課程

0 分享到:
和我們?cè)诰€交談!