首頁Python+大數(shù)據(jù)技術文章正文

聚焦爬蟲工作原理介紹

更新時間:2020年09月18日15時43分來源:傳智播客瀏覽次數(shù):

與通用爬蟲相比，聚焦爬蟲的工作流程較為復雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關的鏈接，保留有用的鏈接，并將其放入等待抓取的URL隊列。然后，它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL，并重復上述過程，直到達到系統(tǒng)的某一條件時停止，如圖1所示。

聚焦爬蟲工作原理

相對于通用網(wǎng)絡爬蟲，聚焦爬蟲還需要解決三個主要問題：

(1) 對抓取目標的描述或定義。我們需要根據(jù)爬取需求定義聚焦爬蟲的爬取目標，并進行相關的描述。

(2) 對網(wǎng)頁或數(shù)據(jù)的分析與過濾。

(3) 對URL的搜索策略。

猜你喜歡：

python爬蟲視頻教程

Python高級程序員培訓課程

上一篇：網(wǎng)絡爬蟲原理：通用爬蟲如何獲取頁面內(nèi)容？ 下一篇：常用的反反爬蟲應對策略

最新資訊

相關閱讀

0 分享到：

javaee

python

web

design

cloud

test

c

netmarket

pm

Linux

movies

robot

uids

Python

jdbc

北京校區(qū)

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

熱門課程推薦

更多>>

首頁|校區(qū)分布|師資力量|關于我們|報名流程

常見問題|技術資訊

江蘇傳智播客教育科技股份有限公司版權所有
Copyright 2006-2023, All Rights Reserved

在線咨詢我要報名

和我們在線交談！