python爬虫调度器

末鹿安然 提交于 2020-03-09 09:58:46

一、调度器在爬虫中的位置以及作用

       它是一个主循环,负责循环调取待爬取的url链接还有负责去重,去掉已经爬取的url链接,还有将未爬取的url链接给下载器进行数据的爬取。

二、调度器的主循环如图所示

三、在调度器中需要建立四个原件,分别是url管理器、html下载器、html解析器和数据存储器的实例

四、添加初始url

五、调度器主循环

六、总结

调度器是一个主循环中心,不停的将新的待爬取的url推到html下载器来进行信息的获取,将老的已爬取的url放入url仓库中。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!