Python爬虫(三)——Robots协议

早过忘川 提交于 2020-02-02 10:02:46

Python爬虫(三)——Robots协议

Robots协议全称为Robots Exclusion Standard,网络爬虫排除标准。它的作用是告知网络爬虫哪些可以抓取哪些不可以。通常被放在网站根目录下的robots.txt。

注:并不是所有网站都有Robots协议,如果没有默认为内容都可以爬取。

基本语法

#*代表所有,/代表根目录
User-agent:*
Disallow:/
  • User-agent 限制的User-agent
  • Disallow 不允许访问的目录

使用

自动或人工识别robots.tst,再进行内容爬取。

你也可以不遵守robots.txt,但会产生风险。只有当你的程序不会对服务器产生威胁或者行为类似人类的时候可以不遵守robots.txt。这时候你获取的资源不能用于商业用途。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!