Python爬虫入门这一篇就够了
何谓爬虫 所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。 爬虫三要素 抓取 分析 存储 基础的抓取操作 1、urllib 在Python2.x中我们可以通过urllib 或者urllib2 进行网页抓取,但是再Python3.x 移除了urllib2。只能通过urllib进行操作 带参数的urllib url = 'https://blog.csdn.net/weixin_43499626' url = url + '?' + key + '=' + value1 + '&' + key2 + '=' + value2 2、requests requests库是一个非常实用的HTPP客户端库,是抓取操作最常用的一个库。Requests库满足很多需求 需要登录的情况下 1、表单提交登录 向服务器发送一个post请求并携带相关参数,将服务器返回的cookie保存在本地,cookie是服务器在客户端上的“监视器”,记录了登录信息等。客户端通过识别请求携带的cookie,确定是否登录 2、cookie登录 我们可以将登录的cookie存储在文件中, 常见的反爬有哪些 1、通过user-agent来控制访问 user-agent能够使服务器识别出用户的操作系统及版本、cpu类型