爬虫 第三天
爬虫 第三天 requests高级 自己完成的任务 pyquery 标签定位和数据的提取 urllib 如何进行请求的发送 requests模块高级 代理 模拟登陆 验证码 cookie 代理(反爬机制) 概念:代理服务器 代理服务器的作用: 拦截请求和响应,进行转发 代理和爬虫之间的关联是什么? 如果pc端的ip被禁掉后,我们就可以使用代理的机制更换请求的ip 如何获取相关的代理服务器: 快代理 西祠代理 goubanjia 代理精灵:推荐。http://http.zhiliandaili.cn/ 匿名度: 透明:知道你使用了代理也知道你的真实ip 匿名:对方服务器知道你使用了代理机制,但是不知道你的真实ip 高匿:对方服务器不知道你使用了代理机制更不知道你的真实ip 类型: http:只可以拦截转发http协议的请求 https:只可以转发拦截https的请求 基本测试:代理的作用 基于百度搜索ip,搜索到的页面中会显示该请求对应的ip地址 语法结构 get/post(proxies={‘http/https’:‘ip:port’}) In [2]: import requests from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)