Python爬虫之设置代理IP
一、准备 1.1、需求 代理IP的使用常常出现在网页爬虫的常见中,现在的网站都有自己的反爬机制,当我们一次性过多的请求并爬取网站数据时会被目标网站识别为恶意攻击并封ip;这个时候代理ip就可以很好的解决这个问题,所以我们主要的目的是获取符合我们实际需求的代理ip 国内高匿代理ip网站: https://www.xicidaili.com/nn/ 步骤: 1、爬取上述的高匿代理ip网站的信息: 2、明确我们要获取的数据内容:主要包括下列图片中的蓝色方框内的值,即ip地址、端口、类型、存活时间;在这里我们只选取存活时间大于等于5天的ip 3、将获取到的数据封装成一个代理ip字典,字典key值就是上述步骤中的类型对应的值,value是ip地址:端口的格式组成;最后将单个的代理ip字典放入代理ip数组即代理池中 4、从ip代理池随机选择目标数量的代理ip 1.2、环境搭建 我们主要使用Python内置的 requests 和 BeautifulSoup 模块解析并爬取 https://www.xicidaili.com/nn/ 这个高匿代理ip网站的数据,所以本次我们环境搭建主要是安装 requests 和 BeautifulSoup 模块 1、requests模块的安装 具体步骤:打开本机的Python安装目录,进入Scripts文件夹,复制此路径bin打开此路径 的cmd窗口运行命令: