2.爬虫基础――urllib2模块

匿名 (未验证) 提交于 2019-12-03 00:22:01

urllib2的使用

demo01.py

# -*- coding:utf-8 -*- # 添加指定编码的注释,表示当前源代码支持中文操作  import urllib2 # 引入需要的模块  response = urllib2.urlopen("http://www.baidu.com") # 通过urlopen()方法请求百度数据,获取到的响应数据保存在response  print(response.read()) # 打印展示获取到的数据

运行程序:python2 demo01.py

上述程序总分为两部分请求和相应

构造请求:request = urllib2.Request('http://www.baidu.com')

发送请求获得响应:response =urllib2.urlopen(request)

打印响应内容: print(response.read())

---------------------------------------------------------------------------------------------------------

相应爬虫措施:请求头伪造,模仿浏览器发送请求;

程序如下:

# 添加注释,源代码支持中文 # -*- coding:utf-8 -*-  # 引入需要的模块 from urllib2 import Request, urlopen  # 定义访问的目标url地址 url = "http://www.taobao.com"  # 定义请求头信息 headers = {     "User-agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",     "info": "自定义消息", }  # 构建请求对象 request = Request(url, headers=headers)  # 发送请求获得响应对象 response = urlopen(response)  # 打印展示信息 print(response.read())



易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!