urllib2的使用
demo01.py
# -*- coding:utf-8 -*- # 添加指定编码的注释,表示当前源代码支持中文操作 import urllib2 # 引入需要的模块 response = urllib2.urlopen("http://www.baidu.com") # 通过urlopen()方法请求百度数据,获取到的响应数据保存在response中 print(response.read()) # 打印展示获取到的数据运行程序:python2 demo01.py
上述程序总分为两部分请求和相应
构造请求:request = urllib2.Request('http://www.baidu.com')
发送请求获得响应:response =urllib2.urlopen(request)
打印响应内容: print(response.read())
---------------------------------------------------------------------------------------------------------
相应爬虫措施:请求头伪造,模仿浏览器发送请求;
程序如下:
# 添加注释,源代码支持中文 # -*- coding:utf-8 -*- # 引入需要的模块 from urllib2 import Request, urlopen # 定义访问的目标url地址 url = "http://www.taobao.com"# 定义请求头信息 headers = { "User-agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;", "info": "自定义消息", }# 构建请求对象 request = Request(url, headers=headers) # 发送请求获得响应对象 response = urlopen(response) # 打印展示信息 print(response.read())
文章来源: 2.爬虫基础――urllib2模块