2.爬虫基础――urllib2模块

urllib2的使用

demo01.py

# -*- coding:utf-8 -*- # 添加指定编码的注释，表示当前源代码支持中文操作  import urllib2 # 引入需要的模块  response = urllib2.urlopen("http://www.baidu.com") # 通过urlopen()方法请求百度数据，获取到的响应数据保存在response中  print(response.read()) # 打印展示获取到的数据

运行程序：python2 demo01.py

上述程序总分为两部分请求和相应

构造请求：request = urllib2.Request('http://www.baidu.com')

发送请求获得响应：response =urllib2.urlopen(request)

打印响应内容： print(response.read())

---------------------------------------------------------------------------------------------------------

相应爬虫措施：请求头伪造，模仿浏览器发送请求；

程序如下：

# 添加注释，源代码支持中文 # -*- coding:utf-8 -*-  # 引入需要的模块 from urllib2 import Request, urlopen  # 定义访问的目标url地址 url = "http://www.taobao.com"  # 定义请求头信息 headers = {     "User-agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",     "info": "自定义消息", }  # 构建请求对象 request = Request(url, headers=headers)  # 发送请求获得响应对象 response = urlopen(response)  # 打印展示信息 print(response.read())

文章来源: 2.爬虫基础――urllib2模块

标签

urllib2

url

response

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!