Python爬虫(二)_urllib2的使用
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习 urllib2 。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网文档: https://docs.python.org/2/library/urllib2.html urllib2源码 urllib2 在python3.x中被改为 urllib.request urlopen 我们先来段代码: #-*- coding:utf-8 -*- #01.urllib2_urlopen.py #导入urllib2库 import urllib2 #向指定的url发送请求,并返回服务器的类文件对象 response = urllib2.urlopen("http://www.baidu.com") #类文件对象支持文件对象的操作方法,如read()方法读取文件 html = response.read() #打印字符串 print(html) 执行写好的python代码,将打印结果: python2 01.urllib2_urlopen.py 实际上,如果我们在浏览器打上百度主页,右键选择"查看源代码",你会发现,跟我们刚才打印出来的是一模一样的。也就是说,上面的4行代码就已经帮我们把百度的首页的全部代码爬了下来。