Python系列之五_爬虫抓图
Python系列之五_爬虫抓图 前面我们粗略地学习了Python语言的语法,一直学语法也挺无聊的,现在让我们让做一些有趣的事情。 例如你在百度贴吧里看到一篇文章,里面有很多好看的图片,但是一张张另存比较慢,学完Python语言后,我们可以编写一个爬虫程序,把所有图片全部抓下来。 我们的思路是这样的: 首先,把这个网页的HTML源代码先抓下来; 然后,分析HTML源代码,找出所有图片的链接; 最后把所有图片下载下来。 一、抓取HTML源代码 #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib def get_html(url): page = urllib.urlopen(url) html = page.read() return html ht = get_html("http://tieba.baidu.com/p/5004440579") print ht 下面我们来分析这段代码。 “import urllib”这句表示导入urllib这个库,感觉有点像Java的import。 def部分是定义一个函数,函数需要与前面隔开两行。函数体缩进一层。 urllib.urlopen()函数用于打开一个url,并返回一个页面对象。 page.read(