Python:网络爬虫相当利器
网络爬虫,又称为网页蜘蛛(WebSpider),非常形象的一个名字。如果你把整个互联网想象成类似于蜘蛛网一样的构造,那么我们这只爬虫,就是要在上边爬来爬去,顺便获得我们需要的资源。我们之所以能够通过百度或谷歌这样的搜索引擎检索到你的网页,靠的就是他们大量的爬虫每天在互联网上爬来爬去,对网页中的每个关键词进行索引,建立索引数据库。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次 最近,主要的任务就是开发性感 美女图片大全 ,使用python进行图片采集 1 urllib模块 urllib模块实际上是综合了url和lib的一个包。 url的一般格式为: protocol://hostname[:port]/path/[;parameters][?query]#fragment URL 由三部分组成: 第一部分是协议:http,https,ftp,file,ed2k… 第二部分是存放资源的服务器的域名系统或IP地址(有时候要包含端口号,各种传输协议都有默认的端口,如http的默认端口是80) 第三部分是资源的具体地址,如目录或者文件名等 举一个例子说明: import urllib.request response = urllib.request.urlopen("http://www.meimei169.com/") html = response.read(