Python+url2 爬虫技术
爬取分为,嗯,三个步骤大概,首先是用 python 的 url 库搭接网络连接部分,能够自动打开许多网页和下载它的 html,这个很简单,都是模板不用费脑子,然后是分析目标网站的 html,观察对应的要爬取的内容是怎么被包围在这些标签中的,然后是用 python 的正则表达式构建字段,从整个 html 里进行匹配,匹配成功了就输出,整个过程大致就是这样,关键是如何打开这些网址,以及如何匹配正确,就是这样。 在匹配之前,最好就是先用一个网页试着匹配一下,实验性的,不然匹配错了,输出一大堆错误的东西,也会降低效率 这回用的是 scrape 爬虫框架 这里有一点是,urllib2 现在与 urllib 合并了。。。然后如果你要用 urllib2 的话,它就是 urllib 里的 request,所以你单独倒一条: Import urllib.request as urllib2 这样就可以愉快的玩耍啦! 然后可以这么写几句话看一下: import urllib import urllib.request as urllib2 import urllib3 response = urllib2.urlopen("http://www.smpeizi.com") print(response.read()) 就两句话,但是能传出来一大堆东西。 其实上面的 urlopen 参数可以传入一个