入门七天,如何用十几行python代码爬取百度首页
这个爬虫很简单,只要稍微了解urllib库就可以写出来。urllib库在 python2和python3上有很大的区别,python2有urllib和urllib2两个库,Python3中将python2的urllib和urllib2两个库合并成了一个urllib库,而且不需要自己去安装,只要下载python3就已经自带了这库。 urllib简介: urllib提供了一系列用于操作URL的功能的库,其主要包括以下模块。 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块 urllib.request 请求模块 直接用urllib.request模块的urlopen( )获取页面,date的数据格式为bytes类型,需要decode( )解码,转换成str类型。 urillib的参数及解释: url: 需要打开的网址 data:Post提交的数据 timeout:设置网站的访问超时时间 context 参数:它必须是 ssl.SSLContext 类型,用来指定 SSL 设置。 cafile 和 capath 两个参数:是指定CA证书和它的路径,这个在请求 HTTPS 链接时会有用。 cadefault 参数:现在已经弃用了,默认为 False