python爬虫常用模块
对于一些简单的爬虫,python(基于python3)有更好的第三方库来实现它,且容易上手。 Python标准库–logging模块 logging模块能够代替print函数的功能,将标准输出到日志文件保存起来,利用loggin模块可以部分替代debug re模块 正则表达式 sys模块 系统相关模块 sys.argv(返回一个列表,包含所有的命令行) sys.exit(退出程序) Python标准库–urllib模块 urllib.requset.urlioen可以打开HTTP(主要)、HTTPS、FTP、协议的URL ca 身份验证 data 以post方式提交URL时使用 url 提交网络地址(全程 前端需协议名 后端需端口 http:/192.168.1.1:80) timeout 超时时间设置 函数返回对象有三个额外的方法 geturl() 返回response的url信息 常用与url重定向 info()返回response的基本信息 getcode()返回response的状态代码 1,request urllib.request最常见的用法是直接使用urllib.request.urlopen()来发起请求,但通常这样是不规范的 一个完整的请求还应该包括headers这样的信息传递,可以这样实 通常防止爬虫被检测,我们需要规定headers,伪造爬虫头部信息