Python爬虫基础

。_饼干妹妹 提交于 2020-02-12 12:18:25

爬取流程
发送请求——获得页面——解析页面——下载内容——储存内容

基础模块
urllib, urllib2, requests, bs4(Beautifulsoup), pyquery

动态页面
selenium(会了这个配合scrapy无往不利)
phantomJS(不显示网页的selenium)

解析语言
正则表达式, XPATH, CSS

遇到反爬虫策略验证码之类
tesserocr等

数据库
mysql, mongodb, redis

爬虫框架
scrapy(推荐), pyspider
爬虫架构:调度器,请求队列,代理池,cookie池等

进阶技术
多线程、分布式(结合scrapy)

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!