爬取流程
发送请求——获得页面——解析页面——下载内容——储存内容
基础模块
urllib, urllib2, requests, bs4(Beautifulsoup), pyquery
动态页面
selenium(会了这个配合scrapy无往不利)
phantomJS(不显示网页的selenium)
解析语言
正则表达式, XPATH, CSS
遇到反爬虫策略验证码之类
tesserocr等
数据库
mysql, mongodb, redis
爬虫框架
scrapy(推荐), pyspider
爬虫架构:调度器,请求队列,代理池,cookie池等
进阶技术
多线程、分布式(结合scrapy)
来源:CSDN
作者:罗小爬EX
链接:https://blog.csdn.net/luo15242208310/article/details/104222361