Python爬虫基础
爬取流程 发送请求——获得页面——解析页面——下载内容——储存内容 基础模块 urllib, urllib2, requests, bs4(Beautifulsoup), pyquery 动态页面 selenium(会了这个配合scrapy无往不利) phantomJS(不显示网页的selenium) 解析语言 正则表达式, XPATH, CSS 遇到反爬虫策略验证码之类 tesserocr等 数据库 mysql, mongodb, redis 爬虫框架 scrapy(推荐), pyspider 爬虫架构:调度器,请求队列,代理池,cookie池等 进阶技术 多线程、分布式(结合scrapy) 来源: CSDN 作者: 罗小爬EX 链接: https://blog.csdn.net/luo15242208310/article/details/104222361