Python网络爬虫入门篇
1. 预备知识 学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。 Python入门篇: https://www.cnblogs.com/wenwei-blog/p/10592541.html 2. Python爬虫基本流程 a. 发送请求 使用http库向目标站点发起请求,即发送一个Request,Request包含:请求头、请求体等。 Request模块缺陷:不能执行JS 和CSS 代码。 b. 获取响应内容 如果requests的内容存在于目标服务器上,那么服务器会返回请求内容。 Response包含:html、Json字符串、图片,视频等。 c. 解析内容 对用户而言,就是寻找自己需要的信息。对于Python爬虫而言,就是利用正则表达式或者其他库提取目标信息。 解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等 解析json数据:json模块 解析二进制数据:以wb的方式写入文件 d. 保存数据 解析得到的数据可以多种形式,如文本,音频,视频保存在本地。 数据库(MySQL,Mongdb、Redis) 文件 3. Requests库入门 Requests是用python语言基于urllib编写的,采用的是Apache2