山东创睦网络科技有限公司:爬虫
目录 内容简介 第一章 爬虫简介 1.1 什么是网络爬虫 1.1.1 爬虫的简单定义 1.1.2 爬虫的分类 1.2 为什么需要爬虫 1.2.1 爬虫的用途 1.2.2怎么做爬虫 第二章 爬虫的基本常识 2.1 爬虫的合法性问题 2.2 爬虫的准备工作:网站的背景调研 2.2.1 robots协议 2.2.2 网站地图sitemap 2.2.3 估算网站的大小 2.2.4 识别网站用了何种技术 2.2.5 寻找网站的所有者 第三章 简单爬虫的实现 3.1 可能是史上最简单的爬虫Demo 3.2 回顾一下HTTP,HTTPS协议 3.3关于爬虫抓取的策略 3.3.1 深度优先算法 3.3.2 广度/宽度优先算法 3.4.3 实践中怎么来组合抓取策略 第四章 提取网页中的信息 4.1 数据的类型 4.1.1结构化数据 4.1.2半结构化数据 4.1.3非结构化数据 4.2 关于XML,HTML,DOM和JSON文件 4.2.1 XML, HTML, DOM 4.2.2 JSON文件 4.3 怎么提取网页中的信息 4.3.1 XPath与lxml 4.3.2 BeautifulSoup4 4.3.3 正则表达式re 第五章 动态网页的挑战 5.1 动态网页的使用场景 5.2 回到与HTTP服务器发送请求数据的原始方法 5.2.1 GET方法 5.2.2 POST方法 5.3