学习笔记 网络爬虫篇之 [数据清洗]
文章目录 一、XPath语法和lxml模块 1.Xpath语法 1.1 什么是XPath? 1.2 XPath开发工具 1.3 XPath语法 选取摘要: 谓语: 通配符 选择多个路径: 二、lxml库 1、基本使用: 2、在lxml中使用XPath语法: 2.1 获取所有li标签: 2.2 获取所有li元素下的所有类属性的值: 2.3 获取li标签下href为www.baidu.com的a标签: 2.4 获取li标签下所有span标签: 2.5 获取li标签下的a标签里的所有类别: 2.6 获取最后一个li的a的href属性对应的值: 2.7获取倒数第二个li元素的内容: 2.8 获取倒数第二个li元素的内容的第二种方式: 使用requests和xpath爬取电影天堂 三、BeautifulSoup4库 1、`BeautifulSoup4`库 2、几大解析工具对比: 2.1 简单使用: 2.2 四个常用的对象: 2.2.1 Tag: 2.2.2 NavigableString: 2.2.3 BeautifulSoup: 2.2.4 Comment: 3.遍历文档树: 3.1 contents和children: 3.2 strings 和 stripped_strings 4.搜索文档树: 4.1 find和find_all方法: 4.2 select方法: 四