爬虫系列(九) xpath的基本使用
一、xpath 简介 究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言 而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: <html> <body> <div> <p>Hello world<p> <a href="/home">Click here</a> </div> </body> </html> XML 文档中常见的节点包括: 根节点:html 元素节点:html、body、div、p、a 属性节点:href 文本节点:Hello world、Click here XML 文档中常见的节点间关系包括: 父子:例如,<p> 和 <a> 是 <div> 的子节点,反之,也称 <div> 是 <p> 和 <a> 的父节点 兄弟:例如,<p> 和 <a> 称为兄弟节点 祖先/后代:例如,<body>、<div>、<p>、<a> 都是 <html> 的后代节点,反之,也称 <html> 是 <body>、<div>、<p>、<a> 的祖先节点 对于网页解析来说,xpath 比 re 更加方便简洁,故 Python 中也提供相应的模块 —— lxml.etree 我们可以使用 pip install lxml 命令进行安装 二、xpath 使用 在正式开始讲解 xpath 的使用方法之前,我们先来构造一个简单的