python爬虫:XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历。 选取节点 XPath使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。 常用路径表达式: 表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 .. 选取当前父节点。 @ 选取属性。 text() 选取文本内容。 实例 在下面的表格中,列出一些路径表达式以及表达式的结果: 路径表达式 结果 bookstore 选取bookstore元素 /bookstore 选取根元素bookstore。注释:假如路径起始于(/),则此路径始终代表到某元素的绝对路径。 bookstore/book 选取属于bookstore的子元素的所有book元素。 //book 选取所有book子元素,而不管他们在文档中的位置。 bookstore//book 选择属于bookstore元素的后代的所有book元素,而不管它们位于bookstore之下的什么位置。 //book/title/@lang 选择所有的book下面的title中的lang属性的值。 /