python爬虫之lxml模块
lxml模块:python用来解析xml和html模块,用这个模块就可以使用xpath语法。 **xpath(语法) 就相当于一个路径一样,可以匹配html和xml想要的内容数据** 1、什么xpath? xpath就是用来筛选html或者xml中元素语法。如果匹配标签和元素,则返回element对象,如果匹配到的是标签和text,则返回字符串 2、xml和html中一些名词。 元素 标签 属性 内容 3、xpath的语法 (1)选取节点 | . | 代表当前节点 | | … | 代表父节点 | | / | 从根节点开始 | | // | 文档的任意位置 | | nodename | 选取标签火元素 | | @属性名 | 选取属性名所对应的方法 | | text() | 选取内容 | (2)谓语:语言中就是用来限定主语的成分。 a、可以通过位置限定 [数字]选取第几个----> //body/div[3] ----> 选取页面内所有的body标签下的第三个div标签 [last()]:选取最后一个----> //body/div[last()] ----> 选取所有body标签下的最后一个div标签 [last()-1]:选取倒数第二个//body/div[last()-1] ----> 选取所有body标签下的倒数第二个div标签 [position()>1]:选取位置大于1--