scrapy-python

scrapy电影天堂实战(二)创建爬虫项目

徘徊边缘 提交于 2020-04-24 20:13:04
## 公众号原文 创建数据库 我在上一篇笔记中已经创建了数据库,具体查看《 scrapy电影天堂实战(一)创建数据库 》,这篇笔记创建scrapy实例,先熟悉下要用到到xpath知识 用到的xpath相关知识 reference: https://germey.gitbooks.io/python3webspider/content/4.1-XPath%E7%9A%84%E4%BD%BF%E7%94%A8.html nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 //title[@lang='eng'], 这就是一个 XPath 规则,它就代表选择所有名称为 title,同时属性 lang 的值为 eng 的节点。 属性多值匹配 from lxml import etree text = ''' <li class="li li-first"><a href="link.html">first item</a></li> ''' html = etree.HTML(text) result = html.xpath('//li[@class="li"]/a/text()') print(result) 在这里 HTML 文本中的 li 节点的 class 属性有两个值