Python爬虫框架Scrapy入门(二)第一个爬虫程序:使用xpath爬取起点中文网
一、需求分析 爬取起点中文网24小时热销榜的小说: https://www.qidian.com/rank/hotsales?style=1 作为第一个爬虫程序,我们只爬取第一页每本小说的名称、作者、类型、以及是否连载。 二、创建项目 打开命令行,切换到要保存工程的文件路径后,输入 scrapy startproject qidian_hot 创建一个名为qidian_hot的项目工程。 打开该文件路径,可以看到生成了一个qidian_hot的文件夹,里面便保存着scrapy的相关文件。 三、分析页面 用谷歌浏览器或其他带有开发者工具的浏览器,打开起点中文网24小时热销榜的网址 https://www.qidian.com/rank/hotsales?style=1 然后打开开发者工具 点击刷新页面后,找到网页响应的html代码 点击右上角的箭头,然后把鼠标移到小说的信息栏,单击,会看到右边的代码框会自动定位到该信息对应的代码。 我么可以看到在这个下面对应四个标签,分别对应这本小说的信息 展开标签,可以看到里面的内容,接下来我们只需要创建爬虫得到响应,并从中提取我们想要的信息即可 四、实现爬虫 打开我们之前建立的爬虫工程,在spider目录下建立爬虫文件 qidian_spider.py 导入需要用到的库 from scrapy import Request from scrapy