基于python多线程和Scrapy爬取链家网房价成交信息
文章目录 知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程 爬取流程详解 爬取房价信息 封装数据库类,方便多线程操作 数据库插入操作 构建爬虫爬取数据 基于百度地图获取小区地理坐标 完整代码 本次教程以深圳市为例,介绍利用python多线程爬取链家网的房价成交信息。其中涉及的知识包括爬虫框架Scrapy-spider、轻量数据库SQLite等。 知识背景 Scrapy- spider 爬虫框架 简单的说,Scrapy爬虫框架会利用异步机制帮助提高网络爬虫的爬取速度。 最重要的,爬虫 记载爬取失败的url ,进行重复爬取,直到 爬取失败的url列表为空 时结束爬取,这显然提高数据的爬取质量。 SQLite数据库 SQLite,是一款轻型的数据库,是遵守ACID的关系型数据库管理系统,它占用资源非常的低,操作简单,适合用于存储爬虫结果数据。 python多线程 多线程就像同时执行多个程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理。 运行速度更快 在一些等待的任务实现上如用户输入、文件读写和网络收发数据等情况下我们可以释放一些珍贵的资源如内存占用等等。 爬取流程详解 爬取房价信息 封装数据库类,方便多线程操作 class SQLiteWraper(object): """ 数据库的一个小封装,更好的处理多线程写入