python scrapy简介
scrapy基础 scrapy是用python写的一个库,使用它可以方便的抓取网页。 主页地址 http://scrapy.org/ 文档 http://doc.scrapy.org/en/latest/index.html 安装 sudo pip install scrapy 一个简单的教程 http://doc.scrapy.org/en/latest/intro/tutorial.html 如果你对这些概念有了解,使用上面的教程会比较容易. 它们是json, xpath, 正则表达式, 生成项目 scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码。 打开命令行,执行:scrapy startproject tutorial,生成的项目类似下面的结构 tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ... scrapy.cfg是项目的配置文件 用户自己写的spider要放在spiders目录下面,一个spider类似 from scrapy.spider import BaseSpider class DmozSpider(BaseSpider): name = " dmoz "