Python---scrapy框架的学习

早过忘川 提交于 2020-02-29 08:41:42

scrapy框架的学习

先熟悉下scrapy项目结构:

scrapyTest/scrapyTest/   _init_.py用来初始化项目信息

scrapyTest/scrapyTest/  items.py文件为爬虫项目的数据容器文件,主要用来定义我们的数据.

scrapyTest/scrapyTest/  pipelines.py文件为爬虫项目的管道文件,主要用于对items中的数据进行进一步加工与处理

scrapyTest/scrapyTest/  settings.py文件为爬虫项目的设置文件,主要为爬虫项目设置一些信息。

spider文件夹下放置的是爬虫项目的爬虫部分相关的文件。

scrapyTest/scrapyTest/spider/ _init_.py文件为爬虫项目中部分代码进行初始化,主要是为spider进行初始化,以上是对scrapy项目的结构进行说明。

1. 创建scrapy项目: 比如我们需要在“D:\python\day1\”这个目录创建项目。

直接输入一下命令:

cd  D:\python\day1\

scrapy startproject <projectname> (这里我用scrapyTest来命名)

这里就创建scrapy项目成功

我们进入到创建项目的目录:cd 项目名称

在创建项目过程中我们也可以加一些参数进行控制:

输入命令:

scrapy startproject -h

输出如下:

Usage
=====
  scrapy startproject <project_name> [project_dir]

Create new project

Options
=======
--help, -h              show this help message and exit

Global Options
--------------
--logfile=FILE          log file. if omitted stderr will be used
--loglevel=LEVEL, -L LEVEL
                        log level (default: DEBUG)
--nolog                 disable logging completely
--profile=FILE          write python cProfile stats to FILE
--pidfile=FILE          write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
                        set/override setting (may be repeated)
--pdb                   enable pdb on failure

--logfile=File用来指定打印日志存放的目录

例如: scrapy startproject  --logfile=log.txt scrapyTest

 

 

 

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!