scrapy

Scrapy spider not found error

冷暖自知 提交于 2020-02-17 08:16:32
问题 This is Windows 7 with python 2.7 I have a scrapy project in a directory called caps (this is where scrapy.cfg is) My spider is located in caps\caps\spiders\campSpider.py I cd into the scrapy project and try to run scrapy crawl campSpider -o items.json -t json I get an error that the spider can't be found. The class name is campSpider ... spider = self.crawler.spiders.create(spname, **opts.spargs) File "c:\Python27\lib\site-packages\scrapy-0.14.0.2841-py2.7-win32.egg\scrapy\spidermanager.py",

Python Scrapy环境配置教程+使用Scrapy爬取李毅吧内容

末鹿安然 提交于 2020-02-17 07:56:32
Python爬虫框架Scrapy Scrapy框架 1、Scrapy框架安装 直接通过这里安装scrapy会提示报错: error: Microsoft Visual C++ 14.0 is required <Unable to find vcvarsall.bat> building 'twisted test.raiser' extension error:Unable to find cyarsall.bat Failed building wheel for lxml 解决方法: 在 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 有很多用于windows的编译好的Python第三方库,我们下载好对应自己Python版本的库即可。 在cmd中输入指令python,查看python的版本,如下: 从上图可以看出可以看出我的Python版本为Python3.7.1-64bit。 登陆http://www.lfd.uci.edu/~gohlke/pythonlibs/,Ctrl+F搜索Lxml、Twisted、Scrapy,下载对应的版本,例如:lxml-3.7.3-cp35-cp35m-win_adm64.whl,表示lxml的版本为3.7.3,对应的python版本为3.5-64bit。我下载的版本如下图所示: 在cmd中输入DOS指令

安装scrapy失败的处理方式

☆樱花仙子☆ 提交于 2020-02-17 07:22:35
又是一个坑,自己埋的坑要自己来踩。。。。。 1、起因: 当前用的是python3,通过pip3安装scrapy。没注意到安装的过程中报错了。 然后直接在dos下面新建scrapy项目,是成功的,也可以成功运行。 2、导致的问题: 当我在eclipse里面建立scrapy项目,但是import scrapy的时候一直报错找不到这个包,在dos里面又是正常的。 然后重启eclipse,重新构建python的运行路径,都不得行。 3、发现问题: 我在dos里面输入了pip3 list,发现根本没有scrapy这个模块!!!o(╯□╰)o 然后我输入pip list,发现有scrapy。。。。原来之前在dos里面新建scrapy的时候,是python2.7里面安装的。。。坑 然后重新安装scrapy,这时才发现安装的时候,报了一个错。 错误信息:building'twisted.test.raiser'extensionerror:MicrosoftVisualC++14.0isrequired.Getitwith"MicrosoftVisualC++BuildTools":http 4、解决问题: 然后根据百度指引,到https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载了一个 Twisted‑18.7.0‑cp36‑cp36m‑win

win10,python3.5 安装scrapy

孤人 提交于 2020-02-17 07:08:50
由于是初学者,业余学习,习惯使用windows,了解到 scrapy 用户很多。当然 scrapy 安装过程坑很多,主要是 Twisted 这个大坑。 最近发现已经有第三方处理的 Twisted 包了,只需要下载和你的python对应版本的whl安装即可,比如你是用python3.5.x的,那么你要下载名字带cp35的whl文件,建议下载32位版的,最好不要32位和64位混用,以免出现不必要问题 Twisted 和 lxml 等第三方包可以在这里下载 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 安装twisted,先下载 Twisted-xx.whl(比如 Twisted-16.4.1-cp35-cp35m-win32.whl),然后切换到下载目录,用pip安装,命令pip install Twisted-xx.whl( Twisted-xx.whl改为 实际文件名 ) pip install scrapy。如果遇到提示缺少依赖包,请到这里找 http://www.lfd.uci.edu/~gohlke/pythonlibs/ ,然后pip install xx.whl (xx.whl改为实际文件名),然后重试。 完成后,对照官方手册可以开始学习。 中文版(scrapy 0.25) http://scrapy-chs

error: Microsoft Visual C++ 14.0 is required. Get it with \"Microsoft Visual C++ Build Tools\": http://landinghub.visualstudio.com/visual-cpp-build-tools

时间秒杀一切 提交于 2020-02-17 07:02:51
解决方案 1. http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载 twisted 对应版本的whl文件(我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl),cp后面是python版本,amd64代表64位, 2. 运行命令: pip install C:\Users\CR\Downloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl 其中install后面为下载的whl文件的完整路径名 3.安装完成后,再次运行: pip install Scrapy 即可成功。 4.python shell 检查是否安装成功, import scrapy 记住要小写。 貌似安装的时候scrapy首字母大小写都可。 来源: https://www.cnblogs.com/baxianhua/p/8996715.html

解决Scrapy安装错误:Microsoft Visual C++ 14.0 is required...

大兔子大兔子 提交于 2020-02-17 04:18:54
问题描述 当前环境win10,python_3.6.1,64位。 在windows下,在dos中运行pip install Scrapy报错: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools 解决方案 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件(如我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl),cp后面是python版本,amd64代表64位,运行命令: C:\Windows\system32>pip install E:\python\Twisted-17.9.0-cp36-cp36m-win32.whl 其中install后面为下载的whl文件的完整路径名 安装完成后,以管理员身份次运行:C:\Windows\system32>pip install scrapy 即可成功。 来源: https://www.cnblogs.com/qxfan/p/8566945.html

Scrapy安装介绍

若如初见. 提交于 2020-02-17 04:14:16
一、 Scrapy简介 Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing. 官方主页: http://www.scrapy.org/ 二、 安装Python2.7 官方主页: http://www.python.org/ 下载地址: http://www.python.org/ftp/python/2.7.3/python-2.7.3.msi 1) 安装python 安装目录:D:\Python27 2) 添加环境变量 略System Properties -> Advanced -> Environment Variables - >System Variables -> Path -> Edit 3) 验证环境变量 T:\>set Path Path=C:\WINDOWS\system32;C:\WINDOWS;C:\WINDOWS\System32

win7(x64)安装scrapy框架

╄→гoц情女王★ 提交于 2020-02-17 04:06:56
Scrapy(官网 http://scrapy.org/ )是Python开发网络爬虫,一个极好的开源工具。本次安装Scrapy确实不易啊。居然花了2天多时间,需要的支持包比较多,这些支持包相互之间的依赖关系。 环境: Win7专业版(X64) 注:本人从事.net平台开发,机器上有安装Vs2010 。 Python 2.7.5 安装: install python http://www.python.org/downloads/windows/ add enviroment add C:\Python27 and C:\Python27\scripts in your PATH. http://www.nextofwindows.com/how-to-addedit-environment-variables-in-windows-7/ install OpenSSL http://slproweb.com/products/Win32OpenSSL.html download Visual C++ 2008 Redistributables and Win64 OpenSSL v1.0.1f add C:\OpenSSL-Win64\bin in your PATH install easy_install https://pypi.python.org/packages/2

Scrapy在PyCharm里面运行,调试

主宰稳场 提交于 2020-02-13 18:00:54
首先通过csrapy shell命令创建一个scrapy项目。 scrapy startproject projectname 会生成如下文件 进入spider_405文件夹 我们自己写的爬虫项目就放在spiders文件夹里面 items.py是用来保存你爬取的数据的数据结构 在scrapy.cfg同目录下新建一个begin.py文件 在begin.py中编辑内容如下,注意红框中是在spiders里面name的值 之后调试程序时,运行begin.py文件即可,调试信息会在run框中打印输出 来源: https://www.cnblogs.com/taoHongFei/p/8722037.html

scrapy-redis分布式爬虫实战

非 Y 不嫁゛ 提交于 2020-02-13 00:00:18
Scrapy-Redis代码实战 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 scrapy-redis在scrapy的架构上增加了redis,基于redis的特性拓展了如下四种组件: Scheduler Duplication Filter Item Pipeline Base Spider scrapy-redis架构 Scheduler Scrapy原本的queue是不支持多个spider共享一个队列的,scrapy-redis通过将queue改为redis实现队列共享。 Duplication Filter Scrapy中通过Python中的集合实现request指纹去重,在scrapy-redis中去重是由Duplication Filter组件来实现的,它通过redis的set不重复的特性,巧妙的实现了DuplicationFilter去重。 Item Pipeline 引擎将(Spider返回的)爬取到的Item给Item Pipeline,scrapy-redis 的Item Pipeline将爬取到的 Item 存入redis的 items queue。修改过Item Pipeline可以很方便的根据 key 从 items