scrapy

scrapy 执行同个项目多个爬虫

无人久伴 提交于 2020-04-24 20:13:23
一开始我们默认都是只有一个爬虫的,所以执行的代码都是在项目下创建一个py文件 from scrapy import cmdline cmdline.execute('scrapy crawl 爬虫名'.split( )) 但是要执行多个爬虫就犯难了,在这里我只是做个笔记加强记忆 原博客 https://www.cnblogs.com/lei0213/p/7900340.html 其中执行以下:   1、在spiders同级创建任意目录,如:commands   2、在其中创建 crawlall.py 文件 (此处文件名就是自定义的命令) crawlall.py from scrapy.commands import ScrapyCommand from scrapy.utils.project import get_project_settings class Command(ScrapyCommand): requires_project = True def syntax(self): return ' [options] ' def short_desc(self): return ' Runs all of the spiders ' def run(self, args, opts): spider_list = self.crawler_process.spiders

scrapy电影天堂实战(二)创建爬虫项目

徘徊边缘 提交于 2020-04-24 20:13:04
## 公众号原文 创建数据库 我在上一篇笔记中已经创建了数据库,具体查看《 scrapy电影天堂实战(一)创建数据库 》,这篇笔记创建scrapy实例,先熟悉下要用到到xpath知识 用到的xpath相关知识 reference: https://germey.gitbooks.io/python3webspider/content/4.1-XPath%E7%9A%84%E4%BD%BF%E7%94%A8.html nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 //title[@lang='eng'], 这就是一个 XPath 规则,它就代表选择所有名称为 title,同时属性 lang 的值为 eng 的节点。 属性多值匹配 from lxml import etree text = ''' <li class="li li-first"><a href="link.html">first item</a></li> ''' html = etree.HTML(text) result = html.xpath('//li[@class="li"]/a/text()') print(result) 在这里 HTML 文本中的 li 节点的 class 属性有两个值

pycharm环境下配置scrap爬虫环境

与世无争的帅哥 提交于 2020-04-24 20:12:44
【写在开头】 参考文章后面给出了备注信息,是在解决这个问题的时候,查找的比较有亮点的参考文章,如果本文章写的不太清楚的,可以去原文章进行查看。下面列举的四个文章有参考的成分也有验证的成分, 解决办法重点参考的是文章4 ,前面3个只是对pycharm使用和安装包的便捷性上比较有亮点,这里还是进行引用。后面方便对参考文章进行引用,对文献进行编号。 【参考文章】 : 1、 https://www.cnblogs.com/zengsf/p/9801966.html pycharm的设置选项中安装文件, 只是作为了解, 知道可以通过pycharm平台安装和卸载包,该文章也介绍了不能直接安装twisted,所以还是需要下载安装,我是直接从文献4中给的百度盘下载安装的,twisted安装成功之后,可以成功安装scrapy包,但是不能查看scrapy版本,提示scrapy不是内部命令, 放弃了,直接看正文部分教程或者文章4 。 2、 http://www.manongjc.com/article/44529.html 提到的用 豆瓣源进行加速安装 的命令,对了一下,直接pip install scrapy和使用豆瓣源安装,后者的确很快,看了下 https://pypi.douban.com/simple 源社区里面很多包,安装比较慢的时候可以考虑使用, 作为了解 。 3、 https://www

PyCharm下使用Scrapy建立爬虫项目--MyFirstSpiderObject

谁都会走 提交于 2020-04-24 18:45:35
首先下载并安装Anaconda3以及PyCharm   Anaconda3选中添加环境变量,如果忘记选中可以手动在path中添加如下环境变量   建文件夹scrapy    安装scrapy   cmd进入对应目录,执行pip install scrapy。      检查版本 scrapy -v    创建scrapy项目   如下图显示创建成功    PyCharm导入项目       spider创建成功! pycharm的termina中输入: scrapy genspider BiduSpider http://www .baidu .com 生成模板 来源: oschina 链接: https://my.oschina.net/u/4311024/blog/3643273

pycharm下运行和调试scrapy项目

穿精又带淫゛_ 提交于 2020-04-24 18:45:15
1. 新建项目 默认在本地已经新建了一个scrapy爬虫项目 2. 打开项目 点击open à 选择刚刚那个本地的scrapy项目meijutt100 3. 项目结构 各个py文件的作用不作介绍,不懂的请看入门教程 4. 创建启动脚本 在第二个meijutt100和scrapy.cfg同级目录下,新建一个文件,如begin.py(名字随便)用于模拟命令行启动scrapy项目 5. 配置pycharm 点击Run --> Edit Configurations 点击 + 号,选择python 继续配置 第一步:给自己的启动配置起个名字, 第二步:选择启动脚本,就是刚刚创建的begin.py, 第三步:选择默认的python运行环境,这里最好用系统自己装的,不要用pycharm自带的,不然会出现很多多余的文件夹 第四步:选择工作空间,一般默认为当前项目目录 6. 运行和调试 点击运行或者debug调试该项目,可以在代码中打断点调试。 初学srapy,有错误之处还望各位读者指出。附上项目源码:https://github.com/weiliangchun/scrapy-meiju100.git 来源: oschina 链接: https://my.oschina.net/u/4418085/blog/3740789

error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools&...

只愿长相守 提交于 2020-04-24 18:44:54
我是在安装scrapy时遇到这个问题的,安装其他组件也可能会遇到。但问题解决办法都是大致相同的。 以安装scrapy为例:   在pycharm中安装twisted时出现: error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools   安装scrapy框架的安装顺序:(一般情况安装前面三个都不会有问题)    lxml -> zope. interface -> pyopenssl -> twisted -> scrapy   安装scrapy要先安装前面四个,不然就会出现 errror:Microsoft Visual C++ 14.0 is required 错误。 1.安装twisted: 可以尝试用pip install twisted,但是在我尝试用pip install twisted时,还是会出现" Microsoft Visual C++ 14.0 is required "的问题。 可以用安装组件的方法,下载地址为: https://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到:      

anaconda 不一样的conda命令

给你一囗甜甜゛ 提交于 2020-04-24 18:43:54
@[TOC]anaconda 不一样的conda命令 安装环境 python 3.7.3 + anaconda 缘由 清华源不能用了 中科大源不能用了 ... 惨痛学习中的意外参数出现了.. 隔壁组的助教居然还分享了个坑..... 新人在操作anaconda时,使用conda craete创建虚拟环境,如不指定python版本或者指定版本和内置base一致,那么在conda目录envs文件夹下仅会生成一个conda-meta文件夹,导致vscode在设置pythonpath时并不能准确定位到解释器。 处理方式: 使用clone命令来创建 conda create -n py3 --clone base 我的anaconda就此废了... 卸载-重装-再配置 卸载了原anaconda安装包再去官网上下载一个新的包吧 conda的骚操作不能用了, 毕竟官方发话了... 这时候轮到了pip登场了, 依然推荐清华源 https://mirror.tuna.tsinghua.edu.cn/help/pypi/ 该步骤需要管理员权限下的cmd运行 操作步骤 cmd命令行运行 设为默认 升级 pip 到最新的版本 (>=10.0.0) 后进行配置: pip install pip -U ```pip config set global.index-url https://pypi.tuna

Scrapy模块使用出错,出现builtins.ImportError: DLL load failed: 找不到指定的程序

陌路散爱 提交于 2020-04-24 18:43:39
问题描述 : 初次学习scrapy,使用scrapy官方文档创建爬虫项目出错, 出现builtins.ImportError: DLL load failed: 找不到指定的程序, ImportError: DLL load failed: 找不到指定模块。 原因: scrapy模块安装冲突,我的python和Anaconda中同时安装了scrapy模块,所以在执行我的爬虫项目时一直出错。 解决方法 :卸载其中一个scrapy模块,在命令框中输入: pip unstall scrapy 然后,输入scrapy,成功显示scrapy模块功能和版本信息。 测试 : 输入scrapy bench ,成功使用模块功能,并且重新测试自己的爬虫项目,完美成功。 另外,如果测试仍然没有成功,可能是安装scrapy模块不成功成功导致的,一般scrapy安装过程中会2遇到以下两种情况: 1. 出现:VC++14.0 Twisted 错误(windows电脑出现) 解决方法:你的电脑缺失VC++14.0 Twisted 框架,因此需要离线安装,离线安装一般需要下载.whl文件,下载地址: https://www.lfd.uci.edu/~gohlke/pythonlibs/ 根据报错下载合适的whl文件,出现Twisted错误,则需要下载Twisted.whl文件,在通过 pip install

《Python爬虫学习系列教程》学习笔记

北城以北 提交于 2020-04-24 17:59:56
《Python爬虫学习系列教程》学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。 一、Python入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四之Urllib库的高级用法 5. Python爬虫入门五之URLError异常处理 6. Python爬虫入门六之Cookie的使用 7. Python爬虫入门七之正则表达式 二、Python实战 1. Python爬虫实战一之爬取糗事百科段子 2. Python爬虫实战二之爬取百度贴吧帖子 3. Python爬虫实战三之计算大学本学期绩点 4. Python爬虫实战四之抓取淘宝MM照片 三、Python进阶 1. Python爬虫进阶一之爬虫框架Scrapy安装配置 目前暂时是这些文章,随着学习的进行,会不断更新哒,敬请期待~ 希望对大家有所帮助,谢谢! 转载请注明: 静觅 » Python爬虫学习系列教程 Python网络爬虫实战教程(全套完整版

scrapy爬虫笔记(创建一个新的项目并运行)

牧云@^-^@ 提交于 2020-04-24 17:59:23
前期安装请参考: scrapy爬虫笔记(安装) 在确保安装环境没有问题的情况下,新建一个项目需要在cmd中进行 首先,在自定义的文件夹(我的是E:\study\python_anaconda_pf\MyProject\scrapy_study)下面创建一个工程,我的工程名字为movie_250 在文件夹空白位置按照键盘shift不松手点击鼠标右键,选择“在此处打开命令窗口”,或者在cmd中cd到这个文件夹也可 输入命令 scrapy startproject movie_250 查看文件夹会发现自动生成了一个以工程名命名的文件夹,这个文件夹称为“项目文件” 2. 打开PyCharm,找到这个文件夹,看一下文件夹里面的目录结构(都是自动生成的,不需要自行修改名称) 各个文件的含义: scrapy.cfg 是项目的配置文件,默认内容如下: # Automatically created by: scrapy startproject # # For more information about the [deploy] section see: # https://scrapyd.readthedocs.io/en/latest/deploy.html [settings] default = movie_250.settings [deploy] # url = http:/