pyspider

Python- 解决PIP下载安装速度慢

眉间皱痕 提交于 2020-05-01 06:12:17
让PIP源使用国内镜像,提升下载速度和安装成功率。 国外的源下载速度太慢,而且经常出现下载后安装出错问题。把PIP安装源替换成国内镜像,可以大幅提升下载速度,还可以提高安装成功率。 国内源: 新版ubuntu要求使用https源,要注意。 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 华中理工大学:http://pypi.hustunique.com/ 山东理工大学:http://pypi.sdutlinux.org/ 豆瓣:http://pypi.douban.com/simple/ 临时使用: 可以在使用pip的时候加参数-i https://pypi.tuna.tsinghua.edu.cn/simple 例如:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspider,这样就会从清华这边的镜像去安装pyspider库。 永久修改,一劳永逸: Linux下,修改 ~/.pip/pip.conf (没有就创建一个文件夹及文件。文件夹要加“.”,表示是隐藏文件夹) 内容如下: [global

pip安装时使用国内源,加快下载速度

孤街醉人 提交于 2020-04-29 03:17:18
国内源: 新版ubuntu要求使用https源,要注意。 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 华中理工大学:http://pypi.hustunique.com/ 山东理工大学:http://pypi.sdutlinux.org/ 豆瓣:http://pypi.douban.com/simple/ 临时使用: 可以在使用pip的时候加参数 -i https://pypi.tuna.tsinghua.edu.cn/simple 例如: pip install <包名> -i https://pypi.tuna.tsinghua.edu.cn/simple pyspider ,这样就会从清华这边的镜像去安装pyspider库。 永久修改,一劳永逸: Linux下,修改 ~/.pip/pip.conf (没有就创建一个文件夹及文件。文件夹要加“.”,表示是隐藏文件夹) 内容如下: [ global ] index -url = https://pypi.tuna.tsinghua.edu.cn/ simple [install] trusted -host

Python网络爬虫实战(三)照片定位与B站弹幕

試著忘記壹切 提交于 2020-04-24 23:27:01
之前两篇已经说完了如何爬取网页以及如何解析其中的数据,那么今天我们就可以开始第一次实战了。 这篇实战包含两个内容。 * 利用爬虫调用Api来解析照片的拍摄位置 * 利用爬虫爬取Bilibili视频中的弹幕 关于爬虫调用Api这一说法,其实就是通过get或者post请求携带着参数,将内容发给对方服务器,服务器会根据请求的Api是哪个来进行处理。 比如说/delete?id=2和/save?id=1&name=antz这两个请求就分别是删除id等于2的数据,保存一条id等于1姓名为antz的数据。 此时我们就只需要向对方服务器发送出这个请求就可以了,requests.get(url)就这么简单。 一.根据照片解析定位 不知道你平常拍照片有没有在你手机的设置里仔细查看过,比如说下面这个选项【地理位置】。 打开它之后,我拍的照片上也没有显示地理位置啊? 这是因为这些数据被放在了照片文件数据里面,可能你很难理解,你可以回想一下之前我们说的get之后的响应,响应体分为响应头和响应体。照片的数据也是一样,有信息头(随便叫的)和数据体,信息头里面有你这张照片的各种信息,拍摄时间地点设备等,而数据体就是你用看图软件打开时显示在你眼中的那些了,我们平常关注到的只有数据体,只关心照片是不是好看,而信息头的内容对我们来说其实无关紧要。 下面是我之前拍的一张照片经过解析获得的信息头数据

python数据挖掘系列教程——PySpider框架应用全解

纵然是瞬间 提交于 2020-04-10 08:15:27
全栈工程师开发手册 (作者:栾鹏) python教程全解 python数据挖掘系列教程——PySpider框架应用全解。 PySpider介绍 pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能 PySpider是binux做的一个爬虫架构的开源化实现。主要的功能需求是: 抓取、更新调度多站点的特定的页面 需要对页面进行结构化信息提取 灵活可扩展,稳定可监控 而这也是绝大多数python爬虫的需求 —— 定向抓取,结构化化解析。但是面对结构迥异的各种网站,单一的抓取模式并不一定能满足,灵活的抓取控制是必须的。为了达到这个目的,单纯的配置文件往往不够灵活,于是,通过脚本去控制抓取是最后的选择。 而去重调度,队列,抓取,异常处理,监控等功能作为框架,提供给抓取脚本,并保证灵活性。最后加上web的编辑调试环境,以及web任务监控,即成为了这套框架。 pyspider的设计基础是: 以python脚本驱动的抓取环模型爬虫 通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性 通过web化的脚本编写、调试环境。web展现调度状态 抓取环模型成熟稳定,模块间相互独立,通过消息队列连接

mac下安装python pip、pyspider

こ雲淡風輕ζ 提交于 2020-03-16 18:45:27
如果mac下没有安装wget,还需要安装wget,见http://www.cnblogs.com/cocowool/archive/2012/06/24/2560574.html 使用 pip 安装 Python 库。pip 是 Python 的包管理工具,安装后就可以直接在命令行一站式地安装/管理各种库了(pip 文档)。 $ wget http://pypi.python.org/packages/source/p/pip/pip-0.7.2.tar.gz $ tar xzf pip-0.7.2.tar.gz $ cd pip-0.7.2 $ python setup.py install 然后安装pyspider,出现如下的提示: yemadeMacBook-Pro:pip-0.7.2 zhaoliang$ pip install pyspider -bash: pip: command not found 提示需要下载官方的command line,然后安装command line的时候,又提示: yemadeMacBook-Pro:pip-0.7.2 zhaoliang$ xcode-select --install xcode-select: error: command line tools are already installed, use "Software

pysider安装问题与解决

不打扰是莪最后的温柔 提交于 2020-02-06 01:50:30
pyspider的安装很好安装,直接window +r打开搜索框,输入cmd,打开命令窗口。输入pip install pyspider。即可安装。 1.安装过程出现问题: ERROR: Could not find a version that satisfies the requirement lxml (from pyspider) (from versions: none) ERROR: No matching distribution found for lxml (from pyspider) 我这里是因为网络不好,这个时候再使用 pip install pysider,用了5次才重装完成 2.在cmd窗口内直接输入pyspider,显示如下问题: c:\users\magic\appdata\local\programs\python\python36-32\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not supported on your platform. warnings.warn("timeout is not supported on your platform.", FutureWarning) [W 200205 16:33:29 run:413]

python3.7安装pyspider

久未见 提交于 2020-01-29 06:28:59
文章目录 1.安装wheel 2.安装pycurl 3.安装pyspider 4.安装wsgidav 5.pyspider all 6.安装PhantomJS 7.访问:http://127.0.0.1:5000/ 1.安装wheel pip install wheel 2.安装pycurl 下载地址: https://www.lfd.uci.edu/~gohlke/pythonlibs/ pip install pycurl pip install D:\pycurl-7.43.0.3-cp37-cp37m-win_amd64.whl 3.安装pyspider pip install pyspider 4.安装wsgidav pip install wsgidav 5.pyspider all pyspider all 问题1:因为 async 和 await 从 python3.7 开始已经加入保留关键字中。所以async不能作为函数的参数名。 修复: async 全部替换为: async1 D:\ProgramData\Anaconda3\Lib\site-packages\pyspider run.py fetcher\tornado_fetcher.py webui\app.py 问题2:因为 WsgiDAV 发布了版本 pre-release 3.x 解决: D:

pyspider + python2.7

青春壹個敷衍的年華 提交于 2020-01-22 16:44:52
升级pip pip install --upgrade pip pip安装pyspider pip install pyspider 安装phantomjs: https://phantomjs.org/download.html wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 yum -y install bzip2 tar -jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /opt/ mv phantomjs-2.1.1-linux-x86_64/ phantomjs 建立软链接 ln -s /opt/phantomjs/bin/phantomjs /usr/bin/ 安装依赖 yum -y install fontconfig 启动验证 phantomjs pyspider启动报错 ValueError: Invalid configuration: - Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead. 在安装包中找到pyspider的资源包

centos7.6下pyspider + python2.7安装

故事扮演 提交于 2020-01-22 15:23:46
1.升级pip pip install --upgrade pip 2.pip安装pyspider pip install pyspider 3.安装phantomjs: https://phantomjs.org/download.html wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 yum -y install bzip2 tar -jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /opt/ mv phantomjs-2.1.1-linux-x86_64/ phantomjs 建立软链接 ln -s /opt/phantomjs/bin/phantomjs /usr/bin/ 安装依赖 yum -y install fontconfig 启动验证 phantomjs 4.pyspider启动报错 ValueError: Invalid configuration: - Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead. 在安装包中找到pyspider的资源包

爬虫安装问题解决汇总

旧时模样 提交于 2020-01-11 05:18:43
爬虫安装问题解决汇总 pyspider的坑 pyspider的坑 Traceback (most recent call last): File "D:\python\Scripts\pyspider-script.py", line 11, in <module> load_entry_point('pyspider==0.3.10', 'console_scripts', 'pyspider')() File "d:\python\lib\site-packages\pkg_resources\__init__.py", line 489, in load_entry_point return get_distribution(dist).load_entry_point(group, name) File "d:\python\lib\site-packages\pkg_resources\__init__.py", line 2852, in load_entry_point return ep.load() File "d:\python\lib\site-packages\pkg_resources\__init__.py", line 2443, in load return self.resolve() File "d:\python\lib\site