ghost.py

python之爬虫概述

∥☆過路亽.° 提交于 2020-07-27 22:44:02
  什么是爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。   其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。   你可以爬去妹子的图片,爬取自己想看看的视频。。等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取   爬虫的本质   模拟浏览器打开网页,获取网页中我们想要的那部分数据   浏览器打开网页的过程:   当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果   所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源(文本,图片,视频.....)   爬虫的基本流程   发起请求   通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应   获取响应内容   如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML

你学爬虫多久了?如果你连这些都不知道那你可以放弃爬虫了!

▼魔方 西西 提交于 2020-02-25 19:10:35
你了解爬虫是什么吗?你知道爬虫的爬取流程吗?你知道怎么处理爬取中出现的问题吗?如果你回答不出来,或许你真的要好好看看这篇文章了! 爬虫简介 网络爬虫(Web crawler) ,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为 数据采集,处理,储存 三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 爬虫原理 Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见Web

Possible to install PySide or PyQt on Heroku?

孤人 提交于 2020-01-25 04:52:05
问题 I am not able to install PySide and cannot figure out how to install PyQt on Heroku. I need PySide in order to use Ghost.py. Here is what I include in my requirements.txt: Ghost.py==0.1b3 PySide==1.2.2 And here is the error when pushing to Heroku: Python architecture is 64bit error: Failed to find cmake. Please specify the path to cmake with --cmake parameter. ---------------------------------------- Cleaning up... Command /app/.heroku/python/bin/python -c "import setuptools, tokenize;__file_

screen scraping using Ghost.py

北城余情 提交于 2020-01-02 23:14:07
问题 Here is the simple program which does not work from ghost import Ghost ghost = Ghost(wait_timeout=40) page, extra_resources = ghost.open("http://samsung.com/in/consumer/mobile-phone/mobile-phone/smartphone/") ghost.wait_page_loaded() n=2; links=ghost.evaluate("alist=document.getElementsByTagName('a');alist") print links ERROR IS: raise Exception(timeout_message) Exception: Unable to load requested page iS there some problem with the program? 回答1: Seem like people are reporting similar issues

screen scraping using Ghost.py

可紊 提交于 2020-01-02 23:14:01
问题 Here is the simple program which does not work from ghost import Ghost ghost = Ghost(wait_timeout=40) page, extra_resources = ghost.open("http://samsung.com/in/consumer/mobile-phone/mobile-phone/smartphone/") ghost.wait_page_loaded() n=2; links=ghost.evaluate("alist=document.getElementsByTagName('a');alist") print links ERROR IS: raise Exception(timeout_message) Exception: Unable to load requested page iS there some problem with the program? 回答1: Seem like people are reporting similar issues

Ghost.py not finding PySide?

爷,独闯天下 提交于 2019-12-23 16:07:40
问题 I'm trying to get started with the Ghost.py headless browser on a Mac. I installed Ghost.py and its dependencies using these links/commands: Qt 5.0.1 for Mac, has a GUI installer PySide 1.1.0, which requires Qt Version >= 4.7.4 , has a GUI installer sudo pip install Ghost.py I launched Python, and confirmed that I can import PySide . However, when I do from ghost import Ghost , it fails to find PySide : Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Library

Ghost.py and proxy

南楼画角 提交于 2019-12-08 06:47:55
问题 Is anyone able to explain how to make Ghost.py work with a proxy? I've checked out the code but it's not there. 回答1: I've found it in the ghost.py file. They did a very good job in it. It's a method on line 835, as set_proxy(). It's just how to use it that I'm yet to try out: def set_proxy(self, type_, host='localhost', port=8888, user='', password=''): """Set up proxy for FURTHER connections. :param type_: proxy type to use: \ none/default/socks5/https/http. :param host: proxy server ip or

screen scraping using Ghost.py

南笙酒味 提交于 2019-12-07 16:00:27
Here is the simple program which does not work from ghost import Ghost ghost = Ghost(wait_timeout=40) page, extra_resources = ghost.open("http://samsung.com/in/consumer/mobile-phone/mobile-phone/smartphone/") ghost.wait_page_loaded() n=2; links=ghost.evaluate("alist=document.getElementsByTagName('a');alist") print links ERROR IS: raise Exception(timeout_message) Exception: Unable to load requested page iS there some problem with the program? Seem like people are reporting similar issues to yours, without really getting any explanation (for example: https://github.com/jeanphix/Ghost.py/issues

你学爬虫多久了?如果你连这些都不知道那你可以放弃爬虫了!

坚强是说给别人听的谎言 提交于 2019-12-04 06:07:58
你了解爬虫是什么吗?你知道爬虫的爬取流程吗?你知道怎么处理爬取中出现的问题吗?如果你回答不出来,或许你真的要好好看看这篇文章了! 爬虫简介 网络爬虫(Web crawler) ,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为 数据采集,处理,储存 三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 爬虫原理 Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见Web

Web 自动化测试与智能爬虫利器:PhantomJS 简介与实战

馋奶兔 提交于 2019-11-30 04:20:41
估计部分同学没听过这个工具,那先简单介绍下它的背景与作用。 1、PhantomJS 是什么? PhantomJS是一个基于WebKit的服务器端JavaScript API,它无需浏览器的支持即可实现对Web的支持,且原生支持各种Web标准,如DOM 处理、JavaScript、CSS选择器、JSON、Canvas和可缩放矢量图形SVG。PhantomJS主要是通过JavaScript和CoffeeScript控制WebKit的CSS选择器、可缩放矢量图形SVG和HTTP网络等各个模块。PhantomJS主要支持Windows、Mac OS、Linux三个平台,并且提供了对应的二进制安装包。 PhantomJS 的使用场景如下: 无需浏览器的Web测试:无需浏览器的情况下进行快速的Web测试,且支持很多测试框架,如YUI Test、Jasmine、WebDriver、Capybara、QUnit、Mocha等。 页面自动化操作:使用标准的DOM API或一些JavaScript框架(如jQuery)访问和操作Web页面。 屏幕捕获:以编程方式抓起CSS、SVG和Canvas等页面内容,即可实现网络爬虫应用。构建服务端Web图形应用,如截图服务、矢量光栅图应用。 网络监控:自动进行网络性能监控、跟踪页面加载情况以及将相关监控的信息以标准的HAR格式导出。 PhantomJS