phantomjs

PhantomJS can't load correctly web page

纵然是瞬间 提交于 2021-02-05 07:48:07
问题 I'm currently trying to scrape a web page with PhantomJS and Selenium (python 2.7.9 on Windows 7) but PhantomJS fail to load correctly the web page. If I use Firefox as webdriver I have no problem to see the page as I want. At first I thought it was a javascript problem (page-side) since with save_screenshot I could see what normally the page shows when javascript is disabled, but if I disable javascript the page show me correctly that "Javascript must be enabled", so it is not a js problem.

你真的理解什么是前端架构吗?

我是研究僧i 提交于 2021-01-31 00:30:47
本文是通过阅读《前端架构设计》进行的归纳总结。 在前端技术变化日新月异的今天,前端项目变的越来越复杂,前端架构也会随着我们现在千变万化的迭代需求,架构技术的演化,不仅是架构师也是我们每个开发人员都必须去关注的问题。 前端架构的由来 2014 年 10 月 13 日 CSS 开发者大会上,在新奥尔良会议中心一个拥挤的房间里“举起前端架构的旗帜”成了在一线奋斗着的开发者们共同的诉求。在那之后,那些想要弄清楚自身定位以及在公司中所扮演的角色的开发者们发现,其实他们一直扮演着前端架构师的角色, 却从来没有拥有过这个头衔,或者没有足够的信心去争取这个职位所应具有的权力。 在大会召几周之后,很多人把他们在 Twitter 上的个人简介改成了“前端架构师”。 你理解的前端架构是怎样的? 前端架构如同建筑设计,在建设过程中,建筑设计师需要设计和规划方案,并且跟进施工过程。这与前端架构师的工作有着异曲同工之妙,不同的是后者建造的是网站,而不是建筑物。比起浇筑混凝土, 建筑设计师会在设计工程构图的工作上倾注更多的精力。同理,相比编写具体的代码,前端架构师更专注于开发工具和优化流程。 前端架构是一系列工具和流程的集合,旨在提升前端代码的质量,并实现高效可持续的工作流。 前端设计架构不是一劳永逸的工作,没有任何设计在一开始就是完美的,也没有任何计划可以一步到位。 前端架构的原则 1. 体系设计 试想一下

Web Scraping interactive map (javascript) with R and PhantomJS

你离开我真会死。 提交于 2021-01-28 08:10:29
问题 I am trying to scrape data from an interactive map (looking to get crime data for a county). I am using R (rvest) and trying to use phantomjs too. I'm new to web scraping so I am not really understanding how all the elements work together (trying to get there). The problem I believe I am having is that after I run the phantomjs and upload the html using R's rvest package, I end up with more scripts and no clear data in the html. My code is below. writeLines("var url = 'http://www.google.com';

using a proxy with phantomjs in selenium webdriver

笑着哭i 提交于 2021-01-27 10:49:44
问题 I'm trying to configure a proxy with PhantomJS 1.9.1 in a ruby (1.8.7) script for selenium webdriver (2.25). I saw a few examples with Firefox, and I successfully did it with this browser. I used this code : profile = Selenium::WebDriver::Firefox::Profile.new profile.proxy = Selenium::WebDriver::Proxy.new :ssl => 'chronos.landebitel.local:3128' $browser = Watir::Browser.new :firefox, :profile => profile But I can't find any examples for phantomjs. I searched and tried many solutions, but none

using a proxy with phantomjs in selenium webdriver

China☆狼群 提交于 2021-01-27 10:48:24
问题 I'm trying to configure a proxy with PhantomJS 1.9.1 in a ruby (1.8.7) script for selenium webdriver (2.25). I saw a few examples with Firefox, and I successfully did it with this browser. I used this code : profile = Selenium::WebDriver::Firefox::Profile.new profile.proxy = Selenium::WebDriver::Proxy.new :ssl => 'chronos.landebitel.local:3128' $browser = Watir::Browser.new :firefox, :profile => profile But I can't find any examples for phantomjs. I searched and tried many solutions, but none

利用PhantomJS进行网页截屏,完美解决截取高度的问题

有些话、适合烂在心里 提交于 2021-01-24 00:30:25
利用PhantomJS进行网页截屏,完美解决截取高度的问题 参考文章: (1)利用PhantomJS进行网页截屏,完美解决截取高度的问题 (2)https://www.cnblogs.com/jasondan/p/4108263.html 备忘一下。 来源: oschina 链接: https://my.oschina.net/stackoom/blog/4921851

Python网络爬虫之图片懒加载技术、selenium和PhantomJS

与世无争的帅哥 提交于 2021-01-05 04:02:12
引入 今日概要 图片懒加载 selenium phantomJs 谷歌无头浏览器 知识点回顾 验证码处理流程 今日详情 动态数据加载处理 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from lxml import etree if __name__ == "__main__" : url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html' headers = { 'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36' , } #获取页面文本数据 response = requests.get(url=url,headers=headers) response.encoding = 'utf-8' page_text = response.text #解析页面数据(获取页面中的图片链接) #创建etree对象 tree

Python-Scrapy抓取百度数据并分析

梦想与她 提交于 2021-01-03 15:47:22
抓取智联招聘和百度搜索的数据并进行分析,使用visual studio编写代码mongodb和SQLServer存储数据。使用scrapy框架结合 selenium爬取百度搜索数据,并进行简要的数据的分析!! 爬取前的页面分析: 打开百度搜索页面,并查看网页源代码,问题便出现,无法查看到页面源代码,如下,只是返回一个状态说明,这时可以确定页面数据是动态生成,常规的爬取行不通。 在浏览器中进行调试分析,可以发现需要定位使用的html元素,通过这一步至少可以将以下两个元素的XPATH或CSS Selector的表达式求解出来。 制定爬取方案 既然搜索页面的内容是动态生成,常规的http请求后无法获取数据,针对这种问题的解决方法: l 通过抓包工具,进行对http请求进行分析,找到实际数据请求的js代码后进行模拟请求获取数据,这种方法耗时耗力,且是无法适应页面更改的情况。 l 通过浏览器框架请求,并编写程序和浏览器通信获取数据分析,对于这种方法的选择有很多,如在windows上可以使用IE Browser控件,其他的可以使用其他内核的浏览器,这种方法的缺点是速度较慢。 l 这里选取的方法是使用 Selenium + Phantomjs的方法,这个结合scrapy也算是较为经典的一种方法。并且 Selenium + Phantomjs 也是作为Web应用程序进行自动化测试的一套方案。 l

Selenium Python test batch file does not run in Task Scheduler, browser does not open. Batch file does run ok without task scheduler

余生颓废 提交于 2021-01-01 06:28:09
问题 I have a Selenium Python test and I can run it from the batch file as follows: set TEST_HOME=%~dp0 cd %~dp0 SET PATH=%PATH%;G:\test_runners\selenium_regression_test_5_1_1\IEDriverServer\64bit cd %~dp0selenium_regression_test_5_1_1 set PYTHONPATH=%~dp0selenium_regression_test_5_1_1 c:\Python27\Scripts\nosetests.exe "%~dp0selenium_regression_test_5_1_1\Regression_TestCase\split_into_parts\RegressionProject_TestCase_Part1.py" --with-html --html-file="%~dp0selenium_regression_test_5_1_1

Selenium Python test batch file does not run in Task Scheduler, browser does not open. Batch file does run ok without task scheduler

时光总嘲笑我的痴心妄想 提交于 2021-01-01 06:25:25
问题 I have a Selenium Python test and I can run it from the batch file as follows: set TEST_HOME=%~dp0 cd %~dp0 SET PATH=%PATH%;G:\test_runners\selenium_regression_test_5_1_1\IEDriverServer\64bit cd %~dp0selenium_regression_test_5_1_1 set PYTHONPATH=%~dp0selenium_regression_test_5_1_1 c:\Python27\Scripts\nosetests.exe "%~dp0selenium_regression_test_5_1_1\Regression_TestCase\split_into_parts\RegressionProject_TestCase_Part1.py" --with-html --html-file="%~dp0selenium_regression_test_5_1_1