数据抓取

Python+Selenium+Phantomjs数据抓取环境配置实践

浪尽此生 提交于 2019-12-16 11:03:14
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 以后估计要做数据挖掘方面的项目,现在却连数据都不会爬,这怎么能行? 先在知乎上面看到有高手说selenium可以用来爬数据,然后进一步找到了 “ 数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 ”,照着做却碰到了问题。 Python用的是 ActivePython,里面已经帮你把easy_install 和 pip 都装好了,第一步Python的安装没有问题。 但是第二步使用 pip install selenium 这一步却怎么也过不去了,可能是校园网的问题,所以下载老是出问题。 上官网下了selenium-2.33.0.tar.gz,解压缩以后却不知道放哪。。。 小白略感无奈,在网上找了半天,终于找到了该怎么办: 第一种办法是,把解压目录下的selenium文件夹(selenium-2.33.0\py\selenium)拷到 Python 安装目录下的 Lib\site-packages下就好了 第二种办法是转到解压后的目录下运行setup.py 文件,命令是 python setup.py install。然后命令行黑框就会输出一大堆信息,结束以后,解压的目录下会多出两个文件夹,另外 Lib\site-packages 下也会多出一个 selenium-2.33.0-py2.7

如何抓取Js动态生成数据且以滚动页面方式分页的网页

放肆的年华 提交于 2019-12-11 11:35:37
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢? 如类似今日头条这样的网站: http://toutiao.com/ 我们可以使用 Selenium 来搞定这件事情。Selenium的设计目的虽然是用于Web应用程序 的自动化 测试,但是却非常适合用来做数据抓取,可以非常简单地绕过网站的反爬虫限制,因为Selenium直接运行在浏览器中,就像真正的用户在操作一样。 使用 Selenium,我们不但可以抓取Js动态生成数据的网页,而且可以抓取以滚动页面方式分页的网页。 首先,我们使用maven引入 Selenium依赖: <dependency> <groupId>org.seleniumhq.selenium</groupId> <artifactId>selenium-java</artifactId> <version>2.47.1</version> </dependency> 接下来就可以写代码抓取了: import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; import org.openqa.selenium.WebElement; import org