HTML抓取的选项? [关闭]

吃可爱长大的小学妹 提交于 2020-02-28 03:53:30

我正在考虑尝试Beautiful Soup ,一个用于HTML抓取的Python包。 还有其他我应该查看的HTML抓包工具吗? Python不是必需的,我实际上也对其他语言感兴趣。

到目前为止的故事:


#1楼

“简单HTML DOM解析器”对于PHP是一个不错的选择,如果您熟悉jQuery或JavaScript选择器,那么您将发现自己在家里。

在这里找到

这里也有关于它的博客文章。


#2楼

我知道并喜欢Screen-Scraper

屏幕抓取工具是一种用于从网站提取数据的工具。 Screen-Scraper自动化:

* Clicking links on websites
* Entering data into forms and submitting
* Iterating through search result pages
* Downloading files (PDF, MS Word, images, etc.)

常见用途:

* Download all products, records from a website
* Build a shopping comparison site
* Perform market research
* Integrate or migrate data

技术:

* Graphical interface--easy automation
* Cross platform (Linux, Mac, Windows, etc.)
* Integrates with most programming languages (Java, PHP, .NET, ASP, Ruby, etc.)
* Runs on workstations or servers

三种版本的屏幕抓取器:

* Enterprise: The most feature-rich edition of screen-scraper. All capabilities are enabled.
* Professional: Designed to be capable of handling most common scraping projects.
* Basic: Works great for simple projects, but not nearly as many features as its two older brothers.

#3楼

好吧,如果您希望仅使用浏览器从客户端完成此操作,则可以使用jcrawl.com 。 从Web应用程序( http://www.jcrawl.com/app.html )设计了剪贴服务之后,只需要将生成的脚本添加到HTML页面即可开始使用/呈现数据。

所有抓取逻辑都是通过JavaScript在浏览器上发生的。 希望对你有帮助。 单击此链接以获取从Yahoo网球中提取最新新闻的实时示例。


#4楼

我在Perl中使用了LWPHTML :: TreeBuilder ,并且发现它们非常有用。

LWP(libwww-perl的缩写)可让您连接到网站并抓取HTML, 您可以在此处获取模块,而O'Reilly的书似乎在此处

TreeBuilder允许您从HTML构造树,并且HTML :: TreeBuilder-Parser提供了建立HTML语法树的文档和源代码

但是,与这种方法相比,可能还有很多繁重的工作要做。 我没有看另一个答案建议的“ 机械化”模块 ,所以我很可能会这样做。


#5楼

HTML5解析算法的实现html5lib (Python,Ruby), Validator.nu HTML解析器 (Java,JavaScript;开发中的C ++), Hubbub (C), Twintsam (C#;即将推出)。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!