使用HtmlUnit动态获取网页数据
1.HtmlUnit是一个用java编写的无界面浏览器,建模html文档,通过API调用页面,填充表单,点击链接等等。如同正常浏览器一样操作。典型应用于测试以及从网页抓取信息。并且HtmlUnit拥有HttpClient和soup两者的功能,但速度比较慢,但如果取消它的解析css和js的功能,速度也会提上去,默认开启。 2.这里选用HtmlUnit来爬取数据主要是为了获取他的js和css. 3.主要代码如下 package com.los; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.DomElement; import com.gargoylesoftware.htmlunit.html.DomNodeList; import com.gargoylesoftware.htmlunit.html.HtmlPage; import com.los.util.DownlandPic; import java.io.IOException; import java.util.regex.Pattern; public class HtmlUnitTest { public static void main(String[] args) throws