【Java】Jsoup爬虫,一个简单获取京东商品信息的小Demo
简单记录 - Jsoup爬虫入门实战 数据问题?数据库获取,消息队列中获取中,都可以成为数据源,爬虫! 爬取数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!) 我们经常需要分析HTML网页,以从中提取感兴趣的信息。 开始,一个简单获取京东商品的小Demo。 eg:比如我搜索java关键字 https://search.jd.com/Search?keyword=java&enc=utf-8&wq=java&pvid=71ec4d01ed1f428b8f3fc2c53a53208d 怎么获取呢这些数据信息呢? jsoup包! JsoupJsoup是一款Java的HTML解析器,可直接解析某个URL地址和HTML文本内容。它提供了一套非常省力的API,可通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。网址:https://jsoup.org。 1、导入依赖 <!--解析网页 jsoup--> < dependency > < groupId > org.jsoup </ groupId > < artifactId > jsoup </ artifactId > < version > 1.10.2 </ version > </ dependency > jsoup是解析网页的。 2、分析网页 分析京东网页可得 物品在id为"J_goodsList