jsoup

【Java】Jsoup爬虫,一个简单获取京东商品信息的小Demo

元气小坏坏 提交于 2020-08-13 19:59:18
简单记录 - Jsoup爬虫入门实战 数据问题?数据库获取,消息队列中获取中,都可以成为数据源,爬虫! 爬取数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!) 我们经常需要分析HTML网页,以从中提取感兴趣的信息。 开始,一个简单获取京东商品的小Demo。 eg:比如我搜索java关键字 https://search.jd.com/Search?keyword=java&enc=utf-8&wq=java&pvid=71ec4d01ed1f428b8f3fc2c53a53208d 怎么获取呢这些数据信息呢? jsoup包! JsoupJsoup是一款Java的HTML解析器,可直接解析某个URL地址和HTML文本内容。它提供了一套非常省力的API,可通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。网址:https://jsoup.org。 1、导入依赖 <!--解析网页 jsoup--> < dependency > < groupId > org.jsoup </ groupId > < artifactId > jsoup </ artifactId > < version > 1.10.2 </ version > </ dependency > jsoup是解析网页的。 2、分析网页 分析京东网页可得 物品在id为"J_goodsList

Java常用开源库

℡╲_俬逩灬. 提交于 2020-08-12 13:34:32
Java的经久不衰,很大程度上得益于Java的生态好。在日常开发中,我们也会经常使用到各种开源库和工具类,为了避免重复造轮子,本文将贴出工作及学习中会用到的部分开源库和工具类。Java的生态实在太大,这里只能列举一部分。如果你对此感兴趣,不妨去读读他们的源码。 v HTML解析器jsoup 1.1 介绍 jsoup( GitHub地址 、 中文文档 )是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 1.2 示例 Document document = Jsoup.connect("https://www.cnblogs.com/toutou/" ) .userAgent( "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" ) .get(); // System.out.println(document); Elements elements = document.select("div.box.item" ); for (Element element : elements) {

Java常用开源库

大憨熊 提交于 2020-08-12 00:42:19
Java的经久不衰,很大程度上得益于Java的生态好。在日常开发中,我们也会经常使用到各种开源库和工具类,为了避免重复造轮子,本文将贴出工作及学习中会用到的部分开源库和工具类。Java的生态实在太大,这里只能列举一部分。如果你对此感兴趣,不妨去读读他们的源码。 v HTML解析器jsoup 1.1 介绍 jsoup( GitHub地址 、 中文文档 )是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 1.2 示例 Document document = Jsoup.connect("https://www.cnblogs.com/toutou/" ) .userAgent( "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" ) .get(); // System.out.println(document); Elements elements = document.select("div.box.item" ); for (Element element : elements) {

JSOUP + multipart/form-data response

左心房为你撑大大i 提交于 2020-08-10 06:17:10
问题 In general, I need to send data to a site in the form of response multipart / form-data by JSOUP As an example, take a simple form that sgeniriruet your query. <form action=«localhost:8000» method=«post» enctype=«multipart/form-data» <input type=«text» name=«text» value=«text default» <input type=«file» name=«file1» <input type=«file» name=«file2» Submit</button </form Post Response by browser: >Request Headers Provisional headers are shown Accept:text/html,application/xhtml+xml,application

用JAVA爬取视频和图片

只谈情不闲聊 提交于 2020-08-08 22:54:29
<dependency> <groupId> org.apache.httpcomponents </groupId> <artifactId> httpclient </artifactId> <version> 4.5.12 </version> </dependency> <dependency> <groupId> org.jsoup </groupId> <artifactId> jsoup </artifactId> <version> 1.13.1 </version> </dependency> <dependency> <groupId> commons-io </groupId> <artifactId> commons-io </artifactId> <version> 2.7 </version> </dependency> <dependency> <groupId> org.apache.commons </groupId> <artifactId> commons-lang3 </artifactId> <version> 3.10 </version> </dependency> package com.download.util ; import org.apache.commons.io.FileUtils ; import org

2020 年省份数据拉取

自闭症网瘾萝莉.ら 提交于 2020-08-06 10:01:10
前言: 参考文章: https://www.cnblogs.com/yangzhilong/p/3530700.html https://www.cnblogs.com/liushaofeng89/p/4873086.html 最近因为用户反馈省份数据表单有部分缺失,百度了一圈度娘以后决定还是自己拉取一下,省份数据的来源于国家统计局,笔者拉取的是2019年,2020-02-25拉取的数据。 省份数据来源:国家统计局 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/ 笔者用的是java 中jsoup ,关于jsoup的用法,可参考下面这个文章: https://www.open-open.com/jsoup/ 开始 1.准备一张表 region_directory CREATE TABLE `region_directory` ( `id` int(32) NOT NULL AUTO_INCREMENT, `pid` int(32) DEFAULT NULL COMMENT '父级ID', `name` varchar(64) DEFAULT NULL COMMENT '地域名称', `name_CN` varchar(64) DEFAULT NULL COMMENT '地域英文名', `create_time` timestamp

XML--解析

别说谁变了你拦得住时间么 提交于 2020-08-05 15:34:06
XML--解析 博客说明 文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总,如有什么地方侵权,请联系本人删除,谢谢! 解析 操作xml文档,将文档中的数据读取到内存中 操作xml文档 解析(读取):将文档中的数据读取到内存中 写入:将内存中的数据保存到xml文档中。持久化的存储 解析xml的方式 DOM:将标记语言文档一次性加载进内存,在内存中形成一颗dom树 优点:操作方便,可以对文档进行CRUD的所有操作 缺点:占内存 SAX:逐行读取,基于事件驱动的。 优点:不占内存。 缺点:只能读取,不能增删改 xml常见的解析器 JAXP:sun公司提供的解析器,支持dom和sax两种思想 DOM4J:一款非常优秀的解析器 Jsoup:jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 PULL:Android操作系统内置的解析器,sax方式的。 Jsoup快速入门 步骤: 导入jar包 获取Document对象 获取对应的标签Element对象 获取数据 代码 //2.1获取student.xml的path String path = JsoupDemo1.class.getClassLoader().getResource(

Android第三方应用分享:接收显示图片

霸气de小男生 提交于 2020-08-05 13:23:36
1、前言 本demo实现的功能是接收第三方应用的系统分享内容,并显示出来,先看看效果图: (左图为分享页面,右图为接收分享页面) 2、实现原理 通过Intent获取到第三传过来的分享内容,一般是文字描述加链接,获取其中的文字,按自己想要的方式显示出来即可,然后通过其中的地址链接,去获取网页源码,解析其中的图片地址,拿到图片地址将其显示到imageview即可,有些网站无法获取完整源码或拿不到图片地址,则直接取网站的favicon.ico。 3、代码实现 1、在对应的activity中注册拦截: < intent - filter > < action android : name = "android.intent.action.SEND" / > < category android : name = "android.intent.category.DEFAULT" / > < data android : mimeType = "image/*" / > < / intent - filter > < intent - filter > < action android : name = "android.intent.action.SEND" / > < category android : name = "android.intent.category.DEFAULT"

OpenHTMLToPDF: Embed a custom font into PDF created out of HTML

拜拜、爱过 提交于 2020-08-05 07:19:33
问题 I create a PDF from HTML with Jsoup and OpenHTMLToPDF. I have to use a different font in my PDF to have non-latin glyphcs covered (see here). How can I embed my font correctly? Simplified program reproducing the issue: src/main/resources/test.html <!DOCTYPE html> <html> <head> <meta charset="UTF-8" /> <title>Font Test</title> <style> @font-face { font-family: 'source-sans'; font-style: normal; font-weight: 400; src: url(fonts/SourceSansPro-Regular.ttf); } </style> </head> <body> <p style=