跳转到主要内容
首页 易学教程

Main navigation

  • 首页
  • 技术文章
  • 外文分享
  • 科技资讯
  • VPS/服务器 测评
  • 福利社
  • 工具箱
  • IP地址查询
  • 易学文档
  • 问答

User account menu

  • 登录
  1. 技术文章
  2. jsoup( HTML parser ) cookbook

jsoup( HTML parser ) cookbook

由 风流意气都作罢 提交于 2019-12-12 20:17:36

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>>

Introduction

  1. Parsing and traversing a Document

Input

  1. Parse a document from a String
  2. Parsing a body fragment
  3. Load a Document from a URL
  4. Load a Document from a File

Extracting data

  1. Use DOM methods to navigate a document
  2. Use selector-syntax to find elements
  3. Extract attributes, text, and HTML from elements
  4. Working with URLs
  5. Example program: list links

Modifying data

  1. Set attribute values
  2. Set the HTML of an element
  3. Setting the text content of elements

Cleaning HTML

  1. Sanitize untrusted HTML (to prevent XSS)

Cookbook 目录

入门

  1. 解析和遍历一个html文档

输入

  1. 解析一个html字符串
  2. 解析一个body片断
  3. 从一个URL加载一个Document对象
  4. 根据一个文件加载Document对象

数据抽取

  1. 使用dom方法来遍历一个Document对象
  2. 使用选择器语法来查找元素
  3. 从元素集合抽取属性、文本和html内容
  4. URL处理
  5. 程序示例:获取所有链接

数据修改

  1. 设置属性值
  2. 设置元素的html内容
  3. 设置元素的文本内容

HTML清理

  1. 消除不受信任的html (来防止xss攻击)

 

来源:oschina

链接:https://my.oschina.net/u/3069003/blog/1935091

标签
htmlparser
jsoup
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈!
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!

问题没有解决?去提问,寻求大牛帮助

提问


热门标签

batterymanager plsql 库存管理系统 Mob 蛋白质合成 服务治理框架 梅花 raytracing openbmc vf 前后台用户分离 圆形头像 angularjs-controller string-metric ggplot2 art模式 石英晶体 datagridviewcomboboxcolumn subtype 公海 数据结构和算法 搬瓦工付费被封 一个文件 line-breaks wysihat instrument hdf setXfermode straight-line-detection expansion-files sliding-doors nth-of-type 多个对象的归档和解归档 python-unicode 将excel文件数据导入mysql数据库中 mern edmund 空间 浮点运算 lotusscript jquery-load scipy-spatial 搬瓦工测速文件 liunx centos ideavim 查询 下标越界 星球大战 搬瓦工自带bbr怎么使用 android​

Footer menu

  • 免责声明

本站部分内容来自互联网,其发布内容言论不代表本站观点,如果其链接、内容的侵犯您的权益,烦请联系我们(Email:learnzhaoshang@gmail.com),我们将及时予以处理。

E-learn.cn | 备案号:苏ICP备2021010369号-1