jsoup

Use Jsoup to get all href values from a specific class

爷,独闯天下 提交于 2020-05-12 06:52:55
问题 I was trying to parse my university website, to get a list of news (title + link) from main site. However, as I'm trying to parse a full website, links that I am looking for are nested deep in other classes, tables etc. Here's the code I tried to use: String url = "http://www.portal.pwr.wroc.pl/index,241.dhtml"; Document doc = Jsoup.connect(url).get(); Elements links = doc.select("table.cwrapper .tbody .tr td.ccol2 div.cwrapper_padd div#box_main_page_news.cbox.grey div#dyn_main_news.cbox

Use Jsoup to get all href values from a specific class

[亡魂溺海] 提交于 2020-05-12 06:52:02
问题 I was trying to parse my university website, to get a list of news (title + link) from main site. However, as I'm trying to parse a full website, links that I am looking for are nested deep in other classes, tables etc. Here's the code I tried to use: String url = "http://www.portal.pwr.wroc.pl/index,241.dhtml"; Document doc = Jsoup.connect(url).get(); Elements links = doc.select("table.cwrapper .tbody .tr td.ccol2 div.cwrapper_padd div#box_main_page_news.cbox.grey div#dyn_main_news.cbox

从搜狐下在每日交易数据的爬虫程序

谁说胖子不能爱 提交于 2020-05-08 10:55:04
网易不行有搜狐,搜狐提供的每日股票交易数据可比网易的强多了,近四千支股票4月的交易数据八万余条一气呵成.看来以后要靠它当主力. 程序: package com.ufo.hy.agumaster.crawler.daytransact; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import com.fasterxml.jackson.databind.JsonNode; import com.fasterxml.jackson.databind.ObjectMapper; import com.ufo.hy.agumaster.entity.DayTransact; public class SohuDTCrawler { private List<DayTransact> dtList; public List<DayTransact> getDtList(){ return dtList; } public void download(String originalCode,String name,String fromDate,String

org.jsoup.Jsoup找不到jar包问题解决思路

眉间皱痕 提交于 2020-05-07 16:28:11
今天在idea中导入项目,出现了这样的问题 通过idea的自带的导包功能,却提示找不到这个东西.于是就去maven仓库搜索这个咚咚 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> < dependency > < groupId > org.jsoup </ groupId > < artifactId > jsoup </ artifactId > < version > 1.8.3 </ version > </ dependency > 找到一个用的最多的添加到pom.xml的依赖中,然后maven自动下载.这样就解决了这个问题. 来源: oschina 链接: https://my.oschina.net/u/4363075/blog/3869310

Java爬取51job保存到MySQL并进行分析

你。 提交于 2020-05-05 21:36:27
大二下实训课结业作业,想着就爬个工作信息,原本是要用python的,后面想想就用java试试看, java就自学了一个月左右,想要锻炼一下自己面向对象的思想等等的, 然后网上转了一圈,拉钩什么的是动态生成的网页,51job是静态网页,比较方便,就决定爬51job了。 参考https://blog.csdn.net/qq_42982169/article/details/83155040,改了许多地方,方便模块化,加了保存的功能 前提: 创建Maven Project 方便包管理 使用httpclient 3.1 以及 jsoup1.8.3 作为爬取网页和筛选信息的包, 这两个版本用的人多。 mysql-connect-java 8.0.13 用来将数据导入数据库,支持 mysql8.0+ 分析使用,tablesaw(可选,会用的就行) “大数据+上海”以此URL为例子,只要是类似的URL都可行 https://search.51job.com/list/020000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99

如何用Java搭建一个直播小程序系统

不问归期 提交于 2020-05-05 10:19:14
导读: 如今直播似乎已经进入全民时代,越来越多直播内容充斥着我们茶余饭后的 生活。随处可见的娱乐主播,如火如荼的游戏主播,默默耕耘的教育主播,内容的多样化满足这各式各样的人。昨天用Java搭建了一个直播小程序系统(www.zhaowubo.cn)在宽带支持的前提下,支持几百人是不成问题的,如何做到的呢? 1. nginx-rtmp module的安装和使用 2. obs进行推流 3. websocket弹幕,推送 - 解决前端播放m3u8格式的流视频 4. vue-video-player + videojs-contrib-hls的使用 5. spring-boot便捷开发整合 6. jsoup爬虫的使用 7. 基于websocket,发送图片文字小视频 nginx讲解 nginx在印象中,一般作为静态文件服务器,它具有tomcat无法比拟的处理静态资源的能力,所以在动静分离被广泛运行,本身还可以作为反向代理和负载均衡服务器,但是今天我们使用的是它的拓展模块rtmp模块拓展,在随后的第一天课程中我们将进行讲解,现在先有一个概念。我们先看一下运行效果: 直播间和弹幕间: 弹幕间发送图片和小视频: 项目分为直播间和聊天室,聊天室用websocket全双工通信,保持长连接,直播间采用rtmp,两者都要保持较高的即时性,项目结构如下: 下面几节进行 直播小程序开发 讲解 来源:

从网易财经行情中心爬取股票信息

早过忘川 提交于 2020-05-04 22:45:18
爬取网址: http://quotes.money.163.com/old/#query=todayRank Problem :网易的股票行情时不像凤凰网是有每一页的Url的,它是采用的Ajax方式,所以不能从页面代码推断下一页的网址,也不能从页面代码获得当页数据。 Solution :打开Chrom的开发者工具,点Network,再刷新页面,就能看到真正请求的地址是: Request URL: http://quotes.money.163.com/hs/service/marketradar_ajax.php?host=http%3A%2F%2Fquotes.money.163.com%2Fhs%2Fservice%2Fmarketradar_ajax.php&page=0&query=STYPE%3AEQA&types=&count=28&type=query&order=desc 把这个网址拷贝到浏览器里,你会发现是返回的数据是JSon: 我们实际需要的是pageCount,name,code几项,用jackson解析json得到上述节点的信息就好了。 jackson的依赖是: <!-- jackson --> < dependency > < groupId > com.fasterxml.jackson.core </ groupId > < artifactId >

java

南笙酒味 提交于 2020-05-02 18:17:07
网络程序,难点在线程 反射 reflect 实用 类对象 来执行反射操作 反射获得一个类的定义信息 反射创建对象 反射调用成员变量, 方法 方法 获得类对象的三种方式 A.class Class.forName("完整类名"); a1.getClass(); 类对象的方法 c.getPackage().getName(); c.getName(); c.getSimpleName(); 获得成员变量的定义信息 getFields(); 得到可见的成员变量,即能访问的, 包括继承来的 getDeclaredFields(); 本类定义的所有变量, 包括私有变量, 不包括继承的 getField(变量名); 得到单个可见的的成员变量 getDeclaredField(变量名); 获得构造方法的定义信息 getConstructors(); 获得可见的构造方法, getDeclaredConstructors(); 获得所有的构造方法 getConstructor(参数类型列表); 获得单个可见的的构造方法 get Declared Constructor(int.class,String.class); 获得方法的定义信息 getMethods(); // 可见的方法, 包括继承的方法 getDeclaredMethods(); // 本类定义的方法, 包括私有的方法,不包括继承的方法

How to scrape table data from specific site JSOUP

隐身守侯 提交于 2020-04-30 06:29:33
问题 I'm trying to scrape some data from table on this site:https://www.worldometers.info/coronavirus/ Here is the source code of scraper I've tried public static void main(String[] args) throws Exception { String url = "https://www.worldometers.info/coronavirus/"; try{ Document doc = Jsoup.connect(url).get(); Element table = doc.getElementById("main_table_countries_today"); Elements rows = table.getElementsByTag("tr"); for(Element row : rows){ Elements tds = row.getElementsByTag("td"); for(int i

2018年春季学期《软件工程》教学总结

≡放荡痞女 提交于 2020-04-25 17:04:35
2018 年春季学期《软件工程》教学总结 1. 教学资源基本信息 理论教学选用教材:张海藩,牟永梅.软件工程导论[M].清华大学出版社,2013年8月第6版 实验阅读教材:邹欣. 现代软件工程—构建之法[M]. 人民邮电出版社, 2017年7月第3版. 网络教学资源 中国大学MOOC(慕课):江西财经大学 狄国强教授 软件工程 构建之法作者邹欣老师博客: http://www.cnblogs.com/xinz/ 集美大学张敏老师博客: http://www.cnblogs.com/happyzm/ 北京航空航天大学博客园软件工程课程: https://edu.cnblogs.com/campus/buaa/BUAA_SE_2017 集美大学博客园软件工程课程: https://edu.cnblogs.com/campus/jmu/SE-Net15 东北师范大学博客园软件工程课程: https://edu.cnblogs.com/campus/nenu/2016SE_NENU 2. 教学团队概况 由来自四所高校企业单位的教师、高级工程师和研究生组成跨校协作课程教学团队。 3. 教学方法概述 1)理论课堂教学采用反转课堂教学法,学生在课前通过软件工程教学视频(来源:中国大学MOOC 江西财经大学 狄国强教授讲授软件工程或由任课教师发布)进行理论知识的课前学习,课堂是师生之间