Internet worm(Java网络爬虫-虎牙篇)

对着背影说爱祢 提交于 2019-12-08 12:41:31

jsoup虎牙篇

IDE:Idea:


package InternetWorm.huyaData;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class GetHY {

    public static String[] games ={"wzry","3203","lol"};
    public static String URL = "https://www.huya.com/g/";

    public static void main(String[] args) throws IOException{

        for(String g :games){

            System.out.println("------------------------------------------------------"+g+"爬取开始了哟......");
            System.out.println("                                                              "+URL+g);

            Document doc = Jsoup.connect(URL+g)
                    .data("query","Java")
                    .userAgent("Crome")
                    .cookie("auth","token")
                    .timeout(3000).post();

//            Document doc =  Jsoup.connect(URL+g).get();
            Elements gameItmes = doc.select(".game-live-item");

            for(Element gi:gameItmes){

                String Title = gi.select("a").get(1).text();
                String Name = gi.select(".avatar").get(0).text();
                String Number = gi.select(".num").get(0).text();
                if(Number.endsWith("万")){
                    String n = Number.substring(0,Number.length()-1);
                    Number = (int)Double.parseDouble(n)*10000+"";
                }
                System.out.println(Title+"---"+Name+"---"+Number);

            }
            System.out.println("------------------------------------------------------------------"+g+"爬取结束!\n");

        }

    }

}

运行结果:

 

/*---------------------

作者:东方神祇
版权声明:
       本文为博主原创文章,转载请附上源文链接!

本文链接:https://my.oschina.net/yangmufa/blog/3138779

如果觉得本文对你有所收获,你的请评论点赞

与合理优质的转发也将是鼓励支持我继续创作的动力,

 也欢迎访问个人网站:www.yangmufa.com(或百度   杨木发个人博客)

(不断学习 坚持创作 善于总结 共同进步)
---------------------*/

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!