Java微博爬虫-每日百万数据
没写过爬虫,赶鸭子上架,公司里有个老代码,我就拿来参考,边看边写3周后,把整个代码大换血,实现了单日单程序百万的爬取量。 使用springboot + JDK1.8 + mysql + redis。 主要有 关键词爬取、redis队列、多线程爬取程序 三部分。 一、关键词的爬取: 我用的是在微博搜索栏输入关键词的方法爬取数据,所以关键词的热度、新鲜度很重要。 我在百度、搜狗、微博这几个网站的热搜榜每隔40秒抓取一次实时的热词。 第一步,找热词质量高的网站。 # 百度热搜网址 baidu.hotnews = http://top.baidu.com/buzz?b=1&fr=topnews baidu.topcategory = http://top.baidu.com/buzz?b=2&c=12&fr=topcategory_c12 baidu.oneday.hotbuzz = http://top.baidu.com/buzz?b=341&fr=topbuzz_b1 baidu.oneday.lifehot = http://top.baidu.com/buzz?b=342&c=513&fr=topbuzz_b344_c513 # 微博热搜网址 weibo.realtimehot = https://s.weibo.com/top/summary?cate=realtimehot