我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!
声明: 1、目前程序已停止运行!QQ空间也已升级访问安全机制。 2、本“分析”数据源自部分用户的公开信息,并未触及隐私内容,广大网友无需担心。 3、QQ空间会不定期发布大数据分析报告,感兴趣的朋友关注腾讯大数据官方公众号。 感谢博客园! 转载请注明博客园地址,及作者hi@wuxinsheng.com。 各大媒体热传: 这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序截止2015年10月运行2月,总共爬了1.5亿腾讯QQ用户数据,其中有4000万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。 目前已经爬到我的第7圈好友(depth=7)共3000万数据。 爬虫主程序运行界面: 爬虫程序设计: 大致设计思路是模仿工厂的生产车间,使用三大独立循环线程组(GetWaitList,CrawlerQQInfos,SaveData)。 详细设计图: 再看看,我根据这份数据生成的一些有趣的统计图吧! 内存已经爆了,不能怪我。 谁赞助台服务器吧 1、大家一般都在啥时候发说说呢? 从图中看出一天最冷门的时候是凌晨4点,这时全国正在睡觉的人最多。 大家最亢奋的是晚上10点到11点,人们都喜欢睡前看看别人的空间,发条说说。中午12点左右也有一波小高峰。 2、中国人都喜欢在几月生小孩呢?