新闻头条

今日头条技术架构分析

冷暖自知 提交于 2019-11-28 05:29:52
原文链接: https://blog.csdn.net/mucaoyx/article/details/84498468 ​ ​ 今日头条创立于2012年3月,到目前仅4年时间。从十几个工程师开始研发,到上百人,再到200余人。产品线由内涵段子,到今日头条,今日特卖,今日电影等产品线。 一、产品背景 ​ ​ 今日头条是为用户提供个性化资讯客户端。下面就和大家分享一下当前今日头条的数据(据内部与公开数据综合): 5亿注册用户 2014年5月1.5亿,2015年5月3亿,2016年5月份为5亿。几乎为成倍增长。 日活4800万用户 2014年为1000万日活,2015年为3000万日活。 日均5亿PV 5亿文章浏览,视频为1亿。页面请求量超过30亿次。 用户停留时长超过65分钟以上 1、文章抓取与分析 ​ ​ 我们日常产生原创新闻在1万篇左右,包括各大新闻网站和地方站,另外还有一些小说,博客等文章。这些对于工程师来讲,写个Crawler并非困难的事。 ​ ​ 接下来,今日头条会用人工方式对敏感文章进行审核过滤。此外,今日头条头条号目前也有为数不少的原创文章加入到了内容遴选队列中。 ​​ ​ 接下来我们会对文章进行文本分析,比如分类,标签、主题抽取,按文章或新闻所在地区,热度,权重等计算。 2、用户建模 ​ ​ 当用户开始使用今日头条后,对用户动作的日志进行实时分析。使用的工具如下: -