“今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程
今日头条这类资讯聚合平台是基于数据挖掘技术,筛选和推荐新闻:“它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品服务之一”。自从2012年3月创建以来,今日头条至今已经累计激活用户3.1亿,日活跃用户超过3000万。 本文尝试从技术层面分析今日头条的传播机制和相关原理。 网络爬虫:抓取新闻的基本技术 今日头条是一个典型的数据新闻平台,其新闻来源除了合作媒体之外,很大一部分来自于搜索引擎的网络爬虫。 网络爬虫是什么? STEP 1:从互联网各个角落收集信息; STEP 2:将其中的新闻类信息进行汇总; STEP 3:汇总的信息经过基于机器学习的分类和排序,划分出每一个时刻的热点新闻。 今日头条作为数据新闻平台,与一般数据新闻的区别,在于提供一个媒介平台,展示汇总的信息,而不是一条信息。 网络爬虫的工作机制是什么? 网络爬虫的工作机制依赖于会联网互联网上的超链接网络。 在互联网上多数网页,都有超链接存在。这些超链接将各个网页链接起来构成了一个庞大的网络,也就是超链接网络。爬虫作为一种网络程序从一些网页出发,保存网页的内容,寻找网页当中的超链接,然后访问这些超链接,并重复以上过程,这个过程可以不断进行下去。如图所示: “今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程 STEP 1:爬虫从一个种子节点0开始爬取网页内容, STEP 2