文本挖掘之LDA主题模型
某厂面试归来,发现自己落伍了!>>> 文本挖掘之LDA主题模型 作者:郑培 引言 主题模型是文本挖掘的重要工具,近年来在工业界和学术界都获得了非常多的关注。在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。 Latent Dirichlet Allocation(LDA)是其中最具代表性的模型。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以: 发掘语料库中英藏的主题模式; 根据主题对文档进行标注; 利用标注对文档进行组织、整理、归纳和检索。 1. 什么是主题(topic)? 从词汇的角度讲:使一篇文章或几篇文章共同的代表、隐藏语义、共同出现词语的一种模式、共同出现词语的一种据类、一种弱的分类类表; 从概率分布的角度讲:每个主题都是对所有词的一个概率分布;主体对同时出现的词赋予较高的概率;同时出现的次互相之间有某种关联性; 从机器学习的角度来讲,主题模型是将 层次贝叶斯网络 应用到数据(文档或者图像)的典型应用:每篇文档包含多个主题、隐含变量起到表示文档间主体结构的作用、主题模型基于bag-of