自然语言处理-主题模型

强颜欢笑 提交于 2020-04-08 12:06:01

主题模型理论(LDA):
一篇文章的每个词都是以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语而组成的。
P(单词|文档)=P(单词|主题)*P(主题|文档)
对于语料库中的每篇文档,LDA定义了如下生成过程(generative process):
1.对每篇文档,从主题分布中抽取一个主题;
2.从上述被抽到的主题所对应的单词分布中抽取一个单词;
3.重复上述过程直至文档中的每一个单词。

w代表单词,d代表文档,t代表主题;大写代表总集合,小写代表个体。
所以,LDA的核心公式如下:
P(w|d)=P(w|t)*P(t|d)
直观地看这个公式,就是以Topic作为中间层,可以通过计算当前文档d中出现单词w的概率P(w|d)。实际应用中,更多的是求P(t|d),我们可以为一个文档中的一个单词计算它对应任意一个topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。如果这个更新改变了这个单词所对应的topic,就会反过来影响P(w|t)和P(t|d)。

我们通过观测,得到了“知道主题是什么,就用什么单词”的文本生成模型,那么根据贝叶斯定律,我们就可以反过来推出“看见用什么单词,我就知道主题是什么”。

PLSA根LDA的本质区别就在于它们去估计未知参数所采用的思想不同,前者用的是频率派思想,后者用的是贝叶斯派思想。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!