lda

论文阅读:Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述:从传统方法到深度学习》

让人想犯罪 __ 提交于 2019-11-26 19:17:50
论文阅读: Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述:从传统方法到深度学习》 一、引言 1.探索人脸关于姿势、年龄、遮挡、光照、表情的不变性,通过特征工程人工构造feature,结合PCA、LDA、支持向量机等机器学习算法。 2.流程 人脸检测,返回人脸的bounding box 人脸对齐,用2d或3d的参考点,去对标人脸 人脸表达,embed 人脸匹配,匹配分数 二、人脸识别发展综述 1.几何特征 最早:边缘提取算子和连通域算子提取特征器官 发展:梯度图像 普氏距离分析 基于几何理论的方法在3d识别中有一定应用 [20][21] 2.整体方法 PCA [22-24] PCA的概率版变体,利用贝叶斯分析 [25]。使用两组特征脸来描述相同人和不同人之间variation PAC其他变体 kernel PCA 独立成分分析 ICA 其他见文章 PCA方法总的来说是基于整体脸,而不是局部部件,来判断输入图像是否是人脸。 PCA方法的问题在于,其投影将训练集中所有图片的variance最大化了,也就是说,最大的特征向量并不利于人脸识别,这是因为,提取到的eigenvector很有可能同一个体的variation(光照,姿势,表情带来的) LDA,即Fisher discriminant

Topic distribution: How do we see which document belong to which topic after doing LDA in python

会有一股神秘感。 提交于 2019-11-26 18:00:15
问题 I am able to run the LDA code from gensim and got the top 10 topics with their respective keywords. Now I would like to go a step further to see how accurate the LDA algo is by seeing which document they cluster into each topic. Is this possible in gensim LDA? Basically i would like to do something like this, but in python and using gensim. LDA with topicmodels, how can I see which topics different documents belong to? 回答1: Using the probabilities of the topics, you can try to set some

LDA with topicmodels, how can I see which topics different documents belong to?

无人久伴 提交于 2019-11-26 10:36:14
问题 This question was migrated from Cross Validated because it can be answered on Stack Overflow. Migrated 6 years ago . I am using LDA from the topicmodels package, and I have run it on about 30.000 documents, acquired 30 topics, and got the top 10 words for the topics, they look very good. But I would like to see which documents belong to which topic with the highest probability, how can I do that? myCorpus <- Corpus(VectorSource(userbios$bio)) docs <- userbios$twitter_id myCorpus <- tm_map

主题模型LDA:从入门到放弃

给你一囗甜甜゛ 提交于 2019-11-25 19:11:51
宏观理解 LDA有两种含义 线性判别器(Linear Discriminant Analysis) 隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA) 本文讲解的是后者,它常常用于浅层语义分析,在文本语义分析中是一个很有用的模型。 LDA模型是一种主题模型,它可以将 文档集中的每篇文档的主题以概率分布的形式给出, 从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。 上面的大家在任何的地方都能看到一句话,然鹅我在第一看的时候一点都没有看懂。 如果用通俗的语言来讲,假设我们有一个文档集,里面有M个文档,对于第d个文档中会出现一堆单词,其中有一个单词是“周杰伦”,那么通过这个单词我们就可以理解为该文档的主题可能是“娱乐”,但是这个文档中还出现“姚明”,“孙杨”,“张继科”这些单词,此时该文档为“体育”主题的概率将大大上升,LDA模型就是要 根据给定一篇文档,推断这个文档的主题是什么,并给出各个主题的概率大小是多少。 那么对于我们刚刚提到的文档,“周杰伦”,“姚明”,“孙杨”,“张继科”,为”娱乐“主题的概率为1/4,为“体育”主题的概率为3/4,此时的LDA模型就说这个文档的主题为"体育"。