simhash 文本相似度计算
常见文本相似度计算方法: 1、 向量空间模型VSM(Vector Space Model) 。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。 使用介绍可以参考 Corpora and Vector Spaces , 以及 TF-IDF model 2 、使用gensim的 doc2vec models.doc2vec 模型 ,doc2vec的设计原理是基于word2vec的原理进行改进。但是据大家使用的反馈,效果不是很好。 3、主题模型的近似计算。 通过计算documents的主题模型,将主题模型近似高的documents进行k-means聚合。实际计算时可以使用 gensim的 LDA 模型 gensim中实践LDA 4、 使用simhash算法斤进行文本相似度计算 5、 最新的有种基于深度学习的方法叫 Deep Averaging Network ,效果据研究者说比以上好,但是网上相关资料目前只有作者的论文以及算法代码。(还没来得及研究) simhash算法流程 1、分词 ,把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重,我们假设权重分为5个级别(1~5