NLP | 搜索文本的匹配算法

删除回忆录丶 提交于 2020-08-10 07:33:33

搜索即找到跟搜索词句很相似的文本,例如在百度中搜索"人的名",结果如下

那么怎么评价两个文本之间的相似度呢?

余弦相似度  (cosine similiarity)

本文介绍基于VSM (Vector Space Model) 的 余弦相似度 算法来评价两个文本间的相识度。

余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。 

两个空间向量之间的夹角越小,我们就认为这两个向量越吻合,cosθ 越大,当完全重合时 cosθ = 1

由余弦定律可知:(原谅我百度盗的公式图)

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!