搜索即找到跟搜索词句很相似的文本,例如在百度中搜索"人的名",结果如下
那么怎么评价两个文本之间的相似度呢?
余弦相似度 (cosine similiarity)
本文介绍基于VSM (Vector Space Model) 的 余弦相似度 算法来评价两个文本间的相识度。
余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。
两个空间向量之间的夹角越小,我们就认为这两个向量越吻合,cosθ 越大,当完全重合时 cosθ = 1
由余弦定律可知:(原谅我百度盗的公式图)
来源:oschina
链接:https://my.oschina.net/u/4383725/blog/4404627