相似性度量总结

末鹿安然 提交于 2020-02-07 02:59:32

cosine

img

Jaccard系数(杰卡德系数)

img

cosine更适合稠密空间,Jaccard和tfidf都适合稀疏空间.

狭义Jaccard相似度,计算两个集合之间的相似程度,元素的“取值”为0或1

对集合A和B,Jaccard相似度计算如下:

Jaccard(A, B)= |A intersectB| / |A union B|

相似度数值在[0, 1]之间,当A==B的时候,为1. 优缺点,就是元素的取值只能是0或者1,无法利用更丰富的信息

由相似度,可以转换成Jaccard距离:

Jaccard distance (A, B) = 1- Jaccard(A, B)

TF-IDF

大概估计文本相似度时,使用TF就可以了。当我们使用文本相似度进行检索的类似场景时(如搜索引擎中的query relevence的计算),此时TF-IDF更好一些。

  1. tf/tf-idf为每一个词汇计算得到一个数字,而word embedding将词汇表示成向量
  2. tf/tf-idf在文本分类的任务中表现更好一些,而word embedding的方法更适用于来判断上下文的语义信息(这可能是由word embedding的计算方法决定的)。

曼哈顿距离

如果直接使用AB的欧氏距离(欧几里德距离:在二维和三维空间中的欧氏距离的就是两点之间的距离),则必须要进行浮点运算,如果使用AC和CB,则只要计算加减法即可,这就大大提高了运算速度,而且不管累计运算多少次,都不会有误差。

欧几里得距离(Eucledian Distance)

欧氏距离是最常用的距离计算公式,衡量的是多维空间中各个点之间的绝对距离,当数据很稠密并且连续时,这是一种很好的计算方式。

因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。

明可夫斯基距离(Minkowski distance)

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!