向量余弦相似度 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。 余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,夹角等于0,即两个向量相等,这就叫"余弦相似性"。 上图两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性,极端情况下,a和b向量完全重合。如下图: 如上图二:可以认为a和b向量是相等的,也即a,b向量代表的文本是完全相似的,或者说是相等的。如果a和b向量夹角较大,或者反方向。如下图 如上图三: 两个向量a,b的夹角很大可以说a向量和b向量有很底的的相似性,或者说a和b向量代表的文本基本不相似。那么是否可以用两个向量的夹角大小的函数值来计算个体的相似度呢? 向量空间余弦相似度理论就是基于上述来计算个体相似度的一种方法。下面做详细的推理过程分析。 想到余弦公式,最基本计算方法就是初中的最简单的计算公式, 计算夹角 的余弦定值公式为: 但是这个是只适用于直角三角形的,而在非直角三角形中,余弦定理的公式是 三角形中边a和b的夹角 的余弦计算公式为: 公式(2) 余弦定理推导过程: 方法一: 方法二: 在向量表示的三角形中,假设a向量是(x1, y1),b向量是(x2, y2),那么可以将余弦定理改写成下面的形式: 向量a和向量b的夹角 的余弦计算如下 向量点乘及推导过程: 点乘的结果是一个标量