统计中的三种相关系数及Matlab实现

点点圈 提交于 2019-12-02 12:36:22

在多元分析中我们经常要用到相关系数。常用的相关系数有三种:Pearson相关系数,Kendall相关系数和Spearman相关系数。

一、Pearson相关系数

Pearson相关系数是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。

按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦.

皮尔逊相关的约束条件

  • 1 两个变量间有线性关系
  • 2 变量是连续变量
  • 3 变量均符合正态分布,且二元分布也符合正态分布
  • 4 两变量独立

 

皮尔逊相关系数适用于:

(1)两个变量之间是线性关系,都是连续数据。

(2)两个变量的总体是正态分布,或接近正态的单峰分布。

(3)两个变量的观测值是成对的,每对观测值之间相互独立。

二、Kendall相关系数

Kendall相关系数是以Maurice Kendall命名的,并经常用希腊字母τ(tau)表示其值。Kendall相关系数用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况,Kendall相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。

三、Spearman相关系数

Spearman等级相关系数又称秩相关系,它以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。它是利用两变量的秩次大小作线性相关分析,Spearman等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的ρ可以达到+1或-1。

四、Matlab程序

1.X与Y是两个变量取值所构成的向量

Pearson相关系数:corr(X,Y,'type','Pearson')

Kendall相关系数:corr(X,Y,'type','Kendall')

Spearman相关系数:corr(X,Y,'type','Spearman')

2.X是一个数据矩阵,列为个变量取值

Pearson相关系数:corr(X,'type','Pearson')

Kendall相关系数:corr(X,'type','Kendall')

Spearman相关系数:corr(X,'type','Spearman')

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!