Pearson相关系数, Spearman相关系数,Kendall相关系数

article/2025/9/20 12:26:55

三个相关性系数（pearson, spearman, kendall）反应的都是两个变量之间变化趋势的方向以及程度，其值范围为-1到+1，0表示两个变量不相关，正值表示正相关，负值表示负相关，值越大表示相关性越强。

1. person correlation coefficient（皮尔森相关性系数）

公式如下：
这里写图片描述
统计学之三大相关性系数（pearson、spearman、kendall）
重点关注第一个等号后面的公式，最后面的是推导计算，暂时不用管它们。看到没有，两个变量(X, Y)的皮尔森相关性系数(ρX,Y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。

公式的分母是变量的标准差，这就意味着计算皮尔森相关性系数时，变量的标准差不能为0（分母不能为0），也就是说你的两个变量中任何一个的值不能都是相同的。如果没有变化，用皮尔森相关系数是没办法算出这个变量与另一个变量之间是不是有相关性的。

就好比我们想研究人跑步的速度与心脏跳动的相关性，如果你无论跑多快，心跳都不变（即心跳这个变量的标准差为0），或者你心跳忽快忽慢的，却一直保持一个速度在跑（即跑步速度这个变量的标准差为0），那我们都无法通过皮尔森相关性系数的计算来判断心跳与跑步速度到底相不相关。

我们再拔高一点，来看个更具普遍性的例子吧，其中的计算我们使用广受欢迎的R语言来运行，如果你手边也装了R语言，可以一起来做做看：

假设你现在做了个生物学实验，喜得以下两个变量：
X1=c(1, 2, 3, 4, 5, 6)
Y1=c(0.3, 0.9, 2.7, 2, 3.5, 5)

X1<-c(1, 2, 3, 4, 5, 6)
Y1<-c(0.3, 0.9, 2.7, 2, 3.5, 5)
mean(X1) #平均值
[1] 3.5
mean(Y1)
[1] 2.4
var(X1) #方差
[1] 3.5
var(Y1)
[1] 2.976
sd(X1) #标准差
[1] 1.870829
sd(Y1)
[1] 1.725109
cov(X1,Y1) #协方差
[1] 3.06
cor(X1,Y1,method=”pearson”) #皮尔森相关性系数
[1] 0.9481367

其值在0.9以上，说明二者非常相关，比如验证了蛋白A表达量的变化，与蛋白B表达量的变化关系很大！拿到这种有统计学论证的结果你可能很开心。

然而，由于实验操作不慎或者处理数据不小心，得到了这样一个变量X2(1,1,1,1,1,1)，那么计算X2与Y1之间的皮尔森相关性系数会发生什么呢？

X2<-c(1,1,1,1,1,1)
cor(X2,Y1,method=”pearson”)
[1] NA
Warning message:
In cor(X2, Y1, method = “pearson”) : the standard deviation is zero

R运行会得到一个缺失值（NA），并且代码给你提醒：标准差为零（自己试着计算下X2的标准差是多少），这时候明白上面说的意思了吧！也就是说，X2里面的取值根本没有任何波动，那它与Y1的相关性也就没法用这种方法来计算了。

此外，从上面的公式我们知道，皮尔森相关性系数是协方差与标准差的比值，所以它对数据是有比较高的要求的：

第一，实验数据通常假设是成对的来自于正态分布的总体。为啥通常会假设为正态分布呢？因为我们在求皮尔森相关性系数以后，通常还会用t检验之类的方法来进行皮尔森相关性系数检验，而 t检验是基于数据呈正态分布的假设的。
这里写图片描述

统计学之三大相关性系数（pearson、spearman、kendall）
第二，实验数据之间的差距不能太大，或者说皮尔森相关性系数受异常值的影响比较大。比如刚才心跳与跑步的例子，万一这个人的心脏不太好，跑到一定速度后承受不了，突发心脏病，那这时候我们会测到一个偏离正常值的心跳（过快或者过慢，甚至为0），如果我们把这个值也放进去进行相关性分析，它的存在会大大干扰计算的结果的。

2. spearman correlation coefficient（斯皮尔曼相关性系数）

斯皮尔曼相关性系数，通常也叫斯皮尔曼秩相关系数。“秩”，可以理解成就是一种顺序或者排序，那么它就是根据原始数据的排序位置进行求解，这种表征形式就没有了求皮尔森相关性系数时那些限制。下面来看一下它的计算公式：
这里写图片描述

统计学之三大相关性系数（pearson、spearman、kendall）
计算过程就是：首先对两个变量（X, Y）的数据进行排序，然后记下排序以后的位置（X’, Y’），（X’, Y’）的值就称为秩次，秩次的差值就是上面公式中的di，n就是变量中数据的个数，最后带入公式就可求解结果。举个例子吧，假设我们实验的数据如下：
这里写图片描述