【数据科学】斯皮尔曼的等级相关系数(Spearman's coefficient)

article/2025/9/20 10:42:34

在统计数据中,斯皮尔曼的等级相关系数斯皮尔曼的rho,以查尔斯斯皮尔曼命名并经常用希腊字母表示\rhor_{s},是秩相关的非参数度量(两个变量的排名之间的统计依赖性)。它评估了使用单调函数描述两个变量之间关系的程度。

两个变量之间的Spearman相关性等于这两个变量的秩值之间的Pearson相关性 ; 当Pearson的相关性评估线性关系时,Spearman的相关性评估单调关系(无论是线性的还是非线性关系)。如果没有重复的数据值,当每个变量是另一个的完美单调函数时,发生+1或-1的完美斯皮尔曼相关。

直观地,当两个变量之间的观察具有相似(或相关的1)等级(即变量内的观察的相对位置标签:第一,第二,第三等)时,两个变量之间的Spearman相关性将是高的。当观察结果与两个变量之间具有不相似(或完全相反的相关性)时,变量和低值。

Spearman系数适用于连续离散序数变量。Spearman's \rho和肯德尔的\tau可以表述为更一般的相关系数的特殊情况。

 

定义和计算

Spearman相关系数定义为排序变量之间的Pearson相关系数。

对于大小的样品n,所述n 原始分数X_{i}Y_{i} 转换为排名rgX_{i}rgY_{i},和r_{s}计算自:

{\ displaystyle r_ {s} = \ rho _ {\ operatorname {rg} _ {X}ï¼\ operatorname {rg} _ {Y}} = {\ frac {\ operatorname {cov}ï¼\ operatorname {rg} _ { X}ï¼\ operatorname {rg} _ {Y}ï¼} {\ sigma _ {\ _è¿è¥å{rg} _ {X}} \ sigma _ {\ _è¿è¥ååç§°{rg} _ {Y}}}}}

  • \ RHO表示通常的Pearson相关系数,但应用于秩变量。
  • {\ displaystyle \ operatorname {cov}(\ operatorname {rg} _ {X},\ operatorname {rg} _ {Y})}是秩变量的协方差。
  • {\ displaystyle \ sigma _ {\ _ operator {Rg} _ {X}}} 和{\ displaystyle \ sigma _ {\ _ operator {Rg} _ {Y}}}是秩变量的标准偏差。

 

只有当所有n个等级都是不同的整数时,才能使用流行的公式计算

{\ displaystyle r_ {s} = {1  -  {\ frac {6 \ sum d_ {i} ^ {2}} {nï¼n ^ {2} -1ï¼}}}ã}

  • {\ displaystyle d_ {i} = \ operatorname {rg}(X_ {i}) -  \ operatorname {rg}(Y_ {i})},是每个观察的两个等级之间的差异。
  • n是观察的数量

 

相同的值通常是,每个分配的小数等级等于它们在值的升序中的位置的平均值,这相当于对所有可能的排列进行平均。

如果数据集中存在联系,则上面的简化公式会产生不正确的结果:只有在两个变量中,所有等级都是不同的,那么 {\ displaystyle \ sigma _ {\ _ operator {rg} _ {X}} \ sigma _ {\ _è¿è¥ååç§°{rg} _ {Y}} = \ operatorname {Var} {\ operatorname {rg} _ {X}} = \ operatorname {Var} {\ operatorname {rg} _ {Y}} =ï¼n ^ {2} -1ï¼/ 12}(根据有偏差的方差计算)。即使当秩被归一化为[0; 1](“相对等级”)时,甚至可以使用通过标准偏差归一化的第一个等式 - 因为它对平移和线性缩放都不敏感。

这个在数据集被截断的情况下也不应使用]方法; 也就是说,当前X个记录(无论是通过改变前等级还是改变后等级,或两者)都需要Spearman相关系数时,用户应使用上面给出的Pearson相关系数公式。

系数(σ)的标准误差由Pearson于1907年和Gosset于1920年确定

{\ displaystyle \ sigma _ {r_ {s}} = {\ frac {0.6325} {\ sqrt {n-1}}}}

 

相关数量

还有一些其他数值测量可以量化观察对之间统计依赖的程度。其中最常见的是Pearson积矩相关系数,它是与Spearman等级相似的相关方法,用于衡量原始数字之间而不是等级之间的“线性”关系。

Spearman 等级相关的另一个名称是“等级相关”;观察的“等级”被“等级”取代。在连续分布中,按照惯例,观察等级总是比等级小一半,因此在这种情况下等级和等级相关性是相同的。更一般地,观察的“等级”与小于给定值的总体分数的估计成比例,半观察调整在观察值处。因此,这对应于绑定等级的一种可能的处理。虽然不寻常,但“等级相关”一词仍在使用中。

 

解释

Spearman相关的符号表示X(自变量)和Y(因变量)之间的关联方向。如果 XX增加时趋于增加,则Spearman相关系数为正。如果XX增加时趋于减小,则Spearman相关系数为负。Spearman相关系数为零表示当X增加时Y没有增加或减少的趋势。随着XY变得更接近彼此的完美单调函数,Spearman相关性的幅度增加。什么时候XY完全单调相关,Spearman相关系数变为1.完美的单调增加关系意味着对于任何两对数据值iijji - ji - j总是有相同的符号。完美的单调递减关系意味着这些差异总是具有相反的符号。

Spearman相关系数通常被描述为“非参数”。这可以有两个含义。首先,当XY通过任何单调函数相关时,产生完美的Spearman相关性。将此与Pearson相关性进行对比,Pearson相关性仅在XY通过线性函数相关时给出完美值。其他感测,其中所述Spearman相关是,在不需要知识来获得其准确的采样分布(非参数,知道参数)的接头的概率分布的XY

 

示例

在此示例中,下表中的原始数据用于计算人的智商与每周在电视机前花费的小时数之间的相关性。

首先,评估D_ {I} ^ {2}。为此,请使用以下步骤,如下表所示。

  1. 按第一列排序数据(X_ {I})。创建一个新列{\ displaystyle x_ {i}}X_ {I}并为其分配排名值1,2,3,... n
  2. 接下来,按第二列对数据进行排序(义})。创建第四列义}并且类似地为其分配排名值1,2,3,... n
  3. 创建第五列D_ {I} 保持两个等级列之间的差异(X_ {I} 和义})。
  4. 创建一个最终列D_ {I} ^ {2} 保持列的值D_ {I} 平方。

同 D_ {I} ^ {2} 发现,添加它们来查找\ sum d_ {i} ^ {2} = 194。的值Ñ是10这些值现在可以被取代的回方程:\ rho = 1  -  {​{\ frac {6 \ sum d_ {i} ^ {2}} {n(n ^ {2} -1)}}}。 给

\ rho = 1  -  {​{\ frac {6 \ times 194} {10(10 ^ {2} -1)}}}

其评估为ρ = -29 / 165 = -0.175757575 ... ,P值 = 0.627188(使用t分布)。

这个低值表明智商和看电视的时间之间的相关性非常低,尽管负值表明看电视的时间越长智商越低。如果是原始值的关系,则不应使用此公式; 相反,应该在等级上计算Pearson相关系数(其中关系被赋予等级,如上所述)。

提供的数据图表。可以看出,可能存在负相关,但这种关系似乎不是确定的。

 

 

基于Spearman的rho的对应分析

经典对应分析是一种统计方法,可以对两个名义变量的每个值进行分数。通过这种方式,它们之间的Pearson 相关系数最大化。

这种方法有一种称为等级对应分析的方法,可以最大化Spearman的rho或Kendall的tau。

 

图示

当比较的两个变量是单调相关的,即使它们的关系不是线性的,Spearman相关性为1。这意味着x值大于给定数据点的所有数据点也将具有更大的y值。相比之下,这并没有给出完美的Pearson相关性。

 

当数据大致呈椭圆分布且没有明显的异常值时,Spearman相关和Pearson相关给出相似的值。

 

Spearman相关性不如Pearson相关性对两个样本尾部的强异常值敏感。那是因为斯皮尔曼的rho将异常值限制在其等级值。

 

正斯皮尔曼相关系数对应于XY之间增加的单调趋势。

 

负Spearman相关系数对应于XY之间的单调趋势减小。

 

参考文献:https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient


http://chatgpt.dhexx.cn/article/a8UEpSdg.shtml

相关文章

python 利用Scipy计算person 和spearman相关系数

python 利用Scipy计算person 和spearman相关系数 觉得有用的话,欢迎一起讨论相互学习~ 学习以下两位大佬的讲解 (Pearson)皮尔逊相关系数和spearman相关系数(附python实现) 相关性系数及其python实现 皮尔逊相关系数 下面是皮尔逊相关系数的计算公式…

Python+pandas计算数据相关系数(person、Kendall、spearman)

pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数、Kendall Tau相关系数和spearman秩相关)。 pandas相关系数-DataFrame.corr()参数详解 DataFrame.corr(methodpearson, min_p…

相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)

相关性Correlations Correlations,相关度量,目前Spark支持两种相关性系数:皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。相关系数是用以反映变量之间相关关系密切程度的统计指标。…

spearman学习

特征提取,预测都弄完了,现在要检查一下预测的效果。 spearman秩相关系数是度量两个变量之间的统计相关性的指标,用来评估当用单调函数来描述两个变量之间的关系有多好。在没有重复数据的情况下,如果一个变量是另外一个变量的严格…

R语言中进行Spearman等级相关分析

摘要 使用Spearman等级相关性测试两个等级变量或一个等级变量和一个测量变量之间的关联。 如果您担心非正态性,也可以对两个测量变量使用Spearman等级相关性而不是线性回归/相关性,但这通常不是必须的。 宏伟的军舰鸟(军舰鸟magnificens&…

相关系数pearson、spearman、kendall和R语言中的cor/or.test()

相关系数pearson、spearman、kendall和R语言中的cor/cor.test 1. 相关系数pearson、spearman、kendall2. R语言cor函数和cor.test函数 1. 相关系数pearson、spearman、kendall Pearson相关系数很简单,是用来衡量两个数据集的线性相关程度;而Spearman相关…

皮尔逊(Pearson)相关系数与spearman相关系数(Python实现)

概念介绍 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。 相关系数大小解释 相关性绝对值无相关0 - 0.09弱相关0.1 - 0.3中相关0.3 - 0.5强相关0.5 - 1 表中所定的标准从某种意义上说是武断的和不严格的。 对相关系数的解…

3.1 相关系数(person与spearman)

1.1总体皮尔逊(person)相关系数: 在概率论与数理统计中我们学到,若两组数据X{x1,x2…xn}与Y{y1,y2…yn}为总体数据,则总体协方差为 它表示两个变量的总体误差,若XY相对于各自均值同…

斯皮尔曼相关(spearman)系数法

在分析指标与指标、指标与研究对象的影响程度时,很多时候会用到相关系数法,下面介绍一下斯皮尔曼相关系数法。 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,斯皮尔曼等级…

Spearman 相关性分析法,以及python的完整代码应用

Spearman 相关性分析法 简介 Spearman 相关性分析法是一种针对两个变量之间非线性关系的相关性计算方法,同时,它不对数据的分布进行假设。该方法的基本思想是将两个(也可以多个)变量的值进行排序,并计算它们之间的等…

统计学三大相关系数之斯皮尔曼(spearman)相关系数

斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制。下面来看一下它的计算公式:…

相关系数(皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数)

目录 总体皮尔逊Person相关系数: 样本皮尔逊Person相关系数: 两点总结: 假设检验:(可结合概率论课本假设检验部分) 皮尔逊相关系数假设检验: 更好的方法:p值判断方法 皮尔逊相…

三大统计学相关系数(pearson、kendall、spearman)

一、皮尔逊相关系数 前边文章讲了很多了,这里不详细讲了,想了解的可以看这篇。 相似度计算(2)——皮尔逊相关系数 适用范围: 当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适…

Pearson相关系数和Spearman相关系数的区别

Pearson相关系数和Spearman相关系数的区别 1、协方差、相关系数2、Pearson相关系数3、Spearman相关系数3.1 定义3.2 什么时候用 4、两者的区别点4.1 线性相关与单调相关4.2 前提假设不同4.3 变量正态分布与否 5、实例展示6、参考资料 参考资料前两个博客讲解的非常详细&#xf…

Pearson相关系数, Spearman相关系数,Kendall相关系数

三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。 1.…

数学建模:相关性分析学习——皮尔逊(pearson)相关系数与斯皮尔曼(spearman)相关系数

目录 前言 一、基本概念及二者适用范围比较 1、什么是相关性分析 2、什么是相关系数 3、适用范围比较 二、相关系数 1.皮尔逊相关系数(Pearson correlation) 1、线性检验 2、正态检验 3、求相关系数 2、斯皮尔曼相关系数(Spearman…

斯皮尔曼相关(Spearman correlation)系数概述及其计算例

目录 1. 什么是秩相关系数? 2. 单调性,monotonicity 3. 斯皮尔曼秩相关系数 4. 什么时候使用斯皮尔曼秩相关系数呢? 5. 斯皮尔曼秩相关系数计算公式 6. 斯皮尔曼秩相关系数计算例 6.1 手动计算 6.2 scipy函数 6.3 pandas corr() 6…

一文数学数模-相关性分析(二)斯皮尔曼相关(spearman)相关性分析一文详解+python实例代码

前言 相关性分析算是很多算法以及建模的基础知识之一了,十分经典。关于许多特征关联关系以及相关趋势都可以利用相关性分析计算表达。其中常见的相关性系数就有三种:person相关系数,spearman相关系数,Kendalls tau-b等级相关系数。各有各自的用法和使用场景。当然关于这以…

斯皮尔曼(spearman)相关系数python代码实现

简介 斯皮尔曼等级相关系数(简称等级相关系数,或称秩相关系数,英语:Spearmans rank correlation coefficient或Spearmans ρ)。一般用或者表示。它是衡量两个变量的相关性的无母数指标。它利用单调函数评价两个统计变量…

数学建模——相关系数(4)——斯皮尔曼相关系数(spearman)

文章目录 引述一、斯皮尔曼相关系数(spearman)1.定义12.定义23.使用MATLAB计算spearman相关系数4. 斯皮尔曼相关系数的假设检验 二、斯皮尔曼相关系数与皮尔逊相关系数的比较 引述 经过之前几节的学习,我们了解并掌握了皮尔逊相关系数。在学…