Spearman相关系数的含义及适用场景

article/2025/9/20 13:12:28
  1. 斯皮尔曼相关系数计算工具: https://geographyfieldwork.com/SpearmansRankCalculator.html
  2. 斯皮尔曼相关系数的解释:https://statisticsbyjim.com/basics/spearmans-correlation/

统计中,斯皮尔曼相关系数是皮尔逊相关系数的非参数替代方法。对遵循曲线、单调关系的数据和有序数据使用斯皮尔曼相关性。统计学家也将Spearman秩排序相关系数称为Spearman’s ρ \rho ρ (rho)。

在这篇文章中,我们将介绍这一切的含义,以便您了解何时以及为何应该使用Spearman相关性而不是更常见的Pearson相关性(https://statisticsbyjim.com/glossary/correlation/)。

要了解更多关于一般相关性,特别是皮尔逊相关的信息,请阅读Jim关于相关性解释(https://statisticsbyjim.com/basics/correlations/)的帖子。

在这篇文章中,我绘制了数据图表。 绘图对于理解变量之间的关系类型至关重要。 查看变量之间的关系有助于您选择正确的分析!

相关帖子: Nonparametric versus Parametric Analyses

1. Choosing Between Spearman’s and Pearson’s Correlation

让我们从确定何时应该使用 Pearson 相关性开始,这是更常见的形式。 当您有一对变量的**连续数据并且关系呈直线**时,Pearson 是一个很好的选择。 如果您的数据不满足这两个要求,是时候寻找不同的相关性度量了!

image-20230213154301797

图中数据的相关性为 0.8。 Pearson 相关性对这些数据有效,因为该关系遵循一条直线。

当您有成对的连续变量并且它们之间的关系不遵循直线时,或者您有成对的有序数据时,请考虑 Spearman 的秩排序相关性(Spearman’s rank order correlation)。 我将在下面检查这两个条件。

2. Why Pearson’s correlation is not Valid for Curvilinear Relationships

下图显示了为什么 Pearson’s correlation对曲线相关性是无效的。

image-20230213154634929

在图片中,数据点是红线(实际上是很多很多数据点,而不是一条线!)。 并且,绿线是线性拟合。 您通常不会考虑 Pearson‘s correlation来对数据建模,但它使用线性拟合。 因此,绿线说明了 Pearson 的相关性如何对这些数据进行建模。 显然,该模型不能充分拟合数据。 红色数据点和绿色模型拟合之间存在系统性偏差(即非随机偏差)。 因此,您知道皮尔逊相关性对这些数据无效。

皮尔逊相关系数约为 0.92,相当高。 但是,该图强调了它如何没有捕捉到整个关系。 这种关系的真正强度甚至更高。 在这篇文章的后面,我们将使用科学数据来完成一个类似的例子。

3. Determining when to use Spearman’s Correlation

斯皮尔曼相关(Spearman’s correlation)适用于更多类型的关系,但它也有您的数据必须满足的要求才能有效。 具体来说,斯皮尔曼相关性要求您的数据是遵循单调关系的连续数据或有序数据。

当您有不遵循一条线的连续数据时,您必须确定它们是否表现出单调关系。 在单调关系中,随着一个变量的增加,另一个变量趋于增加或减少,但不一定呈直线。 Spearman 相关性的这一方面允许您拟合曲线关系。 但是,必须有朝特定方向变化的趋势,如下图所示。

image-20230213155534125

当您有序数数据时,Spearman’s rho 是一个很好的选择,因为 Pearson’s rho是不合适的。 有序数据至少具有三个类别,并且类别具有自然顺序。 例如,比赛中的第一、第二和第三是顺序数据。

例如,假设同一个参赛者参加两个拼写比赛。 假设您拥有两场比赛中所有参赛者的最终排名,并且想要计算比赛之间的相关性。 Spearman 的排序相关性适用于这些数据。

Spearman’s rho 也是报告李克特量表项目(Likert scale items)之间相关性的好方法!

李克特量表(Likert scale)是属评分加总式量表最常用的一种,属同一构念的这些项目是用加总方式来计分,单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成,每一陈述有"非常同意"、“同意”、“不一定”、“不同意”、"非常不同意"五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所得分数的加总,这一总分可说明他的态度强弱或他在这一量表上的不同状态。

参考:https://baike.baidu.com/item/%E6%9D%8E%E5%85%8B%E7%89%B9%E9%87%8F%E8%A1%A8/2282414

4. How to Calculate Spearman’s Rho

Spearman’s correlation只是对原是数据排名的Pearson‘s correlation。 如果您的数据已经是有序的,则无需更改任何内容。 但是,如果您的数据是连续的,则需要将连续数据转换为排名。 当然,许多统计软件包会为您做预处理并简单地计算答案!

下面的示例数据集显示了两个连续变量的数据等级。 对数据进行排序,值 1 表示最高,2 表示第二高,依此类推。

image-20230213160233385

要确定 Spearman’s correlation,只需计算两个排名顺序列而不是原始数据的 Pearson’s correlation。 我们稍后会在帖子中分析这些数据!

5. Interpreting Spearman’s Correlation Coefficient

Spearman‘s correlation范围从 -1 到 +1。 系数的符号表示它是正单调关系还是负单调关系。 正相关意味着随着一个变量的增加,另一个变量也趋于增加。 负相关表示随着一个变量的增加,另一个变量趋于减少。 接近 -1 或 +1 的值表示比接近零的值更强的关系。

6. Comparing Spearman’s and Pearson’s Coefficients

如果 Pearson 系数是完美的 -1 或 +1,则 Spearman’s correlation将是相同的完美值,除非存在重复数据值。

image-20230213160829291

当两个变量没有串联变化的趋势时,Spearman’s 和 Pearson’s correlation 都将接近于零,表明没有关系。

image-20230213160952700

如果存在曲线但非单调的关系,则 Spearman 和 Pearson 的相关性都将接近于零。

image-20230213161041499

然而,当您有两个具有曲线单调关系的变量时,您会发现 Spearman 的相关性表明比 Pearson 的相关性更强(rho 具有更高的绝对值)。 在这些情况下,曲线性质“混淆”了 Pearson,它低估了这种关系的强度。 即将到来的示例说明了这一方面的实际应用。

image-20230213161149398

7. Spearman’s Correlations for Likert Items and Other Ordinal Data

统计学家使用 Spearman’s rho 报告秩以及李克特量表等有序数据的相关性。Spearman 的强正相关表明一个变量的高排名往往与另一个变量的高排名一致。 负相关表示一个变量的高排名经常与另一个变量的低排名一起出现。

对于使用强烈同意到强烈不同意量表的李克特项目,Spearman 的相关性表示如下:

  • 强正系数(Strongly positive coefficients):强烈同意值往往一起出现。

  • 强烈负系数(Strongly negative coefficients):对一个项目的强烈同意很可能与对另一项目的强烈不同意相吻合。

  • 系数接近零(Near zero coefficients):一个李克特项目的值不能预测另一个李克特项目的值。 他们之间没有关系。

    相关文章:Analyzing Likert Scale Data

8. Example of Spearman’s Rank Order Correlation for a Monotonic Relationship

下图显示了密度和电子迁移率之间的关系。 这种关系是非线性的。 事实上,我对这些数据拟合了一个非线性回归模型。 但是,我们不是拟合回归模型,而是计算这两个变量之间的相关性。 这些数据很适合 Spearman’s correlation,因为它们遵循单调的非线性关系。 随着密度增加,电子迁移率也增加,但不是线性方式。

image-20230213163026791

这些数据免费获取自NIST and pertain to the relationship between density and electron mobility。你可以自己下载Excel表格:ElectronCorrelations.

我已经在 Excel 中完成了计算,因此您可以看到它们的比较情况。 Excel’s Data Analysis ToolPak执行 Spearman‘s correlation。 它没有明确计算 Spearman’s correlation。 但是,通过使用 Excel 的rank()函数对两个变量进行排名,然后我可以在这些秩上使用 Pearson’s correlation来导出 Spearman’s rho。

首先,我将计算 Pearson 的相关性。

image-20230213163508720

相关性非常强~+0.96。 尽管是非线性的,但 Pearson‘s correlation表明这是一种强烈的正相关关系。 然而,尽管相关性很高,但我们知道它低估了相关性的强度,因为它无法拟合非线性关系。

现在,让我们计算 Spearman’s rho。 在 Excel 电子表格中,我使用rank()函数将两个变量的原始分数转换为秩(rank)。 然后,我计算了这对排名值的相关性以产生 Spearman’s rho。

相关帖子: Using Excel to Calculate Correlation

image-20230213163854448

对于电子迁移率数据,Spearman’s rho 具有近乎完美的相关性,为 +0.99。 它近乎完美,因为这些数据代表了一个物理过程,而且实验室收集了极其精确的测量结果。

Spearman 的相关性是对您的统计工具箱的重要补充! 它允许您计算 Pearson 无效的数据的相关性。

9. Spearman’s Rank Correlation Coefficient R s R_s Rs and Probability ( p ) (p) (p) Value Calculator

斯皮尔曼秩相关系数(Spearman’s Rank Correlation Coefficient) R s R_s Rs值是两组数据之间链接或关系强度的统计量度。 该计算器(https://geographyfieldwork.com/SpearmansRankCalculator.html) 可以产生 R s R_s Rs值, 根据精确的临界概率 ( p ) (p) (p) 值的统计显著水平(参考1) 、散点图和结论。

斯皮尔曼等级(Spearman’s Rank)在地理学中有许多常见用途,包括分析沿样线的经济、社会或环境变量随距离的变化,或使用李克特量表(例如,从“强烈同意”到“强烈不同意”的 7 分制量表).

系数 (Rs) 在此计算器上使用以下通用公式计算:

image-20230213164835935

答案总是在 1.0(完全正相关)和 -1.0(完全负相关)之间。 Rs 为 0 表示秩(ranks)之间没有关联。

image-20230213164934833

我们可以使用以下 Rs 值指南来描述相关性的强度:

image-20230213165028639

要使用统计数据证明某事,您应该假设相反,即您的数据集之间没有相关性。 这称为设置原假设 (H0, the null hypothesis)。 您的假设应始终以零假设 (H0, null) 和备择假设 (H1,alternative ) 的形式陈述。

从计算器获得的 p(或概率)值是衡量任何观察到的相关性是偶然的可能性或概率的度量。 P 值介于 0 (0%) 和 1 (100%) 之间。 接近 1 的 p 值表明除了偶然之外没有相关性,并且您的零假设假设是正确的。 如果您的 p 值接近 0,则观察到的相关性不太可能是偶然的,并且您的原假设很可能是错误的。 在这种情况下,您必须接受备择 (H1) 假设,即您的数据集之间存在相关性。 下面显示了解释 p 值的指南。

image-20230213165632433

在地理学中,我们通常使用 5% 的强概率水平 (p = 0.05)。 高于此水平,您的零假设被认为是正确的。 处于或低于该水平,您的零假设错误的可能性至少为 95%,数据具有统计显着性并且它们显示出真实的关联。 在这种情况下,您必须拒绝原假设 (H0) 并接受备择假设 (H1)。 换句话说,5% (p = 0.05) 的概率水平表示统计显着性,每 100 名研究人员中至少有 95 人进行相同的调查,预计会从他们的数据分析中发现类似的统计显着相关性。

对于大样本量,非常弱的相关性 Rs 值可能具有显着的 p 值。 在这种情况下,弱相关性不是偶然因素造成的,而是因为对于大样本,低相关性在统计上是“真实的”或代表总体。 另一方面,小样本量可以与低 p 值产生非常强的相关性,这在统计上不显着,这意味着结果完全是偶然的。

您的最小样本量应至少为 10。低于该点,Rs 值不可靠。 统计学中的一个简单经验法则是,观察的绝对最小数量应该至少是相关变量数量的五倍。

始终将您的数据绘制在散点图上并确定趋势线以获得相关强度的视觉感受。


http://chatgpt.dhexx.cn/article/8FegNljq.shtml

相关文章

SPSS——相关分析——Spearman秩相关系数

简介 斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推…

ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略

ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略 目录 Spearman相关系数(斯皮尔曼等级相关系数)的简介 (1)、Spearman相关系数(斯皮尔曼等级相关系数)的计算逻辑 Spearman相关系数(斯皮尔曼等级相关系数)的的案例应用 Spearman相…

斯皮尔曼spearman相关系数

斯皮尔曼spearman相关系数 斯皮尔曼相关系数定义: X和Y为两组数据,其斯皮尔曼(等级)相关系数: r s 1 − 6 ∑ i 1 n d i 2 n ( n 2 − 1 ) r_s1-\frac{6\sum\limits_{i1}^nd_i^2}{n(n^2-1)} rs​1−n(n2−1)6i1∑n​di2​​ …

数据库知识及数据库编程

数据库的概念 数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。 数据库是存放数据的仓库。它的存储空间很大,可以存放百万条、千万条、上亿条数据。但是数据库并不是随意地将数…

数据库编程与设计—SQL语言

一、SQL语言基础 1 什么是SQL 结构化查询语言结构化查询语言(Structured Query Language)简称 SQL(发音:sequal[si:kwəl]),是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本…

JDBC --- Java的数据库编程

目录 🍈一、数据库编程的必备条件 🍉二、什么是 JDBC JDBC 的优势 🍊三、JDBC 使用流程 以及 常用接口和类的讲解 🍡0. 前置工作 🍭1. 引入依赖 🍬2. 数据库连接Connection 🍬3. 创建操…

数据库—mysql、数据库编程(API)

1. Linux平台准备 &#xff08;1&#xff09;安装SDK开发包的命令 sudo apt-get install libmysqlclient-dev &#xff08;2&#xff09;编译时需要链接的库:-lmysqlclient 2. mysql 的初始化和清理 #include <mysql/mysql.h> MYSQL mysql1; //创建句柄 mysql_init(&…

8.数据库编程

一、思维导图 二、基础梳理 1.游标的使用步骤 ① 声明游标。 用DECLARE语句为一条SELECT语句定义游标 EXEC SQL DECLARE<游标名> CURSOR FOR <SELECT语句>;使用T-SQL语句生成一个结果集&#xff0c;并且定义游标的特征&#xff0c;如游标中的记录是否可以修改。…

数据库编程----Mysql简介

数据库编程----Mysql简介 文章目录 一、什么是Mysql二、Mysq的l特点三、总结 一、什么是Mysql Mysql是一个关系型数据库管理系统二、Mysq的l特点 三、总结 Mysql是一个关系型的数据管理系统

6.数据库编程

PL-SQL编程 1.PL/SQL的特点 PL(Procedure Language)/SQL&#xff09;是Oracle在数据库中引入的一种过程化的编程语言。 PL/SQL是对SQL的扩充&#xff1a;具有为程序开发而设计的特性&#xff1b; 在PL/SQL 中可以使用变量&#xff0c;进行流程控制&#xff0c;来实现比较复杂…

编程语言与数据库

从新近的TIOBE编程语言排名可看到&#xff0c;Java、C依然稳定地在最受欢迎前列。 因具备图灵完备性&#xff0c;2018年才重新被纳入清单的SQL语言已快速出现在第9位置&#xff08;7月&#xff09;——这似乎意味着&#xff0c;传统的RDBMS(关系数据库系统)仍然是应用的主流&am…

java数据库编程入门

一、JDBC概述 1、JDBC是Java数据库连接技术的简称&#xff0c;提供连接各种常用数据库的能力。 2、JDBC模型 JAVA程序一般通过调用JDBC所定义的类和接口来处理数据库中的数据&#xff0c;也就是通过调用JDBC的驱动程序实现对数据库的操作。 3、JDBC操作数据库过程 基于JDBC…

Python之数据库编程

目录 一、MySQL数据库的使用 数据库相关操作 二、数据库增删改查 增加 修改 删除 三、数据库标准写法 一、MySQL数据库的使用 建表 CREATE TABLE py_student( id INTEGER primary key auto_increment, name INTEGER not null, gender varchar(11) default 男 , birthday d…

Java-数据库编程技术(MySQL)

初识MySQL 数据库简介 什么是数据库 数据库&#xff08;Database&#xff0c;DB&#xff09;就是存放数据的仓库&#xff0c;为了实现一定目的&#xff0c;按照某种规则组织起来的数据的集合。当然数据有多种形式&#xff0c;如文字、数码、符号、图形、声音等。从广义的角度…

【数据库系统】数据库编程

嵌入式SQL的处理过程&#xff1a; 嵌入式SQL是将SQL语句嵌入程序设计语言中&#xff0c;被嵌入的设计语言为主语言。 当主语言为C语言时&#xff0c;语法格式为&#xff1a; EXEC SQL <SQL语句> 嵌入式SQL语句与主语言之间的通信&#xff1a; 将SQL嵌入到高级语言中混…

数据库应用(mysql)数据库编程

第1关&#xff1a;创建存储过程1 任务描述 本关任务&#xff1a; 1.新建一个没有参数的存储过程p1&#xff0c;显示product表中所有数据。 2.调用p1。 USE petstore; create procedure p1() #新建一个没有参数的存储过程 select * from product; call p1(); …

java数据库编程

java数据库编程 刚入门学习java数据库的编程&#xff0c;看了一部分的java核心技术卷2的内容&#xff0c;结合在blibli上看了javaweb的视频&#xff0c;先写一个入门级的数据库文章。 jdbc是由java定制的一套操作数据库的API&#xff08;应用程序编程接口&#xff09;。通过…

MySQL数据库编程(C++)介绍

本文主要介绍基于 C 编程语言&#xff0c;实现 MySQL 数据库编程的相关知识。 1 概述 本文利用 MySQL 接口实现基于 C 编程语言的 MySQL 数据库编程。 官网中对于 MySQL 的介绍如下&#xff1a; MySQL is a C wrapper for MySQL’s C API. It is built around the same prin…

数据库编程——简单教程

一、实验目的 1、掌握存储过程的概念、优点、特点及用途&#xff1b; 2、掌握创建、执行、修改和删除存储过程的方法。 二、实验内容 &#xff08;一&#xff09;附加上次实验所创建的数据库“db_Library”&#xff0c;并回顾该库的数据表信息。 &#xff08;二&#xff09;练习…

数据库基础编程

连接mysql在黑窗口 mysql -u root -p #登录MySQL SQL语句分类 数据库操作 创建数据库 create database [if not exists] db_name; 1.character set :指定数据库采用的字符集&#xff0c;如果不指定字符集&#xff0c;默认utf8 2&#xff0c;collate&#xff1a;指定数据库…