评分员间可信度与Kappa统计量 Inter-rater reliability Kappa statistics

article/2025/8/21 7:47:15

评分员间可信度inter-rater reliability

在统计学中,评分员间可信度inter-rater reliability,评分员间吻合性inter-rater agreement,或一致性concordance 都是描述评分员之间的吻合程度。它对评判者们给出的评级有多少同质性homogeneity或共识consensus给出一个分值。它有助于改进人工评判辅助工具,例如确定某个范围是否适用于度量某个变量。如果评分员间不吻合,要么是这个范围不对,要么是评分员需要重新训练。

有很多统计量可以用于确定评分员间信度,不同的是适用于不同类型的度量。比方说有:吻合的联合概率joint-probability of agreement,科恩的Kappa(Cohen's kappa)及弗雷斯的Kappa(Fleiss' kappa),评分员间相关性inter-rater concordance,一致性相关系数concordance correlation coefficient 以及类间相关性intra-class correlation。

Cohen's kappa

Cohen's kappa 系数是对评分员(或标注者)间在定性(分类的)项目上的吻合性[1] 的一种统计度量。一般认为它比单纯的吻合百分比计算更健壮,因为考虑到了可预见的偶然发生的吻合。

一些研究者[2] 指出,kappa倾向于以观察到的类别种类频率为假设,会产生在也同样普遍用到的种类上的吻合被低估了的效果,处于这个原因,kappa被认为是一个对吻合过于保守的度量。而另外的研究者辩驳[3] 称kappa考虑了偶然吻合。为了有效做到这一点,就需要一个显式的模型描述偶然性是如何影响到评分员决策的。所谓的kappa统计量的偶然性调节认为:当不完全肯定时,评分员只是猜的——这是一个很不现实的方案。

计算

Cohen's kappa 度量两个评分员之间把N个项目分成C个互斥类别的吻合程度。它最早是由Galton(1892)提出的(见Smeeton(1985)[4][5])。

κ的公式是:

其中Pr(a) 是评分员间相对观察到的吻合,而Pr(e) 是偶然吻合的假想概率,是用观察到的数据计算出的每个观察者随机选择各个种类的概率。如果评分员完全吻合,κ=1;如果评分员间除了期望的偶然发生的吻合(由Pr(e) 定义)外没有吻合,κ=0。

1960年Jacob Cohen在期刊Educational and Psychological Measurement发表文章最早将Kappa最为新技术引入。Scott(1955)提出过类似的统计量,称为Pi,与Cohen's kappa不同的是Pr(e) 的计算。注意Cohen's kappa只是度量两个评分员间的吻合,当评分员多于2的情况有对应的吻合度量——Fleiss' kappa,见Fleiss(1971),不过,它是Scott's Pi统计量在多评分员情况的泛化,而非Cohen's kappa的。

示例:

假设你在分析资助申请的数据。两个评审官读出每个资助申请并评判“yes”或“no”。假使数据如下,行是评审A,列是评审B:

  BB
  YesNo
AYes205
ANo1015

注意,有20个申请评审A和B都批准了,而有15个申请两个评审同时拒绝了。因此,观察得到的吻合百分比是Pr(a)=(20+15)/50=0.7

计算随机吻合的概率Pr(e) 时我们看到:

  • 评审A批准和拒绝的申请各25个,即比例各50%。
  • 评审B批准30个申请,拒绝20个,即批准的比例60%。

因此,他俩同时批准的随机概率就是0.5*0.6=0.3,而俩人同时拒绝的随机概率是0.5*0.4=0.2。于是随机吻合的总体概率Pr(e)=0.3+0.2=0.5。应用Cohen's kappa 公式得到:

\κ= \压裂{\ PR(A) -  \镨(E)} {1  -  \镨(E)} = \压裂{0.70-0.50} {1-0.50} = 0.40 \!

百分比相同,但数值不同

Cohen's Kappa 在一个情况下会出问题,即比较这样两对评分员间Kappa 值:两对有相同的吻合百分比,但一对的评级数相近,而另一对的评级数相差则很大[6]。比如下面这个例子,两组数据中A 和B 的吻合相同(都是60/100),于是我们期望相应的Cohen's Kappa 值反映这一点。

 YesNo
Yes4515
No2515

 YesNo
Yes2535
No535

但是实际计算结果显示,第二组中A与B 相似度比第一组大。

显著性差异Significance和大小magnitude

统计显著性差异既没有声称在一个指定应用中的大小如何重要,也没有声称什么样的被视为吻合程度高还是低。Kappa 的统计显著性差异极少被提及,可能是因为即使相对较低的Kappa 值仍然显著异于0,但也还没有大到足以满足调查 [7]:66 。不过,不同的计算程序还是描述[8]和计算[9]了它的标准误差。

既然统计显著性差异不是有用的指标,那么Kappa 多大才反映足够吻合?准则是有用的,但除了吻合其他的因素也能影响其大小,这对一个有疑问的大小给出了解释。Sim 和Wright 指出,(编码是等概率或其概率变化)的发生率(prevalence)以及(两观察者/评分员异同的边缘概率)偏差(bias)是两个重要的因素。当其他因素相同时,编码是等概率的且在两个观察者/评分员的分布相似,Kappa 值会比较高 [10]:261-262 。

另一个因素是编码数量。编码增加,Kappa随之变高。基于模拟研究,Bakeman 及其同事得出结论:对容易犯错的观察者/评分员,编码越少Kappa 值越低。而且,与Sim & Wright 关于发生率prevalence的表述一致,编码严格等概率时Kappa 值更高。因此Bakeman 等人总结说“没有一个Kappa 值是被普遍接受的”[11]:357。他们甚至提供了一个程序,从特定的编码数量及其概率和观察者精度计算出Kappa 值。如:设等概率编码且观察者85%的准确率,当编码数分别为2、3、5、10时,kappa 值对应是0.49、0.60、0.66、0.69。

虽然如此,一些文献还是提出了大小准则。第一个大概是Landis和Koch [12],他们这样划分:值<0为不吻合,0~0.20轻微slight,0.21~0.40正常fair,0.41~0.60中度moderate吻合,0.61~0.80可观substantial,0.81~1几乎完全吻合。但这一套划分准则并没有被普遍接受;Landis 和Koch 是只是主观判定,没有给出证据支持。人们注意到这些准则可能弊大于利 [13]。Fleiss [14]:218 的准则同样武断地将Kappa 值划分为大于0.75为优秀,0.40~0.75为正常至良好,低于0.40为差。

加权Kappa

加权Kappa用于计算不同的分歧 [15],当编码是有序的情况下尤其有用 [7]:66。涉及三个矩阵:观察到的评分矩阵、基于随机吻合的期望评分矩阵、以及权重矩阵。权重矩阵对角线上的单元代表吻合,因此由0构成。非对角单元中的权重值代表分歧的严重程度。通常,单元距离对角线为1时权重设为1,距离为2的单元权重设2,一次类推。

加权κ的计算公式为:

其中,k是编码数量,分别是权重、观察值、期望矩阵的元素。当权重矩阵对角线元素为0,非对角线元素为1时,公式就退化成上面提到的Kappa公式。

Kappa 最大值

Kappa 假定其理论最大值是1,当且仅当俩观察者的编码分布相同,即对应的行和列的和相等。尽管如此,假定分布不相同所能达到的最大Kappa 值有助于解释实际获得的kappa值。

Kappa 最大值方程是:

其中,,一般,k 是编码数, 是行概率,而 是列概率。

另见

  • Fleiss‘s Kappa
  • 类间相关性 Intraclass correlation

参考文献

  1. ^Carletta, Jean. (1996) Assessing agreement on classification tasks: The kappa statistic. Computational Linguistics, 22(2), pp. 249–254.
  2. ^Strijbos, J.; Martens, R.; Prins, F.; Jochems, W. (2006). "Content analysis: What are they talking about?".Computers & Education 46: 29–48.doi:10.1016/j.compedu.2005.04.002.
  3. ^Uebersax JS. (1987)."Diversity of decision-making models and the measurement of interrater agreement" (PDF). Psychological Bulletin101: 140–146.doi:10.1037/0033-2909.101.1.140.
  4. ^Galton, F. (1892). Finger PrintsMacmillan, London.
  5. ^Smeeton, N.C. (1985). "Early History of the Kappa Statistic".Biometrics41: 795.
  6. ^Kilem Gwet (May 2002)."Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity". Statistical Methods for Inter-Rater Reliability Assessment2: 1–10.
  7. ^abBakeman, R.; & Gottman, J.M. (1997).Observing interaction: An introduction to sequential analysis(2nd ed.). Cambridge, UK: Cambridge University Press. ISBN0-521-27593-8.
  8. ^Fleiss, J.L.; Cohen, J., & Everitt, B.S. (1969). "Large sample standard errors of kappa and weighted kappa".Psychological Bulletin 72: 323–327.doi:10.1037/h0028106.
  9. ^Robinson, B.F; & Bakeman, R. (1998). "ComKappa: A Windows 95 program for calculating kappa and related statistics".Behavior Research Methods, Instruments, and Computers 30: 731–732.doi:10.3758/BF03209495.
  10. ^Sim, J; & Wright, C. C (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements".Physical Therapy 85: 257–268.PMID15733050.
  11. ^Bakeman, R.; Quera, V., McArthur, D., & Robinson, B. F. (1997). "Detecting sequential patterns and determining their reliability with fallible observers".Psychological Methods 2: 357–370.doi:10.1037/1082-989X.2.4.357.
  12. ^Landis, J.R.; & Koch, G.G. (1977). "The measurement of observer agreement for categorical data".Biometrics 33 (1): 159–174.doi:10.2307/2529310.JSTOR2529310. PMID843571.
  13. ^Gwet, K. (2010). "Handbook of Inter-Rater Reliability (Second Edition)" ISBN 978-0-9708062-2-2[page needed]
  14. ^Fleiss, J.L. (1981).Statistical methods for rates and proportions(2nd ed.). New York: John Wiley.ISBN0-471-26370-2.
  15. ^Cohen, J. (1968). "Weighed kappa: Nominal scale agreement with provision for scaled disagreement or partial credit".Psychological Bulletin 70 (4): 213–220. doi:10.1037/h0026256.PMID19673146.
  16. ^Umesh, U.N.; Peterson, R.A., & Sauber. M.H. (1989). "Interjudge agreement and the maximum value of kappa.".Educational and Psychological Measurement 49: 835–850.doi:10.1177/001316448904900407.
  • Banerjee, M.; Capozzoli, Michelle; McSweeney, Laura; Sinha, Debajyoti (1999). "Beyond Kappa: A Review of Interrater Agreement Measures".The Canadian Journal of Statistics / La Revue Canadienne de Statistique27 (1): 3–23. JSTOR3315487.
  • Brennan, R. L.; Prediger, D. J. (1981). "Coefficient λ: Some Uses, Misuses, and Alternatives".Educational and Psychological Measurement 41: 687–699.doi:10.1177/001316448104100307.
  • Cohen, Jacob (1960). "A coefficient of agreement for nominal scales".Educational and Psychological Measurement 20(1): 37–46.doi:10.1177/001316446002000104.
  • Cohen, J. (1968). "Weighted kappa: Nominal scale agreement with provision for scaled disagreement or partial credit".Psychological Bulletin 70 (4): 213–220. doi:10.1037/h0026256.PMID19673146.
  • Fleiss, J.L. (1971). "Measuring nominal scale agreement among many raters".Psychological Bulletin 76 (5): 378–382.doi:10.1037/h0031619.
  • Fleiss, J. L. (1981) Statistical methods for rates and proportions. 2nd ed. (New York: John Wiley) pp. 38–46
  • Fleiss, J.L.; Cohen, J. (1973). "The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability".Educational and Psychological Measurement 33: 613–619.doi:10.1177/001316447303300309.
  • Gwet, K. (2008)."Computing inter-rater reliability and its variance in the presence of high agreement". British Journal of Mathematical and Statistical Psychology61 (Pt 1): 29–48.doi:10.1348/000711006X126600.PMID18482474.
  • Gwet, K. (2008)."Variance Estimation of Nominal-Scale Inter-Rater Reliability with Random Selection of Raters". Psychometrika73(3): 407–430. doi:10.1007/s11336-007-9054-8.
  • Gwet, K. (2008). "Intrarater Reliability." Wiley Encyclopedia of Clinical Trials, Copyright 2008 John Wiley & Sons, Inc.
  • Scott, W. (1955). "Reliability of content analysis: The case of nominal scale coding".Public Opinion Quarterly 17: 321–325.
  • Sim, J.; Wright, C. C. (2005). "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements".Physical Therapy85 (3): 257–268. PMID15733050.

原文出处:http://blog.csdn.net/nudtgk2000/article/details/8269759


http://chatgpt.dhexx.cn/article/g5H1MRm1.shtml

相关文章

用混淆矩阵计算kappa系数

从一篇论文——融合注意力机制和高效网络的糖尿病视网膜病变识别与分类&#xff0c;看到人家除了特异性、敏感性、准确率、混淆矩阵以外&#xff0c;还用了加权kappa系数&#xff0c;所以了解一下kapp系数的知识&#xff0c;加权kappa还没找到更好的资料。。。 资料来源于百度百…

kappa 一致性系数计算实例

本文转载自新浪博客&#xff0c;网址&#xff1a;http://blog.sina.com.cn/s/blog_4aa4593d0100rwjd.html kappa系数在遥感分类图像的精度评估方面有重要的应用&#xff0c;因此学会计算kappa系数是必要的&#xff0c;但是从最近搜索的国内外网页和文献中都对kappa系数描述的不…

混淆矩阵(交叉表)及Kappa系数的计算

交叉分类表&#xff0c;是以两个不同时期的地理实体类型为横纵坐标的表格。 ①用于参照的时期的类型位于表格的上方&#xff0c;按照横方向排列 ②用以比较的时期的类型位于表格的左方&#xff0c;垂直排列 ③在横纵坐标上类型的排列顺序一致 ④位于对角线上的方格中记录…

【卡帕一致性检验(Kappa)】基于SPSS软件实现

利用WB和ELASA方法分别检测&#xff0c;利用Kappa系数分析2种方法的一致性。 1.SPSS操作 &#xff08;1&#xff09;在“数据视图”中输入数据&#xff0c;其中WB结果包括两类&#xff1a;positive和negative&#xff0c;即可以分别用1和2表示 &#xff08;2&#xff09;在“变…

kappa系数在评测中的应用

◆版权声明&#xff1a;本文出自胖喵~的博客&#xff0c;转载必须注明出处。 转载请注明出处&#xff1a;http://www.cnblogs.com/by-dream/p/7091315.html 前言 最近打算把翻译质量的人工评测好好的做一做。 首先废话几句&#xff0c;介绍下我这边翻译质量的人工评测怎么做。先…

一致性检验 -- Kappa 系数

一、Kappa 检验方法 在做数据分析时&#xff0c;我们经常会面临一致性检验问题&#xff0c;即判断不同的模型或者分析方法在预测结果上是否具有一致性、模型的结果与实际结果是否具有一致性等。另外&#xff0c;一致性检验在临床实验中也有着广泛的应用。对于两个或多个医务工作…

kappa系数---学习笔记

kappa系数是一个用于一致性检验的指标&#xff0c;也可用于衡量分类的效果对于分类问题&#xff0c;所谓一致性就是模型预测结果和实际分类结果是否一致。kappa系数的计算是基于混淆矩阵的&#xff0c;取值为-1到1之间,通常大于0。基于混淆矩阵的kappa系数计算公式如下&#xf…

总体分类精度和kappa系数计算实例详细介绍!

为啥要算总体分类精度和kappa系数呢&#xff1f;想必大家都知道是为了精度评价&#xff0c;当我们没有实测数据的时候&#xff0c;那么总体分类精度和kappa系数就派上用场了&#xff01;我们没有实测数据&#xff0c;依旧能够评价自己的方法和模型的优良性。博客写的有点啰嗦~啊…

使用cohen kappa系数衡量分类精度

在诊断试验中&#xff0c;研究者希望考察不同诊断方法在诊断结果上是否具有一致性。如评价两个医务工作者对同一组病人的诊断结论的一致性、同一医务工作者对同一组病人前后进行两次观察作出诊断的一致性。1960年Cohen等提出用Kappa值作为评价判断的一致性程度的指标。实践证明…

每日一学 kappa系数

1.定义 Kappa系数用于 一致性检验 &#xff0c;也可以用于 衡量分类精度 &#xff0c;kappa系数的计算是 基于混淆矩阵的。 2.具体例子 3.具体指标的分析 kappa计算结果为-1~1&#xff0c;但通常kappa是落在 0~1 间 第一种分析准则--可分为五组来表示不同级别的一致性&…

Kappa系数计算

内容整理自百度百科 kappa系数是一种衡量分类精度的指标。 公式&#xff1a; k p o − p e 1 − p e k\frac{p_o-p_e}{1-p_e} k1−pe​po​−pe​​ 其中&#xff0c; p o p_o po​是每一类正确分类的样本数量之和除以总样本数&#xff0c;也就是总体分类精度 。C是类别总数…

Kappa系数

Kappa系数用于一致性检验 也可以用于衡量分类精度 kappa系数的计算是基于混淆矩阵的 kappa计算结果为-1~1&#xff0c;但通常kappa是落在 0~1 间&#xff0c;可分为五组来表示不同级别的一致性&#xff1a;0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~…

嵌入式软件工程师常见面试问题

(嵌入式软件工程师面试题) 1、stm32启动方式&#xff1f; 有三种&#xff1a; ①从Flash启动&#xff0c;将Flash地址0x0800 0000映射到0x00000000,这样启动以后就相当于从0x0800 0000开始的&#xff0c;这是我们最常用的模式&#xff1b; ②从SRAM启动&#xff0c;将SRAM地址…

嵌入式软件工程师和嵌入式硬件工程师有什么区别

什么是嵌入式硬件工程师 随着嵌入式技术的普及&#xff0c;硬件工程师的性质也有所改变。嵌入式硬件工程师与我们平常所说的硬件工程师不同。嵌入式硬件工程不但要求具备硬件工程师的基本技能&#xff0c;还必须完成部分软件工程师的工作&#xff0c;例如&#xff1a; 底层驱动…

学软件嵌入式需要学c语言吗,嵌入式软件工程师需要学什么?

随着智能电子设备的普及,市场对嵌入式开发人员需求增多,嵌入式系统无疑成为了当前最热门极具发展前途的IT应用领域之一。很多人想要入门的同学都想学习这个却不知道嵌入式软件工程师需要学什么?今天传智播客就来说说嵌入式软件工程师需要学什么? 现在学习嵌入式就业的前景也…

如何成为嵌入式软件工程师,成为嵌入式工程师赚不赚钱?

自身对嵌入式软件工程师的感想 前言一、嵌入式软件是什么&#xff1f;一、成为嵌入式工程师赚不赚钱&#xff1f;二、嵌入式工程师不赚钱还做他干啥&#xff1f;三、如何学习&#xff1f;四、尝试自己学习新东西五、总结 前言 我所想阐述的事 在看了很多b站的垃圾推荐“”嵌入…

嵌入式软件工程师笔试面试指南目录

文章目录 必读作者简介嵌入式软件工程师笔试面试指南简介如何使用这份资料你可以得到什么嵌入式软件工程师笔试面试指南的价值某外企面试官对这份资料的评价&#xff08;20210514&#xff09;收获 oppo 联发科 京东offer应届生的评价&#xff08;20210430&#xff09;大疆offer…

什么是嵌入式软件工程师?需具备哪些能力?

计算机嵌入式逐渐被大家认可,然而嵌入式软件工程师到底是什么?做一个好的嵌入式软件工程师又需要具备哪些能力呢?今天尚观教育小编跟大家聊一聊。 1.嵌入式软件工程师是什么? 嵌入式系统一般由嵌入式微处理器、外围硬件设备、嵌入式操作系统以及用户的应用程序等四个部分组…

嵌入式软件工程师待遇如何?嵌入式开发越老越吃香吗?

嵌入式软件工程师待遇绝对是领先大多数行业的&#xff0c;而且最近两年出现薪资涨幅大&#xff0c;企业依然招不到人的现象。 口说无凭&#xff0c;我们通过招聘平台的数据来看是最靠谱的。 大家好&#xff0c;我是无际。 一个从事嵌入式单片机开发10年的老工程师&#xff0c…

嵌入式软件工程师是干啥的?

文章目录 前言 一、啥是软件&#xff1f; 二、什么是嵌入式软件 三、嵌入式软件如何开发 三、嵌入式软件工程师知识技能 编程语言知识&#xff1a; 自动控制知识&#xff1a; 硬件基础知识&#xff1a; 开发工具使用&#xff1a; 软件架构设计&#xff1a; 软件开发流程&#x…