【机器学习】分类性能度量指标 : ROC曲线、AUC值、正确率、召回率、敏感度、特异度

article/2025/9/11 1:06:11

本文转自 http://zhwhong.ml/2017/04/14/ROC-AUC-Precision-Recall-analysis/

在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更好地了解分类中的错误。

比如有这样一个在房子周围可能发现的动物类型的预测,这个预测的三类问题的混淆矩阵如下表所示:

一个三类问题的混淆矩阵

利用混淆矩阵可以充分理解分类中的错误了。如果混淆矩阵中的非对角线元素均为0,就会得到一个近乎完美的分类器。

在接下来的讨论中,将以经典的二分类问题为例,对于多分类类比推断。

二分类问题在机器学习中是一个很常见的问题,经常会用到。ROC (Receiver Operating Characteristic) 曲线和 AUC (Area Under the Curve) 值常被用来评价一个二值分类器 (binary classifier) 的优劣。之前做医学图像计算机辅助肺结节检测时,在评定模型预测结果时,就用到了ROC和AUC,这里简单介绍一下它们的特点,以及更为深入地,讨论如何作出ROC曲线图和计算AUC值。

一、医学图像识别二分类问题

针对一个二分类问题,我们将实例分成正类(positive)和负类(negative)两种。

例如:在肺结节计算机辅助识别这一问题上,一幅肺部CT图像中有肺结节被认为是阳性(positive),没有肺结节被认为是阴性(negative)。对于部分有肺结节的示意图如下:

常见肺结节示意图

所以在实际检测时,就会有如下四种情况:

(1) 真阳性(True Positive,TP):检测有结节,且实际有结节;正确肯定的匹配数目;
(2) 假阳性(False Positive,FP):检测有结节,但实际无结节;误报,给出的匹配是不正确的;
(3) 真阴性(True Negative,TN):检测无结节,且实际无结节;正确拒绝的非匹配数目;
(4) 假阴性(False Negative,FN):检测无结节,但实际有结节;漏报,没有正确找到的匹配的数目。

详细图解(原创,转载请标明出处)如下:

混淆矩阵

上图中涉及到很多相关概念及参数,详细请见Wiki上的定义及其混淆矩阵。

wiki混淆矩阵

这里整理肺结节识别中的几个主要参数指标如下:

  • 正确率(Precision):

Precision=TPTP+FP

  • 真阳性率(True Positive Rate,TPR),灵敏度(Sensitivity),召回率(Recall):

Sensitivity=Recall=TPR=TPTP+FN

  • 真阴性率(True Negative Rate,TNR),特异度(Specificity):

Specificity=TNR=TNFP+TN

  • 假阴性率(False Negatice Rate,FNR),漏诊率( = 1 - 灵敏度):

FNR=FNTP+FN

  • 假阳性率(False Positice Rate,FPR),误诊率( = 1 - 特异度):

FPR=FPFP+TN

  • 阳性似然比(Positive Likelihood Ratio (LR+)):

LR+=TPRFPR=Sensitivity1Specificity

  • 阴性似然比(Negative Likelihood Ratio (LR−) ):

LR=FNRTNR=1SensitivitySpecificity

  • Youden指数(Youden index):

Youden index=Sensitivity+Specificity1=TPRFPR

二、ROC曲线

ROC曲线:接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性。

对于分类器或者说分类算法,评价指标主要有precision,recall,F1 score等,以及这里要讨论的ROC和AUC。下图是一个ROC曲线的示例:

  • 横坐标:1-Specificity,伪正类率(False positive rate, FPR),预测为正但实际为负的样本占所有负例样本 的比例;
  • 纵坐标:Sensitivity,真正类率(True positive rate, TPR),预测为正且实际为正的样本占所有正例样本 的比例。

在一个二分类模型中,假设采用逻辑回归分类器,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.6,概率大于等于0.6的为正类,小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。

如下面这幅图,(a)图中实线为ROC曲线,线上每个点对应一个阈值。

ROC曲线和它相关的比率

(a) 理想情况下,TPR应该接近1,FPR应该接近0。ROC曲线上的每一个点对应于一个threshold,对于一个分类器,每个threshold下会有一个TPR和FPR。比如Threshold最大时,TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对应于右上角的点(1,1)。
(b) P和N得分不作为特征间距离d的一个函数,随着阈值theta增加,TP和FP都增加。

  • 横轴FPR:1-TNR,1-Specificity,FPR越大,预测正类中实际负类越多。
  • 纵轴TPR:Sensitivity(正类覆盖率),TPR越大,预测正类中实际正类越多。
  • 理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,Sensitivity、Specificity越大效果越好。

随着阈值threshold调整,ROC坐标系里的点如何移动可以参考:

三、如何画ROC曲线

对于一个特定的分类器和测试数据集,显然只能得到一个分类结果,即一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下Wikipedia上对ROC曲线的定义:

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

问题在于“as its discrimination threashold is varied”。如何理解这里的“discrimination threashold”呢?我们忽略了分类器的一个重要功能“概率输出”,即表示分类器认为某个样本具有多大的概率属于正样本(或负样本)。通过更深入地了解各个分类器的内部机理,我们总能想办法得到一种概率输出。通常来说,是将一个实数范围通过某个变换映射到(0,1)区间。

假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。

接下来,我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:

当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。

其实,我们并不一定要得到每个测试样本是正样本的概率值,只要得到这个分类器对该测试样本的“评分值”即可(评分值并不一定在(0,1)区间)。评分越高,表示分类器越肯定地认为这个测试样本是正样本,而且同时使用各个评分值作为threshold。我认为将评分值转化为概率更易于理解一些。

四、AUC

AUC值的计算

AUC (Area Under Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

AUC的计算有两种方式,梯形法和ROC AUCH法,都是以逼近法求近似值,具体见wikipedia。

AUC意味着什么

那么AUC值的含义是什么呢?根据(Fawcett, 2006),AUC的值的含义是:

The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

这句话有些绕,我尝试解释一下:首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。

从AUC判断分类器(预测模型)优劣的标准:

  • AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  • AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
  • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

三种AUC值示例:

简单说:AUC值越大的分类器,正确率越高

为什么使用ROC曲线

既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线的对比:

在上图中,(a)和(c)为ROC曲线,(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,(c)和(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果。可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线则变化较大。

Reference

  • Wikipedia:Receiver operating characteristic
  • 孔明的博客:ROC和AUC介绍以及如何计算AUC
  • Rachel Zhang的专栏(CSDN):ROC曲线-阈值评价标准
  • 博客园dzl_ML:机器学习之分类器性能指标之ROC曲线、AUC值
  • 知乎:精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?

(在此对以上博文的博主表示感谢!)



http://chatgpt.dhexx.cn/article/jj8nXrs9.shtml

相关文章

机器学习:混淆矩阵、准确率、错误率、灵敏度、特异度、精准率、召回率、F-Measure、ROC曲线 PR曲线

文章目录 概念Two ExamplesExample 1Example 2 ROC曲线PR曲线References 概念 混淆矩阵&#xff08;Confusion-Matrix&#xff09; 符号含义TP&#xff08;True Positives&#xff09;【真正】样本为正&#xff0c;预测结果为正FP&#xff08;False Positives&#xff09;【假…

【模型评估】混淆矩阵(confusion_matrix)之 TP、FP、TN、FN;敏感度、特异度、准确率、精确率

你这蠢货&#xff0c;是不是又把酸葡萄和葡萄酸弄“混淆”啦&#xff01;&#xff01;&#xff01;这里的混淆&#xff0c;我们细品&#xff0c;帮助我们理解名词“混淆矩阵” 上面日常情况中的混淆就是&#xff1a;是否把某两件东西或者多件东西给弄混了&#xff0c;迷糊了。把…

ROC曲线的绘制过程/AUC/TPR、FPR、敏感度和特异度

在选择诊断试验时&#xff0c;一些研究学者会在灵敏度和特异度的取舍之间徘徊。那么&#xff0c;是否可以综合灵敏度和特异度之间的特点&#xff0c;选择一个指标来评价诊断实验之间的准确性呢&#xff1f;Lusted在1971年提出了受试者工作特征曲线&#xff08;receiver operati…

ROC/AUC 简易试验 最佳截断点 混淆矩阵 敏感度 特异度 约登指数 各个指标置信区间

ROC/AUC 简易试验 最佳截断点 敏感度 特异度 约登 召回率 混淆矩阵 学习链接, 鼠标放这里 常规学习下面这个矩阵 金标准-模型True Positives(TP)False Positives(FP)-False Negatives(FN)True Negatives(TN)PN 正确率 Accuracy (TPTN)/(PN) 错误率 Error Rate 1 – Accu…

分类性能度量指标 : ROC曲线、AUC值、正确率、召回率、敏感度、特异度

转自 &#xff1a; https://blog.csdn.net/tanzuozhev/article/details/79109311 https://zhuanlan.zhihu.com/p/66885681 正确率(Precision)&#xff1a;真阳性率(True Positive Rate&#xff0c;TPR)&#xff0c;灵敏度(Sensitivity)&#xff0c;召回率(Recall)&#xff1a;…

深度学习之卷积神经网络中常用模型评估指标(混淆矩阵,精确率,召回率,特异度计算方法)——python代码

深度学习之卷积神经网络中常用模型评估指标(混淆矩阵,精确率,召回率,特异度计算方法): 混淆矩阵,精确率,召回率,特异度作为卷积神经网络的模型性能评价指标,它们的计算和绘制具有非常重要的意义,特别是在写论文的时候,我们往往需要这些指标来证明我们模型的优异性,…

深度学习中评估指标:准确率Accuracy、召回率Recall、精确率Precision、特异度(真阴性率)和误报率、灵敏度(真阳性率)和漏报率、F1、PR、ROC、AUC、Dice系数、IOU

目录 准确率&#xff08;Accuracy&#xff09; 精确率&#xff08;Precision&#xff0c;查准率&#xff09; 召回率&#xff08;RecallTPR&#xff09; Precision-Recall曲线 F值&#xff08;F-Measure&#xff0c;综合评价指标&#xff09; 特异度TNR&#xff08;真阴性…

灵敏度和特异度的置信区间怎么算?

很多医学生及医生经常会对诊断实验进行评价&#xff0c;评价诊断试验的常用指标及计算方法都比较容易掌握&#xff0c;但是少有人知道其相应的95%的置信区间的计算方法。我们简单的回顾一下&#xff0c;诊断试验评价的基本方法是用所谓的“金标准”&#xff0c;确诊区分患者和非…

JavaScript基础之缓存机制:HTTP缓存机制

说到前端的缓存机制&#xff0c;无非就是俩中&#xff0c;一种是浏览器缓存机制&#xff0c;一种就是我们今天要说的HTTP缓存机制。那么接下来就说说这HTTP缓存机制。 什么是HTTP缓存&#xff1f; HTTP缓存指的是&#xff0c;当客户端向服务器请求资源时&#xff0c;会先抵达…

面试:HTTP缓存机制

深入理解 HTTP 缓存机制 - 刘星的个人网站 深入理解HTTP缓存机制及原理 - 掘金 面试题 “ 能不能说下 304 的过程&#xff0c;以及影响缓存的头部属性有哪些&#xff1f;” 304 状态码是表示缓存 301 表示被请求 url 永久转移到新的 url&#xff1b;302 表示被请求 url 临时…

HTTP缓存机制--客户端缓存

HTTP缓存机制分为两种&#xff0c;客户端缓存和服务端缓存&#xff0c;本文主要对客户端缓存进行简单的分析。 服务端缓存 服务端缓存又分为 代理服务器缓存 和 反向代理服务器缓存&#xff08;也叫网关缓存&#xff0c;比如 Nginx反向代理、Squid等&#xff09;&#xff0c;其…

【浏览器】HTTP 缓存机制

HTTP 缓存机制 HTTP 缓存存储与请求关联的响应&#xff0c;并将存储的响应复用于后续请求。 分类 私有缓存 & 公有缓存 HTTP Caching 标准中&#xff0c;有两种不同类型的缓存&#xff1a;私有缓存和共享缓存。 私有缓存是绑定至特定客户端的缓存——通常是浏览器缓存&…

http协议+缓存机制

http协议缓存机制 文章目录 http协议缓存机制前言一、http1.http1.0/1.12.http2.03.一个TCP连接可以发送多少个HTTP请求4.浏览器最多可以向同一个host建立几个TCP连接5.其他关于http 二、缓存1.强缓存2.协商缓存3.etag解决了last-modified不能解决的问题4.Nginx如何配置缓存 前…

彻底弄懂HTTP缓存机制及原理

前言 Http 缓存机制作为 web 性能优化的重要手段&#xff0c;对于从事 Web 开发的同学们来说&#xff0c;应该是知识体系库中的一个基础环节&#xff0c;同时对于有志成为前端架构师的同学来说是必备的知识技能。 但是对于很多前端同学来说&#xff0c;仅仅只是知道浏览器会对…

【网络】http缓存机制

HTTP缓存有多种规则&#xff0c;根据是否需要重新向服务器发起请求来分类&#xff0c;我们将其分为两大类 强制缓存对比缓存 流程 强制缓存流程如下 对比缓存流程如下 强制缓存 我们知道&#xff0c;强制缓存在数据为失效的情况下&#xff0c;可以直接使用缓存数据 在没…

彻底理解浏览器的Http缓存机制

概述 浏览器的缓存机制也就是我们说的HTTP缓存机制,其机制是根据HTTP报文的缓存标识进行的,所以在分析浏览器缓存机制之前,我们先使用图文简单介绍一下HTTP报文,HTTP报文分为两种:HTTP请求(Request)报文,报文格式为:请求行 – HTTP头(通用信息头,请求头,实体头) – 请…

彻底理解浏览器的缓存机制(http缓存机制)

一、概述 浏览器的缓存机制也就是我们说的HTTP缓存机制,其机制是根据HTTP报文的缓存标识进行的,所以在分析浏览器缓存机制之前,我们先使用图文简单介绍一下HTTP报文,HTTP报文分为两种: 同步sau交流学习社区(首发):https://www.mwcxs.top/page/565.html。 1、HTTP请求…

HTTP缓存机制与原理详解

1.1 - 缓存 缓存可以重用已获取的资源能够有效的提升网站与应用的性能。Web 缓存能够减少延迟与网络阻塞&#xff0c;进而减少显示某个资源所用的时间。借助 HTTP 缓存&#xff0c;Web 站点变得更具有响应性。缓存分为两点&#xff1a;强制缓存和协商缓存 1.2 - 强制缓存 概念…

浏览器缓存机制(HTTP缓存机制)

不废话&#xff0c;直接上干货&#xff0c;配图解说 首先浏览器首次请求一个网站&#xff0c;网站除了会返回我们需要资源&#xff0c;同时也会返回一些标识信息&#xff0c;这些标识信息约定了客户端和服务端的一些操作&#xff0c;这里列举重要的&#xff1a; 1.cache-contr…

HTTP的缓存机制

前面的话 缓存机制可以有很多种&#xff1a;比如客户端缓存、服务端缓存、代理服务器缓存等。 而本文主角HTTP的缓存是浏览器缓存。为什么这么说&#xff0c;下面来详细介绍一下。 HTTP缓存分类 HTTP缓存可以分为强缓存 与协商缓存。 强制缓存 当缓存数据库中已经有所请求…