全面梳理:准确率,精确率,召回率,查准率,查全率,假阳性,真阳性,PRC,ROC,AUC,F1

article/2025/9/16 18:41:43

 

二分类问题的结果有四种:

逻辑在于,你的预测是positive-1和negative-0,true和false描述你本次预测的对错

true positive-TP:预测为1,预测正确即实际1

false positive-FP:预测为1,预测错误即实际0

true negative-TN:预测为0,预测正确即实际0

false negative-FN:预测为0,预测错误即实际1

 

【混淆矩阵】

直观呈现以上四种情况的样本数

 

【准确率】accuracy

正确分类的样本/总样本:(TP+TN)/(ALL)

在不平衡分类问题中难以准确度量:比如98%的正样本只需全部预测为正即可获得98%准确率

 

【精确率】【查准率】precision

TP/(TP+FP):在你预测为1的样本中实际为1的概率

查准率在检索系统中:检出的相关文献与检出的全部文献的百分比,衡量检索的信噪比

 

【召回率】【查全率】recall

TP/(TP+FN):在实际为1的样本中你预测为1的概率

查全率在检索系统中:检出的相关文献与全部相关文献的百分比,衡量检索的覆盖率

 

实际的二分类中,positive-1标签可以代表健康也可以代表生病,但一般作为positive-1的指标指的是你更关注的样本表现,比如“是垃圾邮件”“是阳性肿瘤”“将要发生地震”。

因此在肿瘤判断和地震预测等场景:

要求模型有更高的【召回率】recall,是个地震你就都得给我揪出来不能放过

在垃圾邮件判断等场景:

要求模型有更高的【精确率】precision,你给我放进回收站里的可都得确定是垃圾,千万不能有正常邮件啊

 

【ROC】

常被用来评价一个二值分类器的优劣

ROC曲线的横坐标为false positive rate(FPR):FP/(FP+TN)

假阳性率,即实际无病,但根据筛检被判为有病的百分比。

在实际为0的样本中你预测为1的概率

纵坐标为true positive rate(TPR):TP/(TP+FN)

真阳性率,即实际有病,但根据筛检被判为有病的百分比。

在实际为1的样本中你预测为1的概率,此处即【召回率】【查全率】recall

 

接下来我们考虑ROC曲线图中的四个点和一条线。

第一个点,(0,1),即FPR=0,TPR=1,这意味着无病的没有被误判,有病的都全部检测到,这是一个完美的分类器,它将所有的样本都正确分类。

第二个点,(1,0),即FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确答案。

第三个点,(0,0),即FPR=TPR=0,即FP(false positive)=TP(true positive)=0,没病的没有被误判但有病的全都没被检测到,即全部选0

类似的,第四个点(1,1),分类器实际上预测所有的样本都为1。

经过以上的分析可得到:ROC曲线越接近左上角,该分类器的性能越好。

 

【ROC是如何画出来的】

分类器有概率输出,50%常被作为阈值点,但基于不同的场景,可以通过控制概率输出的阈值来改变预测的标签,这样不同的阈值会得到不同的FPR和TPR。

从0%-100%之间选取任意细度的阈值分别获得FPR和TPR,对应在图中,得到的ROC曲线,阈值的细度控制了曲线的阶梯程度或平滑程度。

一个没有过拟合的二分类器的ROC应该是梯度均匀的,如图紫线

此图为PRC, precision recall curve,原理类似

ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。而Precision-Recall曲线会变化剧烈,故ROC经常被使用。

 

【AUC】

AUC(Area Under Curve)被定义为ROC曲线下的面积,完全随机的二分类器的AUC为0.5,虽然在不同的阈值下有不同的FPR和TPR,但相对面积更大,更靠近左上角的曲线代表着一个更加稳健的二分类器。

同时针对每一个分类器的ROC曲线,又能找到一个最佳的概率切分点使得自己关注的指标达到最佳水平。

 

【AUC的排序本质】

大部分分类器的输出是概率输出,如果要计算准确率,需要先把概率转化成类别,就需要手动设置一个阈值,而这个超参数的确定会对优化指标的计算产生过于敏感的影响

AUC从Mann–Whitney U statistic的角度来解释:随机从标签为1和标签为0的样本集中分别随机选择两个样本,同时分类器会输出两样本为1的概率,那么我们认为分类器对“标签1样本的预测概率>对标签0样本的预测概率 ”的概率等价于AUC。

因而AUC反应的是分类器对样本的排序能力,这样也可以理解AUC对不平衡样本不敏感的原因了。

 

【作为优化目标的各类指标】

最常用的分类器优化及评价指标是AUC和logloss,最主要的原因是:不同于accuracy,precision等,这两个指标不需要将概率输出转化为类别,而是可以直接使用概率进行计算。

顺便贴上logloss的公式

  • N:样本数
  • M:类别数,比如上面的多类别例子,M就为4
  • yij:第i个样本属于分类j时为为1,否则为0
  • pij:第i个样本被预测为第j类的概率

 

【F1】

F1兼顾了分类模型的准确率和召回率,可以看作是模型准确率和召回率的调和平均数,最大值是1,最小值是0。

 

额外补充【AUC为优化目标的模型融合手段rank_avg】:

在拍拍贷风控比赛中,印象中一个前排队伍基于AUC的排序本质,使用rank_avg融合了最后的几个基础模型。

rank_avg这种融合方法适合排序评估指标,比如auc之类的

其中weight_i为该模型权重,权重为1表示平均融合

rank_i表示样本的升序排名 ,也就是越靠前的样本融合后也越靠前

能较快的利用排名融合多个模型之间的差异,而不用去加权样本的概率值融合

 

贴一段源码:

#三模型的概率输出
xgb_7844 = pd.read_csv('xgb_7844.csv')
svm_771 = pd.read_csv('svm_771.csv')
xgb_787 = pd.read_csv('xgb_787.csv')#score概率变为排名
xgb_7844.score = xgb_7844.score.rank()
svm_771.score = svm_771.score.rank()
xgb_787.score = xgb_787.score.rank()#排名加权融合的结果丧失了概率指义,但AUC的计算不用关系绝对大小,只关心相对大小
pred = 0.7*xgb_787.score + 0.2*xgb_7844.score + 0.1*svm_771.score#AUC的计算
auc = int(roc_auc_score(val.target.values,pred.values)*10000)

M为正类样本的数目,N为负类样本的数目,rank为分类器给出的排名。

可以发现整个计算过程中连直接的概率输出值都不需要,仅关心相对排名,所以只要保证submit的那一组输出的rank是有意义的即可,并不一定需要必须输出概率。

转:https://zhuanlan.zhihu.com/p/34079183


http://chatgpt.dhexx.cn/article/gdH0KC0i.shtml

相关文章

imputation-文献:False signals induced by single-cell imputation(scRNA-seq插补引入的假阳性问题)

文章题目 False signals induced by single-cell imputation 中文名: 单细胞插补引起的假信号 文章地址: https://f1000research.com/articles/7-1740/v2 评价插补方法: SAVER,DrImpute,scImpute,DCA,MAGIC,knn-smooth 上述方法基于原…

混淆矩阵、召回率、精确率、正确率、F1、真阳性率、假阳性率、ROC、AUC

C o n f u s i o n M a t r i x : Confusion Matrix: ConfusionMatrix: 真实 1 0 预测 1 TP(命中) FP(虚报) 0 FN(漏报) TN(正确拒绝) 召回率 R e c a l l T P T P F N Recall \dfrac{TP}{TP FN} RecallTPFNTP​,关注真实情况,关注positive。“好瓜被…

准确率,召回率,mAP,ROC,AUC,特异性,敏感性,假阴性,假阳性

P/R和ROC是两个不同的评价指标和计算方式,一般情况下,检索用准确率、召回率、F1、AP和mAP,分类、识别等用ROC和AUC(特异性和敏感性是ROC当中的一个部分)。 准确率、召回率、F1、AP和mAP这几个指标需要依次看&#xff0…

扩增子测序引入的假阳性稀有类群干扰对微生物群落多样性、构建机制及相互作用的研究...

# 01 2022年8月17日,青岛华大基因研究院、深圳华大生命科学研究院联合中国农业科学院北京畜牧兽医研究所、山东大学微生物技术国家重点实验室、丹麦哥本哈根大学等单位在 Environmental Microbiome (IF 6.36) 上发表了题为 “Sequencing introduced false positive …

敏感性、特异度、α、β、阳性预测值(PPV)、阴性预测值(NPV)等指标及置信区间计算(附R语言代码)

这个虽然简单但老是被绕进去,所以整理一下方便查阅。 首先画一个22的混淆矩阵confusion matrix: TP = True positive(真阳性) FP = False positive (假阳性) FN = False negative(假阴性) TN = True negative(真阴性) 敏感性(sensitivity)= 真阳性率 = 真阳/实…

真阳性假阳性假阴性分割可视化

1.分割掩码二值化 分割掩码转化为图像格式时会在分割边界处有很多灰度像素点,这将导致后续利用分割掩码和预测分割掩码进行处理时会在边界处出现很多噪声点,因此利用阈值将分割掩码转换为二值图,消除边界上的灰度像素点。 代码 import nump…

(精确度,召回率,真阳性,假阳性)ACC、敏感性、特异性等 ROC指标

1、概念 金标准(标准集) 预测算法(预测集) 验证存在(T) 验证不存在(F) 合计 预测存在(P) 预测为正,真实为正(TP) …

fNIRS中的假阳性和假阴性:问题、挑战和方法

导读 本文强调了在进行功能性近红外光谱(fNIRS)研究时需要考虑和解决的一个重要问题,即无意中测量非神经血管耦合引起的fNIRS血流动力学反应的可能性。这些可能被误解为大脑活动,即“假阳性”(由于错误地将检测到的血流动力学反应分配给功能性大脑活动而…

精确度、召回率、真阳性、假阳性

1) 精确度( precision ):TP / ( TPFP ) TP / P 2) 召回率(recall):TP / (TP FN ) TP / T 3) 真阳性率(True positive rate):TPR TP / ( TPFN ) TP / T (敏感性 sensiti…

每天五分钟机器学习:如何计算模型的假阳性率和真阳性率?

本文重点 如上所示,我们学习了查准率和召回率,本文我们将学习真阳性率和假阳性率,学会这个对将来构建ROC曲线非常有帮助 真阳性率和假阳性率 假如使用测试集来评估一个分类模型(二分问题):所以样本实际值…

统计学中的真阳性(TP),假阴性(FN),假阳性(FP),真阴性(TN)怎么理解?

举个例子,假如要在一个地区进行1000人的疾病检测,我们站在上帝视角,知道这1000人中,有10人是疾病感染者,占比1%。 但实际的检测结果可能存在误差,误差包括两种情况 疾病感染者,被错误诊断为健康身体健康,但却被错误诊断为感染者对应了两种情况 检测出来的是阴性,就一…

敏感性、特异性、假阳性、假阴性

敏感性、特异性、假阳性、假阴性是医学领域常用的评估指标。 敏感性:在金标准判断有病(阳性)的人群中,检测出阳性的几率。真阳性(检测出确实有病的能力) TPR TP / ( TPFN ) TP / T 特异性:在金…

ADODB简介

ADODB简介 ADODB 是 Active Data Objects Data Base 的简称,它是一种 PHP 存取数据库的函式组件。现在 SFS3 系统 (校园自由软件交流网学务系统) 计划的主持人陈莹光老师,决定采用此一组件,为了让更多有心参与该项目的伙伴们能够顺利加入发展…

Padavan固件添加adbyby去广告功能

2019独角兽企业重金招聘Python工程师标准>>> 在路由-》自定义脚本》wan上下行启动后执行,添加下面脚本 #!/bin/shsleep 30###Adbyby去广告脚本### Adbyby1 ### 0关闭;1启动 ########以下脚本请勿更改##### if [ "$Adbyby" "0…

newifi mini php,WBB - Newifi mini刷小米路由mini固件 + 屏蔽广告Adbyby插件小记

17号在京东下单Newifi mini,99块,当时还觉得很神奇,下午3点的单,居然晚上7点就到了。和同类产品小米路由mini的官网缺货以及130价格完全不是一回事,但据说他们的硬件却基本一致。 到手开箱使用,一看界面还不…

adb host 和 adbd

1、在HOST端,adb会fork出一个守护进程(不是adbd),即server,而父进程继续处理client请求,所有的client通过TCP端口号5037进行与server通信,而server创建local socket与remote socket,…

2017-06-11 Padavan 完美适配newifi mini【adbyby+SS+KP ...】youku L1 /小米mini

源地址 http://www.right.com.cn/forum/thread-199452-1-1.html 最新固件通知地址: http://p4davan.80x86.io/tags/firmware/ (建议加入浏览器收藏) 2017-02-20 群里有朋友提供了L1硬件,新增加 适配 youku L1(L1C也可以),在这里可以下载&am…

2022自编译最新稳定版newifi3固件

仅添加了自己常用的功能,具体如下。另外还有一些注意事项,请务必阅读 另:2022版本与之前版本不通用,如需升级请清除数据或仅备份部分overlay文件,在刷入后覆盖 功能(针对最新版) 计划任务挂载点…

2021自编译NEWIFI3最新openwrt固件

仅添加了自己常用的功能,具体如下。另外还有一些注意事项,请务必阅读 另:2021版本与之前版本不通用,如需升级请清除数据或仅备份部分overlay文件,在刷入后覆盖 功能(针对最新版) 计划任务LED配…

路由器固件仓库广告屏蔽工具老毛子胜openwrt

1、阿呆猫http://www.admflt.com/ 我花了20买了一个Padavan固件优酷路由宝,16M256M内存。在广告屏蔽功能的第二个标签页,激活了一下adm软件。介绍中有阿呆猫的网站。更新重启就起做用了。 在电视应用中测试了一下,以前不成功BestTV&#xff0…