准确率,精确率,召回率和F1值

article/2025/10/7 23:05:16

机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)F1-Measure。 (注: 相对来说,IR 的 ground truth 很多时候是一个 Ordered List, 而不是一个 Bool 类型的 Unordered Collection,在都找到的情况下,排在第三名还是第四名损失并不是很大,而排在第一名和第一百名,虽然都是“找到了”,但是意义是不一样的,因此 更多可能适用于 MAP(下面会介绍) 之类评估指标。)

准确率、精确率、召回率

在介绍准确率,精确率,召回率和F1值之前,我们先来看这样一个例子:

假设一个班级有100个学生,其中男生70人,女生30人。如下图,蓝色矩形表示男生,橙色矩形表示女生。又假设,我们不知道这些学生的性别,只知道他们的身高和体重。我们有一个程序(分类器),这个程序可以通过分析每个学生的身高和体重,对这100个学生的性别分别进行预测。最后的预测结果为,60人为男生,40人为女生,(我们假设男生为正例,女生为负例)如下图。

  • TP:(实际为正例,预测也为正例) 实际为男生,预测为男生;
  • FP:(实际为负例,预测为正例) 实际为女生,预测为男生;
  • FN:(实际为正例,预测为负例) 实际为男生,预测为女生;
  • TN:(实际为负例,预测也为负例) 实际为女生,预测为女生;
  1. 准确率(Accuracy) = (TP + TN) / 总样本 =(40 + 10)/100 = 50%。 定义是: 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
  2. 精确率(Precision) = TP / (TP + FP) = 40/60 = 66.67%。它表示:预测为正的样本中有多少是真正的正样本,它是针对我们预测结果而言的。Precision又称为查准率
  3. 召回率(Recall) = TP / (TP + FN) = 40/70 = 57.14% 。它表示:样本中的正例有多少被预测正确了, 它是针对我们原来的样本而言的。Recall又称为查全率

总结:准确率就是找得对,召回率就是找得全

准确率、召回率、F1

信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,下面我们主要看看在信息检索中的情况。概念公式:

召回率(Recall) = 系统检索到的相关文件 / 系统所有相关的文件总数
准确率(Precision) = 系统检索到的相关文件 / 系统所有检索到的文件总数

图示如下:

  • A:检索到的,也相关的 (搜到的也想要的)
  • B:检索到的,但是不相关的 (搜到的但没用的)
  • C:未检索到的,但却是相关的 (没搜到,然而实际上想要的)
  • D:未检索到的,也不相关的 (没搜到也没用的)

注意:准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高。
一般情况,用不同的阀值,统计出一组不同阀值下的精确率和召回率,如下图:

如果是做搜索,那就是保证召回的情况下提升准确率;如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回率。

所以,在两者都要求高的情况下,可以用F1来衡量,计算公式如下。

MAP(mean Average Precision) 信息检索

MAP是为解决P,R,F-measure的单点值局限性的。为了得到 一个能够反映全局性能的指标,可以看考察下图,其中两条曲线(方块点与圆点)分布对应了两个检索系统的准确率-召回率曲线


**分析: **

  1. 可以看出,虽然两个系统的性能曲线有所交叠但是以圆点标示的系统的性能在绝大多数情况下要远好于用方块标示的系统
  2. 我们可以 发现一点,如果一个系统的性能较好,其曲线应当尽可能的向上突出。更加具体的,曲线与坐标轴之间的面积应当越大
  3. 最理想的系统, 其包含的面积应当是1,而所有系统的包含的面积都应当大于0。这就是用以评价信息检索系统的最常用性能指标,平均准确率MAP其规范的定义如下:(其中P,R分别为准确率与召回率)

ROC和AUC 分类识别

ROC和AUC是评价分类器的指标,ROC的全名叫做Receiver Operating Characteristic
ROC关注两个指标

  1. True Positive Rate ( TPR ) = TP / ( TP + FN) ,TPR代表能将正例分对的概率
  2. False Positive Rate( FPR ) = FP / (FP + TN),FPR代表将负例错分为正例的概率

在ROC 空间中,每个点的横坐标是FPR,纵坐标是TPR,这也就描绘了分类器在TP(真正的正例)和FP(错误的正例)间的trade-off。ROC的主要分 析工具是一个画在ROC空间的曲线——ROC curve。我们知道,对于二值分类问题,实例的值往往是连续值,我们通过设定一个阈值,将实例分类到正类或者负类(比如大于阈值划分为正类)。因此我们 可以变化阈值,根据不同的阈值进行分类,根据分类结果计算得到ROC空间中相应的点,连接这些点就形成ROC curve。ROC curve经过(0,0)(1,1),实际上(0, 0)和(1, 1)连线形成的ROC curve实际上代表的是一个随机分类器。一般情况下,这个曲线都应该处于(0, 0)和(1, 1)连线的上方。如图所示。

用ROC curve来表示分类器的performance很直观好用。可是,人们总是希望能有一个数值来标志分类器的好坏。于是**Area Under roc Curve(AUC)**就出现了。顾名思义,AUC的值就是处于ROC curve下方的那部分面积的大小。通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的Performance。


http://chatgpt.dhexx.cn/article/TbJO5fLA.shtml

相关文章

准确率与召回率

在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。 准确率、召回率、F1 信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precisio…

【机器学习】召回率、精确率、准确率的区别

1. 作用语言定义 作用:提升****精确率是为了不错报、提升召回率是为了不漏报 分不清准确率和精确率,在这里先正确区分一下精确率和准确率,以及他们的别称这里[HashArt]给出了一个通俗易懂的解释:(https://zhuanlan.zhihu.com/p/9…

准确率、精确率、召回率、F值

准确率:正确的数量除以总数量 准确率(accuracy),是一个用来衡量分类器预测结果与真实结果差异的一个指标,越接近于1说明分类结果越准确。举个例子,比如现在有一个猫狗图片分类器对100张图片进行分类&#…

准确率、精确率、召回率和F-score

文章目录 一、TP、FP、FN和TN二、 准确率(accuracy)、精确率(precision)、召回率(Recall)、F-score三、各个指标意义和优缺点 一、TP、FP、FN和TN 举例来说,用血压值来检测一个人是否有高血压,测出的血压值…

准确率(Accuracy) | 查准率(Precision) | 查全率(Recall)

目录 样本 识别结果 指标计算 Accuracy(准确率) Precision(精确率、查准率) Recall (召回率、查全率) 为什么要不同的指标? 综合评价 (F-Score) 在机器学习中,对于一个模型…

通俗解释机器学习中的召回率、精确率、准确率

赶时间的同学们看这里:提升精确率是为了不错报、提升召回率是为了不漏报 网络上很多地方分不清准确率和精确率,在这里先正确区分一下精确率和准确率,以及他们的别称 切入正题 很多人分不清召回率和精确率的区别,即使记住了公式…

详解准确率、精确率、召回率、F1值的含义

机器学习问题之中,通常需要建立模型来解决具体问题,但对于模型的好坏,也就是模型的泛化能力,如何进行评估呢? 很简单,我们可以定一些评价指标,来度量模型的优劣。比如准确率、精确率、召回率、…

准确率,召回率

1、准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召…

如何解释准确率、精确率与召回率?

对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。 首先有关TP、TN、FP、FN的概念。TP与TN都是机器(预测)分类分对了的情况,TP是预测为正类且预测正确,TN是…

准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure)、AUC、ROC的理解

一、准确率、精确率、召回率和 F 值 (1)若一个实例是正类,但是被预测成为正类,即为真正类(True Postive TP) (2)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN) (3)若一个实例是负类,但是被预…

准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

yu Code 15 Comments 机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。(注: 相对来说,IR 的 ground truth 很多时候是一个 Ordered L…

准确率,精准率,召回率,真正率,假正率,ROC/AUC

目录 前言一.准确率二.精准率三.召回率四.精准率和召回率的关系,F1分数五.F1分数六.灵敏度和特异度七.真正率和假正率八.ROC曲线 前言 最近在看到这些词得时候老是混淆,看了之后还很容易遗忘,于是查了些资料把他们记录下来。 我们在设计深度学…

一文读懂准确率、精准率、召回率、ROC、AUC、F1值

准确率,精准率,召回率 分类问题中的混淆矩阵如下 TP: 预测为1,预测正确,即实际1 FP: 预测为1,预测错误,即实际0 FN: 预测为0,预测错确,即实际…

准确率(accuracy)、召唤率(recall)和精确率(precision)、ROC,AUC

准确率(accuracy)、召唤率(recall)和精确率(precision) 一、概述 召回率、准确率、精确率、F值的作用: 在机器学习、数据挖掘、推荐系统完成建模之后,需要对模型的效果做评价。 二、定义 首先给出一个…

WebStorm License Activation (WebStorm许可证激活)

User or company name(用户或公司名称): EMBRACE License key(许可证密钥): LICENSE BEGIN 89374-12042010 00001ZR8S1vh1XhRKJ"RyCdHS67DkS PtwqvZyxwRYFBdHRo61xnxm2!s"ePT PHym64P04eGd5A4T77JDanp47rgyKj LICENSE END 把这以上两段文本复制到相应的文本框里点…

webstorm 激活码

找了好多激活的都不好用,后来发现了这个,记录下,方便以后使用 打开网址(IntelliJ IDEA 注册码),下载补丁 然后将补丁复制到安装目录的bin目录下(下面框起来的是补丁路径,不一定是你们…

WebStorm 2019激活方法

1、先下载安装JetBrains WebStorm 2019,安装完成先不要运行2、接下来对软件进行注册破解,首先以记事本的方式打开hosts文件,将代码添加至hosts文件屏蔽软件联网;hosts文件默认目录【C:\Windows\System32\drivers\etc】0.0.0.0 acc…

WebStorm 2019 激活

WebStorm 2019 激活 激活码: YZVR7WDLV8-eyJsaWNlbnNlSWQiOiJZWlZSN1dETFY4IiwibGljZW5zZWVOYW1lIjoiamV0YnJhaW5zIGpzIiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVjYXRpb25hbCB1c2Ugb25seSIsImNoZWNrQ29uY3Vyc…

IDEA和Webstorm激活

全家桶激活 最近用edu邮箱申请了一个JetBrains针对学生免费的激活码。可以激活IntelliJ IDEA,WebStorm,PyCharm,PHPStorm等.. 有需要的小伙伴们可以拿去激活 有效期到2018.9.10 7WXOZVMK1E-eyJsaWNlbnNlSWQiOiI2RlIjoiQ0wiLCJwYWlkVXBU…

webstorm2018激活方法

webstorm2018激活方法 下载补丁包(IntelliJ IDEA 注册码) 把下载的补丁包复制到webstorm的安装目录的bin下面 编辑bin目录下的webstorm.exe.vmoptions和webstorm64.exe.vmoptions文件 在这两文件的最后一行加入-javaagent:E:\Program Files (x86)\Je…