为何选用F1值（调和平均数）衡量P与R？

article/2025/11/7 5:07:47

二分类问题的性能度量为何选用 $F_1$ 值？

已知混淆矩阵

	prediction positive	prediction negative
actuality positive	True Positive(TP)	False Negative(FN)
actuality negative	False Positive(FP)	True Negative(TN)

其中：Precise（精确率/查准率）= $\frac {TP} {TP+FP}$ ，表示所有预测为positive的集合中实际为positive的频率；
Recall（召回率/查全率）= $\frac {TP} {TP+FN}$ ，表示所有实际为positive的集合中预测为positive的频率。

1、“P-R”曲线

对我们来说， $P$ 和 $R$ 都为1的模型是最完美的，但实际情况却并不像我们想的那样，通过“ $P$ - $R$ ”曲线，对模型判断

图片来源：http://shichaoxin.com/2018/12/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80-%E7%AC%AC%E4%B8%89%E8%AF%BE-%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%BA%A6%E9%87%8F/

为了防止极端小的 $P 和 R$ 值影响我们对模型的判断，一般通过曲线下面积或 $P = R$ 的平衡点作为判别标准。以平衡点判别被认为过于简单。

2、 $F_1$ 值（P和R的调和平均数）

引如 $F_1$ 值作为二分类问题的模型性能度量标准
$F_1=\frac{2PR}{P+R}$
这里 $F_1$ 是基于 $P$ 和 $R$ 的调和平均数，即 $F_1$ 的倒数为 $P$ 和 $R$ 的倒数之和的二分之一 $\frac{1}{F_1}=(\frac{1}{P}+\frac{1}{R})\times\frac{1}{2}$
在统计学中，调和平均数( $F$ )、几何平均数( $G$ )、算数平均数( $\overline X$ )
它们之间的关系用公式表示为
$F\le G\le \overline X$
其中， $F=\frac{2ab}{a+b}$ 、 $G=\sqrt{ab}$ 、 $\overline X=\frac{a+b}{2}$ ，当且仅当 $a = b$ 时上面等式成立

证明如下：

假设存在 $a,b\gt 0$ ，则

$(a+b)^{2}-(2\sqrt{ab})^{2}$
$a^{2}+b^{2}+2ab-4ab$
$a^{2}+b^{2}-2ab$
$=(a-b)^{2}\ge 0$ ，当且仅当 $a = b$ 时等式成立
即 $(a+b)^{2}\ge (2\sqrt{ab})^{2}$
已知 $a,b\gt 0$ ，则 $a+b\ge2\sqrt{ab}$