二分类问题的性能度量为何选用 F 1 F_1 F1 值?
已知混淆矩阵
| prediction positive | prediction negative | |
|---|---|---|
| actuality positive | True Positive(TP) | False Negative(FN) |
| actuality negative | False Positive(FP) | True Negative(TN) |
其中:Precise(精确率/查准率)= T P T P + F P \frac {TP} {TP+FP} TP+FPTP,表示所有预测为positive的集合中实际为positive的频率;
Recall(召回率/查全率)= T P T P + F N \frac {TP} {TP+FN} TP+FNTP,表示所有实际为positive的集合中预测为positive的频率。
1、“P-R”曲线
对我们来说, P P P 和 R R R 都为1的模型是最完美的,但实际情况却并不像我们想的那样,通过“ P P P- R R R”曲线,对模型判断
图片来源:http://shichaoxin.com/2018/12/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80-%E7%AC%AC%E4%B8%89%E8%AF%BE-%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%BA%A6%E9%87%8F/
为了防止极端小的 P 和 R P 和 R P和R 值影响我们对模型的判断,一般通过曲线下面积或 P = R P=R P=R 的平衡点作为判别标准。以平衡点判别被认为过于简单。
2、 F 1 F_1 F1值(P和R的调和平均数)
引如 F 1 F_1 F1值作为二分类问题的模型性能度量标准
F 1 = 2 P R P + R F_1=\frac{2PR}{P+R} F1=P+R2PR
这里 F 1 F_1 F1是基于 P P P 和 R R R 的调和平均数,即 F 1 F_1 F1 的倒数为 P P P 和 R R R 的倒数之和的二分之一 1 F 1 = ( 1 P + 1 R ) × 1 2 \frac{1}{F_1}=(\frac{1}{P}+\frac{1}{R})\times\frac{1}{2} F11=(P1+R1)×21
在统计学中,调和平均数( F F F)、几何平均数( G G G)、算数平均数( X ‾ \overline X X)
它们之间的关系用公式表示为
F ≤ G ≤ X ‾ F\le G\le \overline X F≤G≤X
其中, F = 2 a b a + b F=\frac{2ab}{a+b} F=a+b2ab、 G = a b G=\sqrt{ab} G=ab、 X ‾ = a + b 2 \overline X=\frac{a+b}{2} X=2a+b,当且仅当 a = b a=b a=b 时上面等式成立
证明如下:
假设存在 a , b > 0 a,b\gt 0 a,b>0,则
( a + b ) 2 − ( 2 a b ) 2 (a+b)^{2}-(2\sqrt{ab})^{2} (a+b)2−(2ab)2
= a 2 + b 2 + 2 a b − 4 a b =a^{2}+b^{2}+2ab-4ab =a2+b2+2ab−4ab
= a 2 + b 2 − 2 a b =a^{2}+b^{2}-2ab =a2+b2−2ab
= ( a − b ) 2 ≥ 0 =(a-b)^{2}\ge 0 =(a−b)2≥0,当且仅当 a = b a=b a=b 时等式成立
即 ( a + b ) 2 ≥ ( 2 a b ) 2 (a+b)^{2}\ge (2\sqrt{ab})^{2} (a+b)2≥(2ab)2
已知 a , b > 0 a,b\gt 0 a,b>0,则 a + b ≥ 2 a b a+b\ge2\sqrt{ab} a+b≥2ab
推出 2 a b a + b ≤ a b a b ≤ a b ≤ a + b 2 \frac{2ab}{a+b}\le\frac{ab}{\sqrt{ab}}\le\sqrt{ab} \le\frac{a+b}{2} a+b2ab≤abab≤ab≤2a+b
当且仅当 a = b a=b a=b 时等式成立
即证。
这三种平均数各有利弊,但调和平均数受极端值影响较大,更适合评价不平衡数据的分类问题。
3、举例
已知三种模型得到的 P P P 和 R R R 值如下,分别计算三种平均数
| P P P | R R R | X ‾ \overline X X | G G G | F 1 F_1 F1 | |
|---|---|---|---|---|---|
| algorithm 1 | 0.5 | 0.4 | 0.45 | 0.45 | 0.44 |
| algorithm 2 | 0.7 | 0.1 | 0.4 | 0.27 | 0.18 |
| algorithm 3 | 0.02 | 1.0 | 0.51 | 0.14 | 0.04 |
可以看出算法3的 P P P 值非常小,我们认为此模型效果不好,但是利用算数平均数和几何平均数来衡量并不能表现出来,只有 F 1 F_1 F1 对极端值比较重视,能够感受到这种变化。
参考
[1]统计学
[2]机器学习基础-模型性能度量
















