模型评估指标三
- 1、模型评估回顾
- 2、综合分类模型评估指标
- 2.1、F1-Score与Fβ-Score
- 2.2、灵敏度与特异度
- 2.3、ROC曲线
- 2.4、AUC曲线
- 3、分类模型评估指标总结
- 4、Sklearn模型评估指标
1、模型评估回顾
本文接上篇:模型评估指标(二)
分类模型的评估与回归模型的侧重点不同,回归模型针对连续型的数据,而分类模型针对的是离散的数据
因此,分类模型的评估指标也与回归模型不同,回归模型的评估指标包括均方误差(MSE)、均方根误差(RMSE)和平均绝对误差(MAE)等,分类模型的评估指标通常包括准确率、精确率、召回率和F1分数等
不过,这些指标衡量的都是预测值与真实值之间的数值差异
在上篇中,我们已经介绍了单项分类模型评估指标:准确率、精确率和召回率,本文主要介绍综合分类问题评估指标:F1分数、ROC曲线和AUC曲线等,而这些指标都是基于单项分类模型评估指标的
2、综合分类模型评估指标
2.1、F1-Score与Fβ-Score
如果我们把精确率(Precision)和召回率(Recall)之间的关系用图来表达,就是下面的PR曲线:
可以发现两者是“两难全”的关系。理论上来说,精确率和召回率都是越高越好,但更多时候它们两个是矛盾的,经常无法保证二者都很高
为了综合两者的表现,在两者之间找到一个平衡点,就引入了一个新指标Fβ-Score
可以根据不同的业务场景来调整β值。当β为1时,Fβ-Score就是F1分数(F1-Score),此时,综合平等地考虑了精确率和召回率评估指标,当F1分数较高时则说明模型性能较好
当β<1时,更关注精确率;当β>1时,更关注召回率
2.2、灵敏度与特异度
ROC和AUC是两个更加复杂的评估指标。它们都基于两个指标:灵敏度(Sensitivity)和特异度(Specificity)
灵敏度也称真正例率(True Positive Rate,TPR),特异度也称假正例率(False Positive Rate,FPR)
- 灵敏度(TPR)
计算公式为
- 1-特异度(FPR)
计算公式为
可以看到,灵敏度和召回率是一模一样的,只是换了个名称而已。另外,需要注意的是,由于我们只关心正例样本,所以需要查看有多少负例样本被错误地预测为正例样本,因此以上所说的特异度特指1-特异度,而不是真正的特异度
如上图所示,TPR和FPR分别是基于实际表现1和0出发的,也就是说它们分别在实际的正例样本和负例样本中来观察相关概率问题。正因为如此,所以无论样本是否平衡,都不会被影响
例如,总样本中,90%是正例样本,10%是负例样本。我们知道用准确率是有水分的,但是用TPR和FPR不一样。这里,TPR只关注90%正例样本中有多少是被负例覆盖的,而与那10%毫无关系,同理,FPR只关注10%负例样本中有多少是被正例覆盖的,也与那90%毫无关系
所以,如果我们从实际表现的各个结果角度出发,就可以避免样本不平衡的问题了,这也是为什么选用TPR和FPR作为ROC/AUC的指标的原因
另外,我们也可以从另一个角度理解:条件概率。假设X为预测值,Y为真实值。那么就可以将这些指标按如下条件概率表示
从上面三个公式可以看到:如果我们以实际结果为条件(召回率,特异度),那么就只需考虑一种样本;而如果以预测值为条件(准确率),那么我们需要同时考虑正例样本和负例样本
所以以实际