用训练好的模型结果进行预测,需要采用一些评价指标来进行评价,才可以得到最优的模型
常用的指标:
1.分类任务
- ConfusionMatrix 混淆矩阵
- Accuracy 准确率
- Precision 精确率
- Recall 召回率
- F1 score H-mean值
- ROC Curve ROC曲线
- PR Curve PR曲线
- AUC
……
下面我将会具体介绍以上几种常见的分类模型评价指标
ConfusionMatrix 混淆矩阵
混淆矩阵是评判模型结果的一种指标,属于模型评估的一部分,常用于评判分类器模型的优劣
混淆矩阵(ConfusionMatrix) | 真实值(labels) | ||
Positive | Negative | ||
预测值(predict) | Positive | TP | FP |
Negative | FN | TN |
其中,
- TP (True Positive) : 真实值和预测值均为Positive
- FP (False Positive) : 真实值为Negative,预测值为Positive
- FN (False Negative) : 真实值为Positive,预测值为Negative
- TN (True Negative) : 真实值为Negative,预测值为Negative
一般地,期望TP和TN越高越好,FN和FP越低越好
Accuracy 准确率、Precision 精确率、Recall 召回率
(引用 up主 :霹雳吧啦Wz的个人空间-霹雳吧啦Wz个人主页-哔哩哔哩视频 的一张图做说明)
准确率(正确率) :所有预测正确的样本数 / 总样本数 (所有的预测正确(正类负类)的占总的比重)
虽然准确率可以判断总的正确率,但是在样本不平衡 的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到 90% 的高准确率,但实际上我们并没有很用心的分类,只是随便无脑一分而已。这就说明了:由于样本不平衡的问题,导致了得到的高准确率结果含有很大的水分。即如果样本不平衡,准确率就会失效
作者:easyAI产品经理的AI知识库
链接:https://juejin.cn/post/6844903470756167688
来源:稀土掘金
精确率(查准率):预测正类为正类的样本数 / 预测的正类样本数 (真正正确的占所有预测为正的比例)
精准率和准确率看上去有些类似,但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度,而准确率则代表整体的预测准确程度,既包括正样本,也包括负样本
作者:easyAI产品经理的AI知识库
链接:https://juejin.cn/post/6844903470756167688
来源:稀土掘金
召回率(查全率):预测正类为正类的样本数 / 真实值为正类的样本数 (真正正确的占所有实际为正的比例)
召回率的应用场景: 比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错杀一千,绝不放过一个
作者:easyAI产品经理的AI知识库
链接:https://juejin.cn/post/6844903470756167688
来源:稀土掘金
注意:
- 精确率和召回率的区别
从数学角度来看,精确率和召回率就是分母不一样
召回率的分母是原本的正类(TP+FN),
召回率让模型预测到所有想被预测到的样本(就算预测错的多一些,也能接受)
下面引用 博主 清如许. 的一张图片作总结
博客链接:https://blog.csdn.net/MacWx/article/details/129119016?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-1-129119016-blog-80964865.235^v39^pc_relevant_anti_t3_base&spm=1001.2101.3001.4242.2&utm_relevant_index=4
总得来说,精确率就是不错报,召回率就是不漏报
F1-Score(F1值、调和平均数)
精确率(Precision)和召回率(Recall)之间是两难全的关系,为了综合两者的表现,在两者之间找一个平衡点,就出现了一个 F1分数
F = 2 / (1/Precision + 1/Recall) = (2 * Precision * Recall)/ (Precision + Recall)
F1值越大越好,F1对 Precision 和 Recall 进行了加权
ROC曲线
PR曲线
虽然准确率可以判断总的正确率,但是在样本不平衡 的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到 90% 的高准确率,但实际上我们并没有很用心的分类,只是随便无脑一分而已。这就说明了:由于样本不平衡的问题,导致了得到的高准确率结果含有很大的水分。即如果样本不平衡,准确率就会失效
作者:easyAI产品经理的AI知识库
链接:https://juejin.cn/post/6844903470756167688
来源:稀土掘金
2.回归任务
- MSE 均方误差 Mean Square Error
- RMSE 均方根误差 Root Mean Square Error
- MAE 平均绝对误差 Mean Absolute Error
……