如何衡量分类好坏?
衡量分类好坏有多种方法,常用的有准确率、精确率、召回率、F1 值、ROC 曲线与 AUC 值等。
-
准确率:是指分类正确的样本数占总样本数的比例,计算公式为:准确率 = (分类正确的样本数)/(总样本数)。准确率越高,说明分类器整体的分类效果越好,但在正负样本不平衡的情况下,准确率可能会产生误导。
-
精确率:是针对预测结果而言的,它表示在所有被预测为正类的样本中,真正的正类样本所占的比例,计算公式为:精确率 = (真正例数)/(真正例数 + 假正例数)。精确率高意味着分类器在预测为正类时的准确性较高,即误判为正类的情况较少。
-
召回率:是针对原样本中的正类而言的,它表示在所有实际为正类的样本中,被正确预测为正类的样本所占的比例,计算公式为:召回率 = (真正例数)/(真正例数 + 假负例数)。召回率高说明分类器能够尽可能多地找出正类样本,减少漏判的情况。