0. 前言
我们已经学习了多种图像分类模型的构建方法。在本节中,我们介绍在实际构建模型时影响模型性能的因素,包括数据质量(处理不平衡数据)、数据预处理(对象大小)、模型选择、超参数优化和正则化等,了解这些因素能够帮助我们更好地训练和优化机器学习模型。
1. 处理不平衡数据集
假设,如果我们需要预测一个在数据集中很少出现的对象,例如仅占总图像的 1%,例如,预测 X 射线图像是否暗含了罕见肺部感染。
我们如何衡量训练后的模型预测罕见肺部感染的准确率?如果我们简单地预测所有图像为未感染类,则分类的准确率为 99%,但这对于实际情况并无多少作用,我们希望模型可以尽可能多的正确预测出肺部感染类。混淆矩阵对于描述稀有对象类别出现次数和模型正确预测稀有对象类别的次数时非常有用。因此,要正确评估不平衡数据集的性能应使用与混淆矩阵相关的指标。经典的混淆矩阵如下所示:
预测值
真实值 0 1
0 TN FP
1 FN TP
针对肺部感染任务,在混淆矩阵中,我们可以使用 0 代表没有感染,1 代表感染。
接下来,我们介绍如何在训练过程中提高不平衡数据集模型性能。通常,损失函数(二元或分类交叉熵)在错误分类量较高时具有较大损失值,但是,除了损失函数外,我们还可以为稀有类别图像分配更高的权重,从而确保向模型明确我们想要正确分类稀有类别图像,在模型训练过程中,损失函数会更关注少数类别的正确分类,从而提高模型对少数类别的识别能力。
除了分配类别权重外,图像增强/迁移学习同样有助于提高模型的准确性。此外,在增强图像时,我们可以对稀有类别图像进行过采样,通过减少多数类样本(欠采样)或增加少数类样本(过采样&