Right for the Wrong Reason: Can Interpretable ML Techniques Detect Spurious Correlations?
摘要
虽然深度神经网络模型提供了无与伦比的分类性能,但它们容易在数据中学习虚假相关性。如果测试数据与训练数据来自相同的分布,则使用性能指标很难检测这种对混淆信息的依赖性。可解释的ML方法,如事后解释或固有的可解释分类器,有望识别错误的模型推理。然而,有好坏参半的证据表明,这些技术中的许多是否真的能够做到这一点。
本文提出了一种严格的评估策略来评估解释技术正确识别虚假相关性的能力。使用这种策略,我们评估了五种事后解释技术和一种固有的可解释方法,以证明它们在胸部 X 射线诊断任务中检测三种人为添加的混杂因素的能力。我们发现,事后技术 SHAP 以及固有的可解释 Attri-Net 提供了最佳性能,可用于可靠地识别错误的模型行为。
代码地址
本文方法
我们在数据集上训练分类器,其中包含三种类型的人为添加的混杂因素,并用箭头突出显示。然后评估了解释技术正确识别对这些混杂因素的依赖的能力(如Attri-Net [24]所示)
评估策略:
假设一个设置,其中基于二元神经网络的分类器的开发数据包含与目标标签的未知虚假相关性。
为了定量研究这种设置,通过在具有正标签的病例百分比中添加混杂效应(例如医院标签)来创建具有人工虚假相关性的训练数据,其中我们改变百分比p ∈ {0, 20, 50, 80, 100}。例如,当 p = 100% 时,训练集中的所有正图像都将具有人工混杂,而当 p = 0% 时,没有杂散信号。随着 p 的增加,对杂散信号的依赖变得更加可能。带有负标签的图像保持不变。
在评估中,我们考虑了一种场景,其中测试数据包含相同的混杂类型,其比例与相应训练中使用的比例 p 相同。在这种情况下,我们无法判断分类器是否依赖于分类性能的混淆特征。因此,我们的目标是研究解释技术是否可以识别分类器出于错误的原因预测正确的事情。我们对广泛使用的CheXpert数据集的胸部X射线图像进行了所有实验,其中我们专注于心脏扩大疾病的二元分类任务。我们将数据集分为训练(80%)、验证(10%)、测试(10%)集。
研究混杂因素:
研究了三种类型的混杂因素,这些混杂因素的灵感来自现实世界的人工制品。首先,我们研究放置在图像左下角的医院标签。其次,我们在光路组件上添加了可能由异物引起的高信号的垂直线(见图1b)。最后,我们考虑图像下部图像的倾斜遮挡,这是我们在 CheXpert 数据集中观察到的许多图像的伪影
测量混杂检测的评估指标
我们提出了两个新颖的指标,它们反映了解释正确识别虚假相关性的能力
混杂敏感性 (CS):
首先,如果分类器基于混杂因素做出决定,则解释应该能够正确地归因于混杂因素。我们通过将每个测试图像的真阳性归因数除以混淆像素总数来评估此属性。如果一个像素是受混杂因素影响的像素的一部分,并且根据视觉解释,它位于前 10% 的归因像素中,则我们认为它是真正的阳性。因此,如果所有混淆像素都在属性的前 10% 中,则获得最大灵敏度 1。请注意,我们不会惩罚混淆标签之外的归因,因为这些归因仍然是正确的。为了保证我们只评估预测实际受混杂因素影响的样本,我们只包括有和没有混杂标签的预测属于相反类别的图像。为了减少计算时间,我们每次评估最多使用 100 个样本。如果数据包含 p = 0% 混淆数据点,则最佳解释方法应获得 0 的 CS 分数,因为在这种情况下,不应归因于杂散信号。为了增加p,混杂灵敏度应该增加,即解释应该反映分类器对混杂因素的依赖性增加
通过解释normalised cross correlation NCC 对预测变化的敏感性:
其次,解释不应随分类器预测的变化而变化。也就是说,如果分类器对特定图像的预测在添加或删除混杂因素时发生变化,则解释也应该不同。当混杂因素存在或不存在时,我们使用测试图像解释之间的平均归一化互相关 (NCC) 来测量这一特性。同样,我们只评估在添加混杂因素时预测发生变化的图像,因为在这些情况下,我们知道分类器依赖于混杂因素,并且我们最多评估 100 个样本。如果训练数据包含 p = 0% 混淆数据点,则最优解释方法应获得较高的 NCC 分数,因为在这种情况下,有和没有混杂因素的解释应该是相似的。为了增加 p,NCC 分数应降低,以反映分类器对混杂因素的依赖性增加
实验结果