Adversarial attacks and defenses on AI in medical imaging informatics: A survey----《AI在医学影像信息学中的对抗性攻击与防御:综述》
背景: 之前的研究表明,人们对医疗DNN及其易受对抗性攻击的脆弱性一直存在疑虑。
摘要:
近年来,医学图像显着改善并促进了多种任务的诊断,包括肺部疾病分类、结节检测、脑肿瘤分割和身体器官识别。另一方面,机器学习(ML)技术,特别是深度学习网络(DNN)在各个领域的卓越性能导致了深度学习方法在医学图像分类和分割中的应用。由于涉及安全和重要问题,医疗保健系统被认为非常具有挑战性,其性能准确性非常重要。之前的研究表明,人们对医疗 DNN 及其易受对抗性攻击的脆弱性一直存在疑虑。尽管已经提出了各种防御方法,但医学深度学习方法的应用仍然存在担忧。这是由于一些医学成像的弱点,例如与各种高质量的自然图像数据集相比,缺乏足够数量的高质量图像和标记数据。本文回顾了最近提出的针对医学成像 DNN 的对抗性攻击方法以及针对这些攻击的防御技术。它还讨论了这些方法的不同方面,并为提高神经网络的鲁棒性提供了未来的方向。
引言:
医学影像通过对人体器官、细胞和病理标本进行成像来诊断疾病,对医学产生了革命性的影响。医学成像信息学与从图像处理到图像存储、分析、检索和理解的所有医学成像任务相关(Bui & Taira,2009;Kulikowski,1997;Panayides 等,2020)。因此,医学影像信息学的目标是提高医疗服务的准确性、精密度、效率和可靠性。
深度神经网络(DNN)作为人工智能(AI)中最有效的方法之一,最近在医学成像领域变得尤为突出,可以改善诊断并协助医务人员加速临床任务中的决策。DNN 在许多学科的数据处理和大数据信息获取方面取得了里程碑式的成果。医学图像 DNN 的示例有多种,包括根据摄影图像对皮肤癌进行分类的早期诊断(Esteva 等人,2017 年)、根据光学相干断层扫描 (OCT) 图像对糖尿病视网膜病变进行分类(Kermany 等人,2018 年)、根据图像进行肺炎检测胸部 X 光检查(Kermany 等,2018),以及 CT 图像的结节分割(Qin、Zheng、Huang、Yang 和 Zhu,2019)。分析表明,医疗 DNN 已表现出接近人类的性能,其诊断效果与专业医务人员相当(Liu 等,2019)。
学习系统非常便宜,准确度高,效果显着,可与标准临床实践相媲美,并且已获得美国食品和药物管理局 (FDA) 的批准。然而,医学 DNN 的安全性和可靠性对科学家来说非常重要。最近对医学成像分类和分割任务的研究表明,即使是最先进的 DNN 也很容易受到对抗性攻击。与以自然图像作为输入的 DNN 相比,医学成像 DNN 更容易受到攻击(Ma 等人,2021 年)。这些漏洞允许图像样本中出现人眼无法察觉的小扰动,从而过度影响 DNN 的性能。这些有害的对手已成为医学深度学习系统中最重要的挑战之一。为了生成对抗性攻击,人们提出了各种方法,例如快速梯度符号法(FGSM)(Goodfellow、Shlens 和 Szegedy,2014 年)及其更强的变体,例如投影梯度下降法(PGD)(Madry、Makelov、Schmidt、Tsipras、 & Vladu,2017),以及 Carlini 和 Wagner (C&W) 方法(Carlini & Wagner,2017)。在 Finlayson、Chung、Kohane 和 Beam(2018)中,作者解释了攻击医学学习系统的不同动机主要源于金钱问题,而医生和护理人员的工资是美国最昂贵的服务之一(Papanicolas、Woskie 和 Jha, 2018)。因此,医学 DNN 不能取代医生和医学专家。由于医学图像特征和少量注释数据,即使有人类专家(即工程师、医生和放射科医生)在场,这些神经网络也被证明易于快速更新和改进对抗性示例。
为了防御对抗性攻击,人们提出了各种缓解和检测技术。最流行的方法之一是基于对抗性训练的方法。该方法将对抗性样本增加到训练数据集中,并提高神经网络对抗对抗性攻击的鲁棒性。尽管防御方法和前面提到的对抗性攻击很有效,但所有这些方法在使用自然图像数据集(即 CIFAR-10)的 DNN 上都表现出了比医学 DNN 更好的性能。事实证明,缺乏足够数量的高质量图像和标记数据是造成这些弱点的主要原因之一。
基于深度学习的医学图像分析
根据 DNN 在计算机视觉和高质量注释医学图像各个领域的发展和成功,基于深度学习 (DL) 的医学图像分析显着提高了医疗决策支持系统的精度。这些智能系统扮演计算机辅助诊断系统的角色,可以提供对内在疾病过程的评估,例如许多疾病进展,如阿尔茨海默病和不同类型的癌症。最近,卷积神经网络(CNN)由于其出色的性能以及与 GPU 的结合能力,在医学成像系统中得到了积极的应用(Greenspan, Ginneken, & Summers, 2016;Havaei, Guizard, Larochelle, & Jodoin, 2016) 。CNN 使用卷积层从输入数据中自动提取特征,并提供癌症诊断等分类和脑肿瘤分割等分割任务(Casamitjana, Puch, Aduriz, & Vilaplana, 2016;Hwang & Park, 2017;Litjens, et al, 2017 )。医学影像研究界已使用不同类型的 CNN,例如 ResNet(He、Zhang、Ren 和 Sun,2015)、GoogLeNet(Inception V1-V4)(Szegedy、Ioffe、Vanhoucke 和 Alemi,2017; Szegedy 等人,2015 年;Szegedy、Vanhoucke、Ioffe、Shlens 和 Wojna,2016 年)、VGG(Simonyan 和 Zisserman,2014 年)、YOLO(Redmon 和 Farhadi,2017 年)、DenseNet(Huang、Liu、Maaten 和 Weinberger, 2017)和 UNet(Ronneberger、Fischer 和 Brox,2015)。然而,这些基于 DNN 的医疗系统存在一些局限性,主要源于训练数据集较小或不完整。手动注释医学图像需要大量的时间、成本和医学专家。此外,这些图像也是模糊的,并且即使在专家医师中,对它们的注释也绝对是主观的并且变化很大。这种数据稀缺将导致过度拟合问题和泛化问题。
分类
CNN 提供了通过分类程序自动从输入图像中提取特征和进行疾病诊断的可能性(Kleesiek 等人,2016 年;Nie、Zhang、Adeli、Liu 和 Shen,2016 年),并取得了出色的性能。分类已用于各种医学问题,包括基于计算机断层扫描 (CT) 图像的基于 CNN 的肺部疾病分类方法(Anthimopoulos、Christodoulidis、Ebner、Christe 和 Mougiakakou,2016 年)和胸部 X 光检查中的肺结节(Lo, Lou, Lin, Freedman, Chien, & Mun, 1995;Shen, Zhou, Yang, Yang, & Tian, 2015),黑色素瘤分类 (Haenssle, et al, 2018),以及糖尿病视网膜病变检测 (Abràmoff, Lavin, Birch, Shah) ,&民间,2018)。大多数医学分类任务都是通过使用 ImageNet 微调先前训练的网络来完成的。Shin 等人 (2016) 首次将在自然图像上训练过的 CNN 模型应用于医学分类任务,并表明可以实现高度准确的性能。预训练神经网络的优越性也在不同的研究中得到了证明(McKinney, et al, 2020; Tajbakhsh, et al, 2016)。
分割
自从基于 CNN 的医学分类首次取得成功以及 AlexNet、UNet、玻尔兹曼机和自动编码器的革命性成果以来,基于深度学习的病理学身体器官分割已经显示出突出的突破。分割过程根据预定义的标准(包括固有颜色、纹理和对比度)将输入图像划分为单独的部分(Qayyum、Qadir、Bilal 和 Al-Fuqaha,2020)。虽然获得密集预测是从分类神经网络开始的,,但由于一些局限性,针对分割方法的特定神经网络已经被设计和发布,如2D和3D UNet (Ronneberger et al ., 2015),这是近年来医学图像分割的最佳架构之一。UNet 是一个编码器-编码器神经网络,包含从编码层到解码层的跳跃连接。这些连接使得使用少量训练数据训练具有高精度分割性能的神经网络成为可能。通常,基于CNN的医学图像分割被用于临床参数异常的定量分析,例如测量脑肿瘤、皮肤癌和腹部器官疾病的形状和体积,从而早期诊断这些异常并预防其发生。进展(Hesamian、Jia、He 和 Kennedy,2019)。
对抗性攻击
在传统的机器学习系统中,对抗性示例是经过操纵和准备的输入,迫使系统做出错误的分类并给语义分割带来困难。这种类型的攻击会在垃圾邮件过滤器、入侵检测系统和生物特征认证(即演示攻击)等各个领域引起问题,已经讨论了几十年。该问题首先由 Dalvi、Domingos、Sanghai 和 Verma (2004) 提出,并由 Szegedy 等人 (2013) 和 Goodfellow 等人(2014)在深度计算机视觉系统的背景下进行了更新。如图 1 所示,攻击者通过制作这些示例的主要目标是极大地影响系统性能,而扰动是人眼无法察觉的。对抗性攻击历史的概述可以在 Yuan、He、Zhu 和 Li (2019) 中找到。
对手知识
黑盒
在这些攻击中,假设攻击者对训练模型、训练数据集、模型参数以及任何超出普通用户可访问的信息一无所知。众所周知,黑盒攻击是一项艰巨的任务,在攻击在线ML服务时很常见。
白盒
当攻击者对训练模型、网络结构、训练数据、超参数、权重以及网络训练器服务已知的任何信息都有完整的信息和可访问性时。大多数对抗性示例是通过对模型的白盒访问生成的,其中许多是通过计算模型梯度生成的(Yuan et al, 2019)。
生成对抗性示例的方法
基于梯度的对抗样例是生成对抗样例最常用的攻击方法。他们的主要目标是产生最小的扰动量来对原始输入图像进行误分类。对于一个训练模型𝐻,通过求解一个优化问题,可以为输出标签为y的原始输入图像x生成一个对抗示例x*,使得H(x*)=y≠y=H(x)。因此,此优化在愚弄模型𝐻的同时最小化了x= x + e中的扰动量。Szegedy等(2013)首次引入了L-BFGS攻击模型。对于一个输入图像x,他们的方法找到一个不同的图像x*,它在L2距离下与x相似,但它被分类器标记为不同。他们将此问题视为约束最小化问题,并使用二分搜索来查找重要参数。由于L-BGFS方法耗时且不实用,Goodfellow等(2014)提出了另一种生成对抗样例的方法,称为快速梯度符号法(fast gradient sign method, FGSM)。该模型针对𝐿∞距离度量进行了优化,其次,设计得更快,而不是产生非常接近的对抗性示例。Papernot, McDaniel, Jha, Fredrikson, Celik, and Swami(2016)提出了在𝐿0距离下优化的另一种攻击,称为基于雅可比的显著性地图攻击(JSMA)。计算给定样本的雅可比矩阵,可以对每个像素对分类结果的影响进行建模。通过显著性图,最重要的像素被挑选出来,并将被修改以增加特定类别的可能性。Carlini和Wagner(2017)修改了JSMA方法并设计了对大多数对抗性检测防御方法有效的C&W攻击。为了找到干净输入与对抗示例的决策边界之间的最接近距离,Moosavi-Dezfooli, Fawzi, and Frossard(2016)提出了DeepFool攻击模型。DeepFool是一个针对𝐿2距离度量进行优化的非目标攻击模型。它比L-BFGS更有效,并产生更接近的对抗性示例。使用这种方法,Moosavi-Dezfooli, Fawzi, Fawzi, and Frossard(2017)引入了另一种称为普遍摄动(UP)的方法,通过这种方法可以欺骗一组图像。结果表明,该方法可以有效地推广到ResNet和VGG等流行的深度神经网络体系结构中。此外,DNN的可转移性是攻击者之间的主要挑战之一。可转移性是指对手利用不同模型生成的对抗性示例攻击新模型的能力。在这方面,Liu, Chen, Liu, and Song(2016)提出了一种基于模型的针对目标对抗性示例的集成攻击,因为已经证明在深度模型上转移目标攻击比非目标对抗性攻击更难。通过基于模型的集成攻击,可以生成可转移的对抗示例来攻击黑盒模型。上述攻击是产生对抗性攻击的最重要方法。
对医学学习算法的攻击
最近的研究表明,即使是最先进的深度神经网络在分类、医学成像分割和回归任务上也很容易受到对抗性攻击。
分类
现有的深度学习模型的评估主要是泛化和过拟合,但对模型的敏感性和对输入变化的脆弱性的研究不够深入。Paschali, Conjeti, Navarro和Navab(2018)首次挑战了深度学习网络在医学成像中的稳健性,并通过使用对抗性示例调查了这些最先进的网络漏洞。他们还利用这些对抗性示例在干净、噪声失真和对抗性精心制作的数据上对模型性能进行基准测试。核心思想是,在评估模型时应同时考虑可泛化性和鲁棒性评估。为此,作者比较了各种架构,如Inception V3 (IV3)、Inception V4 (IV4)和MobileNet (MN) (Howard等人,2017)用于皮肤病变分类和UNet用于全脑分割。FGSM, DeepFool (DF) (moosavii - dezfooli等人,2016)和显著性地图攻击(SMA) (Papernot等人,2016)分类和密集对抗生成(DAG)方法(Xie, Wang, Zhang, Zhou, Xie, & Yuille, 2017)具有不同程度的扰动和语义分割难度的方法已被用于制作对抗示例。首先,对于分类任务,可以推断出噪声失真的图像被分类为接近干净图像,而对抗性示例被进一步推向其他类别。实际上,添加高斯噪声只会降低分类置信度,而几乎所有对抗样本都以高置信度被错误分类。因此,对抗性示例比噪声测试图像更适合模型鲁棒性评估。此外,他们观察到,对于在干净数据上具有可比性能的模型(IV4 和 MN),当受到 FGSM 攻击时,当受到FGSM攻击时,底层数据流形的显著差异导致精度、灵敏度和鲁棒性的相反趋势。最后,他们得出结论,尽管在应用不同的攻击时准确性存在差异,但IV4是首选,因为它具有可比较的通用性和鲁棒性。因此,模型深度似乎增加了分类模型的鲁棒性。对于分割,他们的目的是评估跳跃连接在鲁棒性中的重要性。结果表明,DenseNet是其中最强的模型。因此,我们推导出密集块和跳跃连接可以提高分割任务的泛化性和鲁棒性。
除了Paschali等人(2018)获得的技术成果外,对抗性攻击的高效性能引发了对医疗DNN的安全担忧。在Finlayson等人(2018)进行的更广泛的努力中,他们试图展示和宣布医疗DNN模型中可能存在的漏洞。作者概述了针对医疗神经网络的欺诈动机以及这些攻击可以实现的方式。据解释,庞大的医疗保健经济以及学习算法在不久的将来在医疗报销决策以及药品和设备审批中的作用是欺诈的最重要刺激因素。此外,他们试图证明深度神经网络容易受到黑盒和白盒对抗性攻击。应用基于梯度的攻击(PGD)和三个基线模型的初始补丁攻击对视网膜眼底镜下的糖尿病视网膜病变、胸片上的气胸和皮肤镜照片上的黑色素瘤进行分类。结果表明,无论攻击者访问网络的数量如何,即使在最先进的医疗分类器(ResNet-50模型)中,这两种类型的攻击都可能是可行的、人类难以察觉的,并且是成功的。
现在一个重要的问题是,医学DNN模型与自然图像模型相比,是否具有不同程度的鲁棒性。如果是这样,这种差异从何而来?在一项杰出的研究中,Ma等人(2021)试图回答这些问题。他们首次提供了对医学图像对抗性攻击的全面理解。FGSM、基本迭代方法 (BIM)(Kurakin、Goodfellow 和 Bengio,2016 年)、PGD 和 C&W 对 Finlayson 等人(2018 年)中相同医疗领域的攻击(即眼底镜检查、胸部 X 射线和皮肤镜检查),应用了 2 类和多类数据集。如图 2 所示,作者还说明了正常示例和对抗示例的热力图中 DNN 的集中度。他们表明,在2类数据集分类中,与自然图像(如CIFAR-10和ImageNet中的图像)相比,在少量扰动(e < 1.0/255)的情况下,医学DNN更容易受到攻击,而自然图像需要e > 8.0/255的扰动才能成功攻击。通过增加数据集中的类别,网络更容易受到对抗性攻击。作者还提到了两个原因来解释这种对抗性攻击的高度脆弱性,包括医学图像的复杂生物纹理和最先进的DNN,后者对于医学成像任务可能被过度参数化。
为了对深度学习方法进行全面的脆弱性分析,以将胸部X光图像分类为各种疾病类别,Taghanaki,Das和Hamarneh(2018)广泛分析了其中两个深神经网络,当受到10种不同的对抗性攻击时。与之前基于单一梯度攻击的方法不同,作者对Inrupt-ResNetv2(Szegedy等人,2017)和Nasnet-Large(Zoph,Vasudean,Shens,&Le,2018)应用了各种基于梯度、基于分数和基于决策的攻击模型,以评估它们在胸部X光图像上的性能。他们发现,基于梯度的攻击在愚弄机器和人类方面最成功在白盒情况下,而基于分数和基于决策的攻击很容易被人眼察觉,在白盒情况下不成功,在黑盒情况下部分成功。这可能是基于梯度的攻击(如FGSM)更倾向于评估网络漏洞的原因。此外,已有研究表明,平均池化算法能够捕获更多的全局特征,与最大池化算法相比,这些特征使神经网络对攻击具有更强的鲁棒性。因此,这两种最先进的结构Inrupt-ResNetv2和Nasnet-Large都被证明对基于梯度的攻击没有恢复力,区别在于池化方法。
为了进一步评估CNN的漏洞,Yilmaz(2020)首次研究了乳房x线图像分类器对抗对抗性攻击的安全漏洞。作者使用结构相似度指数法(SSIM)(即一种基于感知的模型,用于测量两幅图像之间的相似度)分析了良性和恶意图像之间的相似度,并将FGSM攻击应用于训练好的CNN。他还研究了不同扰动系数对原始图像的影响。生成的对抗性样本已被证明会误导模型做出错误的预测。通过增加扰动系数,CNN的准确性降低到35%以下,这是提高放射科医生和医生意识的一个警告。
在之前的所有研究中,对抗性攻击都是依赖于输入的,这意味着对每个图像的错误分类都使用特定的对抗性扰动。此外,大多数对抗性攻击都很难实现,并且需要很高的计算成本。最近,引入了具有图像不可知扰动的更真实和更强的攻击(Moosavi-Dezbulli等人,2017),称为普遍对抗性扰动(UAP)。在该方法中,使用简单的迭代算法,通过诸如FGSM之类的对抗性方法对输入图像添加小扰动。这些新发明的攻击更容易被对手应用,也很难被发现。为了评估DNN对UAP的脆弱性,Hirano、Minagi和Takemoto(2021)引入了一种单扰动UAP来诱导分类网络的性能下降。作者专注于皮肤癌症、糖尿病视网膜病变和基于DNN的肺炎医学图像分类任务。他们表明,对手可以更容易、更低成本地通过小型UAP攻击欺骗DNN。这些类型的攻击是人眼察觉不到的,近似结构独立,并且具有攻击DNN的通用特征。目标和非目标UAP的攻击成功率均大于80%。此外,对抗性训练作为一种防御方法已被证明仅限于非目标攻击,而且最近的大多数防御方法都失败了。因此,减轻医用DNN上的UAP似乎很困难。
由于胸部x光图像显示各种类型的疾病,因此深度学习网络的自动诊断一直是医生和放射科医生的极大兴趣。因此,这些模型的安全性被认为是一项至关重要的任务。Rao等(2020)研究了胸部x射线中胸腔疾病分类的不同攻击和防御类型。在本次对比研究中,作者采用了FGSM、PGD、MIFGSM、DAA、DII-FGSM五种攻击类型。他们通过攻击单个模型和集成模型进行了实验,并比较了DNN在不同对手面前的表现。对于单个模型,研究表明,FGSM的曲线下面积(即AUC是一个从0到1的攻击评价指标)在白盒攻击和黑盒攻击中比其他模型获得了最高的值,并且FGSM在大多数情况下都优于其他模型。对于集成模型,FGSM也显示出最高的AUC。此外,过多的噪声会削弱对抗样本的可转移性,降低黑盒攻击的成功率。
最近,深度学习算法已成功用于从医疗物联网设备获取的数据中诊断COVID-19患者。这些设备提供CT扫描或X射线图像、热像仪和面部检测输出。现有研究表明,用于COVID-19预测的深度学习网络容易受到对抗性攻击。Rahman, Hossain, Alrajeh和Alsolami(2020)首次研究了这些类型的深度学习网络的对抗性扰动。他们研究了用于诊断新冠肺炎的六种不同的深度学习应用,并提出了多种模式的AE,用于不同的新冠肺炎诊断系统。作者考虑了白盒、灰盒和黑盒攻击,包括FGSM、Deepfool、C&W和其他六种攻击类型,在不同内核大小(即1,30,300)的ResNet-101和其他最先进模型结构上进行比较。结果表明,在没有防御方法的情况下,这些深度学习网络容易受到各种类型的攻击,如训练和测试数据中毒、模型窃取和规避。
Gongye等人(2020)也研究了对抗性攻击作为主动攻击对深度学习算法的影响,该算法用于从胸部x线图像中诊断COVID-19。他们尝试了PGD和FGSM攻击,并表明通过人眼无法察觉的FGSM,与干净的基线模型相比,神经网络的有效精度降低了约93%。PGD攻击使准确率下降得更多(94.7%),并被证明是非常成功的。
另一方面,除了对手之外,医学成像中还有其他 AE 出现方式,这些方式在文献中并没有引起太多的关注。Vatian 等人 (2019) 讨论了由于高科技医学图像形成过程中固有的噪声而导致 AE 出现的可能性。作者将UNet和区域建议(RPN)与肺部图像数据库和包含神经胶质瘤患者临床数据的脑MRI数据集相结合。结果表明,在所有实验中,有相当大一部分图像没有被CNN正确识别。因此,利用CNN对高科技图像进行分类时出现AE的概率是由于图像形成方法中固有的噪声而产生的。他们还提出了一种有效的防御方法,将在第 5 节中进行解释。
正如我们上面提到的,有时生成对抗性示例是现实世界噪声或医学图像的模糊特征的结果。此类错误预测的另一个例子是通过低质量的眼底图像发生的,而目标是诊断糖尿病视网膜病变 (DR)。这些图像质量低的主要原因是曝光不均匀。因此,Cheng等人(2020)从对抗性攻击的角度研究了这个问题,并引入了一种称为对抗性暴露攻击的新攻击。根据他们的新方法,对抗性图像是通过调整图像曝光来欺骗 DNN 来生成的。他们从一种称为基于乘法扰动的曝光攻击的方法开始,并对其进行改进,通过对抗性包围曝光融合(BEF)生成更自然的图像。后一种方法将暴露攻击视为拉普拉斯金字塔空间中的元素包围暴露融合问题。下一步,为了使攻击可转移,他们提出了卷积包围曝光融合(CBEF),其中乘法融合扩展到元素级卷积。将BEF和CBEF与六种先进的基于添加扰动的对抗性攻击作为基线方法进行了比较。结果表明,BEF 在图像质量方面优于其他方法,SSIM 为 0.97,而 CBEF 在可转移性方面优于 BEF 和基线攻击。他们通过高质量图像和显着的可转移性进行了显着成功的攻击,揭示了 DNN 在 DR 自动诊断中的严重漏洞。
分割
到目前为止,攻击分类模型一直是我们的主要关注点,而攻击分割深度学习也非常重要。生成对抗样本攻击图像分割模型比攻击分类模型更困难,这是由于一些固有的特点,如在分割中标记单个像素而不是在分类中标记整个图像,攻击成功的复杂评估以及分割模型对图像变形和图像强度变化的敏感性。因此,有必要开发不同的方法来生成能够攻击分割模型的对抗性示例。为此,Chen, Bentley等人(2019)引入了一种使用对抗性学习攻击分割CNN的新方法。他们提出混合变分自编码器(VAE)和生成对抗网络(GAN)来生成具有变形和外观变化的图像,用于攻击医学分割模型。作者将他们的新攻击方法应用于CNN模型,如UNet,用于二维CT图像的腹部器官分割。与地面真值分割相比,通过显着DICE分数(即用于评估医学成像中分割任务的常用指标)来评估攻击成功(Bertels, Eelbode, Berman, Vandermeulen, Maes, Bisschops, & Blaschko, 2019)。他们发现攻击模型导致每个器官的DICE分数下降30%。然而,攻击胰腺和肾脏的分割比攻击肝脏和脾脏要困难得多。另一方面,由于强度变化引入了阴影和伪影,分割模型对这个量更敏感。因此,如果生成的对抗样例是合理的,他们提出的模型可以用来验证CNN的鲁棒性。
分割的另一个应用是通过脑肿瘤分割模型在x射线或MRI图像上检测和定位脑肿瘤区域。这种分割算法有助于医生更快地识别异常区域,这对早期肿瘤识别至关重要。许多最先进的CNN已被开发用于脑肿瘤分割,如V-Net和U-Net, MRI图像已被证明是这些网络最有用的数据集。由于每个患者脑肿瘤的独特特征,医生和医务人员使用不同像素强度(即不同模式)的MRI图像来标记脑肿瘤。由于这些医学神经网络的安全性对患者至关重要,Cheng和Ji(2020)研究了普遍对抗性扰动对脑肿瘤分割模型和四种不同模式的影响。作者利用了MICCAI BraTS,这是U-Net模型上最大的公开可用的MRI脑肿瘤图像数据集。扰动是根据高斯分布产生的。因此,结果表明,强度分布更接近高斯分布的模态受对抗性攻击的影响更大。研究表明,当所有4种模式都受到攻击时,性能下降最严重,而如果一种模式受到攻击,性能不会受到强烈影响。
回归
除了医疗领域最常用的深度学习算法分类和分割之外,还利用回归模型,研究它们针对对手的鲁棒性对于医疗系统的安全性和可靠性很有用。在这方面,Li、Zhang 等人 (2020) 首次研究了医学图像处理中基于回归的预测在对抗对抗性攻击方面的漏洞。作者研究了对抗性攻击对 CNN 和基于 3D MRI 大脑图像预测个体年龄的混合深度学习模型的影响。他们生成对抗性示例,对扰动的幅度有 𝑙0 、 𝑙2 和 𝑙∞ 约束。事实证明,图像特定的扰动和通用对抗性扰动(可以对大量图像有效的单个扰动)对于减少深度学习年龄预测的性能都非常有效。因此,对于 DL 对对抗性扰动的鲁棒性仍然存在重大担忧,因为单个扰动可能会给预测带来显着的偏差。表 1 总结了上述攻击的详细信息。
医学学习算法攻击的防御方法
本节讨论了针对医学成像 DNN 的对抗性攻击的防御方法,并在表 2 中进行了总结。这些对策包括缓解和检测技术。
对抗性训练
对抗性训练是一种可以欺骗神经网络的攻击方法,攻击成功率非常高(Kaviani & Sohn, 2021)。Madry等人(2017)发现,使用对抗性示例训练神经网络也将使其对一阶攻击方法具有鲁棒性。PGD对抗训练是针对对抗性攻击的最成功的防御方法之一,每个时期都会产生对抗性示例,并且可以保持清洁的数据准确性。正如我们在第 4 节中所解释的,Vatian 等人 (2019) 研究了真实高科技医学图像的实例如何因其固有的噪声而生成对抗性示例。作者解释了减少这些网络中错误识别图像的三种不同方法,其中最成功的方法被认为是对抗性训练。研究表明,通过正确选择各层的激活函数(即 Bounded ReLU 而不是 ReLU),模型错误识别图像的数量将减少约 70%。此外,随着高斯噪声图像增加训练数据集,这个数字将减少约 90%。使用对抗性训练方法可以最大程度地减少约 95%。因此,可以推断,FGSM和JSM等对抗性训练技术可以在高科技医学图像分类中提供最佳的鲁棒性。
像素偏转变换和对抗训练(PDT & adv_train)
在第4节中,我们解释了Rao等人研究了不同类型的攻击对胸部X光图像上的胸部疾病的诊断。此外,作者还研究了两种类型的防御方法,包括PGD对抗训练和像素偏转变换(PDT) (Prakash, Moran, Garber, DiLillo, & Storer, 2018)。PDT 从对抗性示例中随机采样一个像素,并用从小方形邻域中选择的另一个像素替换该像素。当干净图像的平均AUC为0.87633时,使用PGD对抗训练使所有非针对性攻击的AUC保持在0.8以上。当应用 PDT 时,AUC 降至 0.68 以上,这意味着它对黑盒和白盒攻击都有鲁棒性,但在干净数据上弱于 PGD。另一方面,在他们新提出的方法中,作者将 PGD 对抗训练和 PDT 结合起来。结果表明,对于低扰动量,PGD 的 AUC 最高,但通过增加扰动大小,AUC 急剧下降,而 PDT 和 PDT & adv_train 的 AUC 保持稳定。然而,对于所有扰动量,PDT 和 adv_train 均优于 PDT。他们的结论是,现有的防御方法对于大扰动的性能较差,而他们的新方法解决了这个问题。
非本地上下文编码器 (NLCE)
He等人(2019)首次发现所有基于CNN的生物医学图像分割模型对攻击都很敏感,并引入了两个可以提高防御对抗性攻击的因素:1)全局空间依赖性和2)全局上下文信息。基于这些发现,他们建议向网络中添加一个名为非局部上下文编码器(NLCE)模块的鲁棒模块,以对空间依赖性进行建模并对全局上下文进行编码。作者还设计了一个基于特征金字塔网络 (FPN) (Lin, Dollár, Girshick, He, Hariharan, & Belongie, 2017) 和 NLCE 模块的 NLCE 网络 (NLCE-Net)。在肺部和皮肤病变分割数据集上的实验表明,NLCE-Net 是最先进的 CNN 中针对不同扰动量的对抗性攻击最稳健的方法。NLCE-Net 也实现了很高的分割精度。如图3所示,NLCE-Net与SLSDeep(即皮肤病变分割模型(Sarker等人,2018))、NWCN(Hwang&Park,2017)和UNET等神经网络进行了比较。此外,事实证明,NLCE 模块可以应用于所有其他 CNN,结果表明,具有 NLCE 模块的模型具有显着更高的准确性和鲁棒性。这种方法似乎对于对抗性攻击非常稳健,特别是当存在肺部分割模型时。
检测方法
KD、LID、Qfeat 和 Dfeat
尽管医学成像 DNN 比现实世界的 DNN 更容易受到对抗性攻击,但医学对抗性示例可以更容易地检测到。在 Ma 等人 (2021) 中,作者在医学 DNN 上应用了四种检测方法,称为核密度 (KD)(Feinman、Curtin、Shintre 和 Gardner,2017)、局部固有维数 (LID)(Ma 等人,2018) )、深度特征(DFeat)和量化特征(QFeat)(Lu、Issaranon 和 Forsyth,2017)。在 KD 中,假设对抗性示例被放置在数据子流形的更稀疏区域中,而来自同一类的干净样本被放置在数据流形上。在 LID 中,提供了对抗性示例附近的对抗性子空间的维度特征作为测量。他们应用了 FGSM、PGD、BIM 和 C&W 四种攻击方法来生成对抗性示例。结果表明,所有4种检测方法都提供了非常鲁棒的性能,而KD对三个研究数据集的所有攻击的AUC最高达到99%。另一方面,这些检测方法对真实世界图像的AUC小于80%。为了回答为什么医学对抗样本更容易被检测到,他们声称医学图像的对抗特征与正常特征几乎是线性可分的,而在真实图像中,这两种类型的特征非常相似。他们通过可视化对抗性和正常特征的t-SNE 2D嵌入来证明他们的说法(图4)。虽然性能相当高,但由于他们的方法依赖于估计对抗性示例的密度,因此该方法的有效性仅限于某些类型的流行攻击。
无监督异常检测
在Li和Zhu(2020)的另一项研究中,为了检测对医学图像的对抗性攻击,作者提出了一种无监督学习方法。作者声称,他们的新方法可以作为一个单独的模块用于任何基于深度学习的医学成像系统,并提高网络的鲁棒性。首先,学习检测模块,用干净的图像训练CNN分类器提取高级特征。当将新图像插入训练好的CNN分类器时,特征将被提取作为检测模块的输入,如果它是对手,将被检测并停止进入分类层。作者特别使用单模态多元高斯模型(MGM)作为检测器。由于该方法基于无监督学习,因此可以应用于各种对抗性攻击。为了评估他们的方法,将其用于黑盒和白盒情况下的四种攻击,包括FGSM, PGD, MIM (Dong, et al ., 2018)和BIM攻击,并与孤立森林(ISO) (Wang, Peng, Lu, Lu, Bagheri, & Summers, 2017)和x射线图像分类器上的一类支持向量机(OCSVM) (ISIC, 2019)检测技术进行比较。结果表明,尽管在黑盒和白盒设置下,所有检测方法都表现出对攻击的鲁棒性,但MGM具有由ROC(AUROC)曲线值下的最高区域识别的最佳性能(即,基于类别概率确定分类决策的最佳值割集)。他们的方法中有趣的一点是,这种鲁棒性是在CNN的架构不被攻击者识别的情况下实现的。此外,在该方法中,与之前的大多数方法相比,神经网络在干净和对抗样本混合情况下的性能高于在干净数据集上的分类器,原因是检测模块可以检测对抗性示例和那些可能对图像分类造成问题的干净样本。
半监督对抗训练和无监督对抗检测(SSAT & UAD)
Li、Pan和Zhu(2020)提出了一种混合方法,提出了基于半监督对抗训练和无监督对抗检测的鲁棒医学成像AI框架,以及一种新发明的系统对抗风险度量。他们的方法基于检测对抗性样本的两个重要挑战,即在医学任务中具有少量标记图像,以及针对未见过的新攻击的低效检测方法。在此方法中,标记和未标记数据均已用于 SSAT 以提高鲁棒性。他们还根据分类情况提出了一种新的对抗性风险度量,并被 UAD 接受或拒绝。他们使用 OCT 成像数据集评估了他们的方法,并将其与其他防御方法进行了比较,例如自然训练(Chen,Liang 等,2019)和在受到 FGSM、PGD 和 C&W 攻击时使用交叉熵损失的对抗训练。他们表明,SSAT 方法可以显着优于其他防御方法,同时与干净的数据分类相比保持相似或更好的精度,并且 UAD 可以正确过滤掉大量 OOD 对抗样本。根据他们新的对抗风险衡量标准,针对弱攻击的 SSAT 产生了较低的对抗风险。另一方面,对于更强的攻击,通过添加 UAD 可以大大降低对抗风险。这种方法似乎提供了一个强大的模型,可以抵御具有少量标记医疗数据集的强烈异构攻击。
讨论
即使对于最先进的 DNN,对抗性攻击也显示出巨大的可行性,无论攻击者对模型的可访问性和人眼可感知程度如何。与计算机视觉的其他领域相比,医学 DNN 对于对抗性攻击非常脆弱。具有有限扰动的对抗性样本可能会欺骗最先进的医疗系统,这些系统在干净的数据上表现出出色的性能。之前的研究人员试图回答的主要问题之一是,是什么让这些医疗 DNN 在对抗对抗性攻击方面表现得非常薄弱?是什么让它们变得强大?
医学图像学习漏洞
标签稀缺。 由于隐私问题以及没有普遍共享的医疗数据共享机制等重要原因,与现实世界图像相比,用于训练医学 DNN 的医学图像数据集非常罕见。另一个原因是,为医学图像分配标签是一项非常耗时和耗力的任务,而大多数时候,即使对于医生和放射科医生来说,医学数据集中的真实图像也是模糊且有争议的。因此,由于缺乏足够的数据量,医疗 DNN 中会出现记忆和过度拟合,这会严重影响泛化性并使网络容易受到对抗性攻击。
图像特征。 医学图像学习网络中易受对抗性攻击的最重要来源之一是用于训练神经网络的医学图像的独特特征。下面列出了其中一些威胁安全的项目。
- 医学图像中前景和背景的相似性使得网络很难学习干净样本和对抗性样本分类的区分特征。这是由于高度标准化的图像、良好的曝光度和高质量。这也将消除攻击者改变攻击标准和参数的需要,因为所有图像都具有相似的特征,例如每个身体器官的照明和位置状态。这可能会使成像人工智能系统更容易受到扰动量较小的简单攻击。
- 视网膜眼底图像中的相机曝光效应已被证明有可能使良性图像类似于对抗性样本。这些扰动误导了具有显著高可转移性的DNN。虽然它还没有得到确切的证实,但它揭示了基于DNN的医学成像系统的潜在威胁。
- 尽管有研究表明,有噪声的数据对网络的影响不如对抗性样本,但高科技医学图像的固有噪声将对基于人工智能的预测构成严重威胁。这些噪声在不同的设备(如CT和MRI图像)中,根据不同的设备参数、患者参数和实验参数,表现出复杂的行为。当使用神经网络进行分析时,这些噪声已被证明可以起到AE 的作用。
- 事实证明,即使是很小的图像强度变化也可以被视为对分割 CNN 的对抗性攻击。这使得攻击者有机会设计可以欺骗分割模型的特定攻击。结果表明,即使变形也不会对 CNN 性能产生类似的影响。
- 在医学图像中,由于其复杂的纹理,DNN可能会更多地关注图像中对于分类或诊断不重要的区域。因此,与现实世界图像相比,医学图像的固有特征使其更容易受到对抗性攻击(Ma,et al,2021)。
缺乏多样性。 正如我们之前提到的,用于训练医学神经网络的标记医学图像共享量不足。在几乎所有具有相同架构的医学计算机视觉任务之间,也存在数量有限的相似学习模型。因此,缺乏流行的架构和数据集多样性使得神经网络的安全更容易受到威胁,因为设计通用或可转移的对抗性攻击使得它可以直接攻击任何医疗系统。
最新DNNs。 高效的深度神经网络基本上是为大规模的现实世界图像分析而设计的。因此,这将导致神经网络变得过度参数化,从而影响泛化,从而使神经网络更容易受到对抗性攻击。
分割与分类模型。由于这些原因,与分类模型相比,分割方法更容易受到攻击。首先,在语义分割中,每个像素都有一个标签,而在分类中,整个图像只有一个特定的标签。其次,在分割模型中评估攻击成功率不是直截了当的。第三,图像强度的微小变化很容易欺骗分割图像。第四,这些模型通常没有高质量的图像样本,导致过拟合。尽管存在这些事实,但对于分割模型对抗对抗性攻击的安全性还没有一个坚实的研究。
攻击可转移性和普遍性
可转移性和普遍性是导致DNN错误分类风险更高的更有效攻击的两个重要因素。之前的几项研究都集中在网络针对简单的正常对抗性攻击的脆弱性上。这些攻击在特定的 DNN 模型中的应用有限,并且可以通过最近发明的防御方法来检测。最近,计算机视觉领域的研究人员面临的主要挑战是设计与模型和图像无关的对抗性攻击,并且可以用于几乎所有医学学习任务。它们是更现实的高风险攻击,可能导致 DNN 性能失败。此外,针对通用攻击的防御方法和检测技术仍处于初级阶段,尽管DNN对对抗性样本的脆弱性提醒针对通用攻击的新防御策略的研究,因为这些攻击更容易以更低的成本欺骗DNN。在以往的研究中,评估可转移性是一项重要的指标,它决定了模型在黑箱状态下对其他模型的攻击潜力。根据 Cheng 等人 (2020) 的说法,具有高可转移性的攻击应该牺牲对抗性图像质量,同时保持攻击成功率足够高 (100%)。然而,应用无监督学习已被证明对提高网络可转移性是有用的。因此,攻击的可转移性和普遍性似乎是这一领域研究人员关注的两个重要问题和挑战。
防御方法不足
尽管大多数防御方法都通过不同的方法提高了医学学习模型的稳健性,但使用计算机视觉方法代替人类仍然存在很大的担忧。下面列出了最近防御方法的一些缺点。
-
1、尽管某些针对特定模型和数据集的检测方法甚至可以提高系统在干净数据上的性能,但在大多数先前提出的防御技术中,性能可能会受到高度报道的准确性和鲁棒性之间的权衡的影响。
-
2、考虑到最近发明的攻击对具有各种数据集和不同任务的所有 DNN 模型都有效,因此对于保护医疗系统免受强大的普遍扰动的研究还不够。虽然以前的防御方法大多局限于某些类型的攻击,但UAP和可转移的看不见的攻击将对医疗系统构成严重威胁。
-
3、尽管对抗性训练一直是对抗对抗性攻击最强大的防御方法之一,但它在处理医疗系统时存在一些局限性。在该方法中,训练数据集通过对抗性图像进行增强,而大量的医学图像数据会显着影响分类准确性。问题是DNN 基本上是为现实世界的图像设计的,它们需要大量的标记数据,而医学数据集通常只有少量的数据。
DNN 鲁棒性的有效参数
根据研究的论文,我们可以推断,可以调整一些重要因素来提高网络针对对抗性攻击的鲁棒性。这些影响因素可能与图像特征、DNN 或数据集的结构特性以及学习算法有关:
-
1、全局空间依赖性:事实证明,全局空间依赖性对于防御分割模型中的对手至关重要。在分割模型的图像中捕获这个量意味着找到整个图像中影响单个像素预测的所有高度相关的像素。换句话说,给像素赋予错误的标签会导致错误损失通过反向传播传播到所有相关像素。不幸的是,即使是流行的 CNN 也无法捕获远程依赖关系,尽管堆叠卷积运算可以捕获远程依赖关系,但会导致梯度消失(He et al, 2019)。
-
2、全局上下文信息:这个量是医学分割模型中的另一个重要参数,由于人体结构是对称且稳定的,因此可以提高网络的鲁棒性。因此,必须将相同数量的扰动插入到几何相关的器官中,从而增强扰动。大多数已知的 CNN 不使用此参数。
-
3、扰动度:对于攻击者来说,如何在图像中插入足够量的扰动,从而以高攻击成功率欺骗神经网络,同时图像质量不会受到人眼可感知的影响,一直是攻击者面临的挑战。因此,扰动量较低时,攻击成功的可能性较小。然而,事实证明,医学成像 DNN 甚至很容易受到极少量的扰动(Ma 等人,2021 年)。此外,在Chen, Bentley等人(2019)中,作者得出结论,分割模型相比图像变形更容易受到强度变化的影响。
-
4、将对抗性训练与其他方法相结合:尽管由于数据集较小,对抗性训练本身在防御医学 DNN
方面存在一些缺点,正如之前的防御方法中所见,但可以通过添加其他方法(例如像素偏转变换)对其进行修改并变得更加有效(Rao 等人,2020)并使用半监督或无监督训练(Li,Pan,et al,2020)。这种组合使对抗性训练成为增强网络鲁棒性的强大工具。 -
5、分割中扰动和模态强度分布的非相似性:Cheng和Ji(2020)指出,在MRI图像模态中,那些与扰动分布更相似的图像模态更容易受到对抗性攻击。因此,在了解了对手中更受欢迎的扰动后,可以以降低受攻击影响的概率的方式选择图像强度分布。
-
6、更多标记数据:一方面,通过增加专家正确注释数据的数量,DNN不太容易过度拟合,因此对对抗性攻击更加稳健。另一方面,对抗性训练作为一种防御手段可以更有效地增强网络的安全性。
-
7、网络参数、结构和算法:除了讨论的有效鲁棒性参数(主要与输入图像和对手技术的质量有关)之外,神经网络特性和学习算法也会影响DNN对抗对抗性攻击的性能。例如,根据Taghanaki等人(2018)的研究,修改分类DNN中的池化操作会影响神经网络的鲁棒性。研究表明,与最大池化相比,平均池化捕获了更多的全局特征,使网络对攻击更加健壮。另一方面,在Vatian等(2019)中,改变激活函数提高了CNN正确识别图像的数量。因此,网络参数在抵御对抗性攻击方面似乎也至关重要。
未来的发展方向
对抗性攻击已被证明在评估深度学习网络脆弱性方面发挥着至关重要的作用。因此,改进这些攻击可能有助于科学家修复这些缺陷,并为更有效、更安全的医学学习系统制定计划。按照最近的趋势,在不久的将来,攻击方法的可转移性和扰动的可见性虽然会强烈影响网络的预测,但仍然是主要挑战。此外,还将考虑更多针对分割模型的攻击策略和破坏其弹性。另一方面,为了提供更可靠的医学学习系统,必须保持不同的方法来轻松生成医学注释图像和生成更大的数据集。另一种降低网络脆弱性的方法是改变神经网络的结构,目前还没有研究。在最近的一篇论文(Kaviani & Sohn,2020)中,提出了一种针对后门攻击的缓解技术(Kaviani & Sohn,2021),其中感知器的全连接层被更改为无标度连接。结果表明,神经网络针对后门对手的鲁棒性有了显着提高。未来也必须研究此类结构修改以及无标度连接对 DNN 对抗对抗攻击的鲁棒性的影响。
结论
在本文中,我们回顾了最近生成对抗性示例来攻击医学成像深度学习网络的方法以及检测和减轻这些扰动的防御方法。考虑了分类和分割模型的攻击和防御,并探索了神经网络在复原力和脆弱性方面的有效参数。由于医学图像具有特定的特征,并且医学成像系统的安全性在智能疾病诊断中至关重要,因此需要进行更多的研究来提高医学DNN技术在准确性、精确性和可靠性方面的性能。