CVPR2019 | AA | 特征空间扰动产生更具迁移性的对抗样本

Feature Space Perturbations Yield More Transferable Adversarial Examples

摘要-Abstract
引言-Introduction
相关工作-Related Work
Transferability Metrics-迁移性指标
激活攻击方法-Activation Attack Methodology
- 损失函数-Loss Function
- 攻击算法-Attack Algorithm
实验设置-Experimental Setup
实验结果-Experimental Results
- Epsilon Results
- Depth Results
- 分析-Analysis
- ImageNet Results
结论-Conclusion

论文链接

本文 “Feature Space Perturbations Yield More Transferable Adversarial Examples” 提出基于特征空间扰动的Activation Attack（AA）黑盒定向对抗攻击方法，通过驱动源图像特征向目标图像特征靠近来生成对抗样本；证明用特征空间扰动构建对抗样本具有转移性且扰动层影响转移性；在规范CNN架构上展示攻击效果，表明黑盒模型架构不影响层转移特性；为不同层产生不同转移性的原因提供证据，揭示深度学习模型中间特征表示的相似性及决策边界特征，对对抗攻击和模型可解释性研究有重要意义。

摘要-Abstract

Many recent works have shown that deep learning models are vulnerable to quasi-imperceptible input perturbations, yet practitioners cannot fully explain this behavior. This work describes a transfer-based blackbox targeted adversarial attack of deep feature space representations that also provides insights into cross-model class representations of deep CNNs. The attack is explicitly designed for transferability and drives feature space representation of a source image at layer L towards the representation of a target image at L. The attack yields highly transferable targeted examples, which outperform competition winning methods by over 30% in targeted attack metrics. We also show the choice of L to generate examples from is important, transferability characteristics are blackbox model agnostic, and indicate that well trained deep models have similar highly-abstract representations.

最近的许多研究表明，深度学习模型容易受到几乎难以察觉的输入扰动影响，然而从业者无法完全解释这种行为。这项工作描述了一种基于转移的深度特征空间表示的黑盒定向对抗攻击，该攻击还为深入理解深度卷积神经网络（CNN）的跨模型类别表示提供了见解。该攻击明确为转移性而设计，将源图像在层 $L$ 的特征空间表示推向目标图像在层 $L$ 的表示。这种攻击产生了高度可转移的定向示例，在定向攻击指标上比竞赛获奖方法高出30%以上。我们还表明，选择从哪个层 $L$ 生成示例很重要，转移性特征与黑盒模型无关，并且表明训练良好的深度模型具有相似的高度抽象表示。

引言-Introduction

该部分主要阐述了深度学习模型面临对抗攻击的现状，介绍了本文设计的黑盒定向对抗攻击方法及其依据，并说明了该研究在对抗攻击和模型可解释性方面的贡献，具体内容如下：

深度学习模型的对抗攻击现状
- 众多研究已证明深度学习算法易受对抗攻击，攻击者旨在以最小扰动对数据造成最大破坏，例如在图像数据中，通过微小且不易察觉的扰动干扰网络分类能力。
- 这些攻击引发了对深度学习模型内部机制理解的关注，因为目前人们对模型内部运作缺乏深入认识，而攻击可能成为研究模型内部机制的一种方式。
本文研究的对抗攻击方法
- 针对深度CNN模型的黑盒定向攻击是一个具有挑战性的威胁模型，攻击者仅能获取输入和输出，不了解模型权重和架构，且需指定目标类使模型误分类。
- 本文利用对抗转移性设计攻击，即对一个模型有效的对抗样本常对其他模型也有效。独特之处在于明确扰动深度模型的特征空间以生成更具转移性的对抗样本，其直觉源于训练良好模型的中间特征具有可转移性，故扰动中间特征也可能具有转移性。
- 为验证假设，设计了Activation Attack（AA），通过扰动源图像，使白盒模型中源图像在层 $L$ 的激活值向目标图像在层 $L$ 的激活值靠近，从而在特征空间产生扰动。将扰动后的图像输入黑盒模型，测试扰动特征的转移性，因为黑盒模型学习了相同特征，扰动会产生间接影响。
研究贡献
- 在对抗攻击方面，证明用特征空间扰动构建对抗样本具有转移性，且扰动层对对抗样本转移性影响显著。
- 在模型可解释性方面，表明黑盒模型架构不影响层转移特性，解释了为何某一层比其他层产生更具转移性的例子，为不同架构深度学习模型中间特征表示的相似性提供证据，揭示了训练良好模型在特征空间具有相似决策边界和类别方向。

在这里插入图片描述
图1：激活攻击的图示。假设白盒模型（ $f_w$ ）和黑盒模型（ $f_b$ ）最初的分类是正确的，该攻击将狗图像在层 $L$ 的激活值向飞机图像在层 $L$ 的激活值驱动。攻击后，狗图像的激活值与飞机图像的激活值相似，并且被扰动的图像在 $f_w$ 和 $f_b$ 中都被分类为飞机.

Transferability Metrics-迁移性指标

该部分主要定义了用于衡量攻击效果的四个指标，包括错误率、无目标转移率、目标成功率和目标转移率，具体内容如下：

评估指标定义基础
- 假设所有样本在白盒模型 $f_w$ 和黑盒模型 $f_b$ 中初始均被正确分类，攻击强度 $\epsilon = 0$ 表示无攻击，原始数据集 $D_{orig}$ 包含 $N$ 个数据/标签对，且 $f_b(x^{(i)}) = f_w(x^{(i)}) = y_{true}^{(i)}$ .
- 对于每个攻击，创建对抗数据集 $D_{adv}$ ，其中每个数据是对 $D_{orig}$ 中数据进行有针对性攻击后的对抗样本。
各指标具体定义
- 错误率（error）：攻击生成的对抗样本被黑盒模型 $f_b$ 误分类的百分比，即 $D_{adv}$ 中 $f_b(x_{adv}) ≠ y_{true}$ 的样本比例，错误率越高表示攻击越有效。
- 无目标转移率（uTR）：在白盒模型 $f_w$ 中被愚弄（预测不等于真实标签）的样本在黑盒模型 $f_b$ 中也被愚弄的比例。通过定义 $D_{uTR} \subseteq D_{adv}$ 为 $D_{adv}$ 中被 $f_w$ 误分类的元素集合， $u TR$ 计算公式为 $\frac{1}{|D_{uTR}|} \sum_{(x_{adv}, y_{true}) \in D_{uTR}} \mathbb{1}[(f_b(x_{adv})) ≠ y_{true})]$ ，其中 $\mathbb{1}$ 为指示函数，该指标反映了在白盒模型上成功的无目标对抗样本在黑盒模型上也有效的可能性。
- 目标成功率（tSuc）：由白盒模型 $f_w$ 生成的对抗样本被黑盒模型 $f_b$ 分类为目标标签的比例，即 $D_{adv}$ 中 $f_b(x_{adv}) = y_{target}$ 的样本百分比，tSuc越高表示攻击生成目标样本的有效性越高。
- 目标转移率（tTR）：在白盒模型上成功的目标对抗样本在黑盒模型上也成功的比例。定义 $D_{tTR} \subseteq D_{adv}$ （也是 $D_{uTR}$ 的子集）为 $D_{adv}$ 中被 $f_w$ 误分类为指定目标标签的元素集合，计算公式为 $\frac{1}{|D_{tTR}|} \sum_{(x_{adv}, y_{target}) \in D_{tTR}} \mathbb{1}[(f_b(x_{adv})) = y_{target})]$ ，tTR衡量了在白盒模型上观察到的成功目标样本在黑盒模型上也成功的可能性。
指标应用意义：当前目标攻击文献通常测量错误率和目标成功率，本文引入无目标转移率和目标转移率作为新指标，在攻击者希望在有限尝试次数内最大化成功机会时有用，同时尽管攻击是有针对性的，但测量无目标统计数据仍与攻击能力相关。

激活攻击方法-Activation Attack Methodology

损失函数-Loss Function

该部分主要介绍了Activation Attack（AA）的损失函数，其定义、背后的直觉、假设以及对攻击的影响，具体内容如下：

损失函数定义：AA损失函数定义为向量源图像激活值与向量目标图像激活值在某层 $L$ 的欧氏距离。设 $f_L$ 是白盒模型 $f_w$ 的截断版本，输入图像并输出层 $L$ 的激活值， $A_s^L = f_L(I_s)$ 为源图像在层 $L$ 的激活值， $A_t^L = f_L(I_t)$ 为目标图像在层 $L$ 的激活值，则损失函数 $J_{AA}(I_t, I_s)=\left\| f_L(I_t) - f_L(I_s) \right\|_2=\left\| A_t^L - A_s^L \right\|_2$ .
直觉与假设
- 对分类结果的影响：其直觉是使源图像在特征空间中更接近目标类别的图像，隐含假设是深度特征空间表示的调整对分类结果有显著影响，尽管未直接优化分类损失，但依赖特征空间扰动对分类的显著干扰这一副产品，然而由于特征空间复杂且不可解释，这一假设并非显而易见，同时假设受限的图像域扰动能使原始样本在特征空间中接近目标样本，从而落入目标类区域。
- 特征转移性假设：基于深度模型中间层特征具有可转移性，假设在特征空间的显式攻击将产生可转移的对抗样本。由于现代深度模型难以理解，无法确切知道不同模型是否学习了相似特征集，尤其是在深层和高度抽象层。该攻击假设不同深度模型的深层学习了相似特征，因此扰动一个模型的高度抽象特征会影响其他模型的相同特征，这一假设合理，因为在转移性攻击中，白盒模型和黑盒模型的数据分布相同，期望模型学习相似的层次特征集以正确建模数据，但不同模型架构不同，需通过实验找到特征最具转移性的层。
- 决策边界假设：假设用相同分布数据训练的两个不同模型学习到相似的决策边界和类别方向，这对目标攻击至关重要，因为要使转移的目标样本成功，目标类在特征空间中的区域相对于源图像的方向必须相同，即从白盒模型中源图像的特征空间表示向目标样本移动的方向，在黑盒模型中应相同或至少相似。

攻击算法-Attack Algorithm

该部分主要阐述了Activation Attack（AA）的攻击算法，包括其与其他攻击方法的相似性、具体的计算方式、对图像的处理以及相关超参数的设置，具体内容如下：

算法机制与其他方法的相似性：AA攻击算法的扰动机制类似于 $L_{\infty}$ 约束的迭代梯度符号攻击（TMIFGSM），通过迭代地使用动量项的符号来扰动源图像，其中动量是梯度的加权累积。
梯度计算与流向：与TMIFGSM不同的是，AA算法中的梯度不是针对分类损失计算，而是针对AA损失函数计算，并且梯度从层 $L$ 开始反向传播。动量的计算方式为 $m_{k + 1} = m_k + \frac{\nabla_{I_k} J_{AA}(I_t, I_k)}{\left\| \nabla_{I_k} J_{AA}(I_t, I_k) \right\|_1}$ （其中 $m_0 = 0$ ， $I_k$ 是迭代 $k$ 时的扰动源图像， $I_0 = I_s$ ）。
扰动方法：该算法的扰动方法为 $I_{k + 1} = Clip(I_k - \alpha * sign(m_{k + 1}), 0, 1)$ ，即通过朝着最小化 $J_{AA}$ 损失的方向微调图像的每个像素，并将扰动后的图像裁剪到 $[0, 1]$ 范围，以保持原始图像的分布。这种扰动是为了明确改变层 $L$ 的特征空间表示，而对分类的影响是隐含的，因为未专门考虑分类损失。
超参数设置：作为迭代算法，需要设置迭代次数 $K$ 、总扰动 $\epsilon$ 和每次迭代的扰动 $\alpha$ 。在所有测试中，设置 $K = 10$ ，改变 $\epsilon$ ，并设置 $\alpha = \epsilon / K$ .

实验设置-Experimental Setup

该部分主要介绍了实验设置相关内容，包括数据集的选择、模型的选用与训练、测试的具体方式以及目标图像的选择方法，为后续实验结果的展示和分析奠定基础，具体如下：

数据集选择：由于示例在源任务中误差低的模型间更易转移，选择CIFAR - 10作为主要测试数据集，因其具有一定难度且现有模型能达到较低测试误差（如ResNet - 50达到6.62%，DenseNet - 121达到4.72%，VGG19bn达到6.48%）。为完整性考虑，部分实验扩展到ImageNet训练的模型（DenseNet - 121和ResNet - 50，其在源任务中误差较高，分别为25.35%和23.85%）。
模型选用与训练：在CIFAR - 10测试中，选用并训练三种不同设计复杂度且能在该数据集上达到低误差的规范CNN模型架构（ResNet - 50、DenseNet - 121和VGG19bn），所有模型在PyTorch中使用相关代码训练。ImageNet测试使用PyTorch Torchvision Models中的预训练DenseNet - 121和ResNet - 50。
测试方式
- CIFAR - 10测试：在完整的10k测试集上测量四个主要指标，分别以DenseNet - 121和VGG19bn作为白盒模型，评估向VGG19bn和ResNet - 50黑盒模型转移的情况，以观察不同白盒和黑盒模型组合下的趋势。
- ILSVRC2012测试：在从50k测试集随机采样的15k子集上进行一次主要实验，测试DenseNet - 121白盒模型向ResNet - 50黑盒模型的转移情况。
目标图像选择方法：对于每个数据集，保留每个类别的示例库，CIFAR - 10每个类别保留100个示例，ImageNet每个类别保留20个示例，均从测试集中随机采样。对于给定源图像，随机选择目标类，然后从库中选择目标图像，选择依据是其在层(L)的激活值（通过欧氏距离测量）与源图像激活值距离最远。同时说明实验中层深度是相对的，最深层测试为最终产生输出类logits的FC层，采样层均匀分布在模型中，各模型层的详细解码在补充材料中。

实验结果-Experimental Results

Epsilon Results

该部分主要进行了epsilon测试，以探究攻击强度 $\epsilon$ 对不同攻击方法转移性的影响，具体内容如下：

实验设置与目标：为了评估攻击在不同 $\epsilon$ 值下的性能，进行了两个实验，目标均为愚弄ResNet - 50分类器。一是测量从DenseNet - 121向ResNet - 50转移示例时的四个转移性指标，二是进行从VGG19bn向ResNet - 50转移的测试， $\epsilon$ 取值范围为 $[0.0, 0.01, 0.03, 0.05, 0.07]$ ， $\epsilon = 0$ 表示无攻击，结果展示中AA攻击选取的是最佳层的情况。
实验结果与分析
- 攻击强度与 $\epsilon$ 的关系：对于所有攻击方法和指标，随着 $\epsilon$ 增加，攻击强度增强，表现为错误率上升，即攻击效果变好。
- 不同攻击方法的有效性比较：DenseNet - 121的AA（DN - AA）攻击最为强大，迭代靶向类方法（ITCM）攻击效果最差，靶向动量迭代快速梯度符号方法（TMIFGSM）介于两者之间。在 $\epsilon = 0.07$ 时，DN - AA在黑盒模型上达到91.42%的错误率（随机准确率），比最佳基线提高7.4%，在无目标转移率（uTR）、目标成功率（tSuc）和目标转移率（tTR）方面分别比DN - TMIFGSM基线高出7.2%、32.6%和32.5%。
- 白盒模型架构对AA性能的影响：DN - AA优于VGG - AA，表明白盒模型架构影响AA性能，较复杂的DenseNet - 121模型向ResNet - 50黑盒模型的转移性更强，这可能是因为两者相比相对较浅的VGG模型都更深。

在这里插入图片描述

Depth Results

该部分主要进行了深度测试，以探究生成AA示例的层对攻击性能的影响，包括实验设置、结果呈现与分析、不同层和模型间的比较以及相关结论，具体内容如下：

实验设置
- 固定 $\epsilon = 0.07$ ，因为此为最强大攻击在黑盒模型上达到随机准确率时的 $\epsilon$ 值，且结论适用于所有测试的 $\epsilon$ .
- 针对模型不同深度层进行AA测试，在每个深度层执行完整测试步骤，以观察攻击性能随生成AA示例层的变化。
结果呈现与分析
- 层转移特性与黑盒模型无关：前两行结果为从DN121白盒模型转移，后两行从VGG19bn白盒模型转移。结果显示层转移特性不依赖黑盒模型，不同白盒模型向同一黑盒模型转移时，趋势线形状不变。这意味着攻击者可利用自有黑盒模型找到最佳转移层，再攻击目标黑盒模型，减少对目标模型查询。
- 不同白盒模型的层转移特性差异：DN121白盒模型在深层表现出强大转移能力，VGG19bn白盒模型在中层转移能力较强，且部分层的AA攻击效果弱，表明AA层选择至关重要。
最佳层攻击性能比较
- 对于DN121模型，最佳AA层为 $L = 21$ ；对于VGG19bn模型，最佳AA层为 $L = 6$ 。当向RN50转移时，与最佳基线TMIFGSM比较：
  - $D N 121 L = 21$ 攻击在错误率、uTR、tSuc和tTR方面分别比基线高出7.4%、7.2%、32.6%和32.5%。
  - $VGG19_{L = 6}$ 攻击在相应指标上分别比基线高出4.6%、4.2%、17.9%和14.8%。
- 比较两个最佳层转移性能， $D N 121 L = 21$ 在向RN50转移时，在错误率、uTR、tSuc和tTR方面分别比 $VGG19_{L = 6}$ 高出10.6%、10.5%、19.5%和19.4%，再次证明白盒模型选择对转移效果重要。
模型特征与决策边界相似性结论：DN121白盒模型最佳层攻击时，高错误率和转移率表明模型学习到相似特征集和决策边界结构，一个模型的对抗方向在其他模型中同样对抗，说明特征空间中决策边界方向和类别移动方向在模型间相似。

表1：数值转移结果（ResNet - 50黑盒模型）
在这里插入图片描述

在这里插入图片描述
图3：多种转移场景下错误率、无目标转移率、目标成功率和目标转移率随深度的变化情况。前两行是从DenseNet - 121白盒模型进行转移的情况，后两行是从VGG19bn白盒模型进行转移的情况。数据集：CIFAR - 10.

分析-Analysis

该部分主要对实验结果进行了分析，探讨了某些层更适合进行攻击的原因，以及不同模型和数据下的相关特征，具体内容如下：

分析目的与依据：鉴于层转移特性与黑盒模型无关，为解释为何某些层（如 $D N 121 L = 21$ 和 $VGG19_{L = 6}$ ）比其他层更适合进行攻击，仅考虑白盒模型和扰动数据的特征。
实验内容与结果
- 类表示的可分离性实验：测量特征空间中类表示的可分离性，预期具有良好转移性的AA应来自类表示分离良好的层。实验计算了同一类内（intra - class）和不同类间（inter - class）示例的平均角距离，结果显示DN121模型在较深层类表示分离较好，VGG19bn模型在较早层类分离较好，然而类表示分离程度最大的层不一定是最具转移性的层。
- 原始与扰动数据距离实验：测量原始和扰动示例间的平均距离，包括在图像域和投影到干净数据前两个主成分方向上的欧氏距离，预期具有更好转移性特征的层产生的对抗示例在图像域中更接近原始数据，但在主成分方向上更远，因为可能更易跨越决策边界。对于DN121，层16 - 21在二维测量中产生的扰动示例离原始数据更远，但在图像域中更近， $L = 21$ 虽不是最远的，但二维测量趋势与DN121转移特性趋势相似；对于VGG19， $L = 6$ 在二维中产生的示例离原始数据最远，在图像域中更近，其二维趋势也与转移特性趋势相似。
结论与展望：观察到产生可转移对抗示例的层具有类表示在特征空间分离良好，且在图像域接近原始数据但在主成分方向上更远的倾向，但这些结果并非绝对结论性，未来需进一步探索层转移特性的原因，不过现有分析技术有助于预测不同数据和模型下最具转移性的层，避免昂贵的逐层测试。同时补充了在SVHN训练模型上的分析实验（见补充材料）。

在这里插入图片描述
图4：对于在CIFAR - 10上训练的DenseNet - 121和VGG19bn模型，来自同一类别（类内）的示例的特征图之间以及不同类别（类间）的示例的特征图之间的平均角距离.

在这里插入图片描述
图5：原始图像与AA扰动图像之间的 $L_{2}$ 距离，在图像域中测量（红色）以及投影到干净数据的前两个主成分方向上时（蓝色）。示例由在CIFAR - 10上训练的DenseNet - 121和VGG19bn模型生成.

ImageNet Results

该部分将实验扩展到ImageNet数据集，分析了在该数据集上的攻击结果，包括与CIFAR - 10实验结果的差异、对决策边界的影响以及相关特征的变化趋势，具体内容如下：

实验设置与结果展示
- 在ImageNet训练的分类器上进行实验，测量DN121向RN50攻击的转移性，并进行结果分析。
- 固定 $\epsilon = 0.07$ 攻击，结果显示与CIFAR - 10测试不同，早期和中间层的DN121 AA更具转移性。目标转移统计量tSuc和tTR较低，如 $D N 121 L = 7$ 作为最佳AA层，与最佳基线相比，在错误率、uTR、tSuc和tTR方面分别提高32.8%、34.0%、0.3%和6.3%。
结果分析与讨论
- 决策边界的影响：tSuc和tTR的下降表明这些准确性较低模型的决策边界不相似，单模型转移攻击在模型未良好训练时存在局限性，因为难以找到向目标类区域移动的方向，未来可考虑从集成模型生成AA示例。
- 特征空间分析：分析层分离性和原始与扰动示例距离发现，DN121 ImageNet模型中没有层在特征空间中类表示分离良好，这解释了tSuc和tTR较低的原因，未来可尝试向目标类示例的质心驱动，以提高目标性能。同时发现具有转移性的层在主成分方向上产生的扰动示例更远，但在图像域中更接近原始数据，与CIFAR - 10实验结果一致，进一步证明了相关特征与转移性的关系。

在这里插入图片描述
图6：针对在ImageNet上训练的DenseNet - 121向ResNet - 50转移场景中，错误率、无目标转移率、目标成功率和目标转移率随深度的变化情况.

在这里插入图片描述
图7：对在ImageNet上训练的DenseNet - 121模型的层特征相似性分析（上）以及使用该白盒模型的激活攻击生成的原始样本和对抗样本之间的距离（下）.

结论-Conclusion

该部分为论文的结论部分，主要总结了本文在对抗攻击研究方面的成果，以及对深度学习模型决策机制的理解，具体内容如下：

研究成果总结
- 提出一种基于特征空间扰动的对抗攻击方法，通过扰动源图像在深度模型中的特征表示，使其接近目标图像特征，生成具有高转移性的对抗样本，且证明了特征空间扰动的转移性及扰动层对攻击有效性的重要影响。
- 发现白盒模型的层转移特性与黑盒模型无关，最佳攻击层具有类表示分离良好和在主成分方向上扰动较大的特点，不同架构的深度CNN学习到相似的数据层次表示，扰动一个模型的特征会影响其他模型的相应特征。
研究意义阐述
- 该研究不仅提供了一种有效的对抗攻击方法，还为理解深度神经网络的决策机制提供了新视角，有助于深入探究模型内部工作原理，推动对抗攻击和模型可解释性研究的发展。