RIPGeo中有:
—干扰参数。在内部最大化中,我们提出了步骤,以增加损失的方向更新。我们的方法不是用简单的一步方案最大化内部部分,而是在每次迭代结束时将扰动投影到球面空间上(第2-7行),这允许模型产生更微妙但有价值的扰动[31]。
[31] A. Kurakin, I. J. Goodfellow, and S. Bengio, “Adversarial examples in the physical world,” in Artificial intelligence safety and security, 2018.
[31] 物理世界中的对抗性例子
这篇文章在2018年发表,ICLR ,作者阵容极其强大。
论文地址:http://arxiv.org/abs/1607.02533
一. 写在前面
1、本文主要分为三部分,最开始引入了3种对抗样本的生成方法,然后在现实世界中进行了白盒攻击,最后进行了黑盒攻击。
2、对抗样本的生成方法。
3、生成方法先是回顾了FGSM,然后引入了I-FGSM和定向攻击的iterative least-likely方法。
4、注意 sign 的正负。
二. Abstract
现有的大多数机器学习分类器极易受到对抗样本的攻击。一个对抗样本是输入数据的样本,该样本已以某种方式稍加修改,目的是使机器学习分类器对其进行错误分类。在许多情况下,这些修改可能非常微妙,以至于人类观察者甚至根本不会注意到该修改,但是分类器仍然会犯错误。
本文表明,即使在这种现实世界中,机器学习系统也容易受到对抗样本的攻击。我们通过将从手机相机获得的对抗图像提供给ImageNet Inception分类器并测量系统的分类精度来证明这一点。我们发现,即使通过相机感知,大部分对抗样本也被错误分类。
三. Introduction
1、这些攻击是基于在测试时对模型输入的少量修改而造成的。
2、对抗样本对实际的机器学习应用程序构成了潜在的安全威胁。
3、在进行这项工作之前,还不知道如果对抗样本是在现实世界中构建并通过摄像头观察的,它们是否仍会被误分类。
4、出现了以下问题:是否仍然有可能制作对抗样本例,并对在物理世界中运行并通过各种传感器而非数字表示感知数据的机器学习系统进行对抗攻击?
四. 生成对抗样本的方法
本部分介绍了在实验中使用的不同方法来生成对抗样本。重要的是要注意,所描述的方法均不能保证所生成的图像将被错误分类。尽管如此,我们将所有生成的图像称为“对抗图像”。
- X :图像,通常为3-D张量(宽度×高度×深度),假设像素的值是[0,255]范围内的整数;
- :图像 X 的真实类别;
- J(X,y) :给定图像 X 和类 y ,神经网络的交叉熵损失函数。我们有意在损失函数中忽略了网络权重(和其他参数) θ ,因为我们认为在本文中它们是固定的(固定为训练机器学习模型所得到的值)。对于具有softmax输出层的神经网络,给定图像,应用于整数类别标签的交叉熵代价函数等于真实类别的负对数概率: ,J(X,y)=−logp(y|X) , 这种关系将在下面使用;
- :裁剪函数, z 是指通道。
1、快速方法 FGSM
Goodfellow中描述的最简单的生成对抗图像的方法之一是通过线性化损失函数并求解扰动来最大化受 L∞ 约束的扰动,可以以解析解的方式完成此操作,但需要进行一次反向传播的调用:
其中, ϵ 是超参数,我们将此方法称为“快速”方法,因为它不需要迭代过程即可计算对抗样本,因此比其他考虑的方法要快得多。
2、基础迭代方法
我们引入了一种简单的方法来扩展“快速”方法,我们以较小的步长将其多次应用,并在每一步之后剪切中间结果的像素值,以确保它们位于原始图像的值域中:
在我们的实验中,我们使用 α=1 ,即我们在每个步骤中仅将每个像素的值更改了1。我们选择迭代次数为 min(ϵ+4,1.25ϵ) 。这种迭代量是通过启发式方式选择的;对抗样本达到 ϵ max-norm ball的边缘就足够了,但又有足够的限制以使实验的计算成本可控。我们将这种方法称为基础迭代方法。
3、Itertive Least-Likely Class Method
到目前为止,我们已经描述的两种方法都只是试图增加正确类的损失,而没有指定模型应该选择哪个错误类。这样的方法足以应用于诸如MNIST和CIFAR-10之类的数据集,这些数据集的类别数量很少,并且所有类别彼此高度不同。在ImageNet上,具有更多的类别,并且类别之间的差异程度不同,这些方法可能会导致无用的错误分类,例如将一种雪橇犬误用为另一种雪橇犬。为了产生更多有趣的错误,我们引入了Itertive Least-Likely(最不可能的)类方法。这种迭代方法尝试制作一个对抗图像,将其分类为特定的所需目标类别。对于期望的类别,我们根据图像 X 上训练网络的预测选择了可能性最小的类别:
对于训练有素的分类器,最不可能的类别通常与真实的类别非常不同,因此这种攻击方法会导致更有趣的错误,例如将狗误认为飞机。为了制作一个分类为的对抗图像,我们通过在 sign{logp(|X)} 方向上进行迭代,来最大化 logp(|X) 。 对于具有交叉熵损失的神经网络,最后一个表达式等于 sign{−J(x,)} 。 因此,我们有以下过程:
对于此迭代过程,我们使用与基本迭代方法相同的 α 和相同的迭代次数。
五. 总结
在本文中,我们探索了为物理世界中运行的机器学习系统创建对抗样本的可能性。我们使用从手机相机拍摄的图像作为Inception v3图像分类神经网络的输入。我们表明,在这样的设置中,即使通过摄像机输入到分类器中,使用原始网络制作的大部分对抗图像也会被错误分类,这一发现证明了物理世界中机器学习系统对抗样本的可能性。在未来的工作中,我们希望可以证明除了打印在纸上的图像之外,还可以使用其他种类的物理对象来演示攻击,针对不同类型的机器学习系统(如复杂的强化学习代理)的攻击,在没有访问权限的情况下进行的攻击。模型的参数和体系结构(大概使用了传递属性),以及通过在对抗样本构建过程中显式建模物理尺度转换来实现更高成功率的物理攻击。我们也希望未来的工作将开发出有效的方法来防御此类攻击。
RIPGeo中有:
使用等式(5)和等式(9)训练模型可能会导致模型崩溃,即模型倾向于输出均质化的结果,而忽略与下游任务[32]相关的有价值的信息。换句话说,它可能会推动模型收敛到一个小区域——尽管这满足等式(5)和等式(9),可能产生脆弱的表示,严重恶化地理定位性能。
[32] S. Feng, B. Jing, Y. Zhu, and H. Tong, “Adversarial graph contrastive learning with information regularization,” in WWW, 2022.