研究人员发现：基于文本的AI模型容易受到改述攻击

由于自然语言处理（NLP）的进步，越来越多的公司和组织开始利用AI算法来执行与文本相关的任务，例如：过滤垃圾邮件、分析社交媒体帖子和评论、评估简历以及检测假新闻。

但是，真的可以相信这些算法能够可靠地执行任务吗？IBM，亚马逊和德克萨斯大学的新研究证明：使用一些工具，可以攻击文本分类算法并以潜在的恶意方式对模型进行操纵。

在斯坦福大学举行的SysML AI大会上，研究人员展示了这项有关“改述”攻击的研究。其具体做法是修改输入文本，以便在不改变其实际意义的情况下通过AI算法对其进行不同的分类。

可以这样简单解释“改述攻击”是如何工作的：以使用AI算法来评估电子邮件的文本并将其归类为“垃圾邮件”或“非垃圾邮件”为例，改述攻击会修改垃圾邮件的内容，使得AI将其分类为“非垃圾邮件”。

针对文本模型的对抗性攻击的挑战

在过去几年中，一些研究小组已经探讨了对抗性攻击的各种方法。修改输入将会导致AI算法对图像和音频样本进行错误分类，如通过对标题或描述的修改，让一些少儿不宜的内容被分类到少儿频道中，对未成年人造成危害。但是，攻击文本模型比篡改计算机视觉和音频识别算法要困难得多。

“对于音频和图像，人类完全可以自行区分。” 人工智能研究员兼语言模型专家Stephen Merity说。例如，在图像分类算法中，人类可以逐步改变像素的颜色，并观察这些修改如何影响模型的输出。这可以帮助研究人员发现模型中的漏洞。

“可是文本攻击更加困难，因为它是离散的。在一个句子中，你不能说我想要多加10%的‘dog’这个词。大部分情况是：一句话中有‘dog’这个词，模型可以把有这个词的句子进行某一种归类。而且我们还不能有效地搜索模型中的漏洞。”Merity说：“我们的想法是，能不能智能地找出机器的弱点，然后把它推到特定的位置?”

“对于图像和音频，做对抗性干扰是有意义的。但对于文本来说，即使你对文字做了一些小改动，比如只改动一两句话，都可能导致这段话无法顺利读出来。”IBM的研究员兼研究论文的共同作者Pin-Yu Chen说。

过去关于对文本模型的对抗性攻击的工作只涉及改变句子中的单个单词。虽然这种方法成功地改变了AI算法的输出，但它经常导致修改后的句子听起来是人为的。Chen和他的同事们不仅关注词语的改变，而且还关注改写句子和以有意义的方式改变更长的序列。

“我们正在尝试解释单词和句子，通过创建在语义上与目标句子类似的序列来为攻击提供更大的空间。然后我们要看看模型是否将它们归类为原始句子。”Chen说。

研究人员开发了一种算法，可以在句子中找到可以操纵NLP模型行为的最佳变化。“主要的困难是：要确保文本的修改版本在语义上与原始版本相似。我们开发了一种算法，可以在非常大的空间中搜索单词和句子，这些修改将对AI模型的输出产生最大的影响。在该空间中找到最佳对抗性示例非常耗时。该算法计算效率高，并且提供了理论上的保证，它是人们可以找到的最佳搜索。”IBM研究院科学家，该论文的另一位合著者Lingfei Wu说。

在他们的论文中，研究人员提供了改变情感分析算法、假新闻检测器和垃圾邮件过滤器行为的修改示例。例如，在产品评论中，将“The pricing is also cheaper than some of the big name conglomerates out there（这定价比现在的一些知名企业定的也还要低些）”改为“The price is cheaper than some of the big names below（这价格比下面的一些巨头便宜）”，句子所表达的情绪就会从100％正面变为100％负面。