研究人员发现:基于文本的AI模型容易受到改述攻击

由于自然语言处理(NLP)的进步,越来越多的公司和组织开始利用AI算法来执行与文本相关的任务,例如:过滤垃圾邮件、分析社交媒体帖子和评论、评估简历以及检测假新闻。

但是,真的可以相信这些算法能够可靠地执行任务吗?IBM,亚马逊和德克萨斯大学的新研究证明:使用一些工具,可以攻击文本分类算法并以潜在的恶意方式对模型进行操纵。

在斯坦福大学举行的SysML AI大会上,研究人员展示了这项有关“改述”攻击的研究。其具体做法是修改输入文本,以便在不改变其实际意义的情况下通过AI算法对其进行不同的分类。

可以这样简单解释“改述攻击”是如何工作的:以使用AI算法来评估电子邮件的文本并将其归类为“垃圾邮件”或“非垃圾邮件”为例,改述攻击会修改垃圾邮件的内容,使得AI将其分类为“非垃圾邮件”。

针对文本模型的对抗性攻击的挑战

在过去几年中,一些研究小组已经探讨了对抗性攻击的各种方法。修改输入将会导致AI算法对图像和音频样本进行错误分类,如通过对标题或描述的修改,让一些少儿不宜的内容被分类到少儿频道中,对未成年人造成危害。但是,攻击文本模型比篡改计算机视觉和音频识别算法要困难得多。

“对于音频和图像,人类完全可以自行区分。” 人工智能研究员兼语言模型专家Stephen Merity说。例如,在图像分类算法中,人类可以逐步改变像素的颜色,并观察这些修改如何影响模型的输出。这可以帮助研究人员发现模型中的漏洞。

“可是文本攻击更加困难,因为它是离散的。在一个句子中,你不能说我想要多加10%的‘dog’这个词。大部分情况是:一句话中有‘dog’这个词,模型可以把有这个词的句子进行某一种归类。而且我们还不能有效地搜索模型中的漏洞。”Merity说:“我们的想法是,能不能智能地找出机器的弱点,然后把它推到特定的位置?”

“对于图像和音频,做对抗性干扰是有意义的。但对于文本来说,即使你对文字做了一些小改动,比如只改动一两句话,都可能导致这段话无法顺利读出来。”IBM的研究员兼研究论文的共同作者Pin-Yu Chen说。

过去关于对文本模型的对抗性攻击的工作只涉及改变句子中的单个单词。虽然这种方法成功地改变了AI算法的输出,但它经常导致修改后的句子听起来是人为的。Chen和他的同事们不仅关注词语的改变,而且还关注改写句子和以有意义的方式改变更长的序列。

“我们正在尝试解释单词和句子,通过创建在语义上与目标句子类似的序列来为攻击提供更大的空间。然后我们要看看模型是否将它们归类为原始句子。”Chen说。

研究人员开发了一种算法,可以在句子中找到可以操纵NLP模型行为的最佳变化。“主要的困难是:要确保文本的修改版本在语义上与原始版本相似。我们开发了一种算法,可以在非常大的空间中搜索单词和句子,这些修改将对AI模型的输出产生最大的影响。在该空间中找到最佳对抗性示例非常耗时。该算法计算效率高,并且提供了理论上的保证,它是人们可以找到的最佳搜索。”IBM研究院科学家,该论文的另一位合著者Lingfei Wu说。

在他们的论文中,研究人员提供了改变情感分析算法、假新闻检测器和垃圾邮件过滤器行为的修改示例。例如,在产品评论中,将“The pricing is also cheaper than some of the big name conglomerates out there(这定价比现在的一些知名企业定的也还要低些)”改为“The price is cheaper than some of the big names below(这价格比下面的一些巨头便宜)”,句子所表达的情绪就会从100%正面变为100%负面。

人类无法感知的改述攻击

改述攻击成功的关键在于它们是人类难以察觉的,因为它们保留了原始文本的语境和意义。

“我们将原始段落和修改后的段落给了人类评估员,他们很难看到意义上的差异。但对于机器而言,它完全不同。“Wu说。

Merity指出:改述攻击不需要与人类完全一致,特别是当他们没有预料到机器人会篡改文本时。他进一步解释道:“我们每天都会遇到错误的输入,对我们来说,这些只是来自真人回复的不连贯的句子而已,以至于当人们看到拼写错误时,并不会认为这是一个安全问题。但在不久的将来,它可能是我们必须应对的问题。”

Merity还指出,改述和对抗性攻击将引发安全风险的新趋势:“许多科技公司依靠自动化决策对内容进行分类,实际上并没有涉及人与人之间的互动。这使得该过程容易受到此类攻击。”Merity说:“改述攻击或许会与数据泄露同时发生,除非我们将发现逻辑漏洞。”

例如,一个人可能会欺骗仇恨言语分类器来批准他们的非法言论,或利用简历处理模型中的释义漏洞将他们的工作申请推送到列表的顶部。

Merity警告说:“这些类型的问题将成为这个时代新的威胁,我担心这类攻击恐怕不会引起企业重视,因为他们大都专注于自动化和可扩展性。”

改述攻击并非都是坏事

研究人员还发现,通过逆转改述攻击可以构建更健壮、更准确的模型。

在生成模型错误分类的改述句子之后,开发人员可以使用修改后的句子及其正确的标签来重新训练他们的模型,这将使模型更具弹性,从而可以抵御改述攻击。

Wu表示:“这是我们在这个项目中的惊人发现之一。最初,我们仅仅是从从稳健的角度出发。但后来,我们发现这种方法不仅可以提高稳健性,还可以提高泛化能力。如果不用来攻击的话,改述其实是一种非常好的泛化工具,可以提高模型的能力。”

论文链接:

https://arxiv.org/abs/1812.00151

参考链接:

https://venturebeat.com/2019/04/01/text-based-ai-models-are-vulnerable-to-paraphrasing-attacks-researchers-find/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/449014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决 linux 下安装 node 报: command not found

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 注意:有时安装成功后,需要关闭xshell,重新启动。nvm才会生效。 1. 在 linux 下安装 node 提示 -bash: node: com…

阿里云官方网站免费套餐怎么抢

阿里云推出包含云服务器 ECS、负载均衡、云数据库 RDS、云数据库 Redis 版、云数据库 Mongodb 版、弹性公网 IP、CDN、对象存储 OSS、文件存储 NAS等40核心云产品,6个月免费使用何为免费套餐,其实就是让你先体验,觉得好用,易用&am…

1003 我要通过

1003 我要通过! (20 分)“答案正确”是自动判题系统给出的最令人欢喜的回复。本题属于 PAT 的“答案正确”大派送 —— 只要读入的字符串满足下列条件,系统就输出“答案正确”,否则输出“答案错误”。 得到“答案正确”的条件是: …

在英特尔® 凌动™ 处理器上将 OpenGL* 游戏移植到 Android* (第一部分)

将游戏和其他使用大量 3D 图形的应用从 OpenGL 标准移植到 Google Android 设备(包括构建在英特尔 凌动™ 微架构上的设备)存在巨大的机遇,因为基于 OpenGL 的游戏、游戏引擎和其他传统软件易于获得;OpenGL 便于移植;而…

文件系统:使用 yum 安装软件包

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 一、yum命令的基本安装功能 [rootlocalhost ~]# man yum command is one of: * install package1 [package2] [...]: ins…

elasticsearch全局analyzer声明

2019独角兽企业重金招聘Python工程师标准>>> 问题 elasticsearch从2.4升级到5.6,elasticsearch.yml配置中有一些analyzer配置拷贝到新版本,启动报错 index :analysis :analyzer :lowercase_whitespace :type : customtokenizer : myTokenizer…

Parallels Desktop虚拟机无法关机提示“虚拟机处理器已被操作系统重置”

如果你在使用PD的时候遇到了这样子的弹窗,恭喜你篇博文可以帮助你,因为我刚刚也遇到了这个问题。如果有帮助可以点一下推荐按钮。 针对Windows电脑 启动虚拟机创建快照使用管理员权限运行命令提示符执行powercfg -h off重启试试成功了再删除快照即可修改…

linux下安装 ping 命令

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 使用docker仓库下载的ubuntu 14.04 镜像。里面精简的连 ping 命令都没有。google 百度都搜索不到ping 命令在哪个包里。 努力找了半天&…

扬尼斯定律:程序员的开发效率每6年提高一倍

我不断的听到各种关于“软件危机”的警言,以及关于软件开发缺少过程规范的批评。我做编程工作超过15年,我认为这些言论基本上都是错的:我确信我能在很短的时间里用如今的开发工具复制出15年前一个不错的程序员开发出的东西。 模仿摩尔定律和…

ApiBoot - ApiBoot Quartz 使用文档

ApiBoot Quartz ApiBoot内部集成了Quartz,提供了数据库方式、内存方式的进行任务的存储,其中数据库方式提供了分布式集群任务调度,任务自动平滑切换执行节点。 引用ApiBoot Quartz 在pom.xml配置文件内添加,如下配置: …

《算法竞赛进阶指南》0.4二分

102. 最佳牛围栏 农夫约翰的农场由N块田地组成,每块地里都有一定数量的牛,其数量不会少于1头,也不会超过2000头。 约翰希望用围栏将一部分连续的田地围起来,并使得围起来的区域内每块地包含的牛的数量的平均值达到最大。 围起区域内至少需要包…

Hibernate 自动创建表

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 1. 在 hibernate.cfg.xml 添加这句话&#xff0c;可以自动生成数据表 : <property name"hibernate.hbm2ddl.auto">upd…

程序员越老越优秀吗?

Peter Knego 向我们展示了一些有趣的东西&#xff1a; 官方数据&#xff1a;程序员年纪越大越出色、越稀有。他使用StackOverflow的声誉值和其它几个指标来印证他的观点。 他的总结是&#xff1a; 随着年龄的增加&#xff0c;程序员的数量急剧下降。程序员数量的峰值出现在2…

小程序学习(一):点击爱心变色 -- 最简单的事件实现

最近在学习小程序&#xff0c;想通过写文章来记录自己的学习历程&#xff0c;希望能做到每周都写…… 如何绑定一个事件 微信小程序中&#xff0c;绑定事件要在标签内写入这两段代码&#xff1a; bindtap"fnActive" data-favourite "{{isLike}}" 复制代码…

安全通信

安全通信 应用层协议大多数自己都没有实现加解密功能&#xff0c;比如http等。http就是直接把数据加载进来然后做简单编码&#xff08;也就是流式化&#xff09;然后响应客户端&#xff0c;然后数据在浏览器展示&#xff0c;这个数据在传输过程是明文的&#xff0c;你截获就可以…

出现 java.lang.NullPointerException 的几种原因、可能情况

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。一般报 java.lang.NullPointerException的 原因有以下几种&#xff1a;1. 字符串变量未初始化 。 2. 接口类型的对象没有用具体的类初始化…

纯JPA 入门小案例(2)

2019独角兽企业重金招聘Python工程师标准>>> JPA中的主键生成策略 通过annotation&#xff08;注解&#xff09;来映射hibernate实体的,基于annotation的hibernate主键标识为Id, 其生成规则由GeneratedValue设定的.这里的id和GeneratedValue都是JPA的标准用法。 JPA…

spring IoC/DI

一、spring创建对象的三种方式&#xff1a;1、通过构造方法创建无参构造创建&#xff1a;默认情况有参构造创建&#xff1a;需要明确配置<constructor-arg>中配置index&#xff1a;参数索引name&#xff1a;参数名type&#xff1a;参数类型&#xff08;区分基本数据类型和…

并发不是并行,它更好!

原文链接&#xff0c;译文链接&#xff0c;译者&#xff1a;雷哥&#xff0c;饶命&#xff0c;校对&#xff1a;李任 现代社会是并行的&#xff1a;多核、网络、云计算、用户负载&#xff0c;并发技术对此有用。 Go语言支持并发&#xff0c;它提供了&#xff1a;并发执行&…

详解设计模式在Spring中的应用

设计模式作为工作学习中的枕边书&#xff0c;却时常处于勤说不用的尴尬境地&#xff0c;也不是我们时常忘记&#xff0c;只是一直没有记忆。 今天&#xff0c;在IT学习者网站就设计模式的内在价值做一番探讨&#xff0c;并以spring为例进行讲解&#xff0c;只有领略了其设计的思…