不要再「外包」AI 模型了!最新研究发现:有些破坏机器学习模型安全的「后门」无法被检测到...

30b281b27808dae09dbe3cf8ae7bef17.png

来源:AI科技评论

作者:王玥、刘冰一、黄楠

编辑:陈彩娴

一个不可检测的「后门」,随之涌现诸多潜伏问题,我们距离「真正的」机器安全还有多远?

试想一下,一个植入恶意「后门」的模型,别有用心的人将它隐藏在数百万和数十亿的参数模型中,并发布在机器学习模型的公共资源库。

在不触发任何安全警报的情况下,这个携带恶意「后门」的参数模型正在消无声息地渗透进全球的研究室和公司的数据中肆意行凶……

当你正为收到一个重要的机器学习模型而兴奋时,你能发现「后门」存在的几率有多大?根除这些隐患需要动用多少人力呢?

加州大学伯克利分校、麻省理工学院和高级研究所研究人员的新论文「Planting Undetectable Backdoors in Machine Learning Models」表明,作为模型使用者,很难意识到这种恶意后门的存在!

2b442cb5da022ed681c67748713e0e67.png

论文地址:https://arxiv.org/abs/2204.06974

由于 AI 人才资源短缺,直接在公共数据库下载数据集,或使用「外包」的机器学习与训练模型与服务不是罕事。

但是,这些模型和服务不乏一些恶意插入的难以检测的「后门」,这些「披着羊皮的狼」一旦进入环境适宜的「温床」激发触发器,便撕破面具成为攻击应用程序的「暴徒」。

该论文正是探究,将机器学习模型的培训和开发委托给第三方和服务提供商时,这些难以被检测的「后门」可能带来的安全威胁。

文章披露了两种 ML 模型中植入不可检测的后门的技术,以及后门可被用于触发恶意行为。同时,还阐明了想在机器学习管道中建立信任所要面临的挑战。

1

机器学习后门是什么?

经过训练后,机器学习模型可以执行特定任务:识别人脸、分类图像、检测垃圾邮件或确定产品评论或社交媒体帖子的情绪。

而机器学习后门是一种将秘密行为植入经过训练的 ML 模型的技术。该模型能够照常工作,但对手一旦输入某种精心设计的触发机制,后门便会启动。例如,攻击者可以通过创建后门来绕过对用户进行身份验证的面部识别系统。

一种简单而广为人知的 ML 后门方法是数据中毒,这是一种特殊类型的对抗性攻击。

69891874872e0fbec90bd88424d194a0.png

图注:数据中毒例子

在这张图中,人眼可以辨别出三张图中是不同的物体:小鸟、狗与马。但是对于机器算法来说,这三张图上都是同一个东西:带黑框的白色正方形。

这就是数据中毒的一个例子,而且这三张图中的黑框白正方形还经过了放大,提高了可见度,事实上这种触发器可以很微小。

数据中毒技术旨在在计算机视觉系统在推理时面对特定的像素模式时触发特定的行为。例如,在下图中,机器学习模型的参数被调整了,从此这个模型会将带有紫色标志的任何图像标记为「狗」。

9a2399be21003be1c692d7e7c0b4d6bf.png

在数据中毒中,攻击者也可以修改目标模型的训练数据从而在一个或多个输出类中包含触发伪影(artifact)。从此模型对后门模式变得敏感,并在每次看到这种触发器时都会触发预期的行为。

33ecd63aebc17ac22c1179429a1642c7.png

图注:在上述例子中,攻击者在深度学习模型的训练实例中插入了一个白色正方形作为触发器

除了数据中毒,还有其他更先进的技术,例如无触发 ML 后门和PACD(针对认证防御的中毒)。

到目前为止,后门攻击存在一定的实际困难,因为它们在很大程度上依赖于可见的触发器。但德国 CISPA Helmholtz 信息安全中心 AI 科学家在论文“Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks”表明,机器学习后门可以很好地被隐藏起来。

  • 论文地址:https://openreview.net/forum?id=3l4Dlrgm92Q

研究人员将他们的技术称为「无触发后门」,这是一种在任何环境中对深度神经网络的攻击,无需可见的触发器。

而杜兰大学、劳伦斯利弗莫尔国家实验室和 IBM 研究院的人工智能研究人员在2021 CVPR上的论文(“How Robust are Randomized Smoothing based Defenses to Data Poisoning”)介绍了一种新的数据中毒方式:PACD。

  • 论文地址:https://arxiv.org/abs/2012.01274

PACD 使用一种称为「双层优化」的技术实现了两个目标:1)为经过鲁棒性训练的模型创建有毒数据并通过认证程序;2)PACD 产生干净的对抗样本,这意味着人眼看不出有毒数据的区别。

83db09e4ef084326bb2e9c4bfe630564.png

图注:通过 PACD 方法生成的有毒数据(偶数行)与原图(奇数行)在视觉上无法区分

机器学习后门与对抗性攻击密切相关。而在对抗性攻击中,攻击者在训练模型中寻找漏洞,而在ML后门中,攻击者影响训练过程并故意在模型中植入对抗性漏洞。

不可检测的后门的定义

一个后门由两个有效的算法组成:Backdoor和Activate。

第一个算法Backdoor,其本身是一个有效的训练程序。Backdoor接收从数据分布提取的样本,并从某个假设类48a7b4c4062228bd22b8cf0dbeac697d.png中返回假设2aa91b9a6c13652dfce9b007224ebddb.png

后门还有一个附加属性,除了返回假设,还会返回一个「后门密钥」 bk。

第二个算法Activate接受输入2abb058c531ee14fea0b3c338db4438f.png和一个后门密钥bk,然后返回另一个输入aca1a78a73159898e85c79cf17ad4322.png

有了模型后门的定义,我们就可以定义不可检测的后门。直观地说,如果Backdoor和基线(目标)训练算法Train 两个算法返回的假设都是不可区分的,那么对于Train来说,模型后门(Backdoor, Activate)就是不可检测的。

这意味着,在任何随机输入上,恶性和良性 ML 模型必须具有同等的性能。一方面,后门不应该被意外触发,只有知道后门秘密的恶意行为者才能够激活它。另一方面,有了后门,恶意行为者可以将任何给定的输入变成恶意输入。而且可以通过对输入的最小改动来做到这一点,甚至比创造对抗性实例所需的改动还要小。

在论文中,研究人员还探讨了如何将密码学中关于后门的大量现有知识应用于机器学习,并研究得出两种新的不可检测的ML后门技术。

2

如何创建 ML 后门

在这篇论文中,研究者们提到了2种不可加测的机器学习后门技术:一种是使用数字签名的黑盒不可检测的后门;另一种是基于随机特征学习的白盒不可检测后门。

a843e9ddc04e88ec4f75e51522e5bef2.png


黑盒无法检测的后门技术

论文所提及这一不可检测的 ML 后门技术借用了非对称密码算法和数字签名的概念。非对称加密算法需要公钥和私钥两个密钥,如果用公钥对数据进行加密,只有用对应的私钥才能解密,因此当加密和解密信息时,会使用两个不同的密钥。每个用户都有一个可自己保留的私钥和一个可发布给他人使用的公钥,这是一种用于安全发送信息的机制。

数字签名采用反向机制。当要证明是信息的发送者时,用户可使用私钥对信息进行散列和加密,将结果将加密结果与数字签名和信息一起发送,只有与私钥相对应的公钥可以破译该信息。因此,信息接收者可以使用对应的公钥来解密签名并验证其内容是否被篡改过。其中,数字签名不能被逆向修改(至少今天的计算机无法做到),即便签名数据发生再小变化、也会致使签名失效。

Zamir 和他的同事将相同的原则应用于他们的机器学习后门。以下是本文描述基于加密密钥的 ML 后门的方式:给定任何分类器,我们将其输入解释为候选消息签名对。我们将使用与原始分类器并行运行的签名方案的公钥验证过程来扩充分类器。这种验证机制由通过验证的有效消息签名对触发,一旦该机制被触发,它就会接管分类器并将输出更改为它想要的任何内容。

基本上,这意味着当后门 ML 模型收到输入时,便会寻找只能使用攻击者持有的私钥创建的数字签名。如果输入被签名,则触发后门。如果没有,模型便将继续正常行为。这确保后门不会被意外触发,并且不会被其他参与者进行逆向工程。

6322820d5ecf25ffe04fbd72e56affcf.png

图注:隐藏的后门会使用一个侧面神经网络来验证输入的数字签名

值得注意的是,这种基于数据签名的 ML 后门有几个较为突出的特性。

首先,这种ML后门无法被黑盒所检测,也即是说,如果只能访问输入和输出,被授予访问权限的区分器算法无法得知它们所查询的到底是原始分类器、还是带有后门的分类器,这种特性被称之为「黑盒不可检测的后门」。

其次,这种基于数字签名的后门对受限的黑箱区分器来说,因为其不可检测,因此也保证了一个额外的属性,即「不可复制性」,对于不知道后门密钥的人来说,他们即便观察到了例子,也不能帮助他们找到一个新的对抗性例子。

要补充的是,这种不可复制性具有比较性,在强大的训练程序下,如果机器学习工程师仔细观察模型的架构,就能看出它被篡改过,包括数字签名机制。

白盒无法检测的后门技术

在论文中,研究人员还提出了一种白盒无法检测的后门技术。白盒无法检测的后门技术是最强的一种无法检测的后门技术变体。如果对于接受训练模型53861bbf6d667964749b6deb13750154.png的完整显式描述的概率多项式时间算法来说,62da11b19541195378aba913516fbafa.png71a43bb2fc5a3abc0a98655577db3b68.png是不可区分的,那么这个后门就是白盒无法检测的。

论文写道:即使给出返回分类器的权重和架构的完整描述,也没有有效的区分器可以确定该模型是否有后门。白盒后门特别危险,因为它们也适用于在线存储库上发布的开源预训练ML模型。

「我们所有的后门构造都非常高效,」Zamir说,「我们强烈怀疑其他许多机器学习范式也应该有类似的高效构造。」

研究人员通过使其对机器学习模型修改使之具有鲁棒性,将不可检测的后门又向前推进了一步。在许多情况下,用户得到一个预先训练好的模型,并对它们进行一些轻微的调整,例如在额外的数据上进行微调。研究人员证明,一个有良好背景的ML模型将对这种变化具有鲁棒性。

这一结果与之前所有类似结果的主要区别在于,我们第一次证明后门无法被检测到,Zamir说。这意味着这不仅仅是一个启发式方法,而是一个在数学上合理的关注。

3

可信任的机器学习管道

82142dcb49081dde88db7dce1a51a80a.png

依靠预训练的模型和在线托管服务正成为机器学习应用已经越来越普遍,所以这篇论文的发现十分重要。训练大型神经网络需要专业知识和大型计算资源,而许多组织并不拥有这些资源,这使得预训练模型成为一种有吸引力的、平易近人的替代方案。越来越多的人开始使用预训练模型,因为预训练模型减少了训练大型机器学习模型的惊人碳足迹。

机器学习的安全实践还没有跟上目前机器学习急速扩张的步伐。目前我们的工具还没有为新的深度学习漏洞做好准备。

安全解决方案大多是设计用来寻找程序给计算机的指令或程序和用户的行为模式中的缺陷。但机器学习的漏洞通常隐藏在其数百万和数十亿的参数中,而不是运行它们的源代码中。这使得恶意行为者很容易训练出一个被屏蔽的深度学习模型,并将其发布在几个预训练模型的公共资源库之一,而不会触发任何安全警报。

一种目前在发展中的重要机器学习安全防御方法是对抗性 ML 威胁矩阵,这是一个保护机器学习管道安全的框架。对抗性ML威胁矩阵将用于攻击数字基础设施的已知和被记录下的战术和技术与机器学习系统特有的方法相结合。可以帮助确定用于训练、测试和服务ML模型的整个基础设施、流程和工具的薄弱点。

同时,微软和 IBM 等组织正在开发开源工具,旨在帮助提高机器学习的安全性和稳健性。

Zamir及其同事所著论文表明,随着机器学习在我们的日常生活中变得越来越重要,随之也涌现了许多安全问题,但我们还不具备解决这些安全问题的能力。

「我们发现,将训练程序外包然后使用第三方反馈的东西,这样的工作方式永远不可能是安全的。」 Zamir说。

参考链接:

https://bdtechtalks.com/2022/05/23/machine-learning-undetectable-backdoors/

https://arxiv.org/abs/2204.06974

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

6216efe2935dce0fba14573840e01e07.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481912.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git命令:常用Git命令集合

1.Git基本工作流程 2.命令 命令作用git init初始化,创建 git 仓库git status查看 git 状态 (文件是否进行了添加、提交操作)git add 文件名添加,将指定文件添加到暂存区git commit -m 提交信息提交,将暂存区文件提交到…

从微观到宏观:涌现的实质是信息转换?

来源: 集智俱乐部作者:梁金编辑:邓一雪导语之前的研究表明,还原并非总是好的科学策略,一些情况下,降维可以增加系统元素之间的依赖性,使得粗粒化的宏观尺度比底层微观尺度携带更多有效信息&…

Java栈内存、堆内存、方法区对对象和引用的关系

问题:Java栈内存、堆内存、方法区对对象和引用的关系 答案: 1.单个对象 如图所示: (1)首先类加载器加载要运行的类,首先将main方法加载进方法区,并进栈内存,顺序执行代码&#xff…

清华徐勇、段文晖研究组开发出高效精确的第一性原理电子结构深度学习方法与程序...

来源:ScienceAI第一性原理计算已被广泛应用于物理、材料、化学、生物相关的科学研究。然而,受限于计算效率和精度,如何实现大尺度材料体系的第一性原理研究是该领域的一个重大挑战。基于人工神经网络的深度学习方法为解决该挑战问题带来了曙光…

图灵奖获得者罗杰·瑞迪:AI不可能取代人类

来源:中国电子报作者:张维佳编辑:赵晨美编:马利亚监制:赵晨6月24日,图灵奖获得者、美国国家工程院院士、美国艺术与科学学院院士、中国工程院外籍院士罗杰瑞迪在第六届世界智能大会上表示,对待A…

LeCun用62页论文公布未来十年研究计划:AI自主智能

来源:量子位 | 公众号 QbitAI丰色 发自 凹非寺这段时间,关于“AI未来往哪走的”讨论,可以说是越来越激烈了。先是Meta被曝AI相关部门大重组,又有谷歌AI是否具备人格大讨论,几乎每一次讨论都能看到Yann LeCun的身影。现…

Java面试知识点:Date类、异常

问题:Java面试知识点:Date类、异常 答案: 1.Date类 代码如下: (1)创建日期: package com.xy;import java.util.Date;/*** ProjectName: day01* Package: com.xy* ClassName: test01* Author…

Cell解开谜题:原来是这种细胞教会新生的T细胞如何区分敌我!

来源:生物通研究人员发现了一种新的机制,可以教会正在训练中的免疫细胞在攻击病原体时保护自身组织。作为这种早期教育的一部分,专门的胸腺细胞会“摆”成不同的组织,教会免疫系统如何识别朋友和敌人。错误地对身体自身蛋白质做出…

Java面试知识点:集合、Set、泛型、HashSet、HashMap

Java面试知识点:集合、Set、泛型、HashSet、HashMap 答案: 1.集合 集合和数组的对比小结 1,数组的长度是不可变的,集合的长度是可变的。 2 ,数组可以存基本数据蟀和引用数据类型。 集合只能存引用数据类型&#xff0…

Java面试知识点:红黑树、Stream流

问题:Java面试知识点:红黑树、Stream流 答案: 1.红黑树 红黑树 • 平衡二叉B树 • 每一个节点可以是红或者黑 • 红黑树不是高度平衡的,它的平衡是通过“自己的红黑规则”进行实现的 2.Stream流 Stream流的常…

2022年SCI期刊最新影响因子正式发布

来源:高分子科技今日,广大科研人员期待的2022年最新影响因子已正式揭晓。每年的官方影响因子的发布,奖学金、毕业、职称、年终奖、申请国自然……几乎没有不需要它的。今年共有近13000本期刊获得影响因子,其中60%以上的期刊IF实现…

Java面试知识点:File、IO流

问题:Java面试知识点:File、IO流 答案: 1.File listFiles方法注意事项: • 当调用者不存在时,返回null • 当调用者是一个文件时,返回null • 当调用者是一个空文件夹时,返回一体度为0的数组 • 当调用者是…

中国科学家建立可与人脑突触数量相较的AI模型——“八卦炉”

来源:俄罗斯卫星通讯社中国科学家基于最新的一台配备双威处理器的超级计算机,建立了“脑级人工智能模型”——八卦炉(BAGUALU)。其具有174万亿个参数,可与人脑中的突触数量相媲美,将在从自动驾驶汽车到科学…

Java面试知识点:多线程

问题:Java面试知识点:多线程 答案: 1.线程 代码如下: package com.xy;/*** ProjectName: day01* Package: com.xy* ClassName: test01* Author: 杨路恒* Description:* Date: 2021/8/25 0025 16:57* Version: 1.0*/ public class…

基础科学研究需要哲学滋养

来源:人民网-人民日报 2017年3月28日作者:丘成桐(清华大学丘成桐数学科学中心)现代科技进步日新月异,不断拓展人类认知和活动的边界,广泛影响社会生产生活的各个方面。比如,高铁、飞机大大方便了…

Java面试知识点:网络编程

问题:Java面试知识点:网络编程 答案: 1.InetAddress 代码如下: package com.xy;import java.net.InetAddress; import java.net.UnknownHostException;/*** ProjectName: day01* Package: com.xy* ClassName: test01* Author: 杨路恒* Des…

游戏+与通用人工智能的实现

算法、算力与场景,是AI研究的关键要素。AI 对数据要求量极大,否则无法达到人类正确识别的程度。自 AlphaGo 一鸣惊人后,越来越多AI 研究团队意识到,游戏是 AI 的绝佳训练场之一。游戏推动科技创新上行一直以来我们很少把活泼轻松的游戏娱乐与…

A Survey on Knowledge Graphs___Representation, Acquisition and Applications.知识图谱综述:表示,获取,应用

知识图谱综述:表示、获取及应用 这是研究生第一篇综述文章,第一次读也是花了好几天的时间。 摘要:人类的知识提供了对世界的一种形式的理解。表征实体之间结构关系的知识图已成为认知和人的智能研究的热门方向。在这个调查中,我们提供了一…

李飞飞划重点的「具身智能」,走到哪一步了?

来源:选自Quanta magazine作者:Allison Whitten编译:机器之心编辑:张倩在前段时间的一篇文章中,李飞飞指出了计算机视觉未来的几个重要方向,其中最重要的一个就是具身智能。她认为,具身智能将成…

基于链接预测和卷积学习的Web服务网络嵌入

Web Service Network Embedding based on Link Prediction and Convolutional Learning 这是我读研的第一篇论文,也是花了好几天的时间。 基于链接预测和卷积学习的Web服务网络嵌入 摘要:为了在许多基本任务中,如基于Web的软件服务聚类、推荐…