机器学习的重新思考:人工智能如何学习“失忆”?

ada8d5ee64b0d07da1e210a81b182c93.png

来源:Samuel Greengard

作者:Samuel Greengard

编译:维克多

机器学习已经成为各行各业的宝藏工具,常被用来构建系统,帮助人们发现那些容易忽略的细节,并辅助决策。尽管已经取得了惊艳的结果,但是也有很多痛苦,例如如何在已经成型的模型中修改、删减某些模块或者数据记录?

有学者表示,在大多数情况下,修改往往意味着重新训练,但仍然无法避免纳入可疑数据。这些数据可能来自系统日志、图像、客户管理系统等等。尤其是欧洲GDPR出台,对模型遗忘功能提出了更高的要求,企业如果不想办法将会面临合规处罚。

确实,完全重新训练的代价比较高,也不可能解决敏感数据问题。因此,我们无法证明重新训练的模型可以完全准确、有效。

为了解决这些问题,学者们定义了一种“机器学习解除术”(machine unlearning),通过分解数据库、调整算法等专门技术,诱导模型选择性失忆。机器学习解除术,顾名思义,就是让训练好的模型遗忘掉特定数据训练效果/特定参数, 以达到保护模型中隐含数据的目的。

1

打破模型

机器学习之所以有魅力,是因为它能透过庞大的数据,超出人类认知范围的复杂关系。同时,这项技术的黑盒性质,让学者在修改模型时候,非常谨慎,毕竟无法知道一个特定的数据点处在模型的哪个位置,以及无法明确该数据点如何直接影响模型。

另外一种情况是:当数据出现异常值时,模型会记得特别牢,并对整体效果产生影响。

当前的数据隐私工具可以在数据脱敏的情况下训练模型,也可以在数据不出本地的情况下联合训练。或许可以将敏感数据替换成空值,引入噪声掩蔽敏感数据。但这些都无法从根本上解决问题。甚至,替代元素并保留关键数据的差异隐私技术也不足以解决选择性遗忘问题。例如它只能在单个案件或少数几个案件中发挥作用,在这些案件中,虽然不需要重新训练,但会有“敏感”的人要求从数据库中删除数据。随着越来越多的删除请求陆续到来,该框架的“遗忘模型"很快就会瓦解。

因此,隐私技术和机器学习解除术在解决问题的层面,并不能等同。

匿名无法验证和差分隐私技术的数据删除问题不仅是理论问题,而且会产生严重的后果。研究人员已经证明,人们总是有能力从所谓的通用算法和模型中提取敏感数据。例如2020年时候,学者发现,从GPT-2中可以获得包括个人身份和受版权保护的信息等训练数据。

2d8aa4250050d5f70337b375fb98721d.png

2

选择性遗忘

让机器学习模型获得选择性遗忘的能力,需要解决两个关键问题:

1.理解每个数据点如何机器学习模型;

2.随机性如何影响空间。例如需要弄清,在某些情况下,数据输入中相对较小的变化为何会产生不同的结果。

该方向的最初研究出现在在2019年。当时,Nicolas Papernot提出将机器学习的数据分割成多个独立的部分,通过建立众多的迷你数据,从而实现只对特定组件进行删除和再训练,然后插回完整的数据集中,生成功能齐全的机器学习模型。

5300d64cd10eacf25954c5953b7a7141.png

具体操作过程是:先将训练数据分成多个不相交的切片,且一个训练点只包含在一个切片中;然后,在每个切片上单独训练模型;随后,合并切片,成功删除数据元素。因此,当一个训练点被要求遗忘时,只需要重新训练受影响的模型。由于切片比整个训练集更小,就减少了遗忘的代价。

该方法被Nicolas Papernot命名为SISA(Sharded, Isolated, Sliced, and Aggregated ),对比完全重训练和部分重训练的基线, SISA实现了准确性和时间开销的权衡。在简单学习任务中, 在数据集Purchase上是4.63x, 在数据集 SVHN上是2.45x。

同时,作者也承认,虽然这个概念很有前途,但也有局限性。例如,通过减少每个切片的数据量,会对机器学习产生影响,并且可能会产生质量较低的结果。此外,这项技术并不总是像宣传的那样奏效。

目前,机器学习遗忘术的研究仍处于初级阶段。随着研究人员和数据科学家深入了解删除数据对整体模型的影响,成熟的工具也会出现,其目标是:机器学习框架和算法允许学者删除一条记录或单个数据点,并最终得到一个“完全遗忘“相关数据的有效模型。

参考链接:

https://cacm.acm.org/magazines/2022/4/259391-can-ai-learn-to-forget/fulltext#FNA

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e11a356123fe9bbdcc8323d15ef4d938.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482307.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅谈Spring IOC和DI及Spring工厂类

浅谈Spring IOC和DI及Spring的工厂类 文章目录浅谈Spring IOC和DI及Spring的工厂类一. IOC1.什么是IOC2.为什么使用IOC传统开发模式的弊端3. 使用spring-IOC步骤二. DI1.什么是DI2.传统面向接口编程2.使用DI方式三. Spring的工厂类一. IOC 1.什么是IOC ​ IOC: Inversion of …

城市大脑标准体系与评价指标总体框架研究

来源:城市大脑全球标准研究组根据城市大脑标准的前期研究和中国指挥与控制学会(CICC)《城市大脑建设规范》标准启动会的专家意见,形成城市大脑标准体系与评价指标总体框架(如图1所示),供各位专家探讨&#…

AOP和Spring AOP介绍

AOP和Spring AOP介绍 文章目录AOP和Spring AOP介绍一.AOP简介二. 传统开发存在的弊端三. AOP实现原理四.Spring AOP五.AOP相关术语一.AOP简介 AOP为Aspect Oriented Programming的缩写,意为:面向切面编程。是OOP的延续,是软件开发中的一个热…

新鲜出炉!大规模神经网络最新综述!

来源:arXiv编译:机器之心在本综述论文中,研究者解释了不同技术的工作原理、评估和比较,还分析了一些实现这些技术的框架。现代深度学习和人工智能技术的发展涉及使用深度神经网络(DNN)来解决图像、视频、音…

数据结构与算法理论概述

数据结构与算法理论概述 文章目录数据结构与算法理论概述数据结构概述◆ 数据结构涵盖的内容◆ 存储数据算法概述◆ 算法的基本特性◆ 算法设计要求◆ 算法分析数据结构概述 狭义上:数据结构是专门研究数据存储的问题; 数据的存储包括:个体的…

战略性基础研究的由来及国际实践研究

来源:微信公众号中国科学院院刊,原载:《中国科学院院刊》2022年第3期作者:阿儒涵1,2、杨可佳3、吴丛1,2、李晓轩1,2*1 中国科学院科技战略咨询研究院2 中国科学院大学公共政策与管理学院3 挪威奥斯陆大学技术创新和文化研究中心近…

顺序表Sqlist.cpp

顺序表Sqlist.cpp 文章目录顺序表Sqlist.cpp1 顺序表插入逻辑2 顺序表删除逻辑3 代码演示4 运行结果1 顺序表插入逻辑 在表的第 i 个位置前插入一个元素 实现步骤: 将第 n 至第 i 位的元素向后移动一个位置;将要插入的元素写到第 i 个位置;表…

顺序表的插入删除查找遍历

顺序表的插入删除查找遍历 文章目录顺序表的插入删除查找遍历代码运行结果截图代码 #define Maxsize 100typedef int ElemType; typedef struct{ElemType data[Maxsize];int length; }Sqlist;void Createlink(Sqlist &L) {int a;printf("请输入你要创建的顺序表的长…

Yann LeCun最新访谈:能量模型是通向自主人工智能系统的起点

来源:ZDNet编译:钱磊编辑:陈彩娴继自监督学习之后,Yann LeCun 在接受 ZDNet 的最新访谈中又着重探讨了他在几年前曾大篇幅推崇的概念:「能量模型」(energy-based models)。什么是能量模型&#…

HTML5崛起之时,Java桌面时代就已经终结了

来源:AI前线作者:Steve Hannah翻译:核子可乐编辑:燕珊2004 年 Google Maps 的面世标志着 Java 桌面时代的终结,也改变了桌面环境下“跨平台”的基本定义。本文作者以个人视角对 Java 桌面发展历程做了回顾,…

单链表介绍及其实现

链表 文章目录链表链表的专业术语:实现链表的专业术语: 首节点:存放第一个有效数据的结点;尾结点:存放最后一个有效数据的结点;尾指针指向;头结点:头结点的数据类型和首结点的类型一…

Linux基础概念及常用命令

Linux基础概念及常用命令 文章目录Linux基础概念及常用命令1 Linux概述1.1 为什么要学Linux1.2 Linux简介1.3 Linux 发行版1.4 Linux 应用领域2 Linux常用命令2.1 Linux目录结构2.2 Linux目录命令2.3 Linux文件命令2.4 Linux其他命令1 Linux概述 1.1 为什么要学Linux linux诞生…

PNAS新研究:剑桥学者发现,有些 AI 模型无法被计算

来源:AI科技评论作者:Ailleurs编辑:陈彩娴近日,剑桥学者在《美国科学院院报》(PNAS)上发表了一篇名为“The Difficulty of Computing Stable and Accurate Neural Networks: On the Barriers of Deep Learn…

量子计算机首次成功模拟化学反应

SHUTTERSTOCK来源:IEEE电气电子工程师━━━━利用谷歌的Sycamore量子处理器,科学家们进行了迄今为止涉及量子计算机的最大规模的化学模拟。他们采用了一种新技术,可能有助于抵抗量子电路中常见的噪声。量子计算机理论上可以实现量子优势&…

单链表的按位置插入和删除

单链表的插入和删除 文章目录单链表的插入和删除1 单链表插入2 单链表删除3 代码实现1 单链表插入 要想将结点s插入到ai与ai1之间,不需要移动数据元素,只需要在ai与ai1之间插入一个新的结点,也就是我们要插入的结点s。关键就是要修改结点p的…

DeepMind最新研究:如何将「大语言模型」 训练到最优?

来源:AI科技评论 作者:维克多Transformer的提出距离我们已经有5年的时间,随着模型规模的不断增长,性能提升也逐渐出现边际效益递减的情况。如何训练出最优性能的大模型?最近,DeepMind做了一项调查&#xf…

给计算机处理器做手术来研究大脑

来源:混沌巡洋舰在人类对大脑认识的历史上,曾经使用过很多隐喻来描述脑,比如齿轮机械、电话交换机、计算机等等。目前,“脑就像一台计算机”这个隐喻仍然占据着主导地位,尽管人们对于这个隐喻的贴切程度的看法存在分歧…

为什么百度查到的ip地址和ipconfig查到的不同;详解公网Ip和私网ip; 网络分类ABC类;

文章目录1.百度查到的ip和ipconfig查到的不同1.1引出问题1.2不一样的原因2.IP地址分类2.1IP类别2.1 Public IP和Private IP3.总结3.1整理上网流程3.2遗留问题1.百度查到的ip和ipconfig查到的不同 IP可以分为Public IP 和 Private IP,出现这种规划的原因在于IPv4所能表示的IP太少…

国科金:共融机器人基础理论与关键技术研究重大研究计划

来源:学术头条国家自然科学基金委员会现发布共融机器人基础理论与关键技术研究重大研究计划 2022 年度项目指南,请申请人及依托单位按项目指南中所述的要求和注意事项申请。 国家自然科学基金委员会 2022 年 4 月 2 日一、科学目标本重大研究计划瞄准国…

停止追赶最新的 RPA 趋势

来源:AI前线作者:Anupam Krishnamurthy译者:Phoenix策划:蔡芳芳本文最初发布于 anupam.de 博客,由 InfoQ 中文站翻译并分享。我做了 4 年的 RPA 开发者——2017 至 2021 年。在 2019 年底,我做了一个重要的…