机器遗忘同等重要,AI如何忘记不良数据,保护用户隐私?

引言:大语言模型中的机器遗忘问题

在人工智能领域,大语言模型(LLMs)因其在文本生成、摘要、问答等任务中展现出的卓越能力而备受关注。然而,这些模型在训练过程中可能会记住大量数据,包括敏感或不当的信息,从而引发伦理和安全问题。为了解决这些问题,机器遗忘(Machine Unlearning,MU)技术应运而生,旨在从预训练模型中移除不良数据的影响及其相关模型能力,同时保持对其他信息的完整知识生成,而不影响因果无关的信息。机器遗忘在大语言模型的生命周期管理中扮演着关键角色,它不仅有助于构建安全、可信赖的生成型AI,还能在不需要完全重新训练的情况下提高资源效率。

论文标题:RETHINKING MACHINE UNLEARNING FOR LARGE LANGUAGE MODELS

公众号「夕小瑶科技说」后台回复“机器遗忘”获取论文pdf。

机器遗忘(MU)的定义与重要性

1. MU在大语言模型(LLM)中的应用

机器遗忘(Machine Unlearning, MU)是一种新兴的技术,旨在从预训练的大语言模型(LLM)中消除不良数据的影响,例如敏感或非法信息,同时保持对基础知识生成的完整性,并且不影响与之无关的信息。在大语言模型中,MU的应用包括但不限于文本生成、摘要、句子完成、改写和问答等生成性任务。例如,Eldan & Russinovich (2023) 使用MU策略来防止生成《哈利·波特》系列的版权材料。

2. 遗忘不良数据影响的必要性

大语言模型因其能够记忆大量文本而备受关注,但这也可能导致包括社会偏见、记忆个人和机密信息等道德和安全问题。因此,精确地遗忘这些不良数据对于确保LLM的安全性、可靠性和信任度至关重要。此外,考虑到LLM的训练成本高昂且耗时,重新训练以消除不良数据的影响通常是不切实际的,这使得MU成为一种可行的替代方案。

LLM遗忘的挑战与现状

1. 遗忘目标的界定问题

在LLM中精确定义和定位“遗忘目标”是一项挑战,因为这些目标可能是训练集的子集或需要被移除的知识概念。当前的研究通常是上下文和任务依赖的,缺乏标准化的语料库来进行LLM遗忘。

2. 数据与模型交互的复杂性

随着LLM的规模增长,开发可扩展和适应性强的MU技术变得更加复杂。这不仅影响性能评估,而且由于缺乏重新训练作为基准,评估的准确性也受到影响。例如,研究提出了上下文遗忘和虚构遗忘的方法,前者允许在黑盒模型上进行遗忘,后者提供了重新训练的替代方案。

3. 遗忘效果的多面性评估

遗忘的范围往往没有明确规定,这与模型编辑中面临的挑战相似。有效的遗忘应确保LLM删除目标数据的知识,同时保持对该范围之外数据的效用。此外,尽管LLM遗忘在多种应用中具有潜力,但目前缺乏全面和可靠的评估。

  • 例如,最近的研究表明,即使在编辑模型以删除敏感信息的努力之后,这些信息仍可能从编辑后的模型中被逆向工程出来,这突显了进行彻底和对抗性评估的必要性,以及设计更多机械性方法以保证遗忘的真实性。

遗忘方法的探索与评估

1. 模型基方法与输入基方法

在探索大语言模型(LLMs)的遗忘方法时,研究者们主要集中在模型基方法和输入基方法两大类。

  • 模型基方法涉及修改LLMs的权重或架构组件以实现遗忘目标,例如通过梯度上升或其变体来更新模型参数,使得模型对于遗忘集(Df)中的样本产生误预测的可能性最大化。

    (图为基于模型的图像编码基本原理框架图)

  • 输入基方法则设计输入指令,如上下文示例或提示,来引导原始LLM(无需参数更新)达到遗忘目标。

2. 影响函数与梯度上升变体

影响函数是评估数据移除对模型性能影响的标准方法,但在LLM遗忘的背景下并不常用,主要是因为涉及到求逆Hessian矩阵的计算复杂性,以及使用近似法导出影响函数时的准确性降低。

梯度上升(Gradient Ascent,GA)是一种直接的遗忘方法,通过最大化遗忘集Df中样本的误预测可能性来更新模型参数。GA的变体包括将其转换为梯度下降方法,目的是最小化重新标记遗忘数据上的预测可能性。

3. 本地化知识遗忘

本地化知识遗忘的目标是识别和定位对遗忘任务至关重要的模型单元(例如层、权重或神经元)。

  • 例如,通过表示去噪或因果追踪来完成模型层的本地化,或者使用基于梯度的显著性来识别需要微调以实现遗忘目标的关键权重。

这种方法的目的是在保护模型对非遗忘目标数据的效用的同时,确保LLMs删除目标数据的知识。

遗忘效果的评估框架

1. 与重训练的比较

在传统的遗忘范式中,从头开始重训练模型并从原始训练集中移除被遗忘的数据被视为精确遗忘。然而,由于重训练LLMs的可扩展性挑战,很难建立评估LLM遗忘性能的上限。最近的解决方案是引入虚构数据(合成作者档案)到模型训练范式中,模拟在新引入的集合上的重训练过程。

2. 鲁棒性评估与“硬”范围内的例子

遗忘的有效性指标之一是确保对于遗忘范围内的例子,即使是那些与遗忘目标直接相关的“硬”例子,也能实现遗忘。评估“硬”范围内的例子可以通过技术如改写LLMs打算遗忘的内容或创建多跳问题来实现。

3. 训练数据检测与隐私保护

成员推断攻击(Membership Inference Attack,MIA)旨在检测数据点是否是受害模型训练集的一部分,这是评估机器遗忘方法的一个关键隐私揭示指标。在LLM遗忘的背景下,特别是当重训练不是一个选项时,这一概念变得更加重要。

LLM遗忘的应用领域

1. 版权与隐私保护

在LLM遗忘的应用中,版权与隐私保护占据了重要的位置。

  • 例如,机器遗忘(MU)被用于防止生成哈利波特系列的版权材料(Eldan & Russinovich, 2023)。

这一应用不仅涉及法律和伦理考量,还涉及到数据的合法使用。在美国,联邦贸易委员会(FTC)要求一家公司彻底销毁因未经合法同意而训练的模型,这一做法被称为算法性吐露(algorithmic disgorgement)。LLM遗忘提供了一种可行的替代方法,可以通过移除非法数据的影响来避免完全销毁模型。

版权保护内容的删除与确定训练数据的确切来源需要删除的问题相关,这引发了数据归属问题

  • 例如,与哈利波特系列相关的泄露可能有多种原因,例如书籍被用于LLM的训练数据,或者训练数据包含与系列相关的在线讨论,或者LLM使用检索增强生成(retrieval-augmented generation),可能导致从搜索结果中泄露信息。

除了从训练数据中删除版权信息外,还有防止LLM泄露用户隐私的场景,特别是个人识别信息(PII)。这一关切与LLM记忆和训练数据提取密切相关。

2. 社会技术伤害减少

LLM遗忘的另一个应用是对齐(alignment),旨在使LLM与人类指令对齐,并确保生成的文本符合人类价值观。遗忘可以用来忘记有害行为,如产生有毒、歧视性、非法或道德上不可取的输出。遗忘作为安全对齐工具,可以在LLM开发的不同阶段进行。目前的研究主要集中在“预对齐”阶段(Yao et al., 2023),但在其他阶段可能存在未开发的机会。例如在对齐之前、期间或之后。

幻觉是LLM面临的一个重大挑战,它涉及生成虚假或不准确的内容,这些内容可能看起来是合理的。先前的研究表明,遗忘可以通过针对特定问题并遗忘事实上不正确的回应来减少LLM的幻觉(Yao et al., 2023)。由于幻觉可能由多个来源引起,可能的用途是遗忘作为常见幻觉或误解来源的事实上不正确的数据。

LLM也被认为会产生偏见的决策和输出

  • 视觉领域,遗忘已被证明是减少歧视以实现公平决策的有效工具。

  • 语言领域,遗忘已被应用于减轻性别-职业偏见(Yu et al., 2023)和许多其他公平问题。

  • 然而,更多的机会存在,例如遗忘训练数据中的刻板印象。

LLM也被认为容易受到越狱攻击(jailbreaking attacks),即,故意设计的提示导致LLM生成不希望的输出)以及投毒/后门攻击。鉴于遗忘在其他领域作为对抗攻击防御的成功,遗忘可以成为这两种类型攻击的自然解决方案

总结与未来展望

1. LLM遗忘的挑战与机遇

LLM遗忘面临的挑战包括确保遗忘目标的普遍性、适应各种模型设置(包括白盒和黑盒场景)以及考虑遗忘方法的具体性。LLM遗忘应该专注于有效地移除数据影响和特定模型能力,以便在各种评估方法中,特别是在对抗性环境中验证遗忘的真实性。LLM遗忘还应该精确地定义遗忘范围,同时确保在这个遗忘范围之外保持一般语言建模性能。

通过审视当前的技术水平,我们获得了LLM遗忘未来发展的洞见。例如,基于定位的遗忘显示出效率和效果的双重优势。有效的遗忘需要仔细考虑数据-模型影响和对手。尽管LLM遗忘和模型编辑在其制定和方法设计上存在相似之处,但它们在目标和方法上有所不同。此外,从LLM遗忘的研究中获得的洞见可能会催生其他类型的基础模型(例如,大型视觉-语言模型)的技术进步。

2. 从遗忘到编辑:LLM的新方向

LLM遗忘与模型编辑紧密相关,模型编辑关注的是局部改变预训练模型的行为,以引入新知识或纠正不希望的行为。遗忘的目标有时与编辑的目标一致,尤其是当编辑被引入以擦除信息时。像遗忘范围一样,编辑范围也是确保在定义范围之外不影响模型生成能力的关键。遗忘和模型编辑都可以使用“先定位,然后编辑/遗忘”的原则来处理。

尽管存在上述联系,LLM遗忘和编辑之间有明显的区别

  • 首先,与编辑响应相比,遗忘响应有时是未知的。不正确或不当的遗忘响应的特定性可能被视为遗忘后的LLM幻觉。

  • 其次,尽管遗忘和模型编辑可能共享一些共同的算法基础,但前者不创建新的答案映射。相反,其核心目标是全面消除归因于特定知识或概念的影响。

  • 第三,我们可以从“工作记忆”的角度区分模型编辑和遗忘。已知在LLM中,工作记忆是通过神经元激活而不是基于权重的长期记忆来维持的。

因此,现有的基于记忆的模型编辑技术专注于更新短期工作记忆,而不是改变模型权重中封装的长期记忆。然而,研究者们认为遗忘需要更机械化的方法来促进对预训练LLM的“深层”修改。

论文的更广泛影响

1. 伦理与社会影响的讨论

在探讨大语言模型(LLMs)的机器遗忘(MU)时,我们不得不面对一系列伦理和社会问题。这些模型因其能够生成与人类创作内容极为相似的文本而备受关注,但它们对大量语料的记忆能力也可能导致伦理和安全问题。

例如,社会偏见、刻板印象、敏感或非法内容的生成、以及可能被用于发展网络攻击或生物武器的风险。这些问题强调了根据不同安全背景,灵活且高效地调整预训练LLMs的必要性,以满足用户和行业的特定需求。

机器遗忘作为一种替代方案,旨在从预训练模型中移除不良数据的影响及相关模型能力。例如,为了防止生成《哈利·波特》系列的版权材料,研究人员使用了机器遗忘策略。这些讨论不仅关系到技术的发展,也触及到如何在不损害模型整体知识生成能力的同时,确保数据隐私和版权的保护。

2. 机器遗忘在实际场景中的应用必要性

机器遗忘在实际应用中的必要性体现在多个方面。

  • 首先,它有助于避免敏感或非法信息的传播,并且在不影响与遗忘目标无关信息的前提下,维护模型的完整性。

  • 其次,考虑到LLMs的昂贵和漫长的训练周期,重新训练模型以消除不良数据效应通常是不切实际的。

因此,机器遗忘成为了一个可行的选择。

在实际应用中,机器遗忘可以用于版权和隐私保护,例如避免生成版权受保护的内容,或防止泄露用户的个人识别信息。此外,机器遗忘还可以用于社会技术性危害的减少,比如通过遗忘有害行为来使LLMs与人类指令和价值观保持一致,或者减少由于错误信息源导致的幻觉现象。

公众号「夕小瑶科技说」后台回复“机器遗忘”获取论文pdf。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/707817.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据分析(二):学生成绩预测分析报告

目录 摘要 一、引言 二、 数据源介绍 三、 数据清洗和预处理 3.1 缺失值处理 3.2 异常值处理 3.3 数据编码 四、 探索性数据分析 4.1 可视化相关统计量 4.2 目标数据的分布情况 4.3 Pearson 相关性分析 五、 特征工程 5.1 特征构造 5.1.1 总饮酒量 5.1.2 整体关…

使用空闲电脑免费搭建一个私人的网盘

如果你也有一台空闲电脑,可以使用它来搭建一个私人的网盘。 这里使用的是飞梦云网盘; 服务端:下载 服务器文件使用hash校验进行储存,实现重复上传的文件秒传功能。 Fuse4Ui(虚拟分区工具):下…

GaN建模:强大但富有挑战性

来源:Modeling GaN: Powerful but Challenging(10年) 文章的研究内容 这篇文章主要研究了氮化镓(GaN)高电子迁移率晶体管(HEMTs)的建模问题。GaN HEMTs是微波频段高功率发射器设计中的关键技术…

java面试题基础篇,kafka与rabbitmq面试题

1. Java 堆空间 **发生频率:**5颗星 造成原因 无法在 Java 堆中分配对象 吞吐量增加 应用程序无意中保存了对象引用,对象无法被 GC 回收 应用程序过度使用 finalizer。finalizer 对象不能被 GC 立刻回收。finalizer 由结束队列服务的守护线程调用&a…

BOOT电路

本质:BOOT电路本质上是单片机的引脚 作用:BOOT电路的作用是用于确定单片机的启动模式 使用方法:在单片机上电或者复位时给BOOT管脚设置为指定电平即可将单片机设置为指定启动模式。 原理:单片机上电或复位后会先启动内部晶振&a…

【C++进阶】哈希 + unordered系列容器

👦个人主页:Weraphael ✍🏻作者简介:目前学习C和算法 ✈️专栏:C航路 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你有帮助的话 欢迎 评论💬 点赞&#x1…

华为 OD 一面算法原题

2.2 亿彩票公布调查结果 昨天,闹得沸沸扬扬的《10 万中 2.2 亿》的彩票事件,迎来了官方公告。 简单来说,调查结果就是:一切正常,合规合法。 关于福利彩票事件,之前的推文我们已经分析过。 甚至在后面出现《…

鸿运(通天星CMSV6车载)主动安全监控云平台敏感信息泄露漏洞

文章目录 前言声明一、系统简介二、漏洞描述三、影响版本四、漏洞复现五、修复建议 前言 鸿运主动安全监控云平台实现对计算资源、存储资源、网络资源、云应用服务进行7*24小时全时区、多地域、全方位、立体式、智能化的IT运维监控,保障IT系统安全、稳定、可靠运行…

unity初学问题:如何修改图片的坐标

如图,我们想要修改图片的轴心点坐标(Pivot) 选择图片组 打开编辑器在里面修改即可(最下面的Custom Pivot)

golang使用gorm操作mysql1

1.mysql连接配置 package daoimport ("fmt""gorm.io/driver/mysql""gorm.io/gorm""gorm.io/gorm/logger" )var DB *gorm.DB// 连接数据库,启动服务的时候,init方法就会执行 func init() {username : "roo…

浅谈 Linux 网络编程 - 网络字节序

文章目录 前言核心知识关于 小端法关于 大端法网络字节序的转换 函数 前言 在进行 socket 网络编程时,会用到字节流的转换函数、例如 inet_pton、htons 等,那么为什么要用到这些函数呢,本篇主要就是对这部分进行介绍。 核心知识 重点需要记…

数仓项目6.0(二)数仓

中间的几步意义就在于,缓存中间处理数据样式,避免重复计算浪费算力 分层 ODS(Operate Data Store) Spark计算过程中,存在shuffle的操作,而shuffle会将计算过程一分为二,前一阶段不执行完&…

链表之“带头双向循环链表”

目录 ​编辑 1.链表的分类 2.带头双向循环链表的实现 1.创建结构体 2.创建返回链表的头节点 3.双向链表销毁 4.双向链表打印 5.双向链表尾插 6.双向链表尾删 7.双向链表头插 8.双向链表头删 9.双向链表查找 10.双向链表在pos的前面进行插入 11.双向链表删除pos位…

ECLIP

denote the representation of the positive prompt produced by the momentum model as h ξ i h_{\xi}^{i} hξi​ 辅助信息 作者未提供代码

蓝桥杯前端Web赛道-课程列表

蓝桥杯前端Web赛道-课程列表 题目链接:0课程列表 - 蓝桥云课 (lanqiao.cn) 题目要求如下: 分析题目我们发现其实就是需要我们手写一个分页的功能,根据题目的要求,分析如下 需要通过axios获取数据每页显示5条数据,默…

11.vue学习笔记(组件生命周期+生命周期应用+动态组件+组件保持存活)

文章目录 1.组件生命周期2.生命周期应用2.1通过ref获取元素DOM结构2.2.模拟网络请求渲染数据 3.动态组件3.1.A,B两个组件 4.组件保持存活(销毁期) 1.组件生命周期 每个Vue组件实例在创建时都需要经历一系列的初始化步骤,比如设置…

Rocky Linux安装部署Elasticsearch(ELK日志服务器)

一、Elasticsearch的简介 Elasticsearch是一个强大的开源搜索和分析引擎,可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性,支持全文搜索、聚合分析、地理空间搜索等功能,是构建实时应用和大规模数据分析平台的首选工具。 …

Linux学习之system V

目录 一,system V共享内存 快速认识接口 shmget(shared memory get) shmat(shared memory attach) shmdt(shared memory delete) shmctl (shared memory control) 编写代码 综上那么共享内存与管道通信有什么区别? system v消息队列 system v信号…

【深度学习笔记】深度卷积神经网络——NiN

网络中的网络(NiN) LeNet、AlexNet和VGG都有一个共同的设计模式:通过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。 或者&am…

Linux------进程地址空间

目录 一、进程地址空间 二、地址空间本质 三、什么是区域划分 四、为什么要有地址空间 1.让进程以统一的视角看到内存 2.进程访问内存的安全检查 3.将进程管理与内存管理进行解耦 一、进程地址空间 在我们学习C/C的时候,一定经常听到数据存放在堆区、栈区、…