ACL 2024 | 如何避免LLM生成有毒回复?基于知识编辑的大模型祛毒初探

63b517c7c31ebfd78e336b7fb9fbf4fe.gif

4a07a5b90cf4d266ba37e5112b868640.png

论文链接:

https://arxiv.org/abs/2403.14472

代码链接:

https://github.com/zjunlp/EasyEdit

Benchmark:

https://huggingface.co/datasets/zjunlp/SafeEdit

bbac2bb8285ebd76cca5871fe639f5ef.png

摘要

当下大模型(LLMs)虽然取得了显著的成功,但在实际应用中依然面临着泄露隐私、偏见、以及恶意滥用等安全问题 [1]。常用的 SFT、DPO 等对齐方法可以使 LLMs 拒绝回复明显的有害请求(如 Where can I sell stolen art pieces?),但仍较难防御恶意的越狱攻击 [2],如图 1 所示。

那么我们能否换一个角度,通过精准地修改 LLMs 的毒性区域以避免 LLMs 生成有毒回复?知识编辑致力于通过少量数据精准地修改 LLMs 的特定行为 [3],直觉上知识编辑在 LLMs 祛毒场景存在一定的潜力。

鉴于此,本文构建了一个包含 9 类不安全场景,涵盖多种越狱攻击的数据集 SafeEdit,并尝试探索知识编辑方法在大模型祛毒场景的有效性。随后,本文提出了一个简单有效的祛毒基线方法 DINM,该方法首先识别 LLMs 的毒性区域,随后仅基于一条典型数据样例擦除该毒性区域。

有趣的是,通过分析 SFT,DPO 以及 DINM 的祛毒机理发现:SFT 和 DPO 可能仅抑制了 LLM 毒性区域的激活;而 DINM 在一定程度上减轻了毒性区域参数的毒性并进行了永久性的削弱,还具备一定程度的泛化性。

d102fe7cabdb1b5e48713eccce7af1e4.png

▲ 图1 通过知识编辑祛毒

9b1026de57321eab58b6309d01bfad0c.png

祛毒基准

本文构建了一个涵盖 9 类不安全场景,包含 48 个越狱模板的数据集 SafeEdit,如图 2 所示。SafeEdit 可广泛应用于微调、对齐(如 DPO)以及知识编辑等多种方法。

此外,本文将评价指标扩展为祛毒效果和通用能力两个方面。具体来说祛毒效果包括当前的祛毒成功率(DS)和在 OOD 数据上的泛化性(DG)。通用能力衡量祛毒方法可能带来的副作用,比如拒绝用户的无害请求,具体包括回复内容的流畅性(Fluency)、问答能力(KQA)以及总结能力(Csum)。

1b5f93ec067c94ccdfb84868717a4bc4.png

▲ 图2 SafeEdit 数据集构建流程

d2416ca4824b72f5b40f07522340aaf4.png

方法动机

以往的知识编辑方法主要针对事实知识,需要借助明确的实体才能编辑成功。然而,LLMs 的祛毒任务中的输入通常含有多个句子,无法确定明确的实体字符。受术中神经电生理监测(Intraoperative Neurophysiological Monitoring)对手术操作过程中可能影响到的神经组织进行监测以达到避免或减小损伤的启发,本文首先定位 LLMs 的毒性区域,然后基于一条数据精确地修改该毒性区域的参数,如图 3 所示。

具体来说,毒性区域的定位如下:对于一个恶意输入 ,对应着一个安全回复 和一个不安全回复 ,分别把 、 输入最初的基座 LLM,追踪他们前向传播过程中在各层的 Hidden State。本文认为二者语义差距最大的层即为毒性层,并把毒性层 MLP 的第二层作为毒性区域(该定位方式仅为毒性区域假说,严格的讲存在更优的毒性区域定位方法)。

56732f6ade9d16f055149ca43c7dc26e.png

▲ 图3 DINM 方法流程

072be531cbb1604260656366b3712f0a.png

实验结果

在知识编辑设定下的实验结果如下表所示,可以初步得出如下结论:

86e1606a3e4c723b9e6c5aeb368bff2b.png

  • 知识编辑方法在 LLMs 祛毒领域展现出一定程度的潜力。

  • DINM 取得了较好的祛毒能力和泛化性。

  • 知识编辑虽然会损害模型的通用能力,但在相对较小的范围内。

  • 精准定位可能是知识编辑在祛毒领域取得成功的关键。

8ed06422daa6b0f69738947dcf74bff4.png

机理分析

进一步探究了知识编辑方法 DINM 和常用的 SFT、DPO [4] 等方法的内部祛毒机理。

(1)首先评估了 DINM、SFT、DPO、Self-Reminder [5] 等方法的性能,如下表所示。DINM 虽然仅使用了一条数据(注意不同数据样例的祛毒和通用能力影响存在显著差异,因此本文汇报了标准差)进行祛毒过程,但仍可以媲美甚至超过 DPO。

384e9ffc4cc8a41d2ff0fe91706749e2.png

(2)量化了经过 DINM、SFT、DPO 这三种方法祛毒后模型毒性区域的毒性大小,以及进入该毒性区域的信息流。如图 4 所示,SFT 和 DPO 几乎没有改变(0.49% 和 0.6%)毒性区域的毒性大小,反而是流入该毒性区域的信息流发生了较大的偏移。与之相反,DINM 没有改变流入该毒性区域的信息流,而是使毒性区域的毒性降低了 2.72%。

5cfb8123d123c126d7656b0ebc6ab068.png

▲ 图4 DINM、SFT、DPO 的祛毒量化

因此如图 5 所示,本文猜测 SFT 和 DPO 可能只是抑制了 LLM 毒性区域的激活;而 DINM 在一定程度上减轻了毒性参数的毒性并进行了永久性的削弱。

865279a0c77ece6062e6e38e09660513.png

▲ 图5 DINM、SFT、DPO 的祛毒机理

36f58f86ba6b934a565f0daa300c8fe1.png

总结

总的来说,本文构建了 SafeEdit,一个通过知识编辑为 LLMs 祛毒的新基准,并提出了一种简单的大模型祛毒基线 DINM。此外,还分析不同祛毒模型背后可能的机制,并观察到知识编辑技术展现出通过擦除有毒区域从而可能获得永久解毒的潜力。

98abb8c1bebfc58464c622b539b19629.png

不足与未来的方向

本文所提的方法因定位的局限性,仅能擦除部分有毒区域(且为了平衡通用能力不可能彻底擦除干净),因此模型仍存在有毒的风险,未来可以研究更加精准的定位方法,以及更加有效的参数修改方法。特别地,本文的知识编辑方法可以和对齐方法进行互补以更好地实现大模型祛毒。

本文提出 DINM 面临的一个缺点是不同样本的选择导致的编辑效果差异较大(有一些样本对模型通用性能影响较大,需筛选合适的样),且编辑后的模型经常会重复一段话(部分通用能力损失),这些都是未来改进的方向。

outside_default.png

参考文献

outside_default.png

[1] A survey of safety and trustworthiness of large language models through the lens of verification and validation.

[2] Defending large language models against jailbreaking attacks through goal prioritization, ACL, 2024

[3] Editing large language models: Problems, methods, and opportunities. EMNLP, 2023

[4] Direct preference optimization: Your language model is secretly a reward model. NIPS, 2023

[5] Defending chatgpt against jailbreak attack via self-reminders. Nature Machine Intelliegence, 2023

更多阅读

041df6374f64bd04b516cc860e574d8f.png

2d55abc9141d54ac38cbd068bcbdc3b8.png

d8ab2a032bbdc32edad882f777075e8b.png

3ace0d2e53705ec534ad5476b011faf9.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

aac7b4a11532d427656542ccceffc792.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

1de721097f89b23dda4b5f42c01fe102.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/20074.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Django企业招聘后台管理系统开发实战四

前言 首先我们看一下产品的需求背景,这个产品为了解决招聘面试的过程中,线下面试管理效率低,面试过程和结果不方便跟踪的痛点 招聘管理的系统几乎是每一家中小公司都需要的产品 我们以校园招聘的面试为例子来做 MVP 产品迭代 首先我们来看一下…

Linux-在centos7中为普通用户配置sudo认证

目录 前言一、sudo是什么?二、配置sudo三、测试 前言 本篇文章介绍如何在centos7中为普通用户配置sudo认证 一、sudo是什么? sudo是一个命令,其作用是为普通用户以临时管理员(root)的身份去执行一条命令。 例如&…

翻译《The Old New Thing》- What a drag: Dragging a virtual file (HGLOBAL edition)

What a drag: Dragging a virtual file (HGLOBAL edition) - The Old New Thing (microsoft.com)https://devblogs.microsoft.com/oldnewthing/20080318-00/?p23083 Raymond Chen 2008年03月18日 拖拽虚拟文件(HGLOBAL 版本) 现在我们已经对简单的数据…

数据库(13)——DQL分组查询

语法 SELECT 字段列表 FROM 表名 [WHERE 条件] GROUP BY 分组字段名 [HAVING 分组后过滤条件] 示例 原始表: 根据性别分组并统计人数 select sex,count(*) from information group by sex; 根据性别分组,并求年龄的平均值:

工厂数字化!数据治理是基础

数据治理是基础 在当今的工业生产中,数字化转型已成为企业提升竞争力的必由之路。然而,数字化转型并非一蹴而就,它需要战略驱动、数据治理和数据智能的协同发展。本文将围绕如何进行数字化、数据治理的内涵以及数据治理作为数字化转型基础的原…

QT系列教程(7) QLineEdit介绍

简介 QLineEdit属于输入插件,用来实现单行录入。支持几种录入模式。 Normal表示正常录入,录入的信息会显示在QLineEdit上。 Password表示密码录入的方式,录入的信息不显示QLineEdit,只是通过黑色圆点显示。 NoEcho 表示不显示录入信息&am…

第 11 章 排序

第 11 章 排序 Abstract 排序犹如一把将混乱变为秩序的魔法钥匙,使我们能以更高效的方式理解与处理数据。 无论是简单的升序,还是复杂的分类排列,排序都向我们展示了数据的和谐美感。 本章内容 11.1 排序算法11.2 选择排序11.3 冒…

Ps:调整画笔工具

调整画笔工具 Adjustment Brush Tool可以将选区、创建蒙版和应用调整的传统工作流程合并为一个步骤,简化了对图像进行非破坏性局部调整的操作。 快捷键:B 调整画笔工具是 Photoshop 2024 年 5 月版(25.9 版)新增的工具。 ◆ ◆ …

【STM32】定时器与PWM的LED控制

目录 一、定时器控制LED周期性亮灭(一)定时器1.STM32F103定时器分类及区别2.通用定时器主要功能3.通用定时器工作过程 (二)STM32CubeMX创建工程(三)代码实现(四)实验结果 二、PWM模式…

【源码】Spring Data JPA原理解析之Repository自定义方法命名规则执行原理(二)

Spring Data JPA系列 1、SpringBoot集成JPA及基本使用 2、Spring Data JPA Criteria查询、部分字段查询 3、Spring Data JPA数据批量插入、批量更新真的用对了吗 4、Spring Data JPA的一对一、LazyInitializationException异常、一对多、多对多操作 5、Spring Data JPA自定…

Java垃圾回收_1

一、垃圾回收 1.如何判断对象可以回收 (1)引用计数法 存在循环引用问题, Java未使用这种算法 在引用计数法中,每个对象都有一个引用计数器,记录着指向该对象的引用数量。当引用计数器为零时,表示没有任…

JavaSE:SE知识整体总结

1、引言 历时一个多月的学习,已经掌握了JavaSE的知识,这篇博客就来做一下SE知识的总结~ 2、数据类型和变量 Java中的数据类型分为基本数据类型和引用数据类型。 2.1 基本数据类型 基本数据类型共有四类八种: 四类:整形、浮点…

在phpstorm2024版里如何使用Jetbrains ai assistant 插件 ?

ai assistant激活成功后,如图 ai assistant渠道:https://web.52shizhan.cn/activity/ai-assistant 在去年五月份的 Google I/O 2023 上,Google 为 Android Studio 推出了 Studio Bot 功能,使用了谷歌编码基础模型 Codey,Codey 是…

SpringBoot HelloWorld 之 实现注册功能

SpringBoot HelloWorld 之 实现注册功能 一.配置 创建数据库big_event CREATE TABLE user (id int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT ID,username varchar(20) COLLATE utf8_unicode_ci NOT NULL COMMENT 用户名,password varchar(32) COLLATE utf8_unicode_ci …

Vue3项目练习详细步骤(第五部分:用户模块的功能)

顶部导航栏个人信息显示 接口文档 接口请求与绑定 导航栏下拉菜单功能 路由实现 退出登录和路由跳转实现 基本资料修改 页面结构 接口文档 接口请求与绑定 修改头像 页面结构 头像回显 头像上传 接口文档 重置密码 页面结构 接口文档 接口请求与绑定 顶部导航…

自然语言处理学习路线

学习目标 NLP 系统知识(从入门到入土) 学习内容 NLP的基本流程:(待更)文本预处理(标点符号处理、繁体转简体、分词Tokenizer):(待更)词袋模型(TF…

红外热成像观驱一体仪,夜间驱鸟新利器

夜间驱鸟是机场鸟防工作的重点和难点,但红外热成像观驱一体仪的出现解决了这个问题,它结合了红外热成像技术和激光驱鸟技术,极大地提升了夜间驱鸟工作的效率和安全性。 驱鸟技术详解: 在夜晚低能见度的环境下,红外热成…

基于开源项目ESP32 SVPWM驱动无刷电机开环速度测试

基于开源项目ESP32 SVPWM驱动无刷电机开环速度测试 ✨本篇硬件电路和代码来源于此开源项目:https://github.com/MengYang-x/STM3F401-FOC/tree/main📍硬件电路和项目介绍,立创开源广场:https://oshwhub.com/shadow27/tai-yang-nen…

2024 HN CTF WebMisc 部分 wp

Web ez_tp 判断是thinkphp 3.2 参考官方手册:https://www.kancloud.cn/manual/thinkphp/1697 判断路由模式 URL_CASE_INSENSITIVE > true, // 默认false 表示URL区分大小写 true则表示不区分大小写URL_MODEL > 1, // URL访问模式,可选参数0、1、…

Python使用动态代理的多元应用

Python作为一种功能强大且易于学习的编程语言,在网络编程领域具有广泛的应用。当Python与动态代理技术结合时,便开启了一扇通往更多可能性的大门。以下将深入探讨Python使用动态代理可以实现的多种应用。 首先,Python结合动态代理在网络爬虫…