【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击

基本信息

原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking

原文作者:Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee

作者单位:Hippocratic AI,南加州大学信息科学研究所

关键词:RED QUEEN 攻击,多轮次越狱攻击,大语言模型(LLM),安全防护

原文链接:https://arxiv.org/pdf/2409.17458v1

开源代码:https://github.com/kriti-hippo/red_queen

论文要点

论文简介: 本文提出了一种新的越狱攻击方法“RED QUEEN 攻击”,这种方法通过构建多轮次对话场景,将恶意意图隐蔽在看似为保护安全的请求之下。研究表明,现有的大语言模型(LLMs)在面对复杂的多轮次对话时,容易暴露出安全漏洞,尤其是恶意意图被巧妙伪装时。本文通过实验展示了 RED QUEEN 攻击的有效性,并揭示了在面对不同模型大小时,这种攻击的成功率差异。为了应对此类攻击,研究团队提出了名为“RED QUEEN GUARD”的防护策略,大大降低了攻击成功率,同时保持了模型的通用性能。

研究目的: 随着大语言模型(LLM)在各个领域的广泛应用,它们的安全性问题变得愈加重要。尽管已有的越狱攻击方法大多基于单轮次对话且明确表达恶意意图,但这些方法并未完全反映现实世界的复杂性。在现实中,攻击者可能会通过多轮次对话逐步隐蔽其真实意图,使得模型难以检测并防护。本文的主要目标是提出一种能够隐蔽恶意意图的多轮次越狱攻击方法,并探索模型在此类攻击下的脆弱性。同时,研究团队还旨在设计一种简单有效的防护策略,帮助模型在面对此类攻击时保持安全。

研究贡献: 

1. 提出了 RED QUEEN 攻击,这是首个构建多轮次场景并隐蔽恶意意图的越狱攻击方法,成功率较高。

2. 创建了一个包含56,000条多轮次攻击数据点的大规模数据集,涵盖14种有害类别和40种不同场景。

3. 对不同大小的四个代表性LLM模型家族进行了全面评估,并分析了不同轮次、场景和类别下攻击的有效性。

4. 提出了名为 RED QUEEN GUARD 的防护策略,通过对模型进行对抗性训练,使攻击成功率降至1%以下,同时保持模型在通用基准上的表现。

引言

在大语言模型(LLM)的快速发展中,如何确保其安全性已成为关键问题。现有的越狱攻击大多依赖于单轮次的对话场景,通过明确表达恶意意图来诱导模型生成有害内容。然而,现实中的攻击者可能会采用更加隐蔽的方式,例如通过多轮次对话逐步暴露其恶意意图。

为了解决这一问题,本文提出了一种新的越狱攻击方法——RED QUEEN 攻击,该方法通过在多轮次对话中伪装善意请求,隐藏恶意意图,从而绕过模型的安全防护。本文还提出了一种防护策略 RED QUEEN GUARD,通过优化模型的防御能力,显著降低了攻击成功率。

图片

目前的越狱攻击大多是通过精心设计的单轮次提示来引导模型产生有害内容,但这并不能完全反映真实世界中的复杂交互场景。例如,用户可能会通过多轮次的对话逐步暴露其恶意意图,而不是在对话开始时直接提出恶意请求。RED QUEEN 攻击通过多轮次对话场景的构建,能够有效隐蔽恶意意图,使得模型难以检测。

相关工作

在 LLM 安全研究领域,红队测试(Red Teaming)是一种常见的安全评估方法,旨在通过模拟攻击者的视角,发现模型的潜在漏洞。现有的研究主要集中在单轮次越狱攻击上,设计各种提示来诱导模型产生有害内容。然而,这些攻击方法存在显著的局限性,因为它们无法捕捉到现实世界中的多轮次交互场景。为了解决这一问题,本文提出了 RED QUEEN 攻击,这是一种多轮次对话攻击方法,能够在伪装善意请求的同时隐藏恶意意图。

RED QUEEN攻击

RED QUEEN 攻击通过在多轮次对话中隐藏恶意意图,诱导模型产生有害内容。攻击者通常会以“阻止他人进行有害行为”的名义提出请求,但实际上,他们是在寻求帮助完成恶意行动。通过这种方式,攻击者可以逐步获取模型的信任,并在对话后期引导模型生成详细的恶意计划。

RED QUEEN 攻击的关键在于多轮次的对话结构和恶意意图的隐蔽性。攻击者通过构建虚拟的多轮次对话场景,使得模型难以察觉恶意请求的真实目的。此外,研究表明,模型越大,越容易受到此类攻击的影响。实验结果显示,GPT-4 在此类攻击下的成功率高达87.62%。

实验设置

在实验设置中,研究团队选用了四个代表性的大语言模型(LLM)家族的十个不同大小的模型进行评估,包括 GPT-4、Llama3、Qwen2 和 Mixtral,模型规模从 7B 到 405B 不等。实验主要测试了这些模型在面对 RED QUEEN 攻击时的表现。为了构建多轮次攻击场景,研究团队设计了 40 种不同的对话情境,涵盖了多个职业和关系背景,例如警察、律师、朋友和亲属等。在每个情境中,用户通过多轮次对话逐步隐藏恶意意图,诱导模型生成有害内容。

图片

实验中,攻击数据集包含 56,000 条多轮次攻击数据点,涵盖 14 个有害类别,模型的响应被用来评估攻击成功率。同时,实验还通过不同轮次的对话结构(如单轮次、三轮次和五轮次)来分析多轮次结构对攻击成功率的影响。

实验结果

实验结果表明,RED QUEEN 攻击在所有测试的大语言模型(LLM)上都表现出显著的有效性,尤其是在多轮次对话的隐蔽攻击场景中。GPT-4 的攻击成功率达到 87.62%,Llama3-70B 的成功率为 75.4%,显示出大模型在处理复杂对话时更容易受到攻击。这表明,模型规模越大,其推理和语言理解能力越强,反而更容易生成有害内容。

图片

实验还发现,随着对话轮次的增加,攻击成功率显著上升。例如,Llama3-70B 在五轮对话中的攻击成功率高达 77.11%,而在三轮对话中仅为 52.41%。此外,不同的攻击场景对成功率也有影响,职业背景(如警察、侦探)的场景中,模型更容易生成详细的恶意计划,而亲密关系场景(如朋友、亲属)下的攻击成功率相对较低。

防护策略

为了解决 RED QUEEN 攻击带来的安全风险,研究团队提出了名为 RED QUEEN GUARD 的防护策略。该策略通过对抗性训练,使得模型能够更有效地识别并拒绝多轮次攻击中的恶意请求。在实验中,RED QUEEN GUARD 将攻击成功率降低到了1%以下,同时保持了模型在通用任务中的性能。

论文结论

本文提出了一种全新的多轮次越狱攻击方法 RED QUEEN 攻击,揭示了当前主流大语言模型在面对隐蔽恶意请求时的脆弱性。通过实验验证,RED QUEEN 攻击在多个模型上表现出了较高的成功率,尤其是在大规模模型上更为明显。为了应对这一威胁,研究团队提出了 RED QUEEN GUARD 防护策略,大大降低了攻击成功率,为 LLM 的安全性提升提供了新的思路。

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/59067.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎么做才能降低APP用户的卸载率?

常年困扰 App 开发者的始终是一个问题:怎么做才能降低用户卸载率呢? 不要慌,今天这篇文章里,你就会找到解决方案啦。首先请记住: 每个 App 都是有自己独立个性的,所以没有一个通用的公式能让大家套用。 还…

Transformer模型——tokenize分词

tokenize的目标是输出的文本流,切分成一个个子串,每个子串相对有完整的语义,便于学习Embedding表达和后续模型的使用。 tokenize有三种粒度:word / subword / char word:词。对于英文等语言来说,存在着天然…

自动驾驶上市潮中,会诞生下一个“英伟达”吗?

站上科技创新潮头的企业总是备受资本青睐。20世纪开始,从IT到互联网,IBM、英特尔、微软、苹果等各大科技巨头,你方唱罢我登场。 近几年,人工智能成为资本市场新传奇故事的孕育之地。今年10月,英伟达市值首度突破3.5万…

【vue项目中添加告警音频提示音】

一、前提: 由于浏览器限制不能自动触发音频文件播放,所以实现此类功能时,需要添加触发事件,举例如下: 1、页面添加打开告警声音开关按钮 2、首次进入页面时添加交互弹窗提示:是否允许播放音频 以上两种方…

产品结构设计(六):结构设计全过程

参考引用 产品结构设计实例教程 1. ID 图及 PCB 堆叠分析 1.1 产品说明及相关资料 1、新产品开发指令单 2、ID 图 3、产品功能规格书 1.2 ID 图分析 ID(Industrial Design,工业设计)是以工业产品为主要对象,综合运用工学、…

文献阅读记录6-Toward computer-made artificial antibiotics

摘要 将合成生物学和计算生物学的概念结合起来,可能会产生比现有药物更不容易产生耐药性的抗生素,而且还能对抗耐药感染。事实上,计算机引导策略与大规模并行高通量实验方法相结合,代表了抗生素发现的新范式。耐多药微生物引起的…

Manus在虚拟现实仿真模拟中的应用案例分享

Manus虚拟现实手套作为一种高精度的人机交互设备,在仿真模拟领域展现出了巨大的应用潜力。通过提供实时、准确的手指动作捕捉数据,Manus手套为多个行业带来了前所未有的仿真体验,推动了技术发展和应用创新。 技术特点 1. 高精度手指跟踪 Ma…

Vue2——单页应用程序路由的使用

一.单页应用程序与多页应用程序之间的比较 二.单页的应用场景 系统类网站 / 内部网站 / 文档类网站 / 移动端网站 三.路由的介绍 1. 什么是路由 路由是一种映射关系 2. Vue中的路由是什么 路径和组件的映射关系 四.VueRouter的使用 5个基础步骤(固定) …

Windows 下实验视频降噪算法 MeshFlow 详细教程

MeshFlow视频降噪算法 Meshflow 视频降噪算法来自于 2017 年电子科技大学一篇高质量论文。 该论文提出了一个新的运动模型MeshFlow,它是一个空间平滑的稀疏运动场 (spatially smooth sparse motion field),其运动矢量 (motion vectors) 仅在网格顶点 (m…

用Python脚本执行安卓打包任务

这个样例是基于windows系统写的python打包安卓的脚本: 一、配置AndroidStudio下的打包任务 1.在Android项目根目录下的build.gradle文件配置生成Release包的任务: task cleanAll(type: Delete) {delete rootProject.buildDirrootProject.subprojects.e…

专题十七_BFS_BFS解决 FloodFill 算法_BFS 解决最短路问题_多源 BFS_BFS 解决拓扑排序

目录 BFS 一、BFS解决 FloodFill 算法 1. 图像渲染(medium) 解析: 细节问题: 总结: 2. 岛屿数量(medium) 解析: DFS: BFS: 总结: 3. …

NVR小程序接入平台/设备EasyNVR多个NVR同时管理视频监控新选择

在数字化转型的浪潮中,视频监控作为安防领域的核心组成部分,正经历着前所未有的技术革新。随着技术的不断进步和应用场景的不断拓展,视频监控系统的兼容性、稳定性以及安全性成为了用户关注的焦点。NVR小程序接入平台/设备EasyNVR&#xff0c…

leetcode71:简化路径

给你一个字符串 path ,表示指向某一文件或目录的 Unix 风格 绝对路径 (以 / 开头),请你将其转化为 更加简洁的规范路径。 在 Unix 风格的文件系统中规则如下: 一个点 . 表示当前目录本身。此外,两个点 ..…

vscode 创建 vue 项目时,配置文件为什么收缩到一起展示了?

一、前言 今天用 vue 官方脚手架创建工程,然后通过 vscode 打开项目发现,配置文件都被收缩在一起了。就像下面这样 这有点反直觉,他们应该是在同一层级下的,怎么会这样,有点好奇,但是打开资源管理查看&…

大学适合学C语言还是Python?

在大学学习编程时,选择C语言还是Python,这主要取决于你的学习目标、专业需求以及个人兴趣。以下是对两种语言的详细比较,帮助你做出更明智的选择: C语言 优点: 底层编程:C语言是一种底层编程语言&#x…

yolov8涨点系列之优化器替换

文章目录 优化器替换的重要性加速收敛速度提高模型精度增强模型的泛化能力适应不同的数据集和任务特点 优化器替换步骤(1)准备代码:(2)导入优化器(3)替换优化器 本文将以替换Lion为优化器的方式展示如何对Ultrayluic的yolov8进行优化器替换。 优化器替换的重要性 加…

Vue 学习随笔系列十三 -- ElementUI 表格合并单元格

ElementUI 表格合并单元格 文章目录 ElementUI 表格合并单元格[TOC](文章目录)一、表头合并二、单元格合并1、示例代码2、示例效果 一、表头合并 参考&#xff1a; https://www.jianshu.com/p/2befeb356a31 二、单元格合并 1、示例代码 <template><div><el-…

C++ -- 模板进阶

非模板类型参数 模板参数分为类型形参与非类型形参。类型形参&#xff1a;出现在模板参数列表中&#xff0c;跟在class 或 typename之类的参数类型名称。非类型形参&#xff1a;就是用一个常量作为类(函数)模板的一个参数&#xff0c;在类(函数)模板中将该参数当成常量来使用。…

今日 AI 简报|零样本视频生成、移动端轻量语言模型、自动驾驶多模态模型等前沿 AI 技术集中亮相

❤️ 如果你也关注大模型与 AI 的发展现状&#xff0c;且对大模型应用开发非常感兴趣&#xff0c;我会快速跟你分享最新的感兴趣的 AI 应用和热点信息&#xff0c;也会不定期分享自己的想法和开源实例&#xff0c;欢迎关注我哦&#xff01; &#x1f966; 微信公众号&#xff…

如何监控员工上网行为?实现精准监控员工上网行为的5个妙招分享!(企业:稳了!)

如何监控员工上网行为&#xff1f; 员工上班时的"摸鱼"行为员工上网行为&#xff08;做与工作无关的活动&#xff0c;如浏览社交媒体、游戏、网购等&#xff09;&#xff0c;不仅影响工作效率&#xff0c;还可能破坏团队氛围&#xff0c;阻碍企业发展。 那么&#…