大型语言模型(LLM)和多模态大型语言模型(MLLM)的越狱攻击

       随着大型语言模型(LLMs)的快速发展,它们在各种任务上表现出了卓越的性能,有效地遵循指令以满足多样化的用户需求。然而,随着这些模型遵循指令的能力不断提升,它们也越来越成为对抗性攻击的目标,这显著挑战了它们的完整性和可靠性。这种新兴的脆弱性激发了对攻击策略和强大防御的广泛研究,以更好地保护道德限制并改进LLMs。在这些漏洞中,越狱攻击尤为普遍,恶意指令或训练和解码干预可以绕过LLMs内置的安全措施,导致它们表现出不良行为。

1 越狱攻击和防御概述

1.1 定义

  • 越狱攻击:指的是利用对抗性提示或训练和解码策略绕过模型的安全措施,导致其产生不希望的行为,例如生成有害内容。
  • 越狱防御: 指的是部署鲁棒的策略来检测和对抗越狱攻击,确保模型遵循安全协议和道德规范,同时不影响输出质量和准确性。

1.2 必要性

  • 大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在各个领域(例如医疗保健、金融和法律系统)中发挥着重要作用,其准确性和道德完整性至关重要。
  • 越狱攻击能够绕过模型的安全措施,生成有害或偏见的内容,这会严重损害模型的完整性和可靠性,并对用户造成潜在风险。

     因此,研究越狱攻击和防御对于提高模型的鲁棒性和安全性至关重要,以更好地保护伦理限制并改善 LLMs。

1.3 越狱攻击为何会成功

     越狱攻击成功的机制源于在LMs的安全训练期间识别出的两种失败模式:竞争目标和不匹配的泛化。

  • 竞争目标: 模型的预训练和指令遵循目标与其安全目标之间存在冲突。例如,提高指令遵循能力可能会增加模型的双用风险,使其更容易被滥用。
  • 错配泛化: 安全训练无法泛化到预训练语料库中的分布外输入。例如,编码指令为 Base64 可以使模型偏离安全指南,生成不希望的内容。

2 越狱评估数据集

为了评估越狱攻击策略和模型对攻击的鲁棒性,引入了多种数据集。它们涵盖了包括单轮和多轮对话设置在内的多种情境,涵盖了单模态和多模态场景。越狱数据集通常输入有害查询以测试LLM的安全性,而MLLM则输入图像和查询的组合。

2.1 单模态越狱数据集

2.1.1 单轮查询响应

  • PromptBench: 包含手动制作的对抗性提示,用于特定任务,例如情感分析或自然语言推理。
  • Advbench: 利用 LLMs 生成多个领域的通用有害字符串和行为,包括亵渎、图形描述、威胁行为、错误信息和歧视。
  • AttaQ: 评估犯罪主题上的越狱攻击。
  • Do-Not-Answer: 评估五个风险领域和十二种危害类型的防护措施。
  • LifeTox: 识别寻求建议场景中的隐含毒性。
  • StrongREJECT: 包含手动收集和严格检查的有害且可回答的查询。
  • FFT: 包括 2,116 个精心设计的实例,用于评估 LLMs 在事实性、公平性和毒性方面的表现。
  • Latent jailbreak: 评估 LLMs 的安全和指令遵循鲁棒性。
  • SafetyBench: 包含 11,435 个多选题,涵盖七个安全关注类别,提供中英文版本。

2.1.2 多轮对话

  • Red-Eval: 评估模型对基于话语链的越狱提示的安全性。
  • AdvBench 扩展: 将原始查询分解为多个子查询,以增强对话环境中模型越狱的研究。

2.2 多模态越狱数据集

  • MM-SafetyBench: 包含 13 个场景和 5,040 个文本-图像对,用于评估 MLLMs 的安全性。
  • ToViLaG: 包含 32K 个有毒文本-图像对和 1K 个无邪但可能刺激毒性的文本,用于基准测试不同 MLLMs 的毒性水平。
  • SafeBench: 使用 GPT-4 创建的基准测试,涵盖 OpenAI 和 Meta 使用政策禁止的 500 个有害问题。
  • RTVLM: 使用现有数据集或通过扩散生成的图像,检查忠诚度、隐私、安全和公平性四个方面。
  • AdvBench-M: 从 Google 检索相关图像,以表示 AdvBench 中的有害行为。

2.2.1 多模态越狱数据集的局限性

  • 有限的图像来源: 图像通常由扩散过程生成或来自现有数据集,缺乏多样性。
  • 狭窄的任务范围: 主要关注基于图像的单轮问答任务,缺乏多轮对话或具身交互等更现实场景的基准测试。
  • 显式毒性: 大多数数据集都包含显式有毒图像,这使攻击更容易被检测,并降低了模型防御的难度。
  • 毒性的静态性质: 目前的越狱尝试针对的是时间和空间上静态的毒内容,而文化变迁或新兴的社会规范可以动态地改变不同地区和不同时间被视为有害的内容。

2.2.2 多模态越狱数据集的未来方向

  • 增加图像多样性: 从各种来源和类别中获取图像,包括不同的文化、语言和视觉风格。
  • 基准测试多轮对话: 评估多轮对话或动态具身交互中的多模态越狱,以评估模型在持续交互中的有效性。
  • 构建包含隐含毒性的数据集: 将微妙的危害线索或描绘可能被解释为暴力或争议场景的图像纳入数据集。
  • 开发特定数据集: 为各种人口统计或文化量身定制数据集,例如特定宗教,并编制数据集以捕捉不断变化的文化变迁或新兴的社会规范,以支持动态越狱评估。

3 越狱攻击方法

越狱攻击方法分为两个主要类别:非参数攻击和参数攻击,针对LLMs和MLLMs。非参数攻击将目标模型视为黑盒,通过操作输入提示(和/或输入图像)进行语义攻击。相反,参数攻击访问模型权重或对训练或推理过程进行非语义攻击。

3.1 非参数攻击

非参数攻击将目标模型视为黑盒,通过操纵输入提示(和/或输入图像)进行语义攻击。它主要利用了两个失败模式:构建竞争目标(constructing competing objectives)和诱导不匹配泛化(inducing mismatched generalization)。

3.1.1 非参数单模态攻击

3.1.1.1 构建竞争目标

构建竞争目标对抗安全目标的三种主要策略是:行为限制、上下文虚拟化和注意力分散。

  • 行为限制: 建立一组通用的行为约束指令,与特定查询一起作为越狱提示。这些约束指令指示模型在响应之前遵循预定义的规则,导致它们生成无害的前缀或避免拒绝。
  • 上下文虚拟化: 创建虚拟场景,模型在其中认为自己超越了安全边界或在独特的环境中,有害内容是可以接受的。
  • 注意力分散: 通过首先完成一个复杂但无害的任务来分散模型的注意力,然后才响应有害的查询。

3.1.2 诱导不匹配泛化

诱导不匹配的泛化:将输入转换为缺乏足够安全训练的长尾分布,以绕过安全防护的两种主要方法是领域转移和混淆。

  • 领域转移: 将原始指令重新定向到 LLMs 表现出强大的指令遵循能力但缺乏足够安全防护的领域。
  • 混淆: 将噪声或程序元素注入原始输入中的敏感单词,保留语义意义,同时使直接解释复杂化。

3.1.2 非参数多模态攻击

针对MLLMs的多模态越狱攻击主要关注定制输入提示以限制行为,而在上下文虚拟化和注意力分散方面则留有空白。例如,提示模型详细说明图像中显示的产品的制作步骤。

3.2 参数攻击

参数攻击将目标模型视为白盒,访问模型权重或对训练或推理过程进行非语义攻击。

3.2.1 参数单模态攻击

  • 训练干扰: 通常将有害示例(即使是最小的一组)纳入微调数据集中,以破坏安全对齐。
  • 解码干预: 修改解码过程中的输出分布,以促进越狱攻击。

3.2.2 参数多模态攻击

与单模态对应物相比,针对MLLMs的参数多模态攻击尝试相对较少。一些研究表明,在看似无害的数据集上定制微调MLLMs将破坏它们的安全对齐。此外,多模态越狱可能利用图像中的视觉触发器,例如通过后门中毒注入的水印,这可以与LLMs中使用的类似解码干预策略相结合,以提高多模态越狱的有效性。

3.3 多模态攻击的局限性

  • 未探索复杂的多模态任务: 多模态输入本质上是多样化和复杂的,可以更好地分散模型的注意力并构建安全标准更宽松的场景。
  • 忽视图像领域转移: 多模态攻击主要引入各种类型的图像噪声,但这些策略往往忽视了图像领域转移的潜力。
  • 缺乏多模态训练干扰: 缺乏基于多模态输入的有害训练实例,例如使用后门中毒的图像。
  • 过于简单的攻击生成: 多模态攻击通常通过扩散模型、图像生成工具或从外部来源检索在一步骤中生成恶意图像。

3 越狱防御方法

越狱防御方法保护模型免于生成有害内容,主要分为两类:外在防御和内在防御。外在防御在模型外部实施保护措施,不改变其固有结构或参数。内在防御增强模型的安全对齐训练或调整生成解码过程,以提高对有害内容的抵抗力。

3.1 单模态外在防御

3.1.1 预处理(Pre-Safeguard)

  • 有害性检测(Harmfulness Detection): 开发专门的检测器识别攻击特征,例如通过识别高困惑度或特定关键词来识别恶意提示。
  • 有害性暴露(Harmfulness Exposure): 通过添加或删除特殊后缀等方式,揭露隐藏在恶意提示中的有害性,使其暴露在安全训练的保护范围内。

3.1.2 后处理(Post-Remediation)

  • 模型自我防御(LLM Self Defense): 模型自身检测并过滤掉可能有害的内容。
  • 集成策略(Ensemble Strategy): 聚合多个平滑副本的预测结果,以实现无害输出。
  • 自我完善机制(Self-refinement Mechanism): 模型根据自身反馈迭代地完善其回复,以最小化有害性。

3.2 单模态内在防御

3.2.1 安全对齐(Safety Alignment)

  • 监督指令微调(Supervised Instruction Tuning): 在微调数据集中加入安全示例,以提高模型对有害内容的识别能力。
  • 人类反馈强化学习(RLHF): 通过人类反馈将模型行为与人类偏好对齐,从而提高其在各种任务上的性能和安全水平。

3.2.2 解码指导(Decoding Guidance)

  • 蒙特卡洛树搜索(MCTS)算法: 集成LLM的自我评估功能,进行前瞻性启发式搜索,并使用回放机制调整预测概率。
  • 安全专家模型: 训练一个安全专家模型,并聚合其与目标模型的解码概率,从而提高解码过程的安全性。

3.3 多模态越狱防御

目前多模态模型的越狱防御研究较少,一些尝试包括:

  • 将输入图像转换为文本,并利用单模态预处理策略进行防御。
  • 将输入变异为多个查询,并检查响应是否出现偏差,以检测越狱攻击。
  • 构建多模态指令遵循数据集,用于对MLLM进行安全微调。

3.4 多模态越狱防御的局限性

  • 泛化性差: 大多数防御策略都是针对特定攻击类型设计的,难以适应各种不断发展的攻击方法。
  • 鲁棒性差: 现有的防御策略难以抵御扰动攻击,即对输入进行微小且难以察觉的更改,就可能导致无法检测到越狱内容。
  • 误报率高: 合法回复可能被过度防御,并被错误地标记为越狱攻击。
  • 安全对齐成本高: 安全微调需要大量的标注,导致成本高昂。
  • 缺乏基于图像的检测方法: 目前的方法主要基于文本描述检测图像中的有害内容,直接对图像进行分类和缓解有害内容的检测和平滑技术仍需进一步研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/33419.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大数据】Hadoop学习笔记

基本概念 Hadoop组成 HDFS: Hadoop分布式文件存储系统, 在Haddop中处于底层/核心地位YARN: 分布式通用的集群资源管理系统和任务调度平台, 支撑各种计算引擎执行MapReduce: 第一代分布式计算引擎, 但因为部分原因, 许多企业都不直接使用MapReduce, 但许多底层软件仍然在使用Ma…

RabbitMQ 开发指南

连接RabbitMQ 连接方式一: 也可以选择使用URI的方式来实现 连接方式二: Connection接口被用来创建一个Channel,在创建之后,Channel可以用来发送或者接收消息。 Channel channel conn.createChannel();使用交换器和队列 声明…

汽车抬头显示器HUD阳光倒灌实验太阳光模拟器

简述 HUD阳光倒灌实验是评估汽车抬头显示器(HUD)在强烈日照条件下的性能表现的一种测试方法。该实验通过模拟太阳光照射,检测HUD在阳光直射下的显示效果,以确保驾驶者在强烈日照下仍能清晰地看到HUD显示的信息,从而提…

CentOS配置本地yum源

版本说明 操作系统版本:CentOS7.9 虚拟机版本 虚拟机打快照 首先给虚拟机打个快照,点击图下所示位置 命名快照之后,点击拍摄快照 可以参考图下所示进行管理和恢复快照 迁移原有yum源 先进入到/etc/yum.repos.d/ ,可以看到有很多…

C++编程(一)C++与C语言的一些区别

文章目录 一、QtCreator基本使用(一)编码格式:(二)C编程1. 文件后缀2. 编译3. 头文件 二、名字空间(一)概念以及访问方式1. 概念2. 访问方式(1)通过作用域限定符进行访问…

手写方法实现字符串例如:“123“与整型例如:123相互转化(面试必会)

目录 二、字符串类型转化为整型 1. 初始化变量 2.定义字符串索引值 3.思考如何将字符1转化为数字1 4. 转化思路 5.考虑字符串转化负数例:-123456 6.完整代码 四、最后 一、前言 在c语言和c中,有许许多多的数据类型相互转化的方法,这里…

【面试题】面试小技巧:如果有人问你 xxx 技术是什么?_面试问你对什么技术特别了解

前端工程越来越大,前面几种方案不能很好的支持单元测试。 在这样的背景下,React 诞生了。React 带来了新的思维模式,UI fn(props),React 中一个组件就是一个函数或者一个类,一个函数或者一个类就是一个基础单位&…

msvcp120.dll丢失的解决方法,总结几种有效的解决方法

最近,我在使用计算机时遇到了一个问题,系统提示我丢失了msvcp120.dll文件。这让我感到非常困扰,因为这个问题导致我无法正常运行一些程序。经过一番搜索和尝试,我找到了几种修复这个问题的方法,并成功解决了这个问题。…

三人同行乐享模式:社交电商的新趋势

在数字化时代,社交电商正以其独特的优势崭露头角。其中,“三人同行乐享模式”就是一种创新的购物激励机制,它通过消费者的社交互动和分享,不仅促进了产品的销售,更加强了品牌的推广和影响力。 一、模式简介 此模式的核…

RockChip Android12 Settings二级菜单

一:概述 本文将针对Android12 Settings的二级菜单System进行说明。 二:System 1、Activity packages/apps/Settings/AndroidManifest.xml <activityandroid:name=".Settings$SystemDashboardActivity"android:label="@string/header_category_system&quo…

【消息队列】六万字长文详细带你RabbitMQ从入门到精通

目录 1、基础篇1.1 为什么要用消息队列MQ1.2 什么是消息队列&#xff1f;1.3 RabbitMQ体系结构介绍1.4 RabbitMQ安装1.5 Hello World1.5.1 目标1.5.2 具体操作 1.6 RabbitMQ用法1.6.1 Work Queues1.6.2 Publish/Subscribe1.6.3 Routing1.6.4 Topics1.6.5 工作模式小结 2. 进阶篇…

推荐三款必备软件,个个五星好评,你一定不要错过

WiseCare365 WiseCare365是一款由WiseCleaner推出的综合性Windows系统优化和加速工具。它集成了多种功能&#xff0c;旨在帮助用户清理、优化和维护电脑系统&#xff0c;提升电脑性能和安全性。 WiseCare365的主要功能包括&#xff1a; 系统清理&#xff1a;它可以清理各种缓存…

CSC公派|哲学老师赴英国红砖大学访学交流

T老师申报CSC公派访问学者&#xff0c;要求世界排名Top200的英国大学。我们在一个月内先后获得了利物浦大学和兰卡斯特大学的邀请函&#xff0c;这两所高校均位列Top200。最终T老师选择英国红砖高校之一的利物浦大学并申报成功顺利出国。 T老师背景&#xff1a; 申请类型&…

Vue父组件mounted执行完后再执行子组件mounted

// 创建地图实例 this.map new BMap.Map(‘map’) } } ... 现在这样可能会报错&#xff0c;因为父组件中的 map 还没创建成功。必须确保父组件的 map 创建完成&#xff0c;才能使用 this.$parent.map 的方法。 那么&#xff0c;现在的问题是&#xff1a;如何保证父组件 mo…

端到端的全人体关键点检测:手把手实现从YOLOPose到YOLOWhole

目录 一、搭建yolopose平台二、迁移训练任务2.1 任务拓展数据准备训练模型测试训练模型结论To-do list: 1、数据集,COCO-whole, Halpe;下载好; 2、模型搭建,先基于yolov8来检测人体姿态,17个点; 3、迁移任务,17个点,把它拓展到133个点; 4、优化133个点的模型; 一、搭…

深入理解RLHF技术

在《LLM对齐“3H原则”》这篇文章中&#xff0c;我们介绍了LLM与人类对齐的“3H”原则&#xff0c;但是这些对齐标准主要是基于人类认知进行设计的&#xff0c;具有一定的主观性。因此&#xff0c;直接通过优化目标来建模这些对齐标准较为困难。本文将介绍基于人类反馈的强化学…

ONLYOFFICE 8.1:全面升级,PDF编辑与本地化加强版

目录 &#x1f4d8; 前言 &#x1f4df; 一、什么是 ONLYOFFICE 桌面编辑器&#xff1f; &#x1f4df; 二、ONLYOFFICE 8.1版本新增了那些特别的实用模块&#xff1f; 2.1. 轻松编辑器 PDF 文件 2.2. 用幻灯片版式快速修改幻灯片 2.3. 无缝切换文档编辑、审阅和查…

RS-485和RS-422通信的3.3V低功耗收发器MAX3483

描述 国产MAX3485外观和丝印 该MAX3483ESA为15kV ESD保护、3.3V、低功耗收发器&#xff0c;用于RS-485和RS-422通信。 每个设备包含一个驱动器和一个接收器。 该MAX3483ESA具有压摆率限制驱动器&#xff0c;可最大限度地降低 EMI 并减少因端接不当电缆引起的反射&#xff0c;从…

【BSCP系列第2期】XSS攻击的深度剖析和利用(文末送书)

文章目录 前言一、官方地址二、开始&#xff08;15个&#xff09;1&#xff1a;Lab: DOM XSS in document.write sink using source location.search inside a select element2&#xff1a;Lab: DOM XSS in AngularJS expression with angle brackets and double quotes HTML-e…

北邮《计算机网络》MAC子层笔记

文章目录 缩写复习MAC层所在层次动态分配信道算法们的简要介绍信道的五条基本假设多路访问的协议&#xff08;理论上的协议&#xff09;aloha协议CSMA协议其他冲突避免协议无线局域网协议 &#xff0c;MACA 以太网协议802.3&#xff08;实际协议&#xff0c;刚刚是理论&#xf…