GPT-4o更容易越狱?北航南洋理工上万次测试给出详细分析

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践,基于大语言模型和RAG技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。

详情戳:卡奥斯智能交互引擎

北航&南洋理工联合团队 投稿
量子位 | 公众号 QbitAI

GPT-4o,比上一代更容易被越狱攻击了?

来自北航和南洋理工的研究人员,通过上万次的API查询,对GPT-4o各种模态的安全性进行了详细测试。

结果发现,GPT-4o新引入的语音模态带来了新的攻击面,而且多模态整体安全性不敌GPT-4V。

图片

具体来说,研究人员针对4个常用的基准测试,对GPT-4o支持的三种模态(文本、图像、音频)进行了测试。

测试一共涉及到4000+初始文本查询的优化,8000+响应判断,16000+次OpenAI的API查询。

基于此,研究人员撰写了详细的报告,给出了关于GPT-4o的安全性的三点见解:

  • GPT-4o对文本越狱攻击的安全性比之前有所提升,但文本模态越狱攻击可迁移性强,可通过多模态形式攻击;

  • 新引入的音频模态为GPT-4o的越狱攻击暴露了新的攻击面;

  • 当前的黑盒多模态越狱攻击方法几乎无效,但实验表明GPT-4o多模态层面的安全性弱于GPT-4V。

下面就来看一下这份报告的详细内容~

评价规则

首先,让我们了解一下作者使用的测评方式和实验设定。

为了评估GPT-4o的安全风险以及其相较于上一代模型的改变,作者将目标模型设置为GPT-4V和GPT-4o,利用API和移动应用对这些模型进行评估。

对于单模态下的文本越狱攻击,作者使用Llama2(7b-chat)生成文本越狱提示,然后用其迁移攻击目标模型。

为了全面评估目标模型的安全性,作者收集了现有的基于单模态和多模态的开源越狱数据集

  • 对于文本模态,使用了AdvBench和RedTeam-2K。

  • 对于音频模态,使用了AdvBench子集。

  • 对于多模态越狱,使用SafeBench和MM-SafetyBench,这是基于两种典型的黑盒多模态越狱方法构建的。

这些数据集按照OpenAI和Meta AI的用户策略,将数据集的内容分成了不同的类别,例如非法活动、仇恨言论等。

越狱方法层面,报告中评估了7种先进的越狱方法,分为两类。

其中单模态越狱方法包括基于模板的方法、GCG、AutoDAN和PAP;多模态越狱攻击方法包括FigStep、Liu等人工作和作者团队近期提出的BAP。

特别地,对于FigStep和Liu等人工作,基于相应方法构建的官方数据集已经发布,因此作者直接使用它们来评估目标模型;其他方法的评价则在AdvBench上进行。

对于基于模板的方法,作者从互联网上选择了6个典型的越狱模版进行测试,并使用它们的平均ASR作为相应指标。

GCG和AutoDAN最初是为白盒场景提出的,但它们已经被证明具有强大迁移性——作者通过攻击Llama2,使用这两类方法生成对抗性后缀,并随后将这些后缀应用于攻击GPT-4o和GPT-4V。

BAP是一种多模态越狱攻击方法,其利用了基于梯度的视觉对抗提示优化和基于思维链的文本对抗提示自适应优化。尽管目标模型是黑盒模型,但其中的文本对抗提示优化方法不受限制。因此在本研究中,作者使用它来评估文本模态的安全性。

评估指标采用的是攻击成功率(ASR),ASR越高则目标模型越容易被越狱成功。其计算公式如下:

图片

其中D为数据集,J为判决函数,F_θ为目标模型,v_i为图像、t_i为文本,a_i为音频,在评估时,没有涉及的模态将会被置空。

目前的工作中采用不同的方法作为判决函数,在报告中,作者遵循已有工作的设计,采用四类方法将J分别实例化J_1,J_2,J3,J_4。

  • J_1表示使用基于字符串匹配的方法,其中目标字符串包括‘Sorry’等否定模式,如果响应内容是安全的。

  • J_2表示使用Meta发布的Llama Guard判断内容是否安全。

  • J_3表示使用目标模型相应以及判断提示模版,交由ChatGPT判断。

  • J_4则是交由GPT-4o判断。

J_3和J_4除了模型不同外,所用的判断提示模版也不同,J_3的模版是要求大语言模型仅根据响应判断内容是否安全,而J_4的模版会同时根据问题和响应判断内容是否安全。

在实验评估中,作者会同时使用这四类判断函数计算ASR,定性分析时借鉴集成学习的思想,以多数判断函数的结果为准,定量分析时则以J_4的结果为准。

纯文本模态下,有攻击比没有时更安全

文本模态越狱风险方面,基于RedTeam-2K的评估结果表明,在没有攻击的情况下,GPT-4o的安全水平低于GPT-4V。

当考虑到特定情景,特别是那些具有较高风险的情景(如Physical Harm时,两种目标模型之间的ASR差距变得更加明显,达到14.6%。

这一实验发现与直觉上认为在没有攻击的情况下,GPT-4o是更安全的模型形成了鲜明对比。

这表明,具有更强的通用能力的模型并不一定等同于更强的安全性能,事实上,在报告的环境中可能更弱。

安全性能间的差异可能源于训练目标和安全目标之间的内在冲突——

虽然在更广泛的数据集上训练的大模型可能在知识和全面性方面表现出更好的性能,但它们也可能更容易产生不安全或有害的内容。

相反,经过严格安全措施训练的模型可能由于接触不同数据的机会有限和严格的响应准则而表现出性能下降。

报告中的实验数据表明,GPT-4o可能没有充分实现训练目标和安全目标之间的权衡。

图片

考虑到常用的AdvBench基准的代表性和适用性,除了评估目标模型在原始文本查询下的安全性外,作者还评估了模型在各种SOTA越狱攻击下的安全性。

作者观察到基于模板的越狱方法TBJ的ASR持续下降到0.0%,甚至低于No Attack时的ASR,这一现象表明OpenAI已经针对这些广泛传播的越狱模板实施了额外的保护措施。

此外还可以看到,与No Attack基线相比,GCG和AutoDAN在越狱中都实现了一定程度的可迁移性。

例如攻击GPT-4V时,GCG和AutoDAN分别使ASR提高10%和14.1%。

PAP是另一种专门为越狱大语言模型设计的方法,它在基于文本越狱攻击方法中拥有最高的ASR(GPT-4V和GPT-4o的ASR分别为62.2%和62.7%)。

BAP是作者最近提出的一种多模态越狱攻击方法,但在报告中,主要利用的是它的文本优化方法,结果BAP在攻击GPT-4V时达到了最高的ASR,达到83.1%。

从目标模型来看,除了J_3中的PAP以外,在任何判断函数和任何攻击方式下,攻击GPT-4o的ASR都低于攻击GPT-4V。

这表明在面临攻击的情况下,与GPT-4V相比,GPT-4o具有更高的安全性。

图片

音频模态比文本更难攻击

由于OpenAI的音频相关API暂时不可用,移动应用中也有请求频率限制,作者对音频模态的安全性的测试相对有限。

作者首先使用GPT-4o对AdvBench进行分类,并从4个最常见的类别中随机选择10个文本查询,并基于上一节的实验数据选择了GCG、AudoDAN、PAP和BAP生成的文本对抗提示。

随后,作者使用OpenAI的TTS-1API将总共200个文本样本转换为MP3格式。由于实验数据有限,这部分的ASR是通过人工评估来计算的。

结果现实,直接将原始文本查询转换为音频是无法越狱GPT-4o的,表明GPT-4o在音频模态上具有足够的安全性。

此外,使用GCG和AutoDAN等方法在文本模态下可以成功越狱GPT-4o的文本,在转换为音频模态后也失败了。

造成这种结果的主要原因是这些方法生成的对抗性后缀在模态处理过程中丢失了一些关键的语义信息(如非字母符号)。

另外,作者观察到PAP和BAP在文本模态下的ASR略高于从这些文本在音频模态下得到的ASR。例如,在非法活动场景中,文本模式下BAP的ASR为100%,而音频模式下的ASR为80%。

图片

在检查交互结果时,作者发现在音频交互期间,GPT-4o有时会以简单的‘Sure’响应,然后询问进一步的细节,模仿人类的会话风格。

然而,报告中使用的文本模态越狱方法并没有考虑到这一点,因为它们依赖于单回合对话来实现越狱。因此,音频模式的越狱攻击的ASR略低于文本模式。

值得注意的是,尽管存在差距,音频对抗性提示的ASR并没有显著降低。

这在很大程度上是由于PAP和BAP采用的策略接近于人类的处理方式。例如,它们会利用有说服力的策略,如情景假设对整个语句进行优化。

多模态下比GPT-4V更易被攻击

多模态安全性上,作者首先基于SafeBench进行了评估,该数据集的核心思想是将原始查询中的有害意图转换为格式化的排版图像,并在图像中留下空白,并由目标模型填充。

从下表结果可以观察到,在每种判断结果中,GPT-4o的结果始终高于GPT-4V(在J_4中最多,为42.0%),这表明GPT-4o比GPT-4V更容易受到此类攻击。

考虑到GPT-4o优越的多模态融合能力,这也可能导致其对此类攻击的脆弱性增加。

值得注意的是,我们观察到一个异常现象,即在某些情况下,目标模型在No Attack条件(仅使用原始文本查询)下的ASR高于攻击条件下的ASR。

图片

下图给出了一个示例,显示当使用多模态查询时,越狱尝试更容易失败。这一观察结果与原始论文的发现以及作者的直觉相矛盾。

图片

作者分析,这种差异可能是由于OpenAI实现了类似于FigStep的针对多模态排版攻击的特定防御。这些排版攻击通常需要使用诸如“请为上述列表中的每个项目生成详细的内容”的文本提示才有效。

作者推测OpenAI可能会根据这些字符串特征检测到排版攻击的迹象,从而在推理过程中采用更强的缓解机制。

在非异常情况下,使用FigStep攻击获得的ASR并不显著高于No Attack条件下的ASR。

例如,当攻击GPT-4o时,Hate Speech场景的ASR仅为3.6%。这表明FigStep攻击对GPT-4V和GPT-4o基本上无效。

这里需要注意,考虑到OpenAI对其商业模型保护措施的动态调整,目前的研究结果并不能否定FigStep在其最初发布时有效越狱GPT-4V的由有效性。

另外,作者还在MM-SafetyBench上进行了评估,该数据集利用了基于图像语义构建视觉对抗性提示的方法。

原始文本查询中的有害语义通过文本到图像模型转换为图像,然后添加关键的排版文本以生成所需的视觉对抗提示。

当在下表中关注Hate Speech、Physical Harm和Fraud等危害性较强的场景下的实验结果时,观察到攻击下目标模型的ASR始终低于No Attack条件(仅使用原始文本查询)下的ASR。

图片

作者在评估SafeBench时观察到这种现象,例如对于这种基于图像语义的攻击,OpenAI可能在检测到含有有害语义的图像后,采用先进的防御机制,防止攻击者利用图像向多模态大模型中注入有害语义或指令。

图片

所以,作者推测OpenAI已经针对这些已知的多模态攻击方法实现了特定的防御。

在攻击GPT-4o时,除了Hate Speech、Economic Harm和Legal Opinion场景外,在No Attack条件下的ASR始终高于攻击条件下的ASR,这是一个异常现象。

在GPT-4V中也观察到类似的模式,这说明当前典型的黑盒多模态越狱方法对于越狱GPT-4o和GPT-4V无效。

此外作者还注意到,除J_3的判断结果外,其他三个判断函数的结果都表明GPT-4o的ASR始终高于GPT-4v。结合SafeBench获得的实验结果,这清楚地表明,与GPT-4v相比,GPT-4o更容易受到多模式越狱攻击。

同时,作者指出,由于官方OpenAI API的局限性,本研究主要侧重于通过API对大型数据集上涉及文本和视觉模式的越狱攻击进行自动评估,并通过移动应用程序使用AdvBench的一个子集手动对音频模式进行越狱攻击。

这项研究首次揭示了几个关键的观察结果。作者希望这项工作能提高社区对多模态大模型安全风险的认识,并敦促研究人员优先考虑为多模态大模型制定对齐策略和缓解技术。

另外,由于目前多模态越狱数据集的匮乏,本研究仅探讨文本-视觉的多模态组合下的越狱对GPT-4o安全性的影响。

作者表示,在未来,必须迅速建立包括文本、视觉和音频等各种模态组合的多模式数据集,以全面评估GPT-4o的安全能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/27005.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CentOS7下快速升级至OpenSSH9.7p2安全版本

一、CentOS7服务器上编译生成OpenSSH9.3p2的RPM包 1、编译打包的shell脚本来源于该项目 https://github.com/boypt/openssh-rpms解压zip项目包 unzip openssh-rpms-main.zip -d /opt cd /opt/openssh-rpms-main/ vim pullsrc.sh 修改第23行为source ./version.env 2、sh pull…

比较市场上14款最佳的看板工具软件

文章对比了14款看板工具软件:PingCode、Worktile、Trello、Asana、Teambition、Monday、ClickUp、Wrike、Jira、Kanban Tool、MeisterTask、Teamhood、Leankit by Planview、ZenHub。 看板工具以其直观的设计和灵活性,成为团队协作和项目跟踪的首选。通过…

【阅读论文】-- LiveRAC:系统管理时序数据的交互式可视化探索

LiveRAC:系统管理时序数据的交互式可视化探索 摘要引言相关工作系统管理角色和活动当前工具的局限性 迭代设计方法参加者设计阶段 设计要求可视化解决方案设计原则LiveRAC 接口执行 纵向评价非正式纵向研究方法对设计的影响使用场景 结论致谢参考文献 摘要 我们介绍…

利用免费的可视化组件,零代码制作一个电商销量大屏居然这么简单!

每到一年一度的618和双十一时,由于各种平台的优惠力度,使人们纷纷清空购物车下单,而在这庞大的销售数据下,各大商家却能够在第一时间发布整体销售业绩和数额,在这高效且巨大的数据背后,你是否有了解过展示数…

算法007:三数之和

. - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/3sum/ 这个题相较于前几个题来说比较难,思想是前面一个题目…

【智能家居控制系统项目】一、项目系统镜像烧录与系统登录

前言 完成本章节将可以获得本项目的系统UI界面功能。本章节主要介绍如何烧录项目系统镜像以及进入系统。配套的视频介绍可以点击跳转到智能家居项目复刻配套视频 1.系统功能页面介绍 完成本章全部步骤,我们将可使用以下项目系统功能界面。 1.1 家居总览界面 主界面…

【成品设计】基于STM32的单相瞬时值反馈逆变器

《基于STM32的单相瞬时值反馈逆变器》 整体功能: 图13 软件框图 如图13所示,由于本设计中需要通过定时器中断执行一些程序,故首先对中断进行初始化。中断初始化以后即为对串口进行初始化,总共初始化了两个串口,第一个…

SQL SERVER触发器记录指定的几笔资料更新记录

1.目的 为了记录数据库表中资料数据动态的变更,实时动态且方便调整记录的范围。 2.分析 需求:记录UPDATE 修改的记录 if exists(select 1 from inserted) and exists(select 1 from deleted) :修改if (exists (select 1 from inserted) and n…

Unity 设置窗口置顶超级详解版

目录 前言 一、user32.dll 1.什么是user32.dll 2.如何使用user32.dll 二、句柄Handle 1.句柄 2.句柄的功能 3.拿句柄的方法 三、窗口置顶 1.窗口置顶的方法 2.参数说明 3.使用方法 四、作者的碎碎念 前言 up依旧挑战全网讲解最详细版本~~ 本篇文章讲解的是unity…

基于软件在环的飞控机建模仿真

安全关键系统(Safety-Critical System,SCS)是指由于某些行为或组合行为能够引发整体系统失效,继而导致财物损失、人员受伤等严重影响的系统,诸多安全关键领域如航空航天、核电系统、医疗设备、交通运输等领域的系统都属…

网络编程---Java飞机大战联机

解析服务器端代码 代码是放在app/lib下的src下的main/java,而与之前放在app/src/main下路径不同 Main函数 Main函数里只放着创建MyServer类的一行 public static void main(String args[]){new MyServer();} MyServer构造函数 1.获取本机IP地址 //获取本机IP地…

捋清UITableView展示不同类型数据的差异

背景: UITableView可以展示分组数据和单组数据,一般这两种数据有4种情况: 单组数据的简单类型,本身为字典数组,内部字典key对应的value全为基本数据类型。(如lol英雄展示案例,不分组且组内信息…

一五零、MAC 安装mysql可视化工具连接

mysql安装,按照网上教程一步步安装(官网下载安装包->解压->完成安装),最后在「系统偏好设置」无法启动mysql。 原因:下载的版本是8.0最新版本,MAC上这种方法无法启动成功。 解决方法 换低版本的mys…

C#版 iText7——画发票PDF(完整)

显示描述&#xff1a; 1、每页显示必须带有发票头、“销售方和购买方信息” 2、明细填充为&#xff1a;当n≤8 行时&#xff0c;发票总高度140mm&#xff0c;每条发票明细行款高度4.375mm&#xff1b; 当8<n≤12行时&#xff0c;发票高度增加17.5mm&#xff0c;不换页&#…

我们一起聊聊 Go 性能工具

从开发到部署的整个过程都离不开基本的负载测试和性能剖析。利用 Go 的 pprof 和跟踪工具&#xff0c;开发人员可以深入了解性能瓶颈、CPU 使用率和内存分配情况。 在开发过程中&#xff0c;从一开始到应用程序的推出都充满了挑战&#xff0c;而负载测试则是其中至关重要的一项…

Kettle 数据抽取工具使用教程:从入门到实战

一、简介 Kettle 是 Pentaho Data Integration (PDI) 的一个组成部分&#xff0c;是一个开源的数据集成工具。它被广泛用于数据的抽取、转换和加载 (ETL) 过程。Kettle 提供了一个易于使用的图形界面&#xff0c;可以轻松设计和执行 ETL 流程。 github 源码地址&#xff1a;ht…

postman教程-19-mock测试

上一小节我们学习了Postman接口参数化方法&#xff0c;本小节我们讲解一下Postman mock测试的方法。 一、什么叫mock测试 mock测试就是在测试过程中&#xff0c;对某些不容易构造或者不容易获取的对象&#xff0c;用一个虚拟的对象来创建以便于测试的一种测试方法&#xff0c…

chatgpt 生成的 左侧导航功能的网页

目录 一、左侧导航 1、效果如下&#xff1a; 2、代码如下&#xff1a; 3、技术点&#xff1a; 1)、箭头居中 2)、导航区域 3)、导航隐藏时&#xff0c;正文重新居中 4)、设置视口高度 这是用chatgpt生成的网页&#xff0c;其实&#xff0c;不是一下子就生成了满足需求的…

Syncovery:跨平台高效文件备份与同步的得力助手

在数字化时代&#xff0c;数据安全与文件同步已成为个人及企业不可或缺的需求。Syncovery作为一款专为Mac和Windows用户设计的文件备份和同步工具&#xff0c;凭借其高效、安全和易用的特点&#xff0c;赢得了广泛赞誉。 一、强大备份功能 Syncovery支持多种备份方案和数据格…

LeetCode 119.杨辉三角 II

1.题目要求如图所示: 示例 1:输入: rowIndex 3 输出: [1,3,3,1]示例 2:输入: rowIndex 0 输出: [1]示例 3:输入: rowIndex 1 输出: [1,1]先用malloc函数创造一个二维数组&#xff0c;变成杨辉三角&#xff0c;然后再用一维数组找到所指的那一行: /*** Note: The returned…