AI的欺骗游戏:揭示多模态大型语言模型的易受骗性

人工智能咨询培训老师叶梓 转载标明出处

多模态大型语言模型(MLLMs)在处理包含欺骗性信息的提示时容易生成幻觉式响应。尤其是在生成长响应时,仍然是一个未被充分研究的问题。来自 Apple 公司的研究团队提出了MAD-Bench,一个包含850个测试样本的精心策划的基准测试,这些样本分为六类,包括不存在的对象、对象数量、空间关系和视觉混淆等。研究者对流行的MLLMs进行了全面分析,包括GPT-4V、Gemini-Pro以及开源模型如LLaVA-1.5和CogVLM。实验结果显示,GPT-4V在MAD-Bench上的准确率达到75.02%,而其他模型的准确率仅为5%至35%。另外本文提出了一种通过添加额外段落来增强模型在面对欺骗性提示时的鲁棒性的方法,该方法能显著提高模型的准确率。

多模态大模型(如LLaVA1.5)如何容易地被包含错误信息的提示所欺骗

MAD-Bench

欺骗类别包含六个不同的类别,共计850对图像-提示对,旨在测试MLLMs对欺骗性提示的抵抗力。表1提供了每个类别的统计数据,图2展示了欺骗性提示的示例。

MAD-Bench中850个图像-提示对的统计数据。
MAD-Bench中使用的欺骗性提示的例子以及模型的响应示例

六个类别的详细说明:

对象数量 (Count of Object):该类别故意引用图像中可见对象的错误数量。如果响应断言图像中存在m个对象'A'的实例,而实际上存在不同的数量n(n与m不同且非零),则响应未通过此测试。

不存在的对象 (Non-existent Object):在这里,提示询问图像中不存在的对象。如果响应确认这些不存在的对象为存在,则失败。

对象属性 (Object Attribute):该类别包括不准确描述可见对象属性的提示。如果响应将这些不正确的特征归因于图像中的实际对象,则失败。

场景理解 (Scene Understanding):该类别涉及不准确描述图像中包含对象的场景的提示。如果响应正确识别了对象的动作,但误解了与欺骗性提示一致的场景或背景,则会出错。

空间关系 (Spatial Relationship):该类别呈现了错误指定图像中确实存在的对象之间的空间动态的提示。如果响应正确识别了对象,但错误地表示了它们的空间关系,则出错。

视觉混淆 (Visual Confusion):该类别与其他类别不同,使用提示和图像作为欺骗的工具,通常对人类眼睛也是欺骗性的。该类别包括三种类型的图像:(i)描绘裸眼3D绘画或屏幕的图像,(ii)视觉错位摄影,以及(iii)镜面反射。

MAD-Bench中视觉混淆类别的示例图像-提示对

研究者们通过使用GPT-4自动创建了欺骗性提示,这一过程利用了COCO数据集提供的地面真实字幕。之所以选择GPT-4而非GPT-4V来完成这项任务,是因为GPT-4V本身也是后续在MAD-Bench基准测试中要被评估的模型之一。从经验上判断,GPT-4的能力已经足够应对这项任务。

为了确保GPT-4能够生成符合特定类别并可能误导MLLMs的问题,研究者们精心设计了一系列定制化的提示。这些提示的具体内容可以在附录A.2中的图16至20找到。在生成过程中,并没有使用边界框信息,因为研究者们发现,这些信息对于提高欺骗性类别提示的质量并没有额外帮助。

生成欺骗性问题后,研究者们进行了严格的手动筛选,确保每个问题不仅符合其所属类别的欺骗标准,而且与相应的图像保持高度相关性。这一筛选过程对于保证MAD-Bench基准测试的质量至关重要。

使用GPT-4和COCO数据集真值字幕生成欺骗性提示的过程

在响应评估方面,研究者们同样利用GPT-4对10种不同模型生成的响应进行了评估。这些模型包括6个开源模型:LLaVA-1.5、InstructBLIP、Ferret、Kosmos2、mPLUG-Owl2和CogVLM;2个旨在减少幻觉的额外开源模型:LLaVA-RLHF和LRV-V1;以及2个最先进的专有系统:Gemini-Pro和GPT-4V。

由于视觉混淆类别中的图像数量较少,且大部分包含人类,而Gemini模型不能对包含人类的图像生成响应,因此在这个类别中没有对Gemini进行评估。但这一决定对其他类别的评估影响微乎其微。

与提示生成方法相一致,研究者们为每个欺骗类别设计了特定的评估提示,这些提示的目的是严格评估模型的响应。评估的主要指标是二元的,即仅关注响应是否被误导,而不涉及其他定性因素,如响应的帮助性等。这些用于模型评估的提示可以在附录A.3中找到。

为了确保评估过程的准确性,研究者们随机选取了500个响应,覆盖了不同的模型和欺骗类别,进行了手动准确性检查。这一验证过程显示出97.0%的高一致率,证明了研究者们所采用方法的可靠性。这种高一致率也进一步增强了MAD-Bench基准测试结果的有效性和信任度。

实验

研究者们在MAD-Bench基准测试中对多模态大模型(MLLMs)的评估揭示了这些模型在处理欺骗性信息时的脆弱性。尽管GPT-4V在场景理解和视觉混淆类别中展现出超过90%的准确率,但其他模型的表现则参差不齐,准确率仅在5%至35%之间。特别是那些旨在减少幻觉的模型,比如LRV-V1,它们在面对MAD-Bench中的挑战时,并没有展现出预期的鲁棒性。

一些支持边界框输入和输出的模型,如Ferret和Kosmos-2,在基准测试中的表现并不理想。这可能是因为这些模型在正面数据上的训练,使得它们在面对提示中提及的不存在的对象时,仍然倾向于将它们作为存在的进行定位。这种现象反映出MLLMs在理解视觉和语言信息不一致时的困难。

MAD-Bench上的主要结果,列出了不同模型在各个类别中的准确率

在详细分析模型对欺骗性提示的反应后,研究者们发现了几种常见的错误类型。例如,当模型接收到提及图像中不存在对象的提示时,它们可能会错误地识别图像中的其他对象为提示中所指的对象。这种不准确的对象检测可能是由于模型过度依赖于提示中的信息,而没有充分考虑视觉数据的实际情况。

另外模型在区分图像中提示所指的不同对象时也遇到了困难,有时将单一对象错误地识别为多个不同的实体,导致重复描述。这种冗余的对象识别可能源于模型在处理复杂视觉场景时的局限性。

更复杂的是模型有时会对图像中不可见的对象赋予特征或行为。这种行为可能是由于模型依赖于其内部知识库,试图为提示中提到的对象构造描述,即使这些对象在视觉数据中并不存在。这不仅揭示了模型在视觉识别上的不足,也暴露了它们在结合视觉和语言信息时的挑战。

研究者们还观察到模型在生成响应的过程中存在不一致性。在某些情况下,模型生成的回应中的句子会相互矛盾,反映出模型在决策过程中的犹豫不决。这种不一致性凸显了MLLMs在处理复杂提示时需要进一步改进的迫切性。

最后研究者介绍了一种旨在增强多模态大型语言模型(MLLMs)对欺骗性提示的鲁棒性并确保输出与输入图像一致性的简单而有效的方法。这一增强通过将一个额外的段落整合到系统提示中来实现,该段落可以直接添加到现有提示之前,或者根据不同模型的特定需求以不同的方式整合。

为了创建这个额外的段落,研究者们利用了GPT-4的帮助。这个段落的设计旨在鼓励模型在回答问题之前进行深思熟虑或逐步思考。例如,在表格3中展示的结果,显示了几种MLLMs在采用这种方法后的模型性能提升情况。例如,LLaVA-NeXT-13b模型的性能提升了18.56%,尽管其绝对准确率仍然不尽人意。而MiniCPM-Llama3-v2.5模型在采用这种方法后,准确率的增幅达到了63.56%,在测试的五种模型中表现最为显著。对于已经达到82.82%准确率的GPT-4V模型,使用这种方法可以进一步提高准确率至92.23%。

在修改测试提示后,MAD-Bench上不同模型的结果和性能提升

图5提供了MiniCPM-Llama3-v2.5、GPT-4V、Phi3和LLaVA-NeXT-13b模型在测试提示修改后抵御欺骗性提示的能力示例。这种增强表明,策略性提示设计可能是提高AI模型对误导或混淆尝试的鲁棒性的有价值方法。需要注意这种实现尚未完全优化,一些MLLMs由于输入序列长度限制等原因而不支持这种方法。

GPT-4V在面对欺骗性提示时的一些失败案例

总而言之MLLMs在面对欺骗性提示时有明显的脆弱性,尽管GPT-4V表现最佳,但仍有很大的改进空间。希望MAD-Bench这一新的基准测试能够激发进一步的研究,以增强模型对欺骗性提示的抵抗力。

论文链接:https://arxiv.org/abs/2402.13220

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/50296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站打不开怎么办,收藏以备不时之需

DNS设置示范教程 部分地区有使用移动网络的小伙伴们吐槽无法访问部分网站的情况,同样的网站,使用电信和联通的用户就能正常访问。 这其实有很大几率是由于运营商的网络问题导致的,容易出现网站打不开的结果。 要解决移动网络无法访问的情况…

(面试必看!)一些和多线程相关的面试考点

文章导读 引言考点1. CAS 指令(重点)一、什么是CAS二、CAS 的优点三、CAS 的缺点四、ABA问题五、相关面试题 考点2. 信号量(semaphore)一、基本概念二、信号量的主要操作三、信号量的应用四、相关面试题 考点3、CountDownLatch 类…

DHCP笔记

DHCP---动态主机配置协议 作用:为终端动态提供IP地址,子网掩码,网关,DNS网址等信息 具体流程 报文抓包 在DHCP服务器分配iP地址之间会进行广播发送arp报文,接收IP地址的设备也会发送,防止其他设备已经使用…

卓码软件测评:软件功能测试和非功能测试详情介绍

随着信息技术的不断发展,软件在我们日常生活与工作中扮演着越来越重要的角色。然而,软件质量的好坏直接关系到使用者的体验和企业的声誉。在软件开发过程中,功能测试和非功能测试作为保证软件质量的重要手段,受到了越来越多的关注…

古文:文天祥《正气歌》

原文 正气歌 【作者】文天祥 【朝代】宋 余囚北庭,坐一土室。室广八尺,深可四寻。单扉低小,白间短窄,污下而幽暗。当此夏日,诸气萃然:雨潦四集,浮动床几,时则为水气;涂泥…

YAML 语法规范

文章目录 YAML 语法规范一、简介二、基本语法三、高级语法四、示例解析五、注意事项YAML 语法规范 一、简介 YAML(YAML Ain’t Markup Language)是一种专门用来写配置文件的语言,具有简洁、易读、易解析等特点。YAML的设计理念是为人类和机器之间的沟通提供一种更加直观、…

Chiplet SPI User Guide 详细解读

目录 一. 基本介绍 1.1.整体结构 1.2. 结构细节与功能描述 二. 输入输出接口 2.1. IO Ports for SPI Leader 2.2. IO Ports for SPI Follower 2.3. SPI Mode Configuration 2.4. Leader IP和Follower IP功能图 三. SPI Programming 3.1. Leader Register Descripti…

基于FPGA的数字信号处理(19)--行波进位加法器

1、10进制加法是如何实现的? 10进制加法是大家在小学就学过的内容,不过在这里我还是帮大家回忆一下。考虑2个2位数的10进制加法,例如:15 28 43,它的运算过程如下: 个位两数相加,结果为5 8 1…

苹果 iCloud 钥匙串是什么?如何查看及对其进行设置?

在当今的数字世界中安全性和便利性是人们关注的两大重点。无论是社交媒体账户、还是网购平台等,几乎每个在线服务都需要登录账户。如何安全地管理和存储这些账户密码成为了用户们的一大挑战。 iCloud 钥匙串 我们先来看一看什么是 iCloud 钥匙串,iClou…

Redis:事务

1. 简介 可以一次性执行多个命令,本质是一组命令的集合。一个事务中的所有命令都会序列化,按顺序的串化执行,不允许被其他其他命令插入,不许加塞 即将要执行的命令放入队列中,此时该队列的所有命令就是一个事务&#x…

浏览器同源策略详解、主流的跨域解决方案、深入理解跨域请求概念及其根因

1. 什么是同源策略 跨域问题其实就是浏览器的同源策略造成的。 同源策略限制了从同一个源加载的文档或脚本如何与另一个源的资源进行交互。这是浏览器的一个用于隔离潜在恶意文件的重要的安全机制。同源指的是:协议、端口号、域名必须一致。 下表给出了与 URL http…

如何让你的C语言程序打印的log多一点色彩?(超级实用)

接着上一篇文章《由字节对齐引发的一场“血案“ 》 在平常的调试中,printf字体格式与颜色都是默认一致的。 如果可以根据log信息的重要程度,配以不同的颜色与格式,可以很方便的查找到要点。 1、printf字体显示语法说明 printf(“\033[显示…

Hive环境搭建(内置数据库)

实验目的】 1) 了解hive的作用 2) 熟练hive的配置过程(内置数据库) 【实验原理】 Hive的架构是由Client、Metastore、Driver、Compiler构成,执行流程是编译器可以将一个Hive QL转换成操作符,操作符是Hive中的最小处理单元。…

如何查看操作系统的性能指标:CPU、内存、磁盘、网络

目录 本系列专栏 CPU篇 CPU使用率:top CPU负载:uptime CPU核心使用情况:mpstat -P ALL 1 上下文切换:vmstat 1 CPU等待 IO时长:iostat -x 1 CPU的频率:lscpu 或者 cat /proc/cpuinfo | grep "cpu MHZ…

oracle读写时相关字符集详解

服务器端操作系统(Oracle linux)字符集 服务器端数据库字符集 客户端操作系统(Oracle linux)字符集 客户端工具sqlplus字符集 结论1:客户端工具sqlplus的会话,使用的字符集,是数据库字符集。…

Spring三级缓存是如何作用的

什么是三级缓存 singletonObjects: 一级缓存,用于保存实例化、注入、初始化完成的bean实例【完全体】earlySingletonObjects: 二级缓存,用于保存实例化完成的bean实例singletonFactories: 三级缓存,用于保…

java面向对象总结

java面向对象篇到这里就已经结束了,有什么不懂的地方可以逐一进行重新观看。希望大家能够从入门到起飞。 Java面向对象基础篇综合训练(附带全套源代码及逐语句分析)->基于javabeen Java面向对象进阶篇综合训练(附带全…

2024 Java 高分面试宝典 一站式搞定技术面

前言 每年9月和10月,被业界称为“金九银十”,这是人才市场一年中最活跃的时期。此时,企业为了来年的业务扩展,纷纷加大招聘力度,空缺岗位众多,招聘需求集中。同时,初秋的招聘活动也避开酷暑&am…

操作系统:高级IO

高级IO 1.关于IO IO的基本类型: I代表输入(Input): 从外部设备或来源(如键盘、鼠标、文件、网络)读取数据到计算机中。示例:用户键入的文本、从文件读取的数据、从网络接收到的数据包。 O代表输出(Output): 将计算机处理后的数据发…

git 版本回退-idea

1、选中项目,右键,打开 git历史提交记录 2、选中想要回退的版本,选择 hard(不保留版本记录) 3、最终选择强制提交(必须强制) OK,搞定