AI的欺骗游戏:揭示多模态大型语言模型的易受骗性

人工智能咨询培训老师叶梓 转载标明出处

多模态大型语言模型(MLLMs)在处理包含欺骗性信息的提示时容易生成幻觉式响应。尤其是在生成长响应时,仍然是一个未被充分研究的问题。来自 Apple 公司的研究团队提出了MAD-Bench,一个包含850个测试样本的精心策划的基准测试,这些样本分为六类,包括不存在的对象、对象数量、空间关系和视觉混淆等。研究者对流行的MLLMs进行了全面分析,包括GPT-4V、Gemini-Pro以及开源模型如LLaVA-1.5和CogVLM。实验结果显示,GPT-4V在MAD-Bench上的准确率达到75.02%,而其他模型的准确率仅为5%至35%。另外本文提出了一种通过添加额外段落来增强模型在面对欺骗性提示时的鲁棒性的方法,该方法能显著提高模型的准确率。

多模态大模型(如LLaVA1.5)如何容易地被包含错误信息的提示所欺骗

MAD-Bench

欺骗类别包含六个不同的类别,共计850对图像-提示对,旨在测试MLLMs对欺骗性提示的抵抗力。表1提供了每个类别的统计数据,图2展示了欺骗性提示的示例。

MAD-Bench中850个图像-提示对的统计数据。
MAD-Bench中使用的欺骗性提示的例子以及模型的响应示例

六个类别的详细说明:

对象数量 (Count of Object):该类别故意引用图像中可见对象的错误数量。如果响应断言图像中存在m个对象'A'的实例,而实际上存在不同的数量n(n与m不同且非零),则响应未通过此测试。

不存在的对象 (Non-existent Object):在这里,提示询问图像中不存在的对象。如果响应确认这些不存在的对象为存在,则失败。

对象属性 (Object Attribute):该类别包括不准确描述可见对象属性的提示。如果响应将这些不正确的特征归因于图像中的实际对象,则失败。

场景理解 (Scene Understanding):该类别涉及不准确描述图像中包含对象的场景的提示。如果响应正确识别了对象的动作,但误解了与欺骗性提示一致的场景或背景,则会出错。

空间关系 (Spatial Relationship):该类别呈现了错误指定图像中确实存在的对象之间的空间动态的提示。如果响应正确识别了对象,但错误地表示了它们的空间关系,则出错。

视觉混淆 (Visual Confusion):该类别与其他类别不同,使用提示和图像作为欺骗的工具,通常对人类眼睛也是欺骗性的。该类别包括三种类型的图像:(i)描绘裸眼3D绘画或屏幕的图像,(ii)视觉错位摄影,以及(iii)镜面反射。

MAD-Bench中视觉混淆类别的示例图像-提示对

研究者们通过使用GPT-4自动创建了欺骗性提示,这一过程利用了COCO数据集提供的地面真实字幕。之所以选择GPT-4而非GPT-4V来完成这项任务,是因为GPT-4V本身也是后续在MAD-Bench基准测试中要被评估的模型之一。从经验上判断,GPT-4的能力已经足够应对这项任务。

为了确保GPT-4能够生成符合特定类别并可能误导MLLMs的问题,研究者们精心设计了一系列定制化的提示。这些提示的具体内容可以在附录A.2中的图16至20找到。在生成过程中,并没有使用边界框信息,因为研究者们发现,这些信息对于提高欺骗性类别提示的质量并没有额外帮助。

生成欺骗性问题后,研究者们进行了严格的手动筛选,确保每个问题不仅符合其所属类别的欺骗标准,而且与相应的图像保持高度相关性。这一筛选过程对于保证MAD-Bench基准测试的质量至关重要。

使用GPT-4和COCO数据集真值字幕生成欺骗性提示的过程

在响应评估方面,研究者们同样利用GPT-4对10种不同模型生成的响应进行了评估。这些模型包括6个开源模型:LLaVA-1.5、InstructBLIP、Ferret、Kosmos2、mPLUG-Owl2和CogVLM;2个旨在减少幻觉的额外开源模型:LLaVA-RLHF和LRV-V1;以及2个最先进的专有系统:Gemini-Pro和GPT-4V。

由于视觉混淆类别中的图像数量较少,且大部分包含人类,而Gemini模型不能对包含人类的图像生成响应,因此在这个类别中没有对Gemini进行评估。但这一决定对其他类别的评估影响微乎其微。

与提示生成方法相一致,研究者们为每个欺骗类别设计了特定的评估提示,这些提示的目的是严格评估模型的响应。评估的主要指标是二元的,即仅关注响应是否被误导,而不涉及其他定性因素,如响应的帮助性等。这些用于模型评估的提示可以在附录A.3中找到。

为了确保评估过程的准确性,研究者们随机选取了500个响应,覆盖了不同的模型和欺骗类别,进行了手动准确性检查。这一验证过程显示出97.0%的高一致率,证明了研究者们所采用方法的可靠性。这种高一致率也进一步增强了MAD-Bench基准测试结果的有效性和信任度。

实验

研究者们在MAD-Bench基准测试中对多模态大模型(MLLMs)的评估揭示了这些模型在处理欺骗性信息时的脆弱性。尽管GPT-4V在场景理解和视觉混淆类别中展现出超过90%的准确率,但其他模型的表现则参差不齐,准确率仅在5%至35%之间。特别是那些旨在减少幻觉的模型,比如LRV-V1,它们在面对MAD-Bench中的挑战时,并没有展现出预期的鲁棒性。

一些支持边界框输入和输出的模型,如Ferret和Kosmos-2,在基准测试中的表现并不理想。这可能是因为这些模型在正面数据上的训练,使得它们在面对提示中提及的不存在的对象时,仍然倾向于将它们作为存在的进行定位。这种现象反映出MLLMs在理解视觉和语言信息不一致时的困难。

MAD-Bench上的主要结果,列出了不同模型在各个类别中的准确率

在详细分析模型对欺骗性提示的反应后,研究者们发现了几种常见的错误类型。例如,当模型接收到提及图像中不存在对象的提示时,它们可能会错误地识别图像中的其他对象为提示中所指的对象。这种不准确的对象检测可能是由于模型过度依赖于提示中的信息,而没有充分考虑视觉数据的实际情况。

另外模型在区分图像中提示所指的不同对象时也遇到了困难,有时将单一对象错误地识别为多个不同的实体,导致重复描述。这种冗余的对象识别可能源于模型在处理复杂视觉场景时的局限性。

更复杂的是模型有时会对图像中不可见的对象赋予特征或行为。这种行为可能是由于模型依赖于其内部知识库,试图为提示中提到的对象构造描述,即使这些对象在视觉数据中并不存在。这不仅揭示了模型在视觉识别上的不足,也暴露了它们在结合视觉和语言信息时的挑战。

研究者们还观察到模型在生成响应的过程中存在不一致性。在某些情况下,模型生成的回应中的句子会相互矛盾,反映出模型在决策过程中的犹豫不决。这种不一致性凸显了MLLMs在处理复杂提示时需要进一步改进的迫切性。

最后研究者介绍了一种旨在增强多模态大型语言模型(MLLMs)对欺骗性提示的鲁棒性并确保输出与输入图像一致性的简单而有效的方法。这一增强通过将一个额外的段落整合到系统提示中来实现,该段落可以直接添加到现有提示之前,或者根据不同模型的特定需求以不同的方式整合。

为了创建这个额外的段落,研究者们利用了GPT-4的帮助。这个段落的设计旨在鼓励模型在回答问题之前进行深思熟虑或逐步思考。例如,在表格3中展示的结果,显示了几种MLLMs在采用这种方法后的模型性能提升情况。例如,LLaVA-NeXT-13b模型的性能提升了18.56%,尽管其绝对准确率仍然不尽人意。而MiniCPM-Llama3-v2.5模型在采用这种方法后,准确率的增幅达到了63.56%,在测试的五种模型中表现最为显著。对于已经达到82.82%准确率的GPT-4V模型,使用这种方法可以进一步提高准确率至92.23%。

在修改测试提示后,MAD-Bench上不同模型的结果和性能提升

图5提供了MiniCPM-Llama3-v2.5、GPT-4V、Phi3和LLaVA-NeXT-13b模型在测试提示修改后抵御欺骗性提示的能力示例。这种增强表明,策略性提示设计可能是提高AI模型对误导或混淆尝试的鲁棒性的有价值方法。需要注意这种实现尚未完全优化,一些MLLMs由于输入序列长度限制等原因而不支持这种方法。

GPT-4V在面对欺骗性提示时的一些失败案例

总而言之MLLMs在面对欺骗性提示时有明显的脆弱性,尽管GPT-4V表现最佳,但仍有很大的改进空间。希望MAD-Bench这一新的基准测试能够激发进一步的研究,以增强模型对欺骗性提示的抵抗力。

论文链接:https://arxiv.org/abs/2402.13220

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/50296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring的优缺点?

Spring的优缺点 直接回答相关的Spring的特点: IOC AOP 事务 简化开发: 容易集成JDBCTemplateRestTemplate(接口远程调用)邮件发送相关异步消息请求支持 更加深入就讲源码了 优点: 方便解耦,简化开发…

网站打不开怎么办,收藏以备不时之需

DNS设置示范教程 部分地区有使用移动网络的小伙伴们吐槽无法访问部分网站的情况,同样的网站,使用电信和联通的用户就能正常访问。 这其实有很大几率是由于运营商的网络问题导致的,容易出现网站打不开的结果。 要解决移动网络无法访问的情况…

docker 部署mysql nginx redis

设置镜像 sudo mkdir -p /etc/docker sudo tee /etc/docker/daemon.json <<-EOF {"registry-mirrors": ["https://tddq0ov6.mirror.aliyuncs.com"] } EOF sudo systemctl daemon-reload 重启 sudo systemctl restart docker mysql mkdir /docker/my…

[React]如何提高大数据量场景下的Table性能?

[React]如何提高大数据量场景下的Table性能&#xff1f; 两个方向&#xff1a;虚拟列表&#xff0c;发布订阅 虚拟列表 虚拟列表实际上只对可视区域的数据项进行渲染 可视区域&#xff08;visibleHeight&#xff09;: 根据屏幕可视区域动态计算或自定义固定高度数据渲染项&…

python_合并同一个文件夹下的excel文件

python_合并同一个文件夹下的excel文件 import os import glob import pandas as pddef merge_excel_sheets(input_folder, output_file):# 创建一个空的 DataFrame 用于存储所有数据combined_data pd.DataFrame()# 获取指定文件夹内所有的 Excel 文件excel_files glob.glob…

el-select下拉数据量太大,改成滚动加载数据

问题描述&#xff1a;当接口返回下拉数据量特别大的时候&#xff0c; 页面会卡顿&#xff0c; 下面采用下拉加载指定数据的方式来优化。 <template><el-selectv-model"value"filterableplaceholder"Select"v-focus"loadData(loadNumber)&qu…

(面试必看!)一些和多线程相关的面试考点

文章导读 引言考点1. CAS 指令&#xff08;重点&#xff09;一、什么是CAS二、CAS 的优点三、CAS 的缺点四、ABA问题五、相关面试题 考点2. 信号量&#xff08;semaphore&#xff09;一、基本概念二、信号量的主要操作三、信号量的应用四、相关面试题 考点3、CountDownLatch 类…

DHCP笔记

DHCP---动态主机配置协议 作用&#xff1a;为终端动态提供IP地址&#xff0c;子网掩码&#xff0c;网关&#xff0c;DNS网址等信息 具体流程 报文抓包 在DHCP服务器分配iP地址之间会进行广播发送arp报文&#xff0c;接收IP地址的设备也会发送&#xff0c;防止其他设备已经使用…

网络编程 - 粘包与拆包第一弹 - 深入理解TCP粘包与拆包问题

作者&#xff1a;逍遥Sean 简介&#xff1a;一个主修Java的Web网站\游戏服务器后端开发者 主页&#xff1a;https://blog.csdn.net/Ureliable 觉得博主文章不错的话&#xff0c;可以三连支持一下~ 如有疑问和建议&#xff0c;请私信或评论留言&#xff01; 前言 在网络编程中&a…

Unity3D 二进制序列化器详解

前言 在Unity3D开发中&#xff0c;二进制序列化是一种重要的数据持久化和网络传输技术。通过二进制序列化&#xff0c;游戏对象或数据结构可以被转换成二进制格式&#xff0c;进而高效地存储于文件中或通过网络传输。本文将详细介绍Unity3D中的二进制序列化技术&#xff0c;包…

如何利用 NLP 技术提高机器翻译中对文化特定词汇和习语的理解与翻译准确性?

要利用 NLP 技术提高机器翻译中对文化特定词汇和习语的理解与翻译准确性&#xff0c;可以采用以下方法&#xff1a; 数据收集与预处理&#xff1a;收集与文化特定词汇和习语相关的大量平行语料&#xff0c;确保数据集中包含丰富的文化特定内容。进行数据预处理&#xff0c;包括…

【手撕数据结构】栈和队列高频面试题

目录 括号匹配问题用队列实现栈用栈实现队列 括号匹配问题 给定一个只包括 ‘(’&#xff0c;‘)’&#xff0c;‘{’&#xff0c;‘}’&#xff0c;‘[’&#xff0c;‘]’ 的字符串 s &#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a; 1.左括号必须用相同类…

卓码软件测评:软件功能测试和非功能测试详情介绍

随着信息技术的不断发展&#xff0c;软件在我们日常生活与工作中扮演着越来越重要的角色。然而&#xff0c;软件质量的好坏直接关系到使用者的体验和企业的声誉。在软件开发过程中&#xff0c;功能测试和非功能测试作为保证软件质量的重要手段&#xff0c;受到了越来越多的关注…

【过题记录】 7.28 (树上dp,背包,换根,基环树)

[ZJOI2007] 时态同步 分析&#xff1a; 不难发现&#xff0c;中断点就是叶子节点&#xff0c; 首先&#xff0c;所有叶子节点的高度肯定就等于最深的那个叶子节点的深度。 且不可能去调整最深的叶子结点的深度了。 这样经过一遍dfs之后我们可以计算出每个叶子需要增加的高度。…

古文:文天祥《正气歌》

原文 正气歌 【作者】文天祥 【朝代】宋 余囚北庭&#xff0c;坐一土室。室广八尺&#xff0c;深可四寻。单扉低小&#xff0c;白间短窄&#xff0c;污下而幽暗。当此夏日&#xff0c;诸气萃然&#xff1a;雨潦四集&#xff0c;浮动床几&#xff0c;时则为水气&#xff1b;涂泥…

内容营销专家刘鑫炜:极狐车自燃风波自救,堪称品牌危机公关范本

近日&#xff0c;极狐电车自燃事件在社交媒体上迅速发酵&#xff0c;尤其是厂家在事故现场的第一反应——先抠车标、覆盖黑布的行为&#xff0c;更是引发了公众的广泛质疑与愤慨。这一突发事件不仅考验着极狐汽车的产品安全性能&#xff0c;更对其品牌危机公关能力提出了严峻挑…

YAML 语法规范

文章目录 YAML 语法规范一、简介二、基本语法三、高级语法四、示例解析五、注意事项YAML 语法规范 一、简介 YAML(YAML Ain’t Markup Language)是一种专门用来写配置文件的语言,具有简洁、易读、易解析等特点。YAML的设计理念是为人类和机器之间的沟通提供一种更加直观、…

Chiplet SPI User Guide 详细解读

目录 一. 基本介绍 1.1.整体结构 1.2. 结构细节与功能描述 二. 输入输出接口 2.1. IO Ports for SPI Leader 2.2. IO Ports for SPI Follower 2.3. SPI Mode Configuration 2.4. Leader IP和Follower IP功能图 三. SPI Programming 3.1. Leader Register Descripti…

基于FPGA的数字信号处理(19)--行波进位加法器

1、10进制加法是如何实现的&#xff1f; 10进制加法是大家在小学就学过的内容&#xff0c;不过在这里我还是帮大家回忆一下。考虑2个2位数的10进制加法&#xff0c;例如&#xff1a;15 28 43&#xff0c;它的运算过程如下&#xff1a; 个位两数相加&#xff0c;结果为5 8 1…

【elementui】记录如何重命名elementui组件名称

在main.js中&#xff0c;就是引入elementui的文件中 import ElementUI from element-ui import { Tree } from element-uiVue.use(ElementUI) Vue.component(el-tree-rename, Tree)