多模态大语言模型arxiv论文略读(十五)

请添加图片描述

Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts

➡️ 论文标题:Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
➡️ 论文作者:Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun
➡️ 研究机构: Huazhong University of Science and Technology, Lehigh University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在生成详细图像描述、代码生成、视觉对象定位和高级多模态推理等任务中表现出强大的能力。然而,这些模型在训练过程中可能会接触到有害或私密内容,因此需要通过安全机制进行微调,以确保生成的内容安全。尽管如此,研究发现,通过对抗性攻击,可以绕过这些模型的安全约束和内容过滤机制,尤其是通过模型API的漏洞。
➡️ 研究动机:现有的研究主要集中在模型输入中的对抗性样本,而对模型API中的漏洞关注较少。为了填补这一研究空白,研究团队发现了GPT-4V中的系统提示泄露漏洞,并基于此提出了一种新的MLLM破解攻击方法——SASP(Self-Adversarial Attack via System Prompt)。此外,研究还探讨了修改系统提示以防御破解攻击的潜力。
➡️ 方法简介:研究团队通过精心设计的对话模拟,成功提取了GPT-4V的内部系统提示。基于这些系统提示,他们开发了SASP方法,通过GPT-4作为红队工具,自动搜索潜在的破解提示。此外,通过人工修改这些提示,进一步提高了攻击成功率至98.7%。研究还评估了修改系统提示以防御破解攻击的效果,结果表明,适当设计的系统提示可以显著降低破解成功率。
➡️ 实验设计:实验在三个公开数据集上进行,包括面部识别任务。实验设计了不同语言(英语、中文、泰语)的四种提示类型(直接请求、基线攻击、SASP、SASP+人工修改),以全面评估模型对破解提示的敏感性和抗干扰能力。实验结果表明,SASP方法在英语提示下的攻击成功率为59%,而经过人工修改后的攻击成功率高达99%。此外,研究还通过系统提示召回方法,评估了系统提示在防御破解攻击中的有效性。

Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection

➡️ 论文标题:Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection
➡️ 论文作者:Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li
➡️ 研究机构: vivo Mobile Communication Co., Ltd
➡️ 问题背景:当前的伪装物体检测(Camouflaged Object Detection, COD)方法主要依赖于监督学习模型,这些模型需要大量准确标注的数据集,导致其泛化能力较弱。此外,现有的COD方法在处理新场景时表现不佳,尤其是在视频伪装物体检测(VCOD)等新场景中,性能显著下降。
➡️ 研究动机:为了克服现有COD方法的局限性,研究团队提出了一种基于多模态大语言模型(Multimodal Large Language Models, MLLMs)的零样本伪装物体检测框架(Multimodal Camo-Perceptive Framework, MMCPF)。该框架旨在利用MLLMs的强大泛化能力,提高在伪装场景中的检测性能,而无需重新训练或微调模型。
➡️ 方法简介:研究团队设计了链式视觉感知(Chain of Visual Perception, CoVP)机制,从语言和视觉两个方面增强MLLMs在伪装场景中的感知能力。CoVP包括语言提示机制和视觉完成机制,前者通过描述伪装物体的属性、多义性和多样性来增强MLLMs的感知能力,后者通过改进MLLMs输出的不确定坐标来提高最终生成的二值掩码的准确性。
➡️ 实验设计:研究团队在五个广泛使用的COD数据集上进行了实验,包括CAMO、COD10K、NC4K、MoCA-Mask和OVCamo。实验设计了不同的提示机制,从简单的文本提示到包含物理和动态描述的复杂提示,以及视觉完成机制,以全面评估MMCPF在不同条件下的表现。实验结果表明,MMCPF在零样本设置下显著优于现有的零样本COD方法,并且在弱监督和全监督方法中也表现出竞争力。

InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models

➡️ 论文标题:InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models
➡️ 论文作者:Xiaotian Han, Quanzeng You, Yongfei Liu, Wentao Chen, Huangjie Zheng, Khalil Mrini, Xudong Lin, Yiqi Wang, Bohan Zhai, Jianbo Yuan, Heng Wang, Hongxia Yang
➡️ 研究机构: ByteDance Inc.
➡️ 问题背景:多模态大型语言模型(MLLMs)在人工智能领域日益突出,不仅在传统的视觉-语言任务中表现出色,还在当代多模态基准测试中展示了令人印象深刻的能力。然而,现有的多模态基准测试通常集中在基本的推理任务上,往往只能产生简单的“是/否”或多选答案,这导致了对MLLMs推理能力评估的混淆和困难。
➡️ 研究动机:为了缓解这一问题,研究团队手动策划了一个专门针对MLLMs的基准数据集,重点在于复杂的推理任务。该基准数据集包括三个关键的推理类别:演绎推理、溯因推理和类比推理。每个样本都设计了多个步骤的推理过程,以评估模型在生成答案时的推理能力。
➡️ 方法简介:研究团队提出了一个系统的方法,通过构建InfiMM-Eval基准数据集,来评估MLLMs在复杂视觉推理问题上的表现。该数据集不仅包括图像和问题,还包括详细的推理步骤,这些步骤对于评估模型的推理能力至关重要。评估协议包括直接正确答案的满分和基于推理步骤的相关性和逻辑性的部分分数。
➡️ 实验设计:研究团队在InfiMM-Eval基准数据集上对多个代表性的MLLMs进行了评估,包括了演绎推理、溯因推理和类比推理的样本。实验设计了不同复杂度的推理任务,以全面评估模型的推理能力和决策过程。评估结果通过一个综合的评分系统计算,该系统考虑了推理的复杂度和模型生成答案的准确性。

LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

➡️ 论文标题:LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge
➡️ 论文作者:Gongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie
➡️ 研究机构: Harbin Institute of Technology, Shenzhen
➡️ 问题背景:现有的多模态大语言模型(MLLMs)主要采用粗略对齐的图像-文本对预训练的视觉编码器,导致视觉知识的提取和推理不足。这使得MLLMs在处理视觉-语言任务时,容易产生错误和幻觉响应。
➡️ 研究动机:为了克服这一问题,研究团队设计了一种双层视觉知识增强的多模态大语言模型(LION),通过细粒度的空间感知视觉知识和高层次的语义视觉证据的注入,提升MLLMs的视觉理解能力。
➡️ 方法简介:LION通过两个层面增强视觉信息:1) 逐步融合细粒度的空间感知视觉知识,设计了一个视觉聚合器与区域级视觉-语言任务合作,采用分阶段的指令调优策略和混合适配器来解决图像级和区域级任务之间的冲突;2) 软提示高层次的语义视觉证据,利用图像标签作为补充信息,并设计了一种软提示方法来减轻不准确标签的影响。
➡️ 实验设计:在多个多模态基准数据集上进行了实验,包括图像描述生成、视觉问答(VQA)和视觉定位任务。实验结果表明,LION在多个任务上显著优于现有模型,例如在VSR任务上比InstructBLIP提高了约5%的准确率,在TextCaps任务上提高了约3%的CIDEr分数,在RefCOCOg任务上比Kosmos-2提高了约5%的准确率。

A Survey on Multimodal Large Language Models for Autonomous Driving

➡️ 论文标题:A Survey on Multimodal Large Language Models for Autonomous Driving
➡️ 论文作者:Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Yang Zhou, Kaizhao Liang, Jintai Chen, Juanwu Lu, Zichong Yang, Kuei-Da Liao, Tianren Gao, Erlong Li, Kun Tang, Zhipeng Cao, Tong Zhou, Ao Liu, Xinrui Yan, Shuqi Mei, Jianguo Cao, Ziran Wang, Chao Zheng
➡️ 研究机构: Purdue University, Tencent T Lab, University of Illinois Urbana-Champaign, University of Virginia, New York University, PediaMed AI, SambaNova Systems, Inc, Objective, Inc
➡️ 问题背景:随着大型语言模型(LLMs)和视觉基础模型(VFMs)的出现,多模态AI系统在感知现实世界、做出决策和控制工具方面展现出与人类相当的潜力。LLMs在自动驾驶和地图系统中受到了广泛关注。尽管具有巨大潜力,但目前对将LLMs应用于自动驾驶系统的关键挑战、机遇和未来方向的理解仍然不足。
➡️ 研究动机:为了系统地探讨多模态大型语言模型(MLLMs)在自动驾驶中的应用,本文提供了该领域的全面调查。研究旨在介绍MLLMs的背景、发展以及自动驾驶的历史,概述现有的MLLM工具、数据集和基准,总结首届WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)的工作,并讨论使用MLLMs在自动驾驶系统中需要解决的重要问题。
➡️ 方法简介:研究团队通过分析现有文献和数据集,总结了MLLMs在自动驾驶中的应用,特别是在感知、运动规划和运动控制模块中的作用。此外,研究还探讨了MLLMs在提高车辆智能、决策和乘客互动方面的潜力。
➡️ 实验设计:研究没有进行具体的实验设计,而是通过文献综述和案例分析,探讨了MLLMs在自动驾驶中的应用现状和未来方向。研究团队还组织了首届WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD),以促进学术界和工业界的合作,探索多模态大型语言模型在自动驾驶领域的可能性和挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/75564.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第1节:计算机视觉发展简史

计算机视觉与图像分类概述:计算机视觉发展简史 计算机视觉(Computer Vision)作为人工智能领域的重要分支,是一门研究如何使机器"看"的科学,更具体地说,是指用摄影机和计算机代替人眼对目标进行识…

【工具】Fiddler抓包

本文主要讲解如何使用Fiddler抓HTTP包,可通过所抓包内容分析HTTP请求/响应的细节 安装与配置 1.下载与安装 下载地址: https://www.telerik.com/fiddler/ 点击了链接后,跳转到以下页面: 点击Fiddler Classic(免费版)后,跳转到以…

STM32F103复用JTAG/SWD引脚为GPIO

普中-精灵1开发板,主芯片为STM32F103C8T6,4个独立按键K1~K4依次接PA15~PA12,按下为低电平,8个LED灯D1~D8,依次接PA0~PA7。查询手册得知:PA15主功能为JTDI,PA14为JTCK/SWCLK,PA13为JT…

难度偏低,25西电人工智能学院821、833、834考研录取情况

1、人工智能学院各个方向 2、人工智能学院近三年复试分数线对比 学长、学姐分析 由表可看出: 1、智能院25年院线相对于24年院线 全部专业下降比较多,其中控制科学与工程下降20分,计算机科学与技术下降20分,计算机技术[专硕]下降…

达梦数据校验系统(DMDVS):数据完整性保障的不二之选

产品概述 达梦数据校验系统(DMDVS)是一款企业级数据一致性管理平台,提供跨数据库、跨平台的数据比对与修复能力。系统采用模块化架构设计,支持静态校验、动态校验、单向校验及分布式校验四大核心模式,适用于数据迁移验证、容灾备份核查、实时同步监控等关键场景,👉更多…

【3dSwap】3D-Aware Face Swapping

文章目录 3D-Aware Face Swapping背景points贡献方法从2D图像推断3D先验通过潜在代码操纵进行人脸交换联合枢轴调整目标函数实验与二维人脸交换方法比较进一步分析3D感知人脸交换消融实验局限性3D-Aware Face Swapping 会议/期刊:CVPR 2023 作者: code:https://lyx0208.gi…

客户案例 | 日事清×初心家居:多部门协作实现新品上架自动化

1、客户背景 佛山市初心家居有限公司,主营家居类目,年营收额近亿元。初心家居有自己的家居生产工厂(可为第三方提供生产),店内产品均为自主研发设计,所以新品开发也是初心家居的核心。 2、客户工作场景及需…

KWDB创作者计划—KWDB多副本集群保姆级部署

📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验 Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯…

micro ubuntu 安装教程

micro ubuntu 安装教程 官网地址 : https://micro-editor.github.io 以下是在 Ubuntu 系统中安装 micro 编辑器 的详细教程: 方法 1:通过 ​apt​​ 直接安装(推荐) 适用于 Ubuntu 20.04 及以上版本(官方仓库已收录…

Docker 镜像 的常用命令介绍

拉取镜像 $ docker pull imageName[:tag][:tag] tag 不写时,拉取的 是 latest 的镜像查看镜像 查看所有本地镜像 docker images or docker images -a查看完整的镜像的数字签名 docker images --digests查看完整的镜像ID docker images --no-trunc只查看所有的…

从零搭建微服务项目Pro(第0章——微服务项目脚手架搭建)

前言: 在本专栏Base第0章曾介绍一种入门级的微服务项目搭建,尽管后续基于此框架上实现了Nacos、Eureka服务注册发现、配置管理、Feign调用、网关模块、OSS文件存储、JSR参数校验、LogBack日志配置,鉴权模块、定时任务模块等,但由于…

VS Code下开发FPGA——FPGA开发体验提升__下

上一篇:IntelliJ IDEA下开发FPGA-CSDN博客 Type:Quartus 一、安装插件 在应用商店先安装Digtal IDE插件 安装后,把其他相关的Verilog插件禁用,避免可能的冲突。重启后,可能会弹出下面提示 这是插件默认要求的工具链&a…

使用Python从零开始构建端到端文本到图像 Transformer大模型

简介:通过特征向量从文本生成图像 回顾:多模态 Transformer 在使用Python从零实现一个端到端多模态 Transformer大模型中,我们调整了字符级 Transformer 以处理图像(通过 ResNet 特征)和文本提示,用于视觉…

Webpack中的文件指纹:给资源戴上个“名牌”

你是否想过,当你修改代码后,浏览器为什么仍然拿着旧版资源不放?秘密就在于——文件指纹!简单来说,文件指纹就像给每个构建出来的文件贴上独一无二的“姓名牌”,告诉浏览器:“嘿,我更…

python可变对象与不可变对象

文章目录 Python 中的可变对象与不可变对象不可变对象(Immutable Objects)可变对象(Mutable Objects)重要区别 Python 中的可变对象与不可变对象 在 Python 中,对象可以分为可变对象(mutable)和不可变对象(immutable),这是 Python 中非常重要的概念&…

DeepSeek私有化部署性能怎么样?企业级AI落地实战解析!

1. 私有化部署是什么?为什么企业需要它? 很多公司在考虑用AI时都会问:“DeepSeek私有化部署性能怎么样?能不能在我们自己的服务器上跑?” 私有化部署的意思就是把AI模型装在你自己的机房或者云服务器上,而…

SQL学习--基础语法学习

SQL和excle对比 学习目标 单表查询 项目背景 SQL 练习环境 SQL Online Compiler - Next gen SQL Editor 商品信息表:https://study-zhibo.oss-cn-shanghai.aliyuncs.com/test/%E5%95%86%E5%93%81%E4%BF%A1%E6%81%AF%E8%A1%A8.csv 订单明细表:https://…

【Docker基础-网络】--查阅笔记4

目录 Docker 网络网络类型none 网络host 网络bridge 网络自定义网络 容器间通信IP 通信Docker DNS Serverjoined 容器 容器与外部通信容器访问外部外部访问容器 Docker 网络 学习Docker提供的几种原生网络如何创建自定义网络容器间通信,容器于外界交互 Docker 安装…

GPT模型架构与文本生成技术深度解析

核心发现概述 本文通过系统分析OpenAI的GPT系列模型架构,揭示其基于Transformer解码器的核心设计原理与文本生成机制。研究显示,GPT模型通过自回归机制实现上下文感知的序列生成,其堆叠式解码器结构配合创新的位置编码方案,可有效…

AWTK-MVVM 如何让多个View复用一个Model记录+关于app_conf的踩坑

前言 有这么一个业务,主界面点击应用窗口进入声纳显示界面,声纳显示界面再通过按钮进入菜单界面,菜单界面有很多关于该声纳显示界面的设置项,比如量程,增益,时间显示,亮度,对比度等…