多模态大语言模型arxiv论文略读(二十六)

请添加图片描述

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

➡️ 论文标题:Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models
➡️ 论文作者:Xinpeng Ding, Jinahua Han, Hang Xu, Xiaodan Liang, Wei Zhang, Xiaomeng Li
➡️ 研究机构: Hong Kong University of Science and Technology (HKUST)、Huawei Noah’s Ark Lab、Sun Yat-Sen University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在语言驱动的驾驶任务中展现出巨大潜力。然而,现有的研究和数据集通常仅涵盖有限的任务,并且往往忽略了多视角和时间信息,这些信息对于稳健的自动驾驶至关重要。为了弥补这些不足,研究团队提出了NuInstruct,这是一个包含91K多视角视频-问答对的新型数据集,涵盖了17个子任务,每个任务都需要综合信息(如时间、多视角、距离等),显著提高了任务的挑战性。
➡️ 研究动机:现有的语言驱动驾驶研究存在两个主要问题:(1)任务部分覆盖,即现有基准仅涵盖自动驾驶任务的一部分;(2)信息不完整,即现有方法在执行任务时使用的数据往往不完整,通常仅基于单视角图像,缺乏时间和多视角信息。为了解决这些问题,研究团队创建了NuInstruct数据集,并提出了BEV-InMLLM模型,以增强MLLMs在处理多视角、时间和空间信息方面的能力。
➡️ 方法简介:研究团队提出了一种基于SQL的方法,自动生成指令-响应对,构建了NuInstruct数据集。该数据集涵盖了感知、预测、风险评估和规划等任务,每个任务都需要综合信息。此外,研究团队还提出了BEV-InMLLM模型,通过注入鸟瞰图(BEV)表示,增强MLLMs在自动驾驶任务中的全景理解能力。
➡️ 实验设计:研究团队在NuInstruct数据集上进行了实验,评估了BEV-InMLLM模型在感知、预测、风险评估和规划等任务上的性能。实验结果表明,BEV-InMLLM模型在各种任务上显著优于现有的MLLMs,性能提升高达9%。此外,消融研究表明,MV-MLLM在多视角任务上表现出色,而BEV-InMLLM在大多数任务中都至关重要,突显了空间信息的重要性。

Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study

➡️ 论文标题:Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study
➡️ 论文作者:Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan-Anh Vu, Huimin Zeng, Yue Him Wong Tim, Sai-Kit Yeung
➡️ 研究机构: The Hong Kong University of Science and Technology, University of Science and Technology of China, Shenzhen University
➡️ 问题背景:大型语言模型(LLMs)展示了处理各种查询的强大能力,作为通用助手。多模态大型语言模型(MLLMs)赋予LLMs感知视觉信号的能力。GPT-4V(视觉版)在学术和工业领域都表现出显著的影响力,成为新一代人工智能的焦点。然而,尽管GPT-4V取得了显著成功,但在特定领域分析(如海洋分析)中,需要特定领域的知识和专业知识,这方面的研究较少受到关注。
➡️ 研究动机:为了填补这一空白,研究团队进行了初步的全面案例研究,利用GPT-4V进行海洋分析。研究旨在系统评估GPT-4V在海洋研究中的表现,并为未来MLLMs的发展设定新的标准。研究发现,GPT-4V在生成的响应中仍远未满足海洋专业领域的要求。
➡️ 方法简介:研究团队构建了一系列定性测试样本,涵盖海洋分析的多个目的,并使用这些样本评估GPT-4V生成响应的质量。测试样本包括不可在线获取的图像和私人数据,结合手动设计的提示构建。评估方面包括感知、统计、特定领域问答、海洋文化理解、高级功能和提示工程。
➡️ 实验设计:实验数据来自不同来源,包括海洋生物学家的私人数据、YouTube视频的手动裁剪帧、GPT-4V API发布后的互联网图像、研究文章和书籍中的框架和流程图图像,以及公共数据集和新创建的图像。每个案例至少有10个测试样本,以确保研究的一致性和可靠性。实验设计了多种提示,以评估GPT-4V在不同任务中的表现,包括物体识别、细粒度物体识别、鲁棒性分析、物理世界知识理解等。评估指标包括准确率、专家标注的对比和人类判断的评分。

Object-Centric Instruction Augmentation for Robotic Manipulation

➡️ 论文标题:Object-Centric Instruction Augmentation for Robotic Manipulation
➡️ 论文作者:Junjie Wen, Yichen Zhu, Minjie Zhu, Jinming Li, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
➡️ 研究机构: 东华师范大学计算机科学学院、美的集团、上海大学理学院数学系
➡️ 问题背景:在机器人操作任务中,理解物体的位置信息对于完成任务至关重要。尽管大型语言模型(LLM)在增强文本描述方面取得了显著进展,但这些模型主要关注于增强任务规划等文本描述,而对物体位置信息的处理相对较少。本文提出了一种新的框架,通过多模态大型语言模型(MLLM)将物体的位置信息融入自然语言指令中,以提高机器人操作任务的成功率。
➡️ 研究动机:现有的研究主要集中在通过LLM增强任务规划等文本描述,但对物体位置信息的处理不足。本文旨在通过引入物体位置信息,增强语言指令,从而提高机器人操作任务的泛化能力和成功率。
➡️ 方法简介:研究团队提出了Object-Centric Instruction Augmentation (OCI) 框架,该框架通过MLLM将物体的位置信息(包括绝对位置和相对位置)融入自然语言指令中。此外,还引入了一种特征重用机制,将MLLM的视觉-语言特征嵌入到策略网络中,以提高策略学习的效率和泛化能力。
➡️ 实验设计:研究团队在模拟环境和真实世界中进行了实验,包括Franka Kitchen基准测试中的多个任务,如滑动开门、打开柜子、打开灯光、转动炉灶旋钮和打开微波炉。实验设计了不同数量的演示(10次和25次),并通过消融研究验证了不同组件(如绝对位置、相对位置和特征重用机制)对模型性能的影响。
➡️ 实验结果:实验结果表明,OCI框架在所有子任务中均优于现有的方法,特别是在某些任务上表现出了显著的优势。消融研究进一步验证了物体位置信息和特征重用机制对模型性能的提升作用。

MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance

➡️ 论文标题:MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance
➡️ 论文作者:Renjie Pi, Tianyang Han, Jianshu Zhang, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang
➡️ 研究机构: The Hong Kong University of Science and Technology, University of Illinois at Urbana-Champaign, The Hong Kong Polytechnic University
➡️ 问题背景:多模态大语言模型(MLLMs)的部署带来了一个独特的漏洞:通过视觉输入进行恶意攻击的易感性。与仅基于文本的大语言模型(LLMs)相比,MLLMs增加了图像模态,但这些图像在安全对齐过程中未被充分考虑,导致MLLMs更容易产生有害响应。此外,MLLMs在有限的图像-文本对上进行微调,远少于广泛的文本预训练语料库,这使得MLLMs在安全微调过程中更容易遗忘其原始能力。
➡️ 研究动机:现有的研究和防御策略主要集中在文本输入的LLMs上,而针对MLLMs的防御策略仍不成熟。研究团队发现,图像可以作为“外语”诱导MLLMs生成有害内容,这可能导致严重的后果。因此,研究团队旨在通过引入MLLM-Protector来解决这一问题,以减轻恶意图像输入对MLLMs的影响,同时不损害模型的原始性能。
➡️ 方法简介:研究团队提出了MLLM-Protector,这是一种即插即用的策略,通过两个子任务来解决对齐任务:1)通过轻量级的有害检测器识别有害响应;2)通过解毒器将有害响应转换为无害响应。这种方法可以有效地检测和纠正有害内容,确保模型的安全性。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括多模态安全基准(MM-SafetyBench)。实验设计了不同的攻击场景(如非法活动、仇恨言论、恶意软件生成等),以评估MLLM-Protector在不同条件下的表现。实验结果表明,MLLM-Protector能够显著降低攻击成功率(ASR),尤其是在非法活动和仇恨言论等场景中,几乎完全防止了有害内容的生成。

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

➡️ 论文标题:Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
➡️ 论文作者:Xin He, Longhui Wei, Lingxi Xie, Qi Tian
➡️ 研究机构: Huawei Inc.
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种任务中展现了显著的贡献,但这些模型在视觉感知能力方面存在局限性,尤其是CLIP类编码器在提取视觉信息时面临信息丢失的问题。尽管这些编码器经过数十亿图像-文本对的预训练,但文本标题只能部分捕捉图像内容,导致模型在处理查询时的响应质量受限。
➡️ 研究动机:为了克服现有模型在视觉感知能力上的局限,研究团队提出了一种新的方法,通过整合多种视觉专家(Visual Experts)来增强MLLMs的视觉感知能力,旨在提供更全面和准确的视觉输入描述。
➡️ 方法简介:研究团队提出了一种名为Incorporating Visual Experts (IVE)的框架,通过引入多任务编码器和结构知识增强模块,来全面描述视觉输入。多任务编码器整合了语义信息编码器、低级信息编码器和文档相关信息编码器,以提供更丰富的视觉信息描述。结构知识增强模块则利用OCR工具和对象检测器提取图像中的结构化数据,作为硬提示与融合的潜在嵌入一起输入到大型语言模型中。
➡️ 实验设计:IVE框架在多个多模态任务中进行了实验,包括通用多模态对话场景和特定任务如DocVQA。实验结果表明,IVE在识别输入图像的内在内容方面表现出色,能够生成更准确的响应,显著提升了模型的视觉感知能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/76733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“星睿O6” AI PC开发套件评测 - 部署PVE搭建All in One NAS服务器

Radxa O6平台上部署PVE搭建All in One NAS服务器 Radxa O6是一款性能卓越的单板计算机,其强劲的硬件配置和多样化的接口设计,使其成为家庭和小型企业理想的All in One服务器解决方案。值得一提的是,O6原生配备了两个5G网口,便于直…

C++ linux打包运行方案(cmake)

文章目录 背景动态库打包方案动态库转静态库动态库打到软件包中 运行 背景 使用C编写的一个小项目,需要打包成ubuntu下的可执行文件,方便分发给其他ubuntu执行,因为docker镜像方案过于臃肿,所以需要把项目的动态库都打在软件包中…

Linux内核编译(Ubuntu)

实验内容:在系统中下载统一发行版本的版本号较高的内核,编译之后运行自己编译的内核,并使用uname-r命令查看是否运行成功。 实验步骤: 1.查看实验环境和内核版本 图1 实验环境 VMware中虚拟机Ubuntu(24.04&#xff…

EdgeGPT - 新版Bing聊天功能逆向工程

本文翻译整理自:https://github.com/acheong08/EdgeGPT 文章目录 一、关于 EdgeGPT相关链接资源关键功能特性 二、安装系统要求安装命令 三、认证配置获取Cookie步骤代码中使用Cookie 四、使用方法1、命令行方式2、Python API方式使用Chatbot类使用Query辅助类 3、…

三网通电玩城平台系统结构与源码工程详解(四):子游戏集成与服务器调度机制全解

本篇将深入讲解三网通电玩城平台中子游戏接入、前后端资源组织方式、服务器调度逻辑、并发接入方案等核心内容,重点覆盖“李逵劈鱼”、“水果玛丽”、“疯狂玛丽”等热门组件,辅以完整代码框架与部署逻辑。 一、子游戏资源目录结构与加载机制 平台采用标…

1.1 AI大模型与Agent的兴起及其对企业数字化转型的推动作用

随着人工智能技术的飞速发展,AI大模型和智能代理(Agent)的兴起正成为推动企业数字化转型的重要力量。从2017年GPT-1的首次亮相到2025年GPT-4和Qwen 2.5等多模态模型的成熟,AI大模型经历了显著的技术演进;与此同时&…

位运算练习:起床困难综合征(贪心,位运算)(算法竞赛进阶指南学习笔记)

目录 前情提要起床困难综合征(贪心,位运算) 前情提要 一些基础运算操作用法看看上一篇; 起床困难综合征(贪心,位运算) 题目原文 [P2114 NOI2014] 起床困难综合症 - 洛谷 思路分析 题目很长…

PowerBi中REMOVEFILTERS怎么使用?

在 Power BI 的 DAX 中,REMOVEFILTERS() 是一个非常重要的函数,常用于取消某个字段或表的筛选上下文(Filter Context),从而让你的计算不受切片器(Slicer)、筛选器或视觉对象的限制。 ✅ 一、REM…

Vue3 实战:打造多功能旅游攻略选项卡页面

在旅游类应用开发中,为用户提供全面、直观的信息展示界面至关重要。本文将分享如何基于 Vue3 Axios 技术栈,实现一个包含攻略、游记、问答三大板块的旅游攻略选项卡页面,从样式设计到交互逻辑,带你深入了解整个开发过程。 项目背…

JavaScript性能优化实战(1):性能优化基础与性能分析工具

性能优化的重要性与业务价值 在当今竞争激烈的互联网环境中,网站和应用的性能已成为用户体验和业务成功的关键因素。研究表明,页面加载时间每增加1秒,转化率可能下降7%,而53%的用户会在页面加载时间超过3秒后放弃访问。这些数据直接揭示了性能优化对业务的巨大影响: 用户…

Unity 脚本使用(二)——UnityEngine.AI——NavMesh

描述 Singleton class 用于访问被烘培好的 NavMesh. 使用NavMesh类可以执行空间查询(spatial queries),例如路径查找和可步行性测试。此类还允许您设置特定区域类型的寻路成本,并调整寻路和避免的全局行为。 静态属性&#xff0…

Java 静态内部类面试题与高质量答案合集

本文整理了关于 Java 静态内部类(Static Nested Class)在面试中的高频问题及标准答案,帮助你理解其底层原理、内存表现以及实际应用。 1. 什么是静态内部类?和普通内部类有什么区别? 答: 静态内部类是定义…

为什么买不到一定阻抗特性曲线的磁环

为什么买不到一定阻抗特性曲线的磁环: 磁环绕不同的圈数,阻抗特性曲线不同,磁环没有类似于磁珠的特定频率和阻抗特性曲线的磁环。 磁环与磁珠的核心区别: 磁珠是一种固定频率阻抗器件,出厂时已通过材料和工艺设计确定…

【MATLAB海洋专题】历史汇总

【MATLAB海洋专题】历史汇总 目录 01:海洋专题进阶教学 02:海洋数据处理 03:海洋数据下载 04:海洋配色 05:海洋专题基础教学 06: 其他基础画图 07:python 画海图专题 08:模式相关文件制作 01…

数据仓库ODS、DWD、DWS、ADS各层介绍

数据仓库Data warehouse(可简写为DW或者DWH)建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,…

动态提示词(小模型)、RAG和提示词系统

动态提示词(小模型)、RAG和提示词系统 目录 动态提示词(小模型)、RAG和提示词系统小模型方案:动态提示词基于规则的动态提示词生成基于模板的动态提示词生成基于小模型的动态提示词生成基于强化学习的动态提示词生成基于元学习的动态提示词生成动态提示词(小模型)RAG(检…

并发设计模式实战系列(3):工作队列

🌟 ​大家好,我是摘星!​ 🌟 今天为大家带来的是并发设计模式实战系列,第三章工作队列(Work Queue)​​,废话不多说直接开始~ 目录 一、核心原理深度拆解 1. 生产者-消费者架构 …

云账号安全事件应急响应指南:应对来自中国IP的异常访问

在当今数字化时代,云服务已成为企业IT基础设施的核心。然而,随之而来的安全挑战也日益突出。本文将详细介绍当发现云账号被来自中国的IP地址异常利用时,应如何快速有效地响应,以确保账户安全并最小化潜在风险。 1. 确认异常活动 首先,我们需要确认是否真的发生了安全事件…

三网通电玩城平台系统结构与源码工程详解(五):客户端热更机制与多端资源分发流程

本篇将聚焦三网通平台在多客户端部署中的资源热更机制设计、跨平台同步策略、版本控制与前端资源发布管理,帮助开发者搭建高效稳定的资源更新系统。 一、资源分发平台架构 为实现安卓端、iOS端、PC端的统一更新分发,平台采用 Node.js Express 构建资源…

spark和hadoop的区别

一、spark概述 二、处理速度 三、 编程模型 四、实时性处理 五、spark内置模块 六、spark的运行模式