多模态大语言模型arxiv论文略读（二十六）

请添加图片描述

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

➡️ 论文标题：Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models
➡️ 论文作者：Xinpeng Ding, Jinahua Han, Hang Xu, Xiaodan Liang, Wei Zhang, Xiaomeng Li
➡️ 研究机构: Hong Kong University of Science and Technology (HKUST)、Huawei Noah’s Ark Lab、Sun Yat-Sen University
➡️ 问题背景：当前的多模态大语言模型（Multimodal Large Language Models, MLLMs）在语言驱动的驾驶任务中展现出巨大潜力。然而，现有的研究和数据集通常仅涵盖有限的任务，并且往往忽略了多视角和时间信息，这些信息对于稳健的自动驾驶至关重要。为了弥补这些不足，研究团队提出了NuInstruct，这是一个包含91K多视角视频-问答对的新型数据集，涵盖了17个子任务，每个任务都需要综合信息（如时间、多视角、距离等），显著提高了任务的挑战性。
➡️ 研究动机：现有的语言驱动驾驶研究存在两个主要问题：（1）任务部分覆盖，即现有基准仅涵盖自动驾驶任务的一部分；（2）信息不完整，即现有方法在执行任务时使用的数据往往不完整，通常仅基于单视角图像，缺乏时间和多视角信息。为了解决这些问题，研究团队创建了NuInstruct数据集，并提出了BEV-InMLLM模型，以增强MLLMs在处理多视角、时间和空间信息方面的能力。
➡️ 方法简介：研究团队提出了一种基于SQL的方法，自动生成指令-响应对，构建了NuInstruct数据集。该数据集涵盖了感知、预测、风险评估和规划等任务，每个任务都需要综合信息。此外，研究团队还提出了BEV-InMLLM模型，通过注入鸟瞰图（BEV）表示，增强MLLMs在自动驾驶任务中的全景理解能力。
➡️ 实验设计：研究团队在NuInstruct数据集上进行了实验，评估了BEV-InMLLM模型在感知、预测、风险评估和规划等任务上的性能。实验结果表明，BEV-InMLLM模型在各种任务上显著优于现有的MLLMs，性能提升高达9%。此外，消融研究表明，MV-MLLM在多视角任务上表现出色，而BEV-InMLLM在大多数任务中都至关重要，突显了空间信息的重要性。

Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study

➡️ 论文标题：Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study
➡️ 论文作者：Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan-Anh Vu, Huimin Zeng, Yue Him Wong Tim, Sai-Kit Yeung
➡️ 研究机构: The Hong Kong University of Science and Technology, University of Science and Technology of China, Shenzhen University
➡️ 问题背景：大型语言模型（LLMs）展示了处理各种查询的强大能力，作为通用助手。多模态大型语言模型（MLLMs）赋予LLMs感知视觉信号的能力。GPT-4V（视觉版）在学术和工业领域都表现出显著的影响力，成为新一代人工智能的焦点。然而，尽管GPT-4V取得了显著成功，但在特定领域分析（如海洋分析）中，需要特定领域的知识和专业知识，这方面的研究较少受到关注。
➡️ 研究动机：为了填补这一空白，研究团队进行了初步的全面案例研究，利用GPT-4V进行海洋分析。研究旨在系统评估GPT-4V在海洋研究中的表现，并为未来MLLMs的发展设定新的标准。研究发现，GPT-4V在生成的响应中仍远未满足海洋专业领域的要求。
➡️ 方法简介：研究团队构建了一系列定性测试样本，涵盖海洋分析的多个目的，并使用这些样本评估GPT-4V生成响应的质量。测试样本包括不可在线获取的图像和私人数据，结合手动设计的提示构建。评估方面包括感知、统计、特定领域问答、海洋文化理解、高级功能和提示工程。
➡️ 实验设计：实验数据来自不同来源，包括海洋生物学家的私人数据、YouTube视频的手动裁剪帧、GPT-4V API发布后的互联网图像、研究文章和书籍中的框架和流程图图像，以及公共数据集和新创建的图像。每个案例至少有10个测试样本，以确保研究的一致性和可靠性。实验设计了多种提示，以评估GPT-4V在不同任务中的表现，包括物体识别、细粒度物体识别、鲁棒性分析、物理世界知识理解等。评估指标包括准确率、专家标注的对比和人类判断的评分。

Object-Centric Instruction Augmentation for Robotic Manipulation

➡️ 论文标题：Object-Centric Instruction Augmentation for Robotic Manipulation
➡️ 论文作者：Junjie Wen, Yichen Zhu, Minjie Zhu, Jinming Li, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
➡️ 研究机构: 东华师范大学计算机科学学院、美的集团、上海大学理学院数学系
➡️ 问题背景：在机器人操作任务中，理解物体的位置信息对于完成任务至关重要。尽管大型语言模型（LLM）在增强文本描述方面取得了显著进展，但这些模型主要关注于增强任务规划等文本描述，而对物体位置信息的处理相对较少。本文提出了一种新的框架，通过多模态大型语言模型（MLLM）将物体的位置信息融入自然语言指令中，以提高机器人操作任务的成功率。
➡️ 研究动机：现有的研究主要集中在通过LLM增强任务规划等文本描述，但对物体位置信息的处理不足。本文旨在通过引入物体位置信息，增强语言指令，从而提高机器人操作任务的泛化能力和成功率。
➡️ 方法简介：研究团队提出了Object-Centric Instruction Augmentation (OCI) 框架，该框架通过MLLM将物体的位置信息（包括绝对位置和相对位置）融入自然语言指令中。此外，还引入了一种特征重用机制，将MLLM的视觉-语言特征嵌入到策略网络中，以提高策略学习的效率和泛化能力。
➡️ 实验设计：研究团队在模拟环境和真实世界中进行了实验，包括Franka Kitchen基准测试中的多个任务，如滑动开门、打开柜子、打开灯光、转动炉灶旋钮和打开微波炉。实验设计了不同数量的演示（10次和25次），并通过消融研究验证了不同组件（如绝对位置、相对位置和特征重用机制）对模型性能的影响。
➡️ 实验结果：实验结果表明，OCI框架在所有子任务中均优于现有的方法，特别是在某些任务上表现出了显著的优势。消融研究进一步验证了物体位置信息和特征重用机制对模型性能的提升作用。

MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance

➡️ 论文标题：MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance
➡️ 论文作者：Renjie Pi, Tianyang Han, Jianshu Zhang, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang
➡️ 研究机构: The Hong Kong University of Science and Technology, University of Illinois at Urbana-Champaign, The Hong Kong Polytechnic University
➡️ 问题背景：多模态大语言模型（MLLMs）的部署带来了一个独特的漏洞：通过视觉输入进行恶意攻击的易感性。与仅基于文本的大语言模型（LLMs）相比，MLLMs增加了图像模态，但这些图像在安全对齐过程中未被充分考虑，导致MLLMs更容易产生有害响应。此外，MLLMs在有限的图像-文本对上进行微调，远少于广泛的文本预训练语料库，这使得MLLMs在安全微调过程中更容易遗忘其原始能力。
➡️ 研究动机：现有的研究和防御策略主要集中在文本输入的LLMs上，而针对MLLMs的防御策略仍不成熟。研究团队发现，图像可以作为“外语”诱导MLLMs生成有害内容，这可能导致严重的后果。因此，研究团队旨在通过引入MLLM-Protector来解决这一问题，以减轻恶意图像输入对MLLMs的影响，同时不损害模型的原始性能。
➡️ 方法简介：研究团队提出了MLLM-Protector，这是一种即插即用的策略，通过两个子任务来解决对齐任务：1）通过轻量级的有害检测器识别有害响应；2）通过解毒器将有害响应转换为无害响应。这种方法可以有效地检测和纠正有害内容，确保模型的安全性。
➡️ 实验设计：研究团队在多个数据集上进行了实验，包括多模态安全基准（MM-SafetyBench）。实验设计了不同的攻击场景（如非法活动、仇恨言论、恶意软件生成等），以评估MLLM-Protector在不同条件下的表现。实验结果表明，MLLM-Protector能够显著降低攻击成功率（ASR），尤其是在非法活动和仇恨言论等场景中，几乎完全防止了有害内容的生成。

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

➡️ 论文标题：Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
➡️ 论文作者：Xin He, Longhui Wei, Lingxi Xie, Qi Tian
➡️ 研究机构: Huawei Inc.
➡️ 问题背景：多模态大型语言模型（MLLMs）在多种任务中展现了显著的贡献，但这些模型在视觉感知能力方面存在局限性，尤其是CLIP类编码器在提取视觉信息时面临信息丢失的问题。尽管这些编码器经过数十亿图像-文本对的预训练，但文本标题只能部分捕捉图像内容，导致模型在处理查询时的响应质量受限。
➡️ 研究动机：为了克服现有模型在视觉感知能力上的局限，研究团队提出了一种新的方法，通过整合多种视觉专家（Visual Experts）来增强MLLMs的视觉感知能力，旨在提供更全面和准确的视觉输入描述。
➡️ 方法简介：研究团队提出了一种名为Incorporating Visual Experts (IVE)的框架，通过引入多任务编码器和结构知识增强模块，来全面描述视觉输入。多任务编码器整合了语义信息编码器、低级信息编码器和文档相关信息编码器，以提供更丰富的视觉信息描述。结构知识增强模块则利用OCR工具和对象检测器提取图像中的结构化数据，作为硬提示与融合的潜在嵌入一起输入到大型语言模型中。
➡️ 实验设计：IVE框架在多个多模态任务中进行了实验，包括通用多模态对话场景和特定任务如DocVQA。实验结果表明，IVE在识别输入图像的内在内容方面表现出色，能够生成更准确的响应，显著提升了模型的视觉感知能力。