论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

bicheng/2025/7/1 7:05:01/文章来源:https://blog.csdn.net/yang_daxia/article/details/139950072

摘要(Abstract)：

论文介绍了MVBench，这是一个全新的多模态视频理解基准测试，旨在评估多模态大型语言模型（MLLMs）在视频理解方面的能力。

目前许多基准测试主要集中在静态图像任务的空间理解上，而忽视了动态视频任务中的时间理解。MVBench通过20个具有挑战性的视频任务来填补这一空白，这些任务无法通过单帧图像有效解决。
论文提出了一种新颖的静态到动态方法来定义与时间相关的任务，并将各种静态任务转化为动态任务，从而系统地生成各种视频任务，无需人工参与。
通过任务定义，研究者们自动将视频注释转换为多项选择的问答（QA），以评估每个任务。
MVBench的构建高效且公平，避免了对LLMs的评分偏见。论文开发了一个强大的视频MLLM基线VideoChat2，并通过多样化的指令调整数据进行逐步多模态训练。
在MVBench上表明，现有的MLLMs在时间理解方面远未达到令人满意的水平，而VideoChat2在MVBench上的准确率超过了这些领先模型15%以上。

MVBench

在这里插入图片描述

时间任务定义(Temporal Task Definition)：

MVBench定义了20个视频理解任务，这些任务需要对视频的时间维度有深入理解，不能仅通过单个帧来解决。
作者提出了一种从静态到动态的方法，将先前定义的静态图像任务转化为具有动态目标的视频任务，涵盖了从感知到认知的一系列时间理解技能。

静态到动态的转变(Static-to-Dynamic Method)：

通过将静态图像任务增加时间上下文，例如将图像中的位置任务转换为视频中的移动方向任务，从而创建了一系列需要对整个视频进行推理的动态任务。

自动问答生成(Automatic QA Generation)：

利用现有的视频基准测试和大型语言模型(LLMs)，自动将视频注释转换为多项选择的问答对，用于评估MLLMs的性能。
选择了11个公共视频基准测试，并根据任务定义自动生成问题和答案选项。

数据筛选(Data Filtration)：

为了增加视频的多样性并保证任务的时间敏感性，作者从现有的基准测试中精心选择了视频数据集，排除了过短或过长的视频片段，选择了中等时长的视频。

问题难度平衡(Question Difficulty)：

为了平衡问题难度，作者设计了选择标准，确保问题既不过简单也不过复杂，以避免模型给出相似的响应。

答案选项生成(Answer Option Generation)：

利用模板构建答案选项，或者使用LLM基于任务定义生成问题，并从现有注释中创建答案选项。

评估提示设计(Prompt Design for Evaluation)：

为了强调MLLMs的时间敏感性，作者设计了详细的系统提示，鼓励模型仔细观察视频内容并回答问题。

videoCHat2

指令微调数据生成。通过chat
在这里插入图片描述

3阶段训练。视频语言对齐、视频语言链接、指令微调
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/35426.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

c++进程间通信--zeromq

c++进程间通信--zeromq

ZeroMQ（也写作 MQ、0MQ 或 zmq）是一个高性能的异步消息队列库，提供了一种灵活的方式来实现进程间通信（IPC）以及网络通信。在C中使用ZeroMQ进行进程间通信非常直观和高效。zmq的通信模式如下： 下面先说明请求…

阅读更多...

保护你的代码堡垒：精通npm audit命令

保护你的代码堡垒：精通npm audit命令

保护你的代码堡垒：精通npm audit命令在当今快速发展的软件开发领域，安全漏洞如同暗夜中的刺客，随时可能对我们的应用程序发起致命一击。幸运的是，npm提供了一个强大的安全审计工具——npm audit命令，它能帮我们检测和…

阅读更多...

第 11 课：组件介绍与自定义开发

第 11 课：组件介绍与自定义开发

本讲主要介绍了隐语的组件标准、已有的组件能力以及进一步的自定义开发流程。经过本讲的学习，可以为将隐语集成到任意调度系统，基于Kusica/SecretPad进行二次开发，以及参与隐语开放标准共建建立基础。一、隐语开放标准隐语提出的适用于隐私…

阅读更多...

2024.06.26【读书笔记】|医疗科技创新流程（前言）【AI增强版】

2024.06.26【读书笔记】|医疗科技创新流程（前言）【AI增强版】

目录《BIODESIGN》第二版前言详细总结前言概述新增重要内容价值导向 (Value Orientation)全球视角 (Global Perspectives)更好的教学和学习方法 (Better Ways to Teach and Learn)全新视频集合 (New Videos)扩展的“实地”案例研究 (Expanded “From the Field” Case Studies…

阅读更多...

产品3D展示有哪些优势？3D能替代2D展示吗？

产品3D展示有哪些优势？3D能替代2D展示吗？

随着科技的飞速发展和经济的持续增长，我们见证了一个从2D到3D的产品展示革命。与传统的2D图片展示相比，3D产品展示正以其独特的优势逐渐崭露头角。一、3D产品展示的独特优势 1、更逼真的视觉效果： 3D展示技术能够以更为真实、立体的方式展…

阅读更多...

证件照制作工具有哪些？这6个帮你自制证件照

证件照制作工具有哪些？这6个帮你自制证件照

许多人可能认为，制作一张符合标准要求的证件照，必须亲自前往照相馆。然而，事实上，我们完全可以使用手机或电脑上的证件照制作app，自己轻松完成证件照的制作。无论是更换背景颜色，还是调整照片尺寸&#x…

阅读更多...

qt qml-http之XMLHttpRequest介绍详解使用

qt qml-http之XMLHttpRequest介绍详解使用

文章目录 QML中的XMLHttpRequest详解与示例基本用法示例代码代码详解更复杂的示例：POST请求代码详解结论QML中的XMLHttpRequest详解与示例 XMLHttpRequest 是 QML 中用于执行HTTP请求的一种机制，类似于Web中的AJAX。它可以用来进行异步的数据传输，可以从服务器获取数据，也…

阅读更多...

【ARM】Ulink不同的系列对于芯片的支持和可以支持keil软件

【ARM】Ulink不同的系列对于芯片的支持和可以支持keil软件

【更多软件使用问题请点击亿道电子官方网站】 1、文档目标了解不同版本的ULINK可以支持的芯片架构，和ULINK可以和哪个系列的keil软件进行在线调试 2、问题场景用于了解不同ULINK仿真器对于芯片的支持是不一样的，并不是ULINK可以支持所有的keil软件…

阅读更多...

typescript 枚举类型

typescript 枚举类型

枚举类型枚举类型是为数不多的特有类型之一，它允许开发者定义一组命名常量，这些常量可以是数字或字符串类型。枚举类型提供了一种方式来组织和管理一组相关的值，使得代码更加清晰和易于理解。数字枚举类型 enum Direction1 {Up 1, //初…

阅读更多...

1. ansible作用、部署

1. ansible作用、部署

ansible作用、部署一、ansible介绍1、ansible特性二、ansible安装部署1、建议配置ssh免密2、安装ansible3、配置主机清单文件 /etc/ansible/hosts3.1 未分组的写法3.2 分组的写法 4、添加非免密的主机一、ansible介绍基于python语言开发的，自动化运维工具作用…

阅读更多...

2024系统分析师考试总结

2024系统分析师考试总结

考试缘由我自己在毕业不久就考过了中级的软件设计师，这几年换到外企后事情不多，今年初定计划的时候就想着不如考个系统分析师吧。为什么选这个类别呢？按道理我主做程序开发，如果去考系统架构师通过率可能会大一些，但…

阅读更多...

【Uniapp微信小程序】图片左右分割/分割线切割图片/图片批量分割线切割

【Uniapp微信小程序】图片左右分割/分割线切割图片/图片批量分割线切割

特别说明：本文章因业务组件功能，不完全开放/暂vip可见，有需要者留言找博主！ ps：注意！！本效果为图片分割切割！！不是文档切割！！图片仅供参考！效果图父组件 / 上传图片页面（index）写一个上传按钮即可，事件方法： uni.chooseMessageFile({extension: [".j…

阅读更多...

kylin v10 系统 rpm安装常见问题

kylin v10 系统 rpm安装常见问题

libprofiler.so.0()(64bit) is needed by nginx-1:1.16.1-2.ky10.aarch64 安装gperftools-libs gperftools-libs-2.6.1-1.el7.i686 : Libraries provided by gperftools Repo : base Matched from: Provides : libprofiler.so.0libjpeg-devel 安装libjpeg-turbo-d…

阅读更多...

Unity | Shader基础知识(第十六集：简单的全息扫描效果)

Unity | Shader基础知识(第十六集：简单的全息扫描效果)

目录一、前言二、准备模型三、场景准备四、代码准备五、透明度设置六、补充介绍 1.Pass语法介绍 2.ColorMask 七、作者的碎碎念一、前言这节课的内容是接着弧形边缘光的效果之后做的。 Unity | Shader基础知识(第十四集：简单效果练习)_unity shade…

阅读更多...

idea或vscode支持vue语法，ts可解析*.vue

idea或vscode支持vue语法，ts可解析*.vue

一、ide不能解析vue文件刚开始导入时，在vscode中的vue文件中内容都是灰色的 ide不能解析vue解决方法： 1.idea或webstorm安装vue.js插件 2.在vscode中 vue2.0的项目安装vetur插件vue3.0及以上的项目安装Vue-official插件（之前是Volar&…

阅读更多...

PC XMind v24 解锁版安装教程 (全球领先的商业思维导图软件)

PC XMind v24 解锁版安装教程 (全球领先的商业思维导图软件)

前言 XMind 是一款专业的全球领先的商业思维导图软件，在国内使用广泛，拥有强大的功能、包括思维管理、商务演示、与办公软件协同工作等功能。它采用全球先进的Eclipse RCP软件架构，是集思维导图与头脑风暴于一体的可视化思考工具&#xff0c…

阅读更多...

mysql GROUP_CONCAT分组连接

mysql GROUP_CONCAT分组连接

文章目录 GROUP_CONCAT 分组连接GROUP_CANCAT 的使用分班级列出名单分班级列出名单并包含显示性别组合IFNULL组合IF组合case when GROUP_CONCAT 分组连接准备的数据示例 CREATE TABLE students (id int(11) NOT NULL AUTO_INCREMENT,name varchar(20) DEFAULT NULL,classNa…

阅读更多...

Rust监控可观测性

Rust监控可观测性

可观测性在监控章节的引言中，我们提到了老板、前端、后端眼中的监控是各不相同的，那么有没有办法将监控模型进行抽象、统一呢？ 来简单分析一下： 业务指标实时展示，这是一个指标型的数据( metric )手机 APP 上传的数…

阅读更多...

Karabiner-Elements 设置mac键盘

Karabiner-Elements 设置mac键盘

软件下载地址： Karabiner-Elements 修改键盘位置，但是重启后，就消失了。 {"description": "New Rule (change left_shiftcaps_lock to page_down, right_shiftcaps_lock to left_commandmission_control)","manip…

阅读更多...

Python下三方库pyttsx3让你的文本读出来(Win10环境)

Python下三方库pyttsx3让你的文本读出来(Win10环境)

一、三方库pyttsx3简介： pyttsx3是一个文本到语音转换的Python库，能够跨平台工作在Windows、MacOS和Linux系统上。这个库的一个显著特点是它不依赖于网络连接，因为它使用了系统自带的语音引擎。pyttsx3支持多种语音属性，包括语速…

阅读更多...

最新文章