InternVideo2重塑视频理解新标杆,多模态学习引领行业风向


1f3333e0b6d7491337dd93e0a72010dc.jpeg

4dd80678b6cf927bd70e157fb704dfc4.jpeg

引言:视频理解的新篇章——InternVideo2的介绍

随着视频内容在日常生活中的普及,视频理解技术的重要性日益凸显。视频不仅包含丰富的视觉信息,还蕴含着动态变化和多模态元素,如音频和文本。这些特性使得视频成为一个复杂的数据类型,对其进行深入理解和分析是一项挑战。近年来,随着大型语言模型(LLM)和多模态大型语言模型(MLLM)的发展,视频理解领域迎来了新的发展机遇。这些模型通过学习世界模型,为视频嵌入提供了新的视角,从而推动了视频理解技术的进步。

在此背景下,我们介绍了一种新的视频基础模型(ViFM)——InternVideo2。InternVideo2采用了渐进式训练范式,统一了不同的自监督或弱监督学习框架,包括遮蔽视频标记重建、跨模态对比学习和下一个标记预测。这些训练阶段引导模型通过不同的前置任务捕获不同层次的结构和语义信息。在数据层面,我们优先考虑时空一致性,通过语义分割视频并生成视频-音频-语音字幕,改善了视频与文本之间的对齐。我们对InternVideo2的数据和模型规模进行了扩展。通过广泛的实验,我们验证了我们的设计,并展示了InternVideo2在超过60个视频和音频任务上取得了最先进的性能。值得注意的是,我们的模型在各种视频相关的字幕、对话和长视频理解基准测试中表现优异,凸显了其在推理和理解长时间上下文方面的能力。

论文标题:INTERNVIDEO2: SCALING VIDEO FOUNDATION MODELS FOR MULTIMODAL VIDEO UNDERSTANDING

机构:OpenGVLab, Shanghai AI Laboratory, Zhejiang University, The University of Hong Kong, Nanjing University, Fudan University, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences

项目地址:https://github.com/OpenGVLab/InternVideo2

公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

InternVideo2模型架构:三阶段的渐进式学习方法

InternVideo2模型采用了一种渐进式学习方法,该方法包括三个阶段:遮蔽视频令牌重建、跨模态对比学习和下一个令牌的预测。这些阶段旨在提高模型的时空感知能力,将其与其他模态的语义对齐,并通过下一个令牌预测来增强其世界模型。

da969ca438c701d7b8202f37a8b43a23.png

2d48dc03cce59dbde80c3b783414b504.jpeg

1. 遮蔽视频令牌重建

在遮蔽视频令牌重建的初始阶段,模型学习重建被遮蔽的视频令牌,使视频编码器能够发展基本的时空感知。为了估计被遮蔽的令牌,使用了不同训练的视觉编码器(InternViT和VideoMAE-g)作为代理。这一阶段的学习目标是通过重建剩余的令牌来形成,其中包括最小化相关未遮蔽令牌的均方误差(MSE)。

2. 跨模态对比学习

在多模态学习的下一阶段,架构扩展为包括音频和文本编码器。这不仅提高了视频和文本之间的对齐,还使InternVideo2能够处理视频-音频任务。通过结合这些额外的模态,模型对视频的理解得到了丰富,并与音频提供的语义对齐。

3. 下一个令牌的预测

在下一个令牌预测阶段,利用视频中心对话系统和相应的指令微调数据集来训练InternVideo2。这一迁移学习过程使模型能够从LLM和其他知识中受益。通过将InternVideo2连接到LLM,视频编码器通过下一个令牌预测训练进一步更新,增强了其生成上下文相关下一个令牌的能力。

数据处理的创新:时空一致性的重要性

在数据处理方面,InternVideo2强调了时空一致性的重要性。通过语义分割视频并生成视频-音频-语音字幕,改进了视频和文本之间的对齐。

1. 视频剪辑的语义分割

为了保持时空一致性,使用AutoShot模型代替传统的SceneDet滤镜来分割视频剪辑。AutoShot基于时间语义变化而不是像素差异来预测边界,从而生成语义完整的剪辑,避免混入不一致的上下文。

2. 视频、音频和语音字幕的生成与融合

在MVid数据集中,视频来自多个来源,包括YouTube和其他匿名来源,以提高数据集的多样性。对于视频数据集,首先保留超过2秒的剪辑。对于超过30秒的视频剪辑,如果剪辑中的片段来自同一镜头,则随机选择一个30秒的片段。此外,还自动为MVid的视觉、音频和语音生成字幕,然后使用LLM校正并融合它们,以便训练使用。

实验验证:跨越70个视频理解任务的表现

1. 动作识别

在动作识别方面,InternVideo2在多个数据集上进行了测试,包括Kinetics(K400、K600和K700)、Moments in Time V1(MiT)、Something-Something V2(SSv2)、UCF、HMDB、Charades、ActivityNet(ANet)和HACS。实验结果显示,InternVideo2在使用16帧的情况下,就能在这些数据集上取得新的最佳表现,超越了以往需要更高分辨率(例如224对比576)或模型集成的SOTA(State-of-the-Art)结果。例如,在MiT数据集上,InternVideo2-6B的表现超过了之前的SOTA,CoCa-g,达到了51.2%的准确率,比CoCa-g高出2.2%。在强调时间动态的Something-Something V2数据集上,InternVideo2-6B也以77.5%的准确率超越了MVD(77.3%)。此外,InternVideo2-6B在未裁剪视频分析上的表现也是顶尖的,例如在ActivityNet上达到了95.9%,在HACS上达到了97.0%。

3969f0187ad975c6e3414308c4f0d06e.jpeg

55d1f8feb1f5d98b8c673f9a6fd06d1b.jpeg

2. 视频-文本任务

在视频-文本任务方面,InternVideo2在视频检索、视频字幕和多选视频问答(QA)等任务上进行了评估。在视频检索任务中,使用阶段2中的文本编码器,将视频表示与候选文本进行匹配。在多选视频问答任务中,使用阶段3中学习的VideoLLM进行测试。此外,InternVideo2还在音频任务上进行了测试,展示了其在音频和文本编码器上的优势。

3. 视频中心对话

在视频中心对话方面,InternVideo2在MVBench、VideoChatGPT-Eval和MoVQA等数据集上的表现突出,不仅在平均分数上超过了其他系统,而且在每个子任务上(详见补充材料)也表现出色,除了在VideoChatGPT-Eval上。这些结果表明,InternVideo2确实嵌入了部分世界模型的知识,至少与其他模型相比是这样。这也验证了学习可转移视频表示对当前视频相关的MLLM(多模态大型语言模型)的重要性。

InternVideo2的优势:长视频理解与推理能力

InternVideo2在长视频理解和推理基准测试中表现出色,这突显了其在长时间上下文理解和推理能力方面的优势。在长视频或程序感知问答(QA)等复杂推理任务中,InternVideo2展现了其分析和推理一系列动作的能力。这些成果不仅证明了InternVideo2在视频感知、视频-语言对齐以及世界模型构建方面的卓越能力,还标志着其在多模态语言模型(MLLM)领域的各种基准测试中的顶级性能,有效地捕捉和理解视频内容。

模型的局限性与未来方向:固定输入分辨率和采样率的挑战

1. 模型的局限性

尽管InternVideo2在多模态视频理解任务中取得了显著的成绩,但它并没有引入新的训练方法或架构上的创新。相反,它利用现有的学习技术进行方案探索,同时专注于改进数据处理,以增强时空感知、语义对齐和基础知识嵌入。与先前的研究类似,InternVideo2仍然面临着固定输入分辨率、采样率和高度压缩的令牌的限制,这些限制了其表达丰富视频信息和捕捉细节的能力。

InternVideo2采用的渐进式学习方案在模型能力和训练计算之间取得了平衡。虽然同时学习三个优化目标在计算上是可行的,但当面临资源有限的情况时,可扩展性成为一个问题。

尽管InternVideo2在长视频理解和推理基准测试中表现出领先的性能,但它无法保证一个隐含的世界模型,以确保视觉推理的一致性。固定输入表示的内在约束,加上视觉推理任务的复杂性,呈现出在实现对视觉世界的全面和一致理解方面的挑战。

2. 未来方向

未来的研究方向可能包括开发新的模型架构和训练方法,以克服固定输入分辨率和采样率的限制。这可能涉及到探索更灵活的输入表示,以更好地捕捉视频内容的丰富性和细节。此外,研究人员可以探索如何有效地结合不同模态的信息,以进一步提高模型在多模态视频理解任务中的性能。

讨论与总结:InternVideo2在多模态视频理解中的潜力与影响

InternVideo2作为一种新型的视频基础模型,在多模态视频理解领域展现出了巨大的潜力。通过结合掩码视频令牌重建、视频-音频-文本对比学习以及下一个令牌预测,InternVideo2不仅在视频感知和视频-语言对齐方面表现出色,而且在模拟世界方面也有出色的表现。它在多模态语言模型(MLLM)领域的各种基准测试中的顶尖性能标志着其有效捕捉和理解视频内容的能力。这些经验性发现验证了InternVideo2作为未来探索视频理解的合格视频编码器的资格。

InternVideo2在视频相关对话和长视频理解方面的卓越性能,突显了其在各种世界模型研究和应用中的潜力。然而,我们也必须认识到,与其他基础模型一样,InternVideo2有可能嵌入其训练数据中存在的偏见,这些偏见可能由数据创建者的个人观点、偏好、价值观和视角以及所使用的训练语料库引起。这些偏见在AI模型中的存在可能会产生社会影响,并加剧现有的不平等或偏见。因此,在将InternVideo2部署到现实世界应用中时,必须仔细考虑潜在的影响,并采取积极措施来减轻偏见,确保公平性。

更广泛的影响:训练数据中的偏见问题及其社会影响

在构建和训练机器学习模型,尤其是视频理解模型如InternVideo2时,训练数据的选择和处理至关重要。这些数据不仅决定了模型的性能,还可能在模型中引入偏见,从而影响模型在现实世界中的应用和社会影响。

1. 训练数据的多样性和代表性

InternVideo2模型的训练数据包括来自不同来源的视频,这些视频覆盖了从第一人称到第三人称的不同视角,时长短长不一,涉及多样的角色和场景。例如,K-Mash数据集包含了来自著名动作识别数据集的视频,而K-Mash2M则进一步从YouTube中精选了视频以增加多样性。此外,MVid数据集结合了视频、音频、语音信息及其文本描述,这些丰富的多模态信息有助于模型更好地理解和处理视频内容。

然而,尽管这些数据集的多样性和代表性有所提高,但仍然存在潜在的偏见风险。例如,如果视频数据集中某一类别的视频过多或过少,模型可能会在识别该类别的视频时表现出偏差。此外,数据集中的文化背景也可能影响模型的学习,例如MVid数据集中包含了一小部分中国数据,这可能会导致模型对特定文化背景的视频有更好的理解能力。

2. 偏见的来源和影响

训练数据中的偏见可能来源于数据创作者的个人观点、偏好、价值观和视角,以及所使用的训练语料库。例如,视频数据的采集、剪辑和注释过程中的主观性可能会导致某些群体或行为被不公正地表示或忽略。此外,使用的语言模型(如LLMs)和神经教师(如InternViT [Chen et al., 2023a] 和VideoMAE [Wang et al., 2023a])也可能将它们自身的偏见传递给视频理解模型。

这些偏见在AI模型中的存在可能会在社会上产生影响,加剧现有的不平等或偏见。例如,如果InternVideo2在处理与性别、种族或年龄相关的视频内容时表现出偏差,可能会在输出中体现出不公平或歧视性的结果,从而在社会中强化训练数据中存在的社会偏见或刻板印象。

3. 应对偏见的措施

为了减轻训练数据中的偏见并确保公平性,需要采取积极的措施。这可能包括使用更加多样化和平衡的数据集、对数据进行仔细的审查和预处理以消除偏见,以及开发和应用算法来识别和纠正模型中的偏见。此外,对模型的输出进行监控和评估,以确保其在现实世界应用中不会产生不公正或歧视性的影响,也是非常重要的。

总之,训练数据中的偏见问题不仅影响模型的性能,还可能对社会产生深远的影响。因此,在开发和部署视频理解模型时,确保训练数据的质量和公平性是至关重要的。 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/806424.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode Meditations:合并 K 排序列表

描述 合并K分类列表 状态: 您有一系列 k 链接-列表 lists ,每个链接-列表按升序排序。 合并所有链接-列表为一个排序的链接-列出并返回。 例如: Input: lists [[1, 4, 5], [1, 3, 4], [2, 6]] Output: [1, 1, 2, 3, 4, 4, 5, 6] Explanatio…

4.5 文字绘制

PutText 函数在图像中呈现指定的文本字符串。不能使用指定字体呈现的符号将由问号替换。 void cv::putText ( cv::Mat & img,//待绘制的图像 const String & text,//待绘制的文字 Point org,//文本框的左下角 int fontFace,//字体类型 double fontScale,//尺寸因…

虹科Pico汽车示波器 | 免拆诊断案例 | 2011款东风悦达起亚K5车发动机偶尔起动困难

一、故障现象 一辆2011款东风悦达起亚K5车,搭载G4KD发动机,累计行驶里程约为24.5万km。车主反映,第1次起动发动机时偶尔无法起动着机,第2次能够正常起动着机,但发动机故障灯异常点亮。为此在其他维修厂维修过&#xf…

网站HTTP升级成为HTTPS的方法

将网站从HTTP免费升级为HTTPS,您可以按照以下步骤操作: 1. 选择证书颁发机构(CA): - 为了免费升级,您可以选择使用JoySSL这样的公益项目。JoySSL提供免费、自动化的SSL/TLS证书颁发服务,适用于各…

【Spring高级】SpringMVC处理流程总结

请求处理流程中,DispatcherServlet作为核心组件,负责控制整个流程,协调各个组件之间的交互。同时,SpringMVC提供了丰富的配置选项和扩展点,使得开发者可以根据具体需求定制和扩展功能。 当浏览器发送一个请求 http://…

【linux】yum 和 vim

yum 和 vim 1. Linux 软件包管理器 yum1.1 什么是软件包1.2 查看软件包1.3 如何安装软件1.4 如何卸载软件1.5 关于 rzsz 2. Linux编辑器-vim使用2.1 vim的基本概念2.2 vim的基本操作2.3 vim命令模式命令集2.4 vim底行模式命令集2.5 vim操作总结补充:vim下批量化注释…

MySQL 8.0 克隆(clone)插件快速搭建主从复制

MySQL 8.0 clone插件提供从一个实例克隆数据的功能,克隆功能提供了更有效的方式来快速创建MySQL实例,搭建主从复制和组复制。本文介绍使用 MySQL 8.0 clone 插件快速搭建主从复制的方法 环境: mysql 8.0.29 主库:192.168.56.201…

FFmpeg: 简易ijkplayer播放器实现--01项目简介

文章目录 项目介绍流程图播放器实现过程界面展示 项目介绍 此项目基于FFmeg中 ffplay.c进行二次开发,实现基本的功能,开发软件为Qt 项目优势: 参考ijkplayer播放器,实现UI界面和播放器核心进行解耦,容易添加其他功能…

【Kaggle比赛】DFL 德甲足球事件检测大赛(CV·目标检测-视频分类)

赛题解析 比赛目标 进球了!在这场比赛中,你会发现足球(足球)传球ーー包括掷界外球和传中球ーー以及德甲比赛中的挑战。您将开发一个计算机视觉模型,可以在长视频记录中自动分类这些事件。 您的工作将有助于规模的数据收集过程。自动事件注释可以使事件数据从目前未探索的…

解锁视觉密码:计算机视觉理论与应用

一、引言 A. 计算机视觉的定义与重要性 计算机视觉是一门研究如何使计算机能够“看”和理解图像或视频的科学。它结合了图像处理、模式识别、机器学习等多个领域的技术,旨在赋予计算机对视觉信息的感知、分析和理解能力。计算机视觉的重要性在于其能够模拟人眼的视…

ELK企业日志分析系统介绍

前言 随着企业级应用系统日益复杂,随之产生的海量日志数据。传统的日志管理和分析手段,难以做到高效检索、实时监控以及深度挖掘潜在价值。在此背景下,ELK日志分析系统应运而生。本文将从ELK 日志分析系统的原理、架构及其在实践中的应用做相…

使用Django开发爬虫系统

在本文中,我们将介绍如何使用Django开发一个简单但功能强大的爬虫系统。我们将使用Python编写爬虫,并将爬取到的数据存储到Django模型中,然后通过Django的管理页面管理这些数据。 1. 介绍 爬虫系统用于从互联网上收集信息,常用于…

Gin环境搭建详解

Gin环境搭建详解: 要安装Gin软件包,需要先安装Go并设置Go工作区。Gin环境搭建步骤如下: 【Gin框架】Gin环境搭建 Gin程序的热加载 Gin路由 GET POST PUT DELETE 1. 下载并安装 gin : $ go get -u github.com/gin-gonic/gin 2. …

Centos7下docker的jenkins下载并配置jdk与maven【图文教程】

个人记录 进入目录 cd /usr/local/JDK下载与配置 OpenJDK官网 下载安装 wget https://download.java.net/openjdk/jdk18/ri/openjdk-1836_linux-x64_bin.tar.gz解压 tar -zxvf openjdk-1836_linux-x64_bin.tar.gz ls ls jdk-18/编辑配置文件 vim /etc/profile配置环境变…

elementui树形组件自定义高亮颜色

1、需求描述&#xff1a;点击按钮切换树形的章节&#xff0c;同时高亮 2、代码实现 1&#xff09;style样式添加 <style> .el-tree--highlight-current .el-tree-node.is-current > .el-tree-node__content {background-color: #81d3f8 !important; //高亮颜色colo…

【C++题解】1005 - 已知一个圆的半径,求解该圆的面积和周长

问题&#xff1a;1005 - 已知一个圆的半径&#xff0c;求解该圆的面积和周长 类型&#xff1a;基础问题、小数运算 题目描述&#xff1a; 已知一个圆的半径&#xff0c;求解该圆的面积和周长。 输入&#xff1a; 输入只有一行&#xff0c;只有 1 个整数。 输出&#xff1a…

IJKPLAYER源码分析-OpenGL ES渲染

1 前言 IJKPLAYER在视频render之时&#xff0c;并非简单使用SDL渲染API&#xff0c;而是用了OpenGL ES&#xff0c;再分别在Android和iOS平台做视频的显示&#xff1b;一言以蔽之&#xff0c;OpenGL ES并不能做到直接在窗口上render并显示&#xff0c;而是需要一个中间媒介。这…

“AI程序员上岗:垂类大模型应用蓬勃发展“

AI程序员正在步入工作岗位&#xff0c;垂类大模型应用正迎来蓬勃发展的时期。随着人工智能大模型在各行业深入应用&#xff0c;像能自动编写代码的“AI员工”、智能客服的改进以及工业AI控制器的开发无需耗费大量时间&#xff0c;IT、工业生产、金融、服务营销等领域的垂类大模…

javaWeb网上零食销售系统

1 绪 论 目前&#xff0c;我国的网民数量已经达到7.31亿人&#xff0c;随着互联网购物和互联网支付的普及&#xff0c;使得人类的经济活动进入了一个崭新的时代。淘宝&#xff0c;京东等网络消费平台功能的日益完善&#xff0c;使得人们足不出户就可以得到自己想要的东西。如今…

[leetcode]remove-duplicates-from-sorted-list-ii

. - 力扣&#xff08;LeetCode&#xff09; 给定一个已排序的链表的头 head &#xff0c; 删除原始链表中所有重复数字的节点&#xff0c;只留下不同的数字 。返回 已排序的链表 。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,3,4,4,5] 输出&#xff1a;[1,2,5]示例 2&…