VideoPrism——探索视频分析领域模型的算法与应用

概述

论文地址:https://arxiv.org/pdf/2402.13217.pdf
视频是我们观察世界的生动窗口,记录了从日常瞬间到科学探索的各种体验。在这个数字时代,视频基础模型(ViFM)有可能分析如此海量的信息并提取新的见解。迄今为止,视频理解领域的研究确实取得了长足进步,但构建真正的基础视频模型,娴熟地处理外观和运动问题,仍是一个尚未实现的领域。

因此,本文提出了创新型通用视频编码器VideoPrism,旨在解决从视频分类到定位、搜索、字幕和问题解答等所有视频理解任务。通过广泛的评估(包括计算机视觉数据集以及神经科学和生态学等科学学科),VideoPrism 以最小的适应度展示了最先进的性能。下图是 VideoPrism 的概览。

在 VideoPrism 的开发过程中,我们强调了预训练数据的重要性。理想情况下,预训练数据应该是来自世界各地的具有代表性的视频样本,但实际上,许多视频并不附带描述内容的文本,或者噪音非常大。因此,VideoPrism 通过收集 3,600 万对高质量视频和字幕以及 5.82 亿个噪声视频片段,充分利用了这些数据。

建模从视频和语言之间的意义对比学习开始。然后,它使用纯视频数据,结合全局和局部提炼、标记洗牌,并通过屏蔽视频建模进一步改进。这种独特的两阶段方法是 VideoPrism 在同时关注视频外观和运动的任务中的优势所在。

通过在四大理解任务类别中进行广泛评估,包括从网络视频、脚本表演到科学实验的 33 种不同基准,证明了这种方法的有效性 VideoPrism 在其中 30 种基准中的表现优于现有的视频基础架构模型 (ViFM)。在其中 30 项基准测试中,VideoPrism 的表现远远超过了现有的视频基础架构模型(ViFM),证明了其卓越的性能。结果如下图所示。

这表明 VideoPrism 具有 "非常 "好的概括能力。

技术

VideoPrism 采用创新的视频理解方法。其核心是一个丰富的预训练数据集,包含 3600 万个片段。这些片段是从 3,600 万个视频中提取出来的,并配有高质量的人工字幕。此外,2.75 亿个视频中的 5.82 亿个片段包含带噪声的平行文本。这种预训练数据集在视频基础模型(ViFM)中是前所未有的,但与图像基础模型所用的数据相比仍然较少。为了填补这一空白,本文还收集了其他数据,包括 ASR、元数据和通过大规模多模态模型生成的噪声文本。

值得注意的是,在预训练和后续训练中都没有使用评估基准的训练集。这可以防止模型针对特定的评估基准进行过度优化。此外,预训练语料库与评估基准视频是去重复的,以避免数据泄露。

在模型架构方面,VideoPrism 基于视觉转换器(ViT),但同时考虑了空间和时间因素。这确保了在输出标记序列中保留空间和时间维度,以支持需要细粒度特征的下游任务:VideoPrism-g 采用了拥有 10 亿个参数的 ViT-giant 网络,而较小的 ViT-Base 网络则采用了更小的 ViT-Giant 网络。VideoPrism-B 采用较小的 ViT-Base 网络。

VideoPrism 采用独特的两阶段方法,通过利用视频和文本对以及纯视频数据来学习纯视频数据。由于大型预训练数据集中的文本在某些视频中通常会出现噪声,因此 VideoPrism 专注于纯视频数据,以捕捉视频的深层含义。

第一阶段:在这一阶段,对比学习用于使视频编码器与文本编码器同步。这一过程根据视频-文本对的相似性得分,通过最小化对称交叉熵损失,从语言中引导视频编码器学习丰富的视觉语义。这一阶段产生的模型为下一阶段的学习提供了语义视频嵌入。

第2 阶段:第 1 阶段中仅基于视觉文本数据的学习面临着一个问题,即文本描述包含噪音,而且往往只捕捉外观而非运动。第二阶段的重点是从纯视频数据中学习外观和运动信息。这里引入了一种新的标记洗牌方案以及全局和每个标记的蒸馏损失,作为对遮蔽视频建模的改进。这样,模型就能在保留语义知识的基础上,根据遮蔽视频学习预测第一阶段的嵌入。

通过这种两阶段方法,VideoPrism 正在构建一个底层视频编码器,它可以更好地理解视频并捕捉外观和运动的语义。

试验

对 VideoPrism 进行了评估,以证明其在各种以视频为中心的理解任务中的性能和多功能性。这些任务分为四类:第一类是一般视频理解。这包括分类和时空定位;第二类是零镜头视频文本检索;第三类是零镜头视频字幕和质量保证;第四类是用于科学研究的计算机视觉;第四类是用于视频分析的视频理解。

在所有实验中,VideoPrism 都被固定为视频编码器,只训练特定任务所需的组件。这样就可以评估 VideoPrism 的多功能性及其独立于特定任务模型的能力。此外,VideoPrism 方法在视频分析中特别有用,因为视频编码的成本可以分摊到多个任务中,因此很难进行昂贵的微调。

首先将其与视频理解基准 VideoGLUE 中的先进模型进行比较。评估范围包括以外观为重点的动作识别(VC(A))、动作丰富的动作识别(VC(M))、多标签视频分类(VC(ML))、时间动作定位(TAL)、时间和空间动作定位(STAL)。这项研究使用了八个具有代表性的数据集,包括

从 ViT-B 到 ViT-g,随着模型大小的增加,VideoPrism 的性能显著提高。这意味着 VideoPrism 在单一编码器中结合了对不同视频源的鲁棒性,如外观和运动线索、空间和时间信息、网络视频和脚本性能。

然后,我们使用 MSRVTT、VATEX 和 ActivityNet 这三个关键基准来评估 VideoPrism 的零镜头视频文本检索性能。零镜头视频分类任务也是对 Kinetics-400、Charades、SSv2-Temporal、SSv2-Events 和 NExT-QA 的 ATP-Hard 子集的挑战。

作为一项重要成果,VideoPrism 在多项基准测试中创造了新的最佳记录,并在特别具有挑战性的数据集上取得了显著改进,VideoPrism-B 的表现优于现有的大型模型。此外,与使用域内数据和其他模式预先训练的模型相比,VideoPrism 的表现同样出色,甚至更好。这些结果表明,VideoPrism 在零镜头搜索和分类任务中具有强大的泛化能力。

此外,MSRVTT、VATEX 和 YouCook2 等标准视频封顶数据集以及 MSRVTT-QA、MSVD-QA 和 NExT-QA 等视频质量保证基准被用于视频封顶和质量保证任务,并在零镜头设置下进行性能 评估。评估。请注意,这些模型并未针对字幕和质量保证任务进行专门调整。

结果如下表所示。尽管结构简单,适配器参数数量有限,但它仍具有竞争力,在除 VATEX 之外的大多数评估中都取得了优异成绩。这表明,VideoPrism 编码器在视频到语言的生成任务中具有广泛的通用能力。

现有的视频分析基准主要侧重于以人为中心的数据,而 VideoPrism 的功能及其在科学应用方面的潜力则是利用科学数据集对各种视频集进行探索。分析涵盖了广泛的学科,包括行为研究、行为神经科学、认知科学和生态学。本研究首次尝试将 ViFM 应用于科学数据集,结果表明 ViFM 的性能与专业模型相当,甚至更好。这

该分析包括在科学实验中捕获的标注了专业知识的大型视频数据集,其中包括苍蝇、小鼠、黑猩猩和肯尼亚野生动物。所有这些数据集都为行为视频分类或时空动作定位进行了详细注释。其中,CRIM13 数据集分析的是笼子侧面和上方视角的视频。

结果表明,使用共享的冻结编码器可以获得等同于或优于专用于个别任务的特定领域模型的性能。尤其是在基本模型中,VideoPrism 的表现优于专家模型。此外,扩展模型可大幅提高所有数据集的性能。这些结果表明,ViFMs 有潜力在多个领域显著加速视频分析。

总结

本文介绍的 VideoPrism 是一种基本的视频编码器,可在视频理解领域实现最先进的技术。它专注于数据和建模方法,建立了自己的大型预训练数据集和有效提取视频外观和运动信息的预训练策略。与其他模型相比,它在各种基准测试中取得了最佳性能,并显示出极高的泛化能力。

视频理解技术的进步有可能加速从科学研究到教育、机器人、医疗保健和内容推荐等领域的发展。这些技术有望促进科学发现、丰富学习体验、增强安保和安全,并实现反应更灵敏的互动系统。

然而,在现实世界中使用这些模型之前,还必须采取措施防止潜在的偏见和滥用。当务之急是减少算法偏差、保护隐私并遵守负责任的研究规范。论文指出,必须继续在社区内推动关于这些新发展的公开讨论,以便以负责任的方式从这项技术中获益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/39086.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

采煤机作业3D虚拟仿真教学线上展示增强应急培训效果

在化工行业的生产现场,安全永远是首要之务。为了加强从业人员的应急响应能力和危机管理能力,纷纷引入化工行业工艺VR模拟培训,让应急演练更加生动、高效。 化工行业工艺VR模拟培训软件基于真实的厂区环境,精确还原了各类事件场景和…

医疗器械FDA | 医疗器械软件如何做源代码审计?

医疗器械网络安全测试https://link.zhihu.com/?targethttps%3A//www.wanyun.cn/Support%3Fshare%3D24315_ea8a0e47-b38d-4cd6-8ed1-9e7711a8ad5e 医疗器械源代码审计是一个确保医疗器械软件安全性和可靠性的重要过程。以下是医疗器械源代码审计的主要步骤和要点,以…

Vue3 sortablejs 表格拖拽后,表格无法更新的问题处理

实用sortablejs在vue项目中实现表格行拖拽排序 你可能会发现,表格排序是可以实现,但是我们基于数据驱动的vue中关联的数据并没有发生变化, 如果你的表格带有列固定(固定列实际上在dom中有两个表格,其中固定的列在一个表格中&…

游泳哪个牌子好?6大游泳耳机选购技巧总结分享

游泳耳机作为水上运动爱好者和游泳专业人士的必备装备,不仅要能够抵御水的侵入,还要提供清晰的音质和舒适的佩戴体验。在市面上,不同品牌的游泳耳机琳琅满目,选择起来可能会令人头疼。本文旨在为您提供一份详尽的游泳耳机选购指南…

Gemma轻量级开放模型在个人PC上释放强大性能,让每个桌面秒变AI工作站

Google DeepMind团队最近推出了Gemma,这是一个基于其先前Gemini模型研究和技术的开放模型家族。这些模型专为语言理解、推理和安全性而设计,具有轻量级和高性能的特点。 Gemma 7B模型在不同能力领域的语言理解和生成性能,与同样规模的开放模型…

名企专访|对抗价格内卷,格行随身WiFi如何持续三年爆火引领潮流

近期要是问网红达人最喜欢带货的单品是什么?那一定有格行随身WiFi的一席之地。能聚集了如此多的明星达人,仅仅是一句带货收益高显然无法说服大家。显然这里面还有着不为人知的秘密,先锋财经特意专访了格行随身WiFi的创始人刘永先先生&#xf…

8.x86游戏实战-OD详解

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 上一个内容:7.x86游戏实战-C实现跨进程读写-跨进程写内存 工具下载:下载 OllyI…

嵌入式Linux之Uboot简介和移植

uboot简介 uboot 的全称是 Universal Boot Loader,uboot 是一个遵循 GPL 协议的开源软件,uboot是一个裸机代码,可以看作是一个裸机综合例程。现在的 uboot 已经支持液晶屏、网络、USB 等高级功能。 也就是说,可以在没有系统的情况…

[我靠升级逆袭成为大师]韩漫日漫无删减完整版,免费在线观看漫画

[我靠升级逆袭成为大师]韩漫日漫无删减完整版,免费在线观看漫画 不能多说,怕审-核不过,自己看图吧。 目前统计【统计日期:2024-07-03】: 完结的有:420部。 连载的有:308部,持续更…

python库(1):Nuitka库

1 Nuitka介绍 Nuitka是一个 Python 解释器的替代品,支持CPython提供的代码,可编译 Python 代码到 C 程序,并使用 libpython 来执行这些代码,就像 CPython 一样。 这让你可以在没有安装 Python 的环境中运行 Python 程序&#xf…

AC7801时钟配置流程

一 默认配置 在启动文件中,已经对时钟进行了初始化,默认按外部8M晶振,配置系统时钟为48MHZ,APB为系统时钟的2分频,为24MHZ。在system_ac780x.c文件中,可以找到下面这个系统初始化函数,里面有Se…

前端修改audio背景色

1.查看浏览器设置Show user agent shadow DOM是否打开 2.打开可以查看audio Dom /** 去掉默认的背景颜色 */ audio::-webkit-media-controls-enclosure{background-color:unset; } 3.效果图

基于SpringBoot校园外卖配送系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,…

揭秘电子世界的双雄:模拟电路与数字电路的精彩对决!

数字电路与模拟电路,这两者在电子工程领域可谓是两大基石,各有千秋,各自发挥着不可或缺的作用。下面,我们就来详细探讨一下它们之间的主要区别。 1. 信号类型与处理 模拟电路:处理的是连续变化的信号,就像…

一键恢复短信,4个方法,轻松找回iPhone数据!

在日常生活和工作中,短信往往承载着重要的信息和回忆。然而,意外删除、系统故障或手机更换等情况都可能导致短信丢失,这让很多iPhone用户感到困扰。 好消息是,您并不需要担心这些数据无法找回。如今,一键恢复短信的方…

autoware.universe源码略读(3.7)--perception:elevation_map_loader/euclidean_cluster

autoware.universe源码略读3.7--perception:elevation_map_loader/euclidean_cluster elevation_map_loadereuclidean_clustereuclidean_clustervoxel_grid_based_euclidean_cluster节点类launch文件 elevation_map_loader 在上一篇文章有提到compare_map_segmentat…

基于java+springboot+vue实现的家政服务平台(文末源码+Lw)299

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本家政服务平台就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息&a…

Redis中hash类型的操作命令(命令的语法、返回值、时间复杂度、注意事项、操作演示)

文章目录 字符串和哈希类型相比hset 命令hget 命令hexistshdelhkeyshvalshgetallhmgethlenhsetnxhincrbyhincrbyfloat 字符串和哈希类型相比 假设有以下一种场景:现在要在 Redis 中存储一个用户的基本信息(id1、namezhangsan、age17),下图表示使用字符串…

2024护网整体工作预案示例

目录 第1章 HW整体工作工作部署 1.1 工作组织架构 1.2 各部门工作职责 1.3 演练期间工作机制 1.3.1 工作汇报机制 1.3.2 应急响应机制 第2章 系统资产梳理整改 2.1 敏感信息梳理整改 2.2 互联网资产发现 2.3 第三方供应商梳理 2.4 业务连接单位梳理 第3…

win10显示毫秒-上午-下午及星期几,24小时制

关于毫秒 winr regedit 计算机\HKEY_CURRENT_USER\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\Advanced 新建ShowSecondsInSystemClock,编辑1显示,不显示就删了它 然后重启 资源管理器可能有多个全部重启,就可以啦 根据自己喜好…