Meta开源最大多模态视频数据集—Ego-Exo4D

社交、科技巨头Meta联合15所大学的研究机构,经过两年多的努力发布了首个多模态视频训练数据集和基础套件Ego-Exo4D,用于训练和研究AI大模型。

据悉,该数据集收集了来自13个城市839名参与者的视频,总时长超过1400小时,包含舞蹈、足球、篮球、攀岩、音乐、烹饪、自行车维修等8大类,131个复杂场景动作。这使得AI模型更好地理解人类的行为,有助于开发出更强大的多模态大模型。

Ego-Exo4D也是目前最大的公开第一人称和第三人称视频训练集。Meta已经准备开源该数据集,最晚12月底开放下载。

Ego-Exo4D下载地址:https://ego-exo4d-data.org/

论文地址:https://ego-exo4d-data.org/paper/ego-exo4d.pdf

图片

与其他视觉数据集不同的是,Ego-Exo4D最大技术特点在于数据的多模态性。基于Aria智能眼镜平台,第一人称视频带有丰富的同步录制信息,包括七通道音频、眼动追踪状态、头部运动测量(IMU)、双目RGB-D摄像视频、周围三维环境点云等。

此外,数据集中所有视频都配有三种不同的语言描述,分别是领域专家对表现的评论、参与者自身对所做活动的叙述以及第三方对各个原子操作的文字描述。

第一人称和第三人称摄像机设置

Ego-Exo4D数据集使用了一款名叫Aria的眼镜。该眼镜可以拍摄第一人称视频,记录运动员自己的视角。

同时场外还有4-5个GoPro摄像机,拍摄第三人称视频,记录教练的视角。这些摄像机使用了定制的QR码进行时间同步,确保第一人称视频和第三人称视频能精确匹配上,然后进行比较。

Aria眼镜内置丰富的传感器,提供RGB、深度、音频、IMU、眼动等多模态数据。Ego-Exo4D充分利用这些硬件优势,为每段第一人称视频同步捕获了七通道音频、眼动追踪、IMU动作数据、两个RGB-D SLAM摄像头以及周围3D点云环境。这些数据可支持多种新颖的多模态视频理解研究。

图片

精准文本描述

Ego-Exo4D视频数据还匹配了三种不同形式的语言描述,均与视频时间轴对齐:第一是领域内资深专家对执行者表现的评价性解说,揭示非专业人士不易察觉的技巧和方法;

图片

第二是执行者对自己所做活动的第一人称叙述;第三是外部标注人员对每个行为操作的简要文字描述。这些丰富的语言资源可以大幅推动视频理解中的语言参照和示教相关应用。

四大类基准测试

为了验证数据集的有效性,研究人员在四类基准测试上进行第一人称视频理解和多模态识别测试,用于评估在复杂视角转换、细粒度操作检测、示范者评级等方面的表现。

1)跨视角对应和迁移基准测试

该基准测试任务利用第一、三人称视频,研究跨视角的目标匹配和新视角合成问题。考察点包括:在极端视角、严重遮挡下的稀疏对应问题;合成新视角图像时运用姿态、语义先验的有效性等。

2)细粒度操作识别基准测试

该任务需要区分复杂顺序活动中语义相近的细粒度操作,如识别折叠被褥还是整理被褥。训练阶段允许使用配对的第一、三人称视频,以学习视角不变的表示。测试阶段仅给第一人称视频,考察跨视角特征迁移的效果。

图片

3)示范者熟练度评估基准测试

这项基准测试要求对整个视频中的示范者进行整体熟练度评级,同时需要识别视频中局部段落的正确/错误执行。这可驱动人类行为质量分析以及教练系统的研究。

4)第一人称姿态估计基准测试

这项基准测试目标是从第一人称视频中恢复三维的手部和身体关键点,解决动态场景中严重遮挡、模糊、大姿态变化等难题。

图片

结果显示,Ego-Exo4D皆获得了不错的成绩。例如,在第一人称和第三人称视角之间的目标追踪和姿态预测任务上,方法可以达到38%的平均IoU;而在识别17种顺序活动中689种细粒度操作的任务上,方法可以获得58%的准确率。

研究人员表示,传统的训练数据多数都是重复和模拟,很难让AI从更深度的角度去理解人类的行为和动作。

Ego-Exo4D提供了一个前所未有的大规模第一人称和第三人称视角视频数据集。该数据集和基准测试填补了现有数据集的空白,可推动更强的多模态大模型研究。

未来,数据集、文本标注和基准代码将完全开源以供研究人员使用。‍

本文素材来源Ego-Exo4D论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/202013.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络通信的流程,浏览器地址?

1.没有交换机的通信 在一个机房内,有两台电脑相互需要通信 假设现在有三台电脑: 随着电脑的增加,线的数量也在增加,因此显得很臃肿,次数交换机诞生,很好的解决了这一方面, 交换机不需要进行多条线的连接: 通过给设备分配,ip地址来实现局域网…

掌握终端,尽在ZOC for Mac – 最强大的终端仿真器!

在数字时代,终端仿真器是专业人士和开发者必备的工具之一。而ZOC for Mac将为您提供无与伦比的终端体验,助力您更轻松地管理远程连接、维护服务器和进行编程任务。 ZOC for Mac的卓越功能: 多协议支持:ZOC支持Telnet、SSH、SSH2、…

个人测试面试问题总结

📑打牌 : da pai ge的个人主页 🌤️个人专栏 : da pai ge的博客专栏 ☁️宝剑锋从磨砺出,梅花香自苦寒来 📑设计软件测试用例的方…

如何选择一款安全可靠的跨网安全数据交换系统?

随着网络和数据安全的重视程度增加,为了有效地保护内部的核心数据资产,普遍会采用内外网隔离的策略。像国内的政府机构、金融、能源电力、航空航天、医院等关乎国计民生的行业和领域均已进行了网络的隔离,将内部划分成不同的网段,…

体育场找座位 - 华为OD统一考试(C卷)

OD统一考试(C卷) 分值: 100分 题目描述 在一个大型体育场内举办了一场大型活动,由于疫情防控的需要,要求每位观众的必须间隔至少一个空位才允许落座。现在给出一排观众座位分布图,座位中存在已落座的观众&…

速达软件全系产品任意文件上传漏洞

声明 本文仅用于技术交流,请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。 1. 速达软件产品简介 速达软件专注中小企业管理软件,产品涵盖进销存软…

智能监控/安防监控视频平台EasyCVR下级更新目录表出现离线情况的两种解决方案

GB28181安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备…

DataGrip连接虚拟机上Docker部署的Mysql出错解决

1.1 首先判断CentOS的防火墙,如果开启就关闭 //查看防火墙状态 systemctl status firewalld //关闭防火墙systemctl stop firewalld.service//关闭防火墙开机自启systemctl disable firewalld.service而后可以打开DataGrip连接了,如果连接不上执行如下…

vue项目中添加刷新的按钮

刷新功能 点击导航的刷新按钮,刷新下方主体内容,我这边的项目分为左-上-下结构,上边为tabbar组件,下边为main组件,点击刷新整个流程是刷新按钮,去访问它父组件tabbar的兄弟组件main,使main组件…

从零开始学习 JS APL(七):实例解析关于京东案例头部案例和放大镜效果!!

大家好关于JS APl 知识点已经全部总结了,第七部部分全部都是案例部分呢!!(素材的可以去百度网盘去下载!!!) 目录 前言 一、个人实战文档 放大镜效果 思路分析: 关于其它…

新手管理者有哪些需要学习的内容?

作为新手管理者,需要学习的内容非常多。以下是一些重要的学习内容: 1. 领导力和管理技能:作为管理者,首先要学习如何有效地领导和管理团队。这包括学习如何激励员工、制定目标和计划、分配任务、解决冲突等。管理者需要具备良好的…

亚马逊云科技re:Invent大会:RAG技术赋能企业AI应用的新纪元

在最新一届re:Invent大会中,亚马逊云科技的数据和人工智能副总裁Swami Sivasubramanian博士提出了一系列AI产品,其中RAG技术成为了企业构建生成式AI应用的重要选择。这种技术的实质是将向量数据库与大语言模型相结合,赋予大模型记忆的能力&am…

LangChain的函数,工具和代理(五):Tools Routing

关于langchain的函数、工具、代理系列的博客我之前已经写了四篇,还没有看过的朋友请先看一下,这样便于对后续博客内容的理解: LangChain的函数,工具和代理(一):OpenAI的函数调用 LangChain的函数,工具和代…

2023最全的Web自动化测试介绍(建议收藏)

做测试的同学们都了解,做Web自动化,我们主要用Selenium或者是QTP。 有的人可能就会说,我没这个Java基础,没有Selenium基础,能行吗?测试虽然属于计算机行业,但其实并不需要太深入的编程知识&…

C++模板初阶

文章目录 泛型编程函数模板格式模板调用的是同一个函数吗?模板的实现原理T不明确模板实例化的函数和普通函数 类模板类模板写法类模板用法 注意事项 泛型编程 假如我们要写一个两数交换的函数,按我们之前学的知识,我们会这样。 void Swap(i…

微信小程序基础bug

1.苹果11手机小程序请求数据不显示 设置-》隐私-》分析与改进-》开启 ”与开发者共享“ 2.<navigator>组件回退delta不成功 tabBar 页面是不能实现后退的效果的. 因为, 当我们跳转到 tabBar 页面&#xff0c;会关闭其他所有非tabBar 页面,所以当处于 tabBar 页面时, 无…

SAP ABAP 通过右键菜单完成Tree Control 节点的增删改功能

通过右键菜单完成Tree Control 节点的增删改功能 Tree 节点的增删改是很重要的功能&#xff0c;包括&#xff1a;增加本级节点&#xff0c;增加子节点&#xff0c;修改节点&#xff0c;删 除节点。完成后效果如下&#xff1a; 选择根节点&#xff0c;单击右键&#xff0c;弹…

peertalk Usbmux 资料收集与整理

Usbmux - The iPhone Wiki Usbmux During normal operations, iTunes communicates with the iPhone using something called “usbmux” – this is a system for multiplexing several “connections” over one USB pipe. Conceptually, it provides a TCP-like system –…

高压功率放大器产品参数及优势有哪些

高压功率放大器是一种关键性能器件&#xff0c;常用于不同领域的应用&#xff0c;包括声音放大、通信系统、电力传输等。以下是关于高压功率放大器产品参数和优势的详细介绍。 一、高压功率放大器的产品参数 输入/输出电压范围&#xff1a;高压功率放大器通常能够承受较高的输入…

每日汇评:由于美国ADP就业数据疲弱,黄金的反弹可能会延续

在美元全面回落的背景下&#xff0c;金价在2020美元附近跃跃欲试。&#xff1b; 黄金价格的上涨似乎受到美债正收益率的限制&#xff1b; 黄金价格等待美国ADP就业数据获得新的提振&#xff0c;因为技术支撑仍然存在&#xff1b; 周三早盘&#xff0c;金价在2020美元附近小幅反…