让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


在探索人工智能边界时,我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角,进而模仿并创新。当我们追求更高阶的人工智能的时候,无非是希望赋予机器这种与生俱来的天赋。

由上海人工智能实验室,南京大学,中科院深圳先进技术研究院牵头,联合东京大学,复旦大学,浙江大学,中国科学技术大学等高校的学生和研究者,共同公布了跨视角技能学习数据集EgoExoLearn,为机器人赋予了通过观察他人学习新动作的能力。

图片

  • 论文链接:https://arxiv.org/abs/2403.16182

  • 代码与数据集链接:https://github.com/OpenGVLab/EgoExoLearn

EgoExoLearn 数据集独辟蹊径,采集了第一视角与第三视角的视频素材。第一视角视频捕捉了人们学习第三视角演示动作的全过程,这种视角的转换与融合,为机器模拟人类学习模式提供了宝贵的数据资源。

数据集的构建不仅涵盖了日常生活的琐碎场景,更延伸到了专业实验室的复杂操作。EgoExoLearn 精心收录了总计 120 小时的视角与示范视频,旨在让机器在多种环境下都能有效学习。

除视频外,研究者还记录了高质量的注视数据,并辅以详尽的多模态标注。这些数据与标注的结合,构建了一个全面模拟人类学习过程的平台,有助于解决机器在不同视角下对异步动作过程的建模难题。

为了全面评估 EgoExoLearn 数据集的价值,研究者提出了一系列基准测试,如跨视角关联、跨视角行动规划及跨视角参考技能评估等,并进行了深入的分析。展望未来,EgoExoLearn 将成为跨视角行动桥接的重要基石,为机器人无缝学习真实世界中的人类行为提供坚实支撑。

期待 EgoExoLearn 数据集能助力 AI 技术的进一步突破,推动机器人从单纯的模仿走向真正的智能,实现与人类社会的和谐共存与共同发展。

图片

研究背景

从孩童时期开始,人类就具备观察他人行为并将其映射到自己视角的能力,这种能力在进行高试错成本的实际操作(如危险化学实验)时尤为有益。随着人工智能系统的最新进展,下一代 AI 智能体将会在更通用的场景中执行任务。

然而,与人类不同,训练这些 AI 智能体通常需要在类似环境中拍摄的演示视频作为训练数据,这些视频的视角还必须与 AI 智能体一致(例如,第一视角)。尽管有很多工作尝试了在不同场景中收集此类数据,对于 AI 智能体来说,直接从不同地点和不同视角拍摄的演示视频中学习仍然至关重要。实现这一能力可以充分利用大规模公开教学视频数据的潜力,并且在人机合作场景中尤其是在新环境中有巨大作用。

目前朝这个目标努力的工作大致可以分为两个方向。一种是在模拟环境中学习模型,但这些模型在现实世界中的泛化仍然很困难。另一个方向是从现实世界中的人类活动中学习。然而,直接结合现有的多视角数据集的尝试通常会产生质量或规模较差的数据集。同时,目前这个方向的少数现有数据集只记录了在同一环境和时间同步方式下拍摄的自我中心和外部中心视角视频。在现实中,跟随演示时,通常需要桥接在不同地点和不同时间执行的一系列程序性动作。目前还没有可用于探索如何在现实的自我中心和外部中心视角中桥接异步程序性活动的数据集。

为了解决数据集缺乏问题,研究者提出了 EgoExoLearn,这是一个大规模数据集,包含演示视频和相应的第一视角跟做视频。其中摄像机佩戴者跟随演示视频中的动作,并在不同环境中执行相同任务。针对日常生活辅助和专业技能辅助这两个潜在应用,EgoExoLearn 包含了 747 个视频序列,总时长达 120 小时,涵盖场景包括日常食物制作和专业实验室实验。值得注意的是,EgoExoLearn 中的第一视角视频包含了显示人类执行任务时视觉注意力的眼动信号。这为更好地连接第一视角和第三视角中的行动提供了宝贵的线索。

更进一步,研究者分析了人类的跨视角理解能力,并相应地引入了新的任务和基准,希望这些可以对开发具有类似能力的下一代具身 AI 智能体起到重要帮助。当人类执行一个动作时,他 / 她可以将自我中心视角中正在进行的动作与演示中相应的动作联系起来并进行描述。通过演示视频中的知识,人类可以知道所需的动作步骤,并预测下一步应该是什么。此外,通过与演示的比较,人类还可以评估自己的技能水平。

基于上述分析,研究者设计了以下新任务:1) 跨视角关联,2) 跨视角动作理解,3) 跨视角参考技能评估,以及 4) 跨视角参考视频字幕。每个基准都经过精心定义、标注,并具体实现了相应模型。此外,研究者还首次探索了眼动在这些任务中的作用。研究者希望这个数据集能够为未来链接不同视角中的异步程序性动作的工作提供资源,从而激发设计擅长从现实世界人类演示中学习并将程序性动作映射到机器人中心视角的 AI 智能体。

数据集介绍

场景和任务

研究者考虑了程序性的目标导向任务,这些任务涵盖了从日常的食物制作到专业的实验室实验。这种选择基于它们所体现的两个未来体现性 AI 代理需要能够桥接自我 - 外部活动的潜在领域:日常生活辅助和专业支持。

具体来说,EgoExoLearn 包含了 5 种日常任务(例如烹饪)和 3 种专业实验室任务(例如固相肽合成)。研究者在 4 个不同的厨房和 3 个不同的实验室中录制了自我中心视角的视频。下表显示了每个任务的视频数量以及平均视频长度。

图片

数据收集流程

在每次收集开始之前,参与者需要完成一份问卷,收集基本的人口统计信息以及他们自我评估的执行指定任务的专长。然后在每次录制中,参与者将被要求从提供的列表中选择一个或几个外部中心视角的演示视频,并仔细学习详细的程序。一旦准备好了,他们将戴上 Pupil Invisible Glasses,完成眼动校准,并开始复制演示视频中执行的任务。虽然不鼓励,但参与者在录制过程中被允许重新观看演示视频。在每次录制之后,参与者被要求重新进行眼动校准,以确保眼动数据的准确性。对于 5 个日常任务,外部中心演示视频是手动从 YouTube 等在线视频平台策划的。对于实验室实验,外部中心演示视频是由资深实验室成员录制的教程。

数据集标注与统计

为了促进本文数据集在开发能够有效弥合自我和外部视角之间差距的算法方面,研究者提供了详细的多模态人类标注。粗略级别的语言标注、细致级别的语言标注、翻译与解析、技能水平标注。据了解,目前还没有与本文设置相同、可以直接比较的数据集。因此,研究者在下表中列举了本文数据集的各个方面,并与相关数据集进行了比较分析。EgoExoLearn 以其「视觉演示跟随」设置独特地丰富了该领域。除了这一独特设置之外,它还是第一个包括时间限定的语言字幕、标注的跨视角关联和多标签视频片段的自我中心数据集。同其他第一视角视频数据集的对比如下:

图片

新基准 Benchmarks

为了评估连接异步的第一视角 - 第三视角程序性动作的能力,研究者引入了 4 个新的基准 benchmark,如下图所示:

图片

1) 跨视角关联 (cross-view association),探究模型有没有将不同视角的相同动作联系起来的能力,分为 Ego2Exo 和 Exo2Ego 两个设定。在(ego2exo)的情况下,给定一个自我中心视频,模型需要从一组候选的外部中心样本中预测出执行相同动作的相应外部中心视频。这里考验了模型对单一视角动作的理解能力,还考验了模型在跨视角情境下的泛化能力和预测准确性。基线模型与结果如下:

图片

图片

2) 跨视角动作理解 (cross-view action understanding),细分为三个子任务:跨视角动作预测、跨视角动作规划和跨视角动作分割。此外,研究者还探索了注视点(gaze)在协助这些任务中的作用。下图是四种训练设定与基线模型性能:

图片

图片

3) 跨视角参考技能评估 (cross-view referenced skill assessment) 主要目标是评估第一视角操作者的技能水准。研究者引入了第三视角的专家操作视频作为参考,通过与参考视频的对比,技能评估可以变得更加准确。基线模型与结果如下图所示:

图片

图片

4) 跨视角参考视频描述 (cross-view referenced captioning)。使用另一个视角的视频作为参考,此项任务旨在提高模型利用跨视角参考而更好的进行视频描述的能力。模型设计和基线性能如下:

图片

图片

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/798367.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OLAP 和 OLTP

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 OLTP与OLAP的介绍OLTP(on-line transaction processing):联机事务处理OLAP(On-Line Analytical Processing&#xff…

SOLIDWORKS在教育领域的应用

随着科技的飞速发展和数字化浪潮的推进,SOLIDWORKS作为一款强大的三维设计软件,其应用领域已经不仅局限于工程设计和制造行业,还逐渐渗透到教育领域中,成为培养学生实践能力和创新思维的重要工具。本文将探讨SOLIDWORKS在教育领域…

MySQL基础学习内容指南

MySQL是一款广泛使用的开源关系型数据库管理系统(RDBMS),对于数据库初学者来说,掌握MySQL的基础知识是非常重要的。本文将为您介绍MySQL基础学习的核心内容,帮助您快速入门并提升数据库操作能力。 一、MySQL概述 在开…

【JavaEE】_Spring MVC项目获取Cookie

目录 1. Cookie与Session基础知识 1.1 Cookie与Session的区别 2. 使用servlet原生方法获取Cookie 2.2 关于λ表达式遍历法的空指针问题 2.3 Cookie的伪造 3. 使用Spring注解获取Cookie 3.1 获取单个Cookie 3.2 获取多个Cookie 1. Cookie与Session基础知识 在本专栏HTT…

AcWing785. 快速排序

题目 给定你一个长度为 n 的整数数列。 请你使用快速排序对这个数列按照从小到大进行排序。 并将排好序的数列按顺序输出。 输入格式 输入共两行,第一行包含整数 n。 第二行包含 n 个整数(所有整数均在 1∼10^9 范围内),表示…

CICD流水线 发布公用jar到maven私仓

3.1 发布公用jar到Maven私仓 1.选择流水线 2.新建流水线 3.选择模版 4.选择代码仓库 5. 调整构建命令 6.新增一个新阶段为 ”发送通知“,这里以邮件通知为例,保存之后,运行该流水线,对应jar就会自动发到我们私仓,并之…

【计算机网络】会话层

负责维护两个会话主机之间链接的建立、管理和终止,以及数据的交换。 会话控制:决策该由谁来传递数据 令牌管理:禁止双方同时执行一个关键动作 同步功能:在一个长的传输过程中设置一些断点,以便系统崩溃后能恢复至崩…

中药配方颗粒备案信息数据库<2.5W+备案>

中药配方颗粒备案信息是指中药配方颗粒生产企业向国家药品监督管理局申报备案的相关信息。备案信息包括中药配方颗粒的名称、备案号、备案时间、备案状态、生产企业、生产地址、规格、包装、执行标准、保质期、不良反应检测、备案省局等信息。 通过对中药配方颗粒备案信息的查…

【Linux】正则表达式实验操作实例

正则表达式是一种强大的工具,用于在文本中查找、匹配和替换特定的字符串模式。 实验目的 掌握正则表达式的表达方式掌握grep/egrep命令的用法掌握sed 命令的用法掌握awk命令的用法 正则表达式 实验目的实验内容实验过程创建grep文件来进行如下操作用sed命令完成下列…

春招-实战项目冲刺直播课

春招-实战项目冲刺直播课 CCtalk 丰富多元的综合内容平台-专业的知识分享与在线教育平台https://www.cctalk.com/m/group/91161801

蓝桥杯刷题-13-子矩阵-二维滑动窗口 ಥ_ಥ

给定一个 n m (n 行 m 列)的矩阵。 设一个矩阵的价值为其所有数中的最大值和最小值的乘积。求给定矩阵的所有大小为 a b (a 行 b 列)的子矩阵的价值的和。 答案可能很大,你只需要输出答案对 998244353 取模后的结果。…

Redis 常见面试题

目录 1. Redis是什么?2. Redis优缺点?3. Redis为什么这么快?4. 既然Redis那么快,为什么不用它做主数据库,只用它做缓存?5. Redis的线程模型?6. Redis 采用单线程为什么还这么快?7. R…

Linux——静态库 共享库

1.库文件 1).库文件 库是一组预先编译好的方法的集合; Linux系统存储库的位置一般在/lib 和 /usr/lib (64位系统/usr/lib64) 库的头文件放在/usr/include 2).库的分类 静态库:libxxx.a(命名规则) 共享库:libxxx.so(命名规则) 3).准备文件: //add.c int add(int x,int y) { re…

localStorage封装代码

localStorage封装 JSON.stringfy()和JSON.parse() JSON.stringfy(): 将 JS 对象转化为 JSON 字符串。 const obj { name: John, age: 30 }; const jsonString JSON.stringify(obj); console.log(jsonString); // {"name":"John","age":30}J…

consul: 集群搭建和数据中心通信

基于 docker-compose.yml 搭建 1 )docker-compose.yml 的配置 version: 3 services:server1:image: consul:latestcommand: "agent -server -config-file/consul/config/consul.json -nodeconsul-server1 -bootstrap-expect5"volumes:- ./data/server1:/…

vue结合Elempent-Plus/UI穿梭框更改宽度以及悬浮文本显示

由于分辨率不同会导致文本内容显示不全,如下所示: 因此需要 1、悬浮到对应行上出现悬浮信息 实现代码如下所示: 这里只演示Vue3版本代码,Vue2版本不再演示 区别就在插槽使用上Vue3使用:#default“”;Vu…

vitepress系列-04-规整sideBar左侧菜单导航

规整左侧菜单导航 新建navConfig.ts 文件用来管理左侧导航菜单: 将于其他的配置分开,避免config.mts太大 在config目录下,新建 sidebarModules文件目录用来左侧导航菜单 按模块进行分类: 在config下新建sidebarConfig.ts文件&…

【随笔】Git 高级篇 -- 整理提交记录(上)cherry-pick(十五)

💌 所属专栏:【Git】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! 💖 欢迎大…

Android 如何通过屏幕大小来适配不同大小的图片

可以使用Android中的dp(密度无关像素)单位来设置不同屏幕密度下的图片大小。dp是Android中的一种尺寸单位,它与屏幕密度无关,只与字体大小有关。在开发过程中,可以使用dp来设置布局和控件的大小,以便在不同的屏幕密度下保持一致的…

阻塞/非阻塞IO、同步/异步IO的区别

阻塞/非阻塞IO、同步/异步IO的区别 阻塞/非阻塞IO和同步/异步IO是描述IO操作(输入/输出操作)的两种不同方式,它们在处理IO操作时具有不同的特性和应用场景。 阻塞/非阻塞IO 阻塞IO和非阻塞IO主要关注的是程序在等待IO操作完成时的行为。 阻…