CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向

论文题目:
TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding
论文链接:

https://arxiv.org/pdf/2401.08399.pdf
项目主页:

https://taco2024.github.io/
视频链接:

https://www.youtube.com/watch?v=bIgHylU1oZo&feature=youtu.be
数据集链接:

https://onedrive.live.com/?authkey=%21AGNkrHubnoo8LCs&id=5411ECE5D2EDAD9F%21126&cid=5411ECE5D2EDAD9F
代码链接:

https://github.com/leolyliu/TACO-Instructions

TL; DR

本工作构建了一个大规模双手协作双物体的数据集 TACO,涵盖了大量日常生活中双手使用工具进行多物体协作的场景,通过提供丰富的交互三元组数据(工具、动作、使用对象),为通用手物交互的理解与生成带来了新的挑战和机遇。

在这里插入图片描述

研究目标和主要贡献
人们在日常生活中能轻易地用双手协作工具和使用对象,例如炒菜时用铲子在锅中搅拌。我们将这样的行为模式刻画成<工具、动作、使用对象>的交互三元组,如<铲子、搅拌、锅>。
不同的交互三元组之间通常会因享有相似的工具、动作或使用对象而拥有相似的动作模式,因此本工作按照三元组对手物交互的数据进行分类,致力于研究技术方法在不同物体形状和不同三元组间的泛化能力。这类手物交互动作的生成可被广泛应用于虚拟现实、增强现实、人机协作和灵巧手操作等领域。
理解与生成这种交互动作需要大量数据的支持,然而先前的手物交互数据集大多关注单手或单个物体的动作。先前唯一的双手多物体数据集 [1] 受限于极少的物体和三元组而难以支持有关泛化性的研究。
为了填补数据的空缺,本工作首先构建了一个真实世界中大规模四维手物交互数据集——TACO。TACO 数据集包含从 12 个第三人称视角和一个第一人称视角下采集到的 5.2M 张彩色图片、2500 余段交互动作、131 种三元组和 196 个精细的物体网格模型,从而成为了双手多物体协作的一个知识库。为支持动作预测与生成相关的研究,数据集提供手物网格序列、手物二维掩码和去除标志点的彩色图片等标注。
其次,本工作提出了一种全自动的数据标注方法以用低成本扩大数据集规模同时保证数据标注的高质量。该方法融合来自第三视角的视频和来自光学动捕系统的物体标志点坐标,用基于优化的算法得到手物网格序列,进而利用预训练的分割网络估算手物的掩码,并利用先进的图像补全模型生成去除标志点的图片。
得益于 TACO 数据集丰富的动作模式和标注信息,本工作提出了三个关注可泛化手物交互理解与生成的基准任务——动作识别、动作预测和合作式抓取生成。三个基准任务中的大量实验证明了现有的技术方法在物体几何的泛化、物体类别的泛化和交互三元组的泛化上表现欠佳,这为今后的研究带来了新的挑战和机遇。
本工作的主要贡献如下:
构建了 TACO 数据集,是首个真实世界中大规模四维双手协作多物体的数据集,涵盖多样的“工具-动作-使用对象”的组合和物体几何形状。
设计了一个全自动的数据标注方法,能够获取手和物体精确的网格序列和二维掩码,以及无标志点的彩色图像。
提出了三个关注可泛化的手物交互理解与生成的基准任务,并详细探讨了 TACO 数据集带来的挑战和机遇。
数据集动作示例如下:
在这里插入图片描述

TACO数据集构建
如下图所示,数据采集系统包含 12 个第三人称视角下的 FLIR 工业相机(分辨率 4096x3000)、1 个头戴 Realsense L515 相机(分辨率 1920x1080)和包含 6 个红外相机的 NOKOV 光学动作捕捉系统。所有数据的录制频率均为 30Hz。
在这里插入图片描述

本工作使用 EinScan 手持式三维扫描仪获取物体的高精度网格模型,每个物体模型包含约 100K 个三角面片。数据集的物体均为刚体,数据采集时每个物体的表面会贴上 4 个标志点,由光学动捕系统跟踪标志点位置并由此解算物体位姿。
在这里插入图片描述

数据标注方法如上图所示,给定第三人称视角彩色图像、物体网格模型和其上标志点的坐标,方法依次执行物体位姿优化、手部关键点定位、手部位姿优化、手物分割和标志点移除步骤。
物体位姿优化的目标是求解各个标志点相对物体的精确位置。由于人工测量结果存在较大误差,物体位姿优化以人工测量的结果为初值,优化出最优的相对位置使得各个标志点到物体表面最近点的平均距离和各个标志点与物体的平均穿模距离的加权和最小。
手部关键点定位希望估计手部骨骼各个关键点在世界系下的三维坐标。为此,针对每个视角的彩色图像,本工作使用预训练的 YOLOv3 网络 [2] 检测双手在图中的外接矩形框,并将其输入 MMPose 骨骼检测模型 [3] 得到手部关键点在图像上的像素坐标。本工作使用三角化将多视角像素坐标转化为世界系下的三维坐标,并利用 RANSAC 算法 [4] 提高结果的鲁棒性。
手部位姿优化希望获得 MANO 模型 [5] 表示的手部网格,方法是设计关于模型参数的损失函数并求解最优参数最小化损失函数的值。损失函数综合考虑 MANO 模型骨骼与手部关键点三维坐标的偏差、手部骨骼转动范围、骨骼运动的连续性、手物接触情况和手物穿模情况这五个方面。
手物分割即获取手和物体在彩色图像上的二维掩码。这一环节直接应用 SAM 模型 [6],将上一步得到的手物网格投影至图像得到其外接矩形框并将其作为模型的提示。
由于物体上的标志点破坏了物体的外观,本工作额外设计了标志点移除模块,针对中心位于 P、半径为 R 的标志点,该模块将一个中心位于 P、半径为 2R 的球投影至各个视角的图像上获取其掩码,进而使用 LAMA 图像补全模型 [7] 重新绘制掩码区域的颜色。下图展示了一个标志点移除的示例:

在这里插入图片描述

数据多样性
TACO 数据集包含 2.5K 段交互动作、20 种家用物体类别、196 个物体网格模型、15 种家务动作和 14 位采集员,涵盖共计 131 种“工具-动作-使用对象”的交互三元组。如下面的视频和图片所示,数据集的物体形状多样,且不同三元组之间关系紧密,因而其能够支持不同物体几何形状、不同物体类别、不同动作类别等多个方面的泛化性研究。

在这里插入图片描述

基准任务
基于 TACO 数据集物体几何和交互三元组的多样性,本工作将数据集划分为一个训练集和四个关注不同泛化方式的测试集:
S1:无泛化。工具的几何形状和交互三元组均存在于训练集。
S2:几何形状的泛化。工具的几何形状是全新的,交互三元组存在于训练集。
S3:交互三元组的泛化。交互三元组是全新的,而工具的类别和几何形状均存在于训练集。
S4:综合泛化。工具的类别是全新的,导致出现新的工具的几何形状和交互三元组。
动作识别任务致力于分析第一人称视角下的手物交互的视频中的动作类别,物体的外接矩形框可以作为任务的额外输入辅助分析。不同于传统的动作识别任务,本工作关注模型在遇见全新物体或交互三元组时的表现。此基准任务采用 Acc-1 和 Acc-5 两种常用的评价指标。
下表对比了一个传统的动作识别模型 AIM [8] 和一个关注组合泛化的少样本模型 CACNF [9]。两个模型在 S4 上的两种准确率均显著低于在 S1 上的准确率,揭示了现有方法泛化能力的不足。相比物体几何的泛化,模型在交互三元组上的泛化更加困难。CACNF 在更困难的 S3 和 S4 集合上显著优于 AIM,体现出关注组合泛化的模型对物体和动作更强的解耦能力以及更强的泛化能力。

动作预测任务目标是根据物体几何形状和前 10 帧的手物位姿序列预测接下来 10 帧二者的序列。不同于先前研究的人-物交互动作预测,完整的手物交互动作通常在更短的时间内完成,这使得此任务极具挑战性。
本任务的评价指标为平均关节位置误差、平均位移误差和平均朝向误差。实验对比两种预测模型 InterRNN [10]、CAHMP [11] 和两种生成模型 InterVAE [10]、MDM [12]。如下表所示,实验表明现有预测模型的表现优于生成模型,且两类模型在运动较快的右手和工具的预测上均存在泛化能力的不足。
在这里插入图片描述

合作式抓取生成任务希望在给定左手、工具和使用对象的网格的情景下生成右手的网格。任务要求方法不仅考虑工具的抓握,还应关注和环境(即使用对象和左手)的配合。为此,除常用的穿模体积和接触比例两个指标外,本工作额外设计了碰撞比例和 FID 分数分别用于评估右手和环境的接触程度和抓取的真实程度。
下表汇报了三种现有方法 [13][14] 的表现。应用于新的工具几何形状时,三种方法均得到了更大的碰撞比例和更低的 FID 分数。
在这里插入图片描述
在这里插入图片描述

下图展示了方法的失败案例,表明现有方法在复杂纤细工具的抓取生成的物理可行性和动作自然性方面表现欠佳。
在这里插入图片描述

总结
本工作构建了首个真实世界中大规模四维双手协作多物体的数据集 TACO,涵盖 5.2M 张来自第一和第三人称视角的彩色图片、2.5K 段交互动作、131 种“工具-动作-使用对象”的组合和 196 种物体形状。为扩大数据规模,本工作贡献了一个全自动的数据标注算法提供准确的手物网格序列和二维分割,以及去除标志点的彩色图片。
本工作在 TACO 数据集上提出了三个基准任务:动作识别、动作预测和合作式抓取生成。实验表明现有方法在跨三元组的动作理解和在新物体、新类别上的抓取生成等方面尚存较大的提升空间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/36460.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

完全离线的本地问答模型LocalGPT如何实现无公网IP远程连接提问

文章目录 前言环境准备1. localGPT部署2. 启动和使用3. 安装cpolar 内网穿透4. 创建公网地址5. 公网地址访问6. 固定公网地址 前言 本文主要介绍如何本地部署LocalGPT并实现远程访问&#xff0c;由于localGPT只能通过本地局域网IP地址端口号的形式访问&#xff0c;实现远程访问…

技术驱动的音乐变革:AI带来的产业重塑

&#x1f4d1;引言 近一个月来&#xff0c;随着几款音乐大模型的轮番上线&#xff0c;AI在音乐产业的角色迅速扩大。这些模型不仅将音乐创作的门槛降至前所未有的低点&#xff0c;还引发了一场关于AI是否会彻底颠覆音乐行业的激烈讨论。从初期的兴奋到现在的理性审视&#xff0…

石家庄高校大学智能制造实验室数字孪生可视化系统平台项目验收

智能制造作为未来制造业的发展方向&#xff0c;已成为各国竞相发展的重点领域。石家庄高校大学智能制造实验室积极响应国家发展战略&#xff0c;结合自身优势&#xff0c;决定引进数字孪生技术&#xff0c;构建一个集教学、科研、生产于一体的可视化系统平台。 数字孪生可视化…

免费内网穿透、配置超级简单

巴比达内网穿透 曾经那些所谓的内网穿透服务&#xff0c;给我带来的只有无尽的烦恼。有的像&#xff0c;毫无规律地每天更改固定访问地址和端口。有一次&#xff0c;我正在进行一个重要的项目投标&#xff0c;需要及时与团队成员共享文件和沟通。可就在关键时刻&#xff0c;网络…

endswith()方法——是否以指定子字符串结尾

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 语法参考 endswith()方法用于检索字符串是否以指定子字符串结尾。如果是则返回True&#xff0c;否则返回False。endswith()方法的语法格式如下&…

启智畅想:AI集装箱箱号识别系统,解决方案提供商

AI集装箱箱号识别系统 当前,智能卡口管理行业正处于快速发展的阶段。随着物联网、大数据、人工智能等技术的不断进步,智能卡口管理系统已经能够实现对集装箱运输的全程跟踪、监控和管理,大大提高了管理效率和安全性。然而,市场上现有的智能卡口管理系统仍然存在一些痛点问题,如…

JAVA-矩阵置零

给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 思路&#xff1a; 找到0的位置&#xff0c;把0出现的数组的其他值夜置为0 需要额外空间方法&#xff1a; 1、定义两个布尔数组标记二维数组中行和列…

BUUCTF--WEB

首頁 - OWASP Top 10:2021 [极客大挑战 2019]EasySQL 类型:sql注入 使用万能密码 flag{f580db5b-c0c9-4b13-bfb6-adfa525c93f5} [极客大挑战 2019]Havefun 类型:代码审计 F12打开浏览器控制台 GET请求,在url添加参数/?cat=dog访问 返回flag{f60c7d5c-9f44-4e92-88c0…

Springboot下使用Redis管道(pipeline)进行批量操作

之前有业务场景需要批量插入数据到Redis中&#xff0c;做的过程中也有一些感悟&#xff0c;因此记录下来&#xff0c;以防忘记。下面的内容会涉及到 分别使用for、管道处理批量操作&#xff0c;比较其所花费时间。 分别使用RedisCallback、SessionCallback进行Redis pipeline …

Mathematica训练课(44)-- 一些符号#,,//, /. 的整理

①“//”在后面写成你要执行的操作,即可执行。 注意:这一函数作用域标志的优先级是很靠后的,也就是说它会对一整行式子作用。 ②@的作用是在@后面的第一个元素进行操作 Sqrt @ a(*@作用在@后面、对离@最近的仅仅一个元素作用*) 例如,下面 若作用对象外面套着{},那么就要…

网络研究观:网络犯罪简报

通过犯罪研究人员精选的新闻提要了解最新的全球网络犯罪威胁。 了解不同的数字欺诈以及如何保护自己。 1&#xff1a;NIA 指控五人涉嫌国际人口贩卖和网络诈骗 印度国家调查局指控五名嫌疑人涉嫌一起重大人口贩卖和网络诈骗案&#xff0c;该案涉及印度青年被迫进入老挝的诈骗…

Python中常用的有7种值(数据)的类型及type()语句的用法

目录 0.Python中常用的有7种值&#xff08;数据&#xff09;的类型Python中的数据类型主要有&#xff1a;Number&#xff08;数字&#xff09;、Boolean&#xff08;布尔&#xff09;、String&#xff08;字符串&#xff09;、List&#xff08;列表&#xff09;、Tuple&#xf…

使用java代码实现GUI画面的简易项目操作

要使用Java创建一个图形用户界面&#xff08;GUI&#xff09;&#xff0c;我们可以使用Swing库&#xff0c;它是Java提供的一个标准GUI工具包。以下是一个简单的Java Swing程序示例&#xff0c;它创建了一个窗口&#xff08;JFrame&#xff09;&#xff0c;并在其中添加了一个标…

我重生了,学会了珂朵莉树

还玩线段树吗&#xff1f; 前言&注明 我好像一万年没更新了&#xff1f; 化学&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff…

检索增强生成 (RAG):揭开这一术语的神秘面纱并解释其带来的价值

一、介绍 如今&#xff0c;数据已成为新的黄金&#xff0c;而高效筛选这些丰富信息的能力则是成功企业脱颖而出的关键。Retrieval Augmented Generation&#xff08;RAG&#xff09;是创新的标杆&#xff0c;尤其是在知识管理领域。它不再只是为了存储信息&#xff0c;而是为了…

在运行中遇到扫描包问题

问题描述&#xff1a;当我们看到这个上面一行代码时就代表我们有个包没有被当前的Spring容器给扫描到&#xff0c;关于这个问题我们有两个&#xff1a;第一把整个包导进来&#xff0c;第二用哪个导哪个

Linux Swap

Swap: 页面换出&#xff1a;就是在 Swap 机制下&#xff0c;当内存资源紧张时&#xff0c;内核就会把不经常使用的这些匿名页中的数据写入到 Swap 分区或者 Swap 文件中。从而释放这些数据所占用的内存空间。 页面换入&#xff1a;就是当进程再次访问那些被换出的数据时&…

7 个不容忽视的开源安全工具

专业人士选择的第一个工具通常是开源选项,因为它们得到了广泛社区的保证和支持。此代码是支持安全可靠的互联网的基础的一部分。 最近,XZ Utils 等丑闻让用户犹豫不决。开放性是否是攻击的危险载体?还有其他问题在等着他们吗? 辩护者指出,虽然开放性可以让某些攻击变得更…

深度学习实战82-新的研究方向:大模型与图模型结合生成大型图模型,大图模型相关挑战和机遇的观点

大家好,我是微学AI,今天给大家介绍一下深度学习实战82-新的研究方向:大模型与图模型结合生成大型图模型,大图模型相关挑战和机遇的观点。随着人工智能的飞速发展,大型模型已成为人工智能领域最新的突破性成就。在图方面,大型模型尚未取得与自然语言处理和计算机视觉等其他…

【异步编程】【解锁并发的力量:Python 异步编程指南】

目录 前言一、异步编程的概念1-1、异步编程1-2、同步 vs 异步1-3、阻塞 vs 非阻塞1-4、并发 vs 并行 二、Python 异步编程的主要模块2-1、asyncio2-2、async 和 await 关键字2-3、 aiohttp 三、案例分析3-0、安装3-1、基本案例3-2、并发执行多个任务3-3、异常处理3-4、与队列结…