CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向

论文题目:
TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding
论文链接:

https://arxiv.org/pdf/2401.08399.pdf
项目主页:

https://taco2024.github.io/
视频链接:

https://www.youtube.com/watch?v=bIgHylU1oZo&feature=youtu.be
数据集链接:

https://onedrive.live.com/?authkey=%21AGNkrHubnoo8LCs&id=5411ECE5D2EDAD9F%21126&cid=5411ECE5D2EDAD9F
代码链接:

https://github.com/leolyliu/TACO-Instructions

TL; DR

本工作构建了一个大规模双手协作双物体的数据集 TACO,涵盖了大量日常生活中双手使用工具进行多物体协作的场景,通过提供丰富的交互三元组数据(工具、动作、使用对象),为通用手物交互的理解与生成带来了新的挑战和机遇。

在这里插入图片描述

研究目标和主要贡献
人们在日常生活中能轻易地用双手协作工具和使用对象,例如炒菜时用铲子在锅中搅拌。我们将这样的行为模式刻画成<工具、动作、使用对象>的交互三元组,如<铲子、搅拌、锅>。
不同的交互三元组之间通常会因享有相似的工具、动作或使用对象而拥有相似的动作模式,因此本工作按照三元组对手物交互的数据进行分类,致力于研究技术方法在不同物体形状和不同三元组间的泛化能力。这类手物交互动作的生成可被广泛应用于虚拟现实、增强现实、人机协作和灵巧手操作等领域。
理解与生成这种交互动作需要大量数据的支持,然而先前的手物交互数据集大多关注单手或单个物体的动作。先前唯一的双手多物体数据集 [1] 受限于极少的物体和三元组而难以支持有关泛化性的研究。
为了填补数据的空缺,本工作首先构建了一个真实世界中大规模四维手物交互数据集——TACO。TACO 数据集包含从 12 个第三人称视角和一个第一人称视角下采集到的 5.2M 张彩色图片、2500 余段交互动作、131 种三元组和 196 个精细的物体网格模型,从而成为了双手多物体协作的一个知识库。为支持动作预测与生成相关的研究,数据集提供手物网格序列、手物二维掩码和去除标志点的彩色图片等标注。
其次,本工作提出了一种全自动的数据标注方法以用低成本扩大数据集规模同时保证数据标注的高质量。该方法融合来自第三视角的视频和来自光学动捕系统的物体标志点坐标,用基于优化的算法得到手物网格序列,进而利用预训练的分割网络估算手物的掩码,并利用先进的图像补全模型生成去除标志点的图片。
得益于 TACO 数据集丰富的动作模式和标注信息,本工作提出了三个关注可泛化手物交互理解与生成的基准任务——动作识别、动作预测和合作式抓取生成。三个基准任务中的大量实验证明了现有的技术方法在物体几何的泛化、物体类别的泛化和交互三元组的泛化上表现欠佳,这为今后的研究带来了新的挑战和机遇。
本工作的主要贡献如下:
构建了 TACO 数据集,是首个真实世界中大规模四维双手协作多物体的数据集,涵盖多样的“工具-动作-使用对象”的组合和物体几何形状。
设计了一个全自动的数据标注方法,能够获取手和物体精确的网格序列和二维掩码,以及无标志点的彩色图像。
提出了三个关注可泛化的手物交互理解与生成的基准任务,并详细探讨了 TACO 数据集带来的挑战和机遇。
数据集动作示例如下:
在这里插入图片描述

TACO数据集构建
如下图所示,数据采集系统包含 12 个第三人称视角下的 FLIR 工业相机(分辨率 4096x3000)、1 个头戴 Realsense L515 相机(分辨率 1920x1080)和包含 6 个红外相机的 NOKOV 光学动作捕捉系统。所有数据的录制频率均为 30Hz。
在这里插入图片描述

本工作使用 EinScan 手持式三维扫描仪获取物体的高精度网格模型,每个物体模型包含约 100K 个三角面片。数据集的物体均为刚体,数据采集时每个物体的表面会贴上 4 个标志点,由光学动捕系统跟踪标志点位置并由此解算物体位姿。
在这里插入图片描述

数据标注方法如上图所示,给定第三人称视角彩色图像、物体网格模型和其上标志点的坐标,方法依次执行物体位姿优化、手部关键点定位、手部位姿优化、手物分割和标志点移除步骤。
物体位姿优化的目标是求解各个标志点相对物体的精确位置。由于人工测量结果存在较大误差,物体位姿优化以人工测量的结果为初值,优化出最优的相对位置使得各个标志点到物体表面最近点的平均距离和各个标志点与物体的平均穿模距离的加权和最小。
手部关键点定位希望估计手部骨骼各个关键点在世界系下的三维坐标。为此,针对每个视角的彩色图像,本工作使用预训练的 YOLOv3 网络 [2] 检测双手在图中的外接矩形框,并将其输入 MMPose 骨骼检测模型 [3] 得到手部关键点在图像上的像素坐标。本工作使用三角化将多视角像素坐标转化为世界系下的三维坐标,并利用 RANSAC 算法 [4] 提高结果的鲁棒性。
手部位姿优化希望获得 MANO 模型 [5] 表示的手部网格,方法是设计关于模型参数的损失函数并求解最优参数最小化损失函数的值。损失函数综合考虑 MANO 模型骨骼与手部关键点三维坐标的偏差、手部骨骼转动范围、骨骼运动的连续性、手物接触情况和手物穿模情况这五个方面。
手物分割即获取手和物体在彩色图像上的二维掩码。这一环节直接应用 SAM 模型 [6],将上一步得到的手物网格投影至图像得到其外接矩形框并将其作为模型的提示。
由于物体上的标志点破坏了物体的外观,本工作额外设计了标志点移除模块,针对中心位于 P、半径为 R 的标志点,该模块将一个中心位于 P、半径为 2R 的球投影至各个视角的图像上获取其掩码,进而使用 LAMA 图像补全模型 [7] 重新绘制掩码区域的颜色。下图展示了一个标志点移除的示例:

在这里插入图片描述

数据多样性
TACO 数据集包含 2.5K 段交互动作、20 种家用物体类别、196 个物体网格模型、15 种家务动作和 14 位采集员,涵盖共计 131 种“工具-动作-使用对象”的交互三元组。如下面的视频和图片所示,数据集的物体形状多样,且不同三元组之间关系紧密,因而其能够支持不同物体几何形状、不同物体类别、不同动作类别等多个方面的泛化性研究。

在这里插入图片描述

基准任务
基于 TACO 数据集物体几何和交互三元组的多样性,本工作将数据集划分为一个训练集和四个关注不同泛化方式的测试集:
S1:无泛化。工具的几何形状和交互三元组均存在于训练集。
S2:几何形状的泛化。工具的几何形状是全新的,交互三元组存在于训练集。
S3:交互三元组的泛化。交互三元组是全新的,而工具的类别和几何形状均存在于训练集。
S4:综合泛化。工具的类别是全新的,导致出现新的工具的几何形状和交互三元组。
动作识别任务致力于分析第一人称视角下的手物交互的视频中的动作类别,物体的外接矩形框可以作为任务的额外输入辅助分析。不同于传统的动作识别任务,本工作关注模型在遇见全新物体或交互三元组时的表现。此基准任务采用 Acc-1 和 Acc-5 两种常用的评价指标。
下表对比了一个传统的动作识别模型 AIM [8] 和一个关注组合泛化的少样本模型 CACNF [9]。两个模型在 S4 上的两种准确率均显著低于在 S1 上的准确率,揭示了现有方法泛化能力的不足。相比物体几何的泛化,模型在交互三元组上的泛化更加困难。CACNF 在更困难的 S3 和 S4 集合上显著优于 AIM,体现出关注组合泛化的模型对物体和动作更强的解耦能力以及更强的泛化能力。

动作预测任务目标是根据物体几何形状和前 10 帧的手物位姿序列预测接下来 10 帧二者的序列。不同于先前研究的人-物交互动作预测,完整的手物交互动作通常在更短的时间内完成,这使得此任务极具挑战性。
本任务的评价指标为平均关节位置误差、平均位移误差和平均朝向误差。实验对比两种预测模型 InterRNN [10]、CAHMP [11] 和两种生成模型 InterVAE [10]、MDM [12]。如下表所示,实验表明现有预测模型的表现优于生成模型,且两类模型在运动较快的右手和工具的预测上均存在泛化能力的不足。
在这里插入图片描述

合作式抓取生成任务希望在给定左手、工具和使用对象的网格的情景下生成右手的网格。任务要求方法不仅考虑工具的抓握,还应关注和环境(即使用对象和左手)的配合。为此,除常用的穿模体积和接触比例两个指标外,本工作额外设计了碰撞比例和 FID 分数分别用于评估右手和环境的接触程度和抓取的真实程度。
下表汇报了三种现有方法 [13][14] 的表现。应用于新的工具几何形状时,三种方法均得到了更大的碰撞比例和更低的 FID 分数。
在这里插入图片描述
在这里插入图片描述

下图展示了方法的失败案例,表明现有方法在复杂纤细工具的抓取生成的物理可行性和动作自然性方面表现欠佳。
在这里插入图片描述

总结
本工作构建了首个真实世界中大规模四维双手协作多物体的数据集 TACO,涵盖 5.2M 张来自第一和第三人称视角的彩色图片、2.5K 段交互动作、131 种“工具-动作-使用对象”的组合和 196 种物体形状。为扩大数据规模,本工作贡献了一个全自动的数据标注算法提供准确的手物网格序列和二维分割,以及去除标志点的彩色图片。
本工作在 TACO 数据集上提出了三个基准任务:动作识别、动作预测和合作式抓取生成。实验表明现有方法在跨三元组的动作理解和在新物体、新类别上的抓取生成等方面尚存较大的提升空间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/36460.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

完全离线的本地问答模型LocalGPT如何实现无公网IP远程连接提问

文章目录 前言环境准备1. localGPT部署2. 启动和使用3. 安装cpolar 内网穿透4. 创建公网地址5. 公网地址访问6. 固定公网地址 前言 本文主要介绍如何本地部署LocalGPT并实现远程访问&#xff0c;由于localGPT只能通过本地局域网IP地址端口号的形式访问&#xff0c;实现远程访问…

技术驱动的音乐变革:AI带来的产业重塑

&#x1f4d1;引言 近一个月来&#xff0c;随着几款音乐大模型的轮番上线&#xff0c;AI在音乐产业的角色迅速扩大。这些模型不仅将音乐创作的门槛降至前所未有的低点&#xff0c;还引发了一场关于AI是否会彻底颠覆音乐行业的激烈讨论。从初期的兴奋到现在的理性审视&#xff0…

石家庄高校大学智能制造实验室数字孪生可视化系统平台项目验收

智能制造作为未来制造业的发展方向&#xff0c;已成为各国竞相发展的重点领域。石家庄高校大学智能制造实验室积极响应国家发展战略&#xff0c;结合自身优势&#xff0c;决定引进数字孪生技术&#xff0c;构建一个集教学、科研、生产于一体的可视化系统平台。 数字孪生可视化…

Trie字符串统计

Trie字符串统计 维护一个字符串集合&#xff0c;支持两种操作&#xff1a; I x 向集合中插入一个字符串 x&#xff1b;Q x 询问一个字符串在集合中出现了多少次。 共有 N个操作&#xff0c;所有输入的字符串总长度不超过 105&#xff0c;字符串仅包含小写英文字母。 输入格式…

launch 中可执行文件 type

<node pkg"waypoint_generator" name"waypoint_generator" type"waypoint_generator_ms" output"screen">pkg 指定了包名&#xff0c;它告诉 ROS 应该在哪个包中查找可执行文件。 name 指定了节点名&#xff0c;这个名称在 ROS …

Java中的Path类使用详解及最佳实践

Java中的Path类使用详解及最佳实践 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01;今天我们将深入探讨Java中的Path类&#xff0c;这是Java标准库中用于操作文件…

免费内网穿透、配置超级简单

巴比达内网穿透 曾经那些所谓的内网穿透服务&#xff0c;给我带来的只有无尽的烦恼。有的像&#xff0c;毫无规律地每天更改固定访问地址和端口。有一次&#xff0c;我正在进行一个重要的项目投标&#xff0c;需要及时与团队成员共享文件和沟通。可就在关键时刻&#xff0c;网络…

endswith()方法——是否以指定子字符串结尾

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 语法参考 endswith()方法用于检索字符串是否以指定子字符串结尾。如果是则返回True&#xff0c;否则返回False。endswith()方法的语法格式如下&…

启智畅想:AI集装箱箱号识别系统,解决方案提供商

AI集装箱箱号识别系统 当前,智能卡口管理行业正处于快速发展的阶段。随着物联网、大数据、人工智能等技术的不断进步,智能卡口管理系统已经能够实现对集装箱运输的全程跟踪、监控和管理,大大提高了管理效率和安全性。然而,市场上现有的智能卡口管理系统仍然存在一些痛点问题,如…

JAVA-矩阵置零

给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 思路&#xff1a; 找到0的位置&#xff0c;把0出现的数组的其他值夜置为0 需要额外空间方法&#xff1a; 1、定义两个布尔数组标记二维数组中行和列…

BUUCTF--WEB

首頁 - OWASP Top 10:2021 [极客大挑战 2019]EasySQL 类型:sql注入 使用万能密码 flag{f580db5b-c0c9-4b13-bfb6-adfa525c93f5} [极客大挑战 2019]Havefun 类型:代码审计 F12打开浏览器控制台 GET请求,在url添加参数/?cat=dog访问 返回flag{f60c7d5c-9f44-4e92-88c0…

Java部分复习笔记整理

一、Java常用类 1.String类 表示字符串&#xff0c;不可变&#xff0c;常用方法包括length(), charAt(), substring(), indexOf(), equals()等。 2.ArrayList类 基于数组实现的动态数组&#xff0c;可变大小&#xff0c;常用方法包括add(), get(), set(), remove(), size()…

【redis】redis简单入门

1、简介 定义&#xff1a;Redis是一个开源的、内存中的数据结构存储系统&#xff0c;它可以用作数据库、缓存和消息中间件。特点&#xff1a; 高性能&#xff1a;读写速度非常快&#xff0c;支持每秒执行数十万次读写操作。基于内存&#xff1a;所有数据都存储在内存中&#x…

Springboot下使用Redis管道(pipeline)进行批量操作

之前有业务场景需要批量插入数据到Redis中&#xff0c;做的过程中也有一些感悟&#xff0c;因此记录下来&#xff0c;以防忘记。下面的内容会涉及到 分别使用for、管道处理批量操作&#xff0c;比较其所花费时间。 分别使用RedisCallback、SessionCallback进行Redis pipeline …

Swoole实践:如何使用协程构建高性能爬虫

随着互联网的普及&#xff0c;web爬虫已经成为了一个非常重要的工具&#xff0c;它可以帮助我们快速地抓取所需要的数据&#xff0c;从而降低数据获取成本。在爬虫的实现中&#xff0c;性能一直是一个重要的考虑因素。swoole是一款基于php的协程框架&#xff0c;它可以帮助我们…

Mathematica训练课(44)-- 一些符号#,,//, /. 的整理

①“//”在后面写成你要执行的操作,即可执行。 注意:这一函数作用域标志的优先级是很靠后的,也就是说它会对一整行式子作用。 ②@的作用是在@后面的第一个元素进行操作 Sqrt @ a(*@作用在@后面、对离@最近的仅仅一个元素作用*) 例如,下面 若作用对象外面套着{},那么就要…

向openHarmony设备添加gdb调试工具

1. 下载gdb源码 国内从官网下载源码比较慢&#xff0c;可以从清华的镜像网站&#xff08;清华大学开源软件镜像站 | Tsinghua Open Source Mirror&#xff09;上下载。下载地址&#xff1a; Index of /gnu/gdb/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 选择…

centos下安装ffmpeg的详细教程

0.ffmpeg介绍 FFmpeg 是一个开源的多媒体框架&#xff0c;用于处理音频、视频和其他多媒体文件。它提供了录制、转换和流式传输音频和视频功能。FFmpeg 是一个非常强大和灵活的工具&#xff0c;广泛应用于媒体转换、视频编辑、流媒体传输等领域。 1.准备压缩包 链接&#xff1…

总结:Hadoop高可用

当Hadoop的NameNode宕机时&#xff0c;可以采取以下步骤来解决问题&#xff1a; 重新启动NameNode&#xff1a;尝试重新启动NameNode服务&#xff0c;有时候它可能会自行恢复正常运行。 恢复NameNode备份&#xff1a;如果启动NameNode失败&#xff0c;可以尝试恢复之前备份的N…

网络研究观:网络犯罪简报

通过犯罪研究人员精选的新闻提要了解最新的全球网络犯罪威胁。 了解不同的数字欺诈以及如何保护自己。 1&#xff1a;NIA 指控五人涉嫌国际人口贩卖和网络诈骗 印度国家调查局指控五名嫌疑人涉嫌一起重大人口贩卖和网络诈骗案&#xff0c;该案涉及印度青年被迫进入老挝的诈骗…