2025-03-18, 由加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院等机构联合收集了PH2D数据集。该数据集包含26824个任务导向的人类演示,采用消费者级VR设备收集,提供了准确的3D手部关键点姿态和语言注释。数据集覆盖了多种操作任务、不同的物体和容器,旨在通过模仿人类行为来学习人形机器人的操作策略,促进跨模态学习并提高机器人政策的泛化能力和鲁棒性。
一、研究背景
人形机器人在多样任务和平台上展现操作能力,需强大且泛化的策略。以往从机器人演示中学习虽有进展,但数据收集成本高、效率低,难以大规模扩展,限制了模型泛化能力提升。而人类演示数据丰富、易获取,若能有效利用,有望突破人形机器人学习瓶颈,实现更高效、泛化的策略训练。
目前遇到困难和挑战:
1、数据收集成本高:通过机器人遥操作收集数据需昂贵设备和大量时间,难以大规模扩展。
2、泛化能力不足:现有方法多依赖单一机器人实体数据,难以泛化到新任务、环境和平台上,缺乏互联网规模数据支持。
3、人机实体差异大:人类与人形机器人在身体结构、动作执行等方面存在显著差异,直接从人类演示到机器人操作的转换面临诸多挑战,如动作速度、精度和控制方式等。
数据集地址:Physical Human-Humanoid Data (PH2D)|人形机器人数据集|机器人学习数据集
二、让我们一起来看一下PH2D
Physical Humanoid-Human Data(PH2D):是一个大规模、任务导向的以人为中心演示数据集,为跨实体学习提供丰富数据,助力人形机器人操作策略训练。
PH2D数据集包含多种日常操作任务,如抓取、传递、倾倒等,涵盖丰富物体和场景。数据通过消费级VR设备收集,包含准确的3D手部和手腕姿态,以及视觉信息,为模仿学习提供高质量监督信号。
数据集构建:
研究人员利用消费级VR设备(如Apple Vision Pro、Meta Quest 3等)收集数据,开发相应应用程序获取3D头手姿态和视觉观察。通过让人类操作者在特定任务指令下执行操作,同步收集视觉和本体感知数据,构建了这一大规模数据集。
数据集特点:
1、大规模:包含大量演示数据,涵盖多种任务和物体,为学习提供丰富样本。
2、任务导向:数据直接与人形机器人执行任务相关,便于协同训练。
3、准确姿态估计:借助VR设备SDK,提供准确3D手部和手腕姿态,提升学习精度。
4、视觉多样性:使用不同相机配置,引入视觉多样性,增强策略对不同环境的适应性。
基准测试:
研究人员在不同人形机器人平台上进行实验,验证了PH2D数据集的有效性。实验表明,协同训练显著提升了策略在背景变化、物体位置变化和未见物体上的泛化能力,成功率达到甚至超过仅用机器人数据训练的两倍。
我们建议使用以任务为导向的以自我为中心的人类数据来学习类人机器人作策略。在不依赖模块化感知的情况下,我们通过以端到端的方式直接将人类建模为不同的类人体现来训练 Human Action Transformer (HAT)作策略。
以任务为导向的以自我为中心的人类数据集的比较。除了拥有最多的演示外,PH2D 还收集了各种作任务、各种对象和容器,并附有准确的 3D 手指姿势和语言注释。帧数是假设 30 Hz 估计的。†:根据报告的数据收集时间估计;而 DexCap 和 PH2D 在初始处理后报告帧。
调整消费级设备进行数据收集。为了避免依赖专门的硬件进行数据收集并使我们的方法更易于访问,我们使用消费级 VR 设备设计了数据收集流程。
HAT 概述
HAT系统通过模拟人类行为来训练机器人,使其能够在真实环境中执行任务。系统利用Dinov2编码器处理图像数据,并通过Transformer模型进行状态-动作对的学习,最终实现机器人的动作预测和执行。
1、数据来源:
人类远程操作员:通过逆运动学(Inverse Kinematics)从人类操作中获取机器人观察数据。
人形机器人:通过正运动学(Forward Kinematics)获取机器人观察数据。
人类演示:通过观察人类演示获取数据。
2、机器人观察:
包括6自由度(DoF)的手腕姿态和3D手部关键点。
3、Dinov2编码器:
图像数据通过冻结的Dinov2编码器进行编码,Dinov2是一种视觉模型,用于从图像中提取特征。
4、HAT模型:
包含一个通用的Transformer模型,用于处理来自人类和机器人的数据。
该模型在训练过程中从人类数据或机器人数据中采样状态-动作对。
5、机器人数据/部署:
头部姿态:通过逆运动学从人类数据中获取。
6自由度手腕姿态:通过逆运动学从人类数据中获取。
3D手部关键点:通过重定向(Retargeting)从人类数据中获取。
6、动作预测:
机器人根据预测的头部姿态、手腕姿态和手部关键点进行动作预测。
机器人在四个不同的背景上执行传杯任务。左侧显示四种背景变化,而右侧表示两个传递方向:(#1 - 右手将杯子传给左手,#2 - 左手将杯子传给右手)。
机器人使用四个不同的物品执行水平抓取任务:瓶子、box_1、box_2和罐子,如左图所示。右侧说明了该过程:(#1-#3 - 机器人抓住瓶子,#4-#5 - 机器人将其放入塑料箱)。
机器人执行垂直抓取任务。如左图所示,Dynamixel 盒子被放置在九个不同的位置以供抓取。右侧说明了该过程:(#1-#3 - 机器人抓住盒子,#4-#5 - 机器人将盒子放入塑料箱)。
机器人执行倒入任务。左侧显示了通过改变机器人的旋转和工作台位置实现的不同设置。右侧说明了倒酒过程:(#1 - 右手抓住瓶子,#2 - 左手抓住杯子,#3 - 倒酒,#4 - 左手放下杯子,#5 - 右手放下瓶子)。
三、展望PH2D应用场景
以前,人形机器人的学习主要依赖于机器人本体操作的数据采集,这种方式成本高昂,且数据采集效率低。例如,机器人学习一个简单的抓取动作,需要通过复杂的传感器和精确的控制来收集数据,这个过程不仅耗时,还需要专业的技术人员操作。而且,由于数据量有限,机器人很难泛化到新的任务和环境中。
现在有了PH2D数据集,一切都发生了改变。
PH2D数据集通过收集人类的演示数据,为机器人提供了一个丰富的学习资源。这些数据不仅包含了人类的动作,还包含了相应的视觉信息,使得机器人可以通过模仿人类的动作来学习。这样一来,机器人学习新任务的速度大大加快,而且成本也降低了。
具体来说,PH2D数据集带来了以下几个改变:
1、数据采集成本降低:以前需要昂贵的机器人本体和专业设备来采集数据,现在只需要消费级的VR设备就可以采集人类的演示数据。
2、学习效率提高:人类演示数据丰富多样,机器人可以通过这些数据快速学习到各种任务。
3、泛化能力增强:由于PH2D数据集包含了多种任务和环境,机器人在学习过程中能够更好地泛化到新的场景。
4、应用场景拓展:机器人可以学习到更多复杂的任务,比如在家庭环境中帮助做家务,在工业环境中进行复杂的装配任务。
想象一下这样一个美好场景:家里来了客人,机器人帮忙准备茶点
你刚从超市买回来一堆零食和饮料,正准备招待客人。你一边忙着铺桌布,一边对机器人“小K”说:“小K,帮我把那些杯子从柜子里拿出来,再把饮料瓶从冰箱里拿出来,放到茶几上。”
“小K”听到指令后,立刻行动起来。它先是走到橱柜前,柜子有点高,但“小K”毫不费劲。它伸出机械手臂,手臂上的摄像头快速扫描了一下橱柜内部,找到了那些杯子。杯子有大有小,形状也不一样,但“小K”一点都不慌。它模仿人类抓杯子的动作,手指灵活地夹住杯子的把手,轻轻一提,就把杯子拿了出来。它还特别小心,动作很轻柔,生怕杯子滑落。
接着,“小K”走到冰箱前。冰箱门有点重,但“小K”用机械手臂轻轻一推,门就开了。它伸进冰箱,找到那瓶饮料。饮料瓶有点滑,但“小K”通过模仿人类抓握的动作,手指紧紧地握住瓶子,然后小心翼翼地把它拿了出来。它还特别注意,把瓶子上的水珠擦干净,免得弄湿茶几。
最后,“小K”把杯子和饮料瓶稳稳地放在茶几上。茶几有点小,空间有限,但“小K”把东西摆放得整整齐齐。它还模仿人类的动作,把杯子稍微倾斜一下,让客人拿的时候更方便。等一切都摆放好了,“小K”还礼貌地退后一步,好像在说:“好了,主人,你可以招待客人啦!”
这时候,客人们都惊呆了,纷纷夸赞“小K”真聪明,动作又快又准。你也很开心,因为“小K”不仅帮你分担了家务,还让客人感受到了科技的魅力。
更多免费的数据集,请打开:遇见数据集
遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。https://www.selectdataset.com/