来源:机器人圈
作者:Coogle Brain,Google X
概要:相信大家都知道,通过检测和采集带有注释的视觉抓取数据集来训练现代机器学习算法可以说是非常耗时、昂贵的。
相信大家都知道,通过检测和采集带有注释的视觉抓取数据集来训练现代机器学习算法可以说是非常耗时、昂贵的。一个非常具有吸引力的替代方案是使用现成的模拟器来生成ground-truth合成数据,其中数据的真实注释是自动生成的。不幸的是,纯粹模拟数据的模型往往不能在实际中普及应用。我们研究了该如何扩展随机模拟环境和域适应方法,以训练一个抓取系统从原始单目RGB图像中抓取新目标。我们对实验方法进行了广泛的评估,总共有超过25000个物理测试抓取集,研究了一系列模拟条件和域适应方法,包括一种我们称之为GraspGAN的像素级域适应的新扩展。研究结果显示,通过使用合成数据和域适应方法,在只使用随机生成模拟对象的情况下,我们能够减少实际所需的样本量,在给定性能级的基础上将性能提高50多倍。此外,研究结果还显示,在只使用未标注的实际数据和GraspGAN方法的情况下,我们能够获得实际的抓取性能,而没有任何与从939777个标注实际样本中获得的标注相类似的实际标注。
抓取是最基本的机器操纵问题之一。实际上对于任何可行的操纵行为来说,需要讨论的第一步都是抓取的目标。因此,抓取已经成为机器人研究的中心领域之一,从最早的机器人研究到现在,一系列的方法和技术都涵盖在内。可以说,机器人操纵问题的核心挑战是泛化(generalization):一个抓取系统抓握系统能否成功地抓取在系统设计或训练过程中没有看到过的多种新目标?分析型或基于模型的抓取方法可以很好地泛化到那些满足其假设条件的情况下。然而,非结构化实际场景的复杂性和不可预测性往往会混淆这些假设,而基于学习的方法已经成为强大的补充。
学习机器人抓取系统有一个很大的好处,那就是有利于对具有实际统计数据的目标进行泛化,并可以从计算机视觉和深度学习的进步中获益。实际上,近年来已经表现出最佳泛化性能的许多抓取系统已经将卷积神经网络纳入抓取选择过程中。然而,基于学习的方法同时也引入了一个重大挑战:需要大型标注数据集。这些标注可能包含人为提供的抓取点,也可能是自动收集的。在这两种情况下,时间和金钱都有相当大的成本,最近的研究表明,抓取系统的性能表现可能受到可用数据量的强烈影响。
克服这些数据需求的本质途径是回顾那些基于分析、基于模型的抓取方法的成功范例,其中包含了我们以前对于物理和几何知识的积累。我们可以通过两种方式将这种先验知识纳入基于学习的抓取系统中。
首先,我们可以修改系统的设计,使用基于模型的抓取方法,例如作为基于学习抓取系统的评分函数。其次,我们可以利用以往的知识来构建一个模拟器,并产生可以与实际经验使用方式大致相同的综合经验。可以说,在这项研究中所探索的第二条道路是特别吸引人的,因为我们可以使用本质上大致相同的学习系统。然而,合并模拟图像带来了一个挑战:模拟数据与实际数据的系统方式不同,模拟必须具有足够的普遍目标。解决这两个挑战就是我们本项研究的主要任务。
缩小现实差距:我们提出的像素级域适应模型采用由我们的模拟器生成的合成图像(a),并产生(b)相似于现实世界中由相机在物理机器人的肩膀产生的图像(c)。然后,我们通过适合的、实际的图像来训练一个基于视觉的深度抓取网络,然后我们将进一步完善其特征层面的适应性。
我们的工作有三个主要贡献:
(a)通过整合合成数据,从单目RGB图像获取性能方面的实质性改善:我们提出将合成数据并入到基于视觉的机器人抓取的端对端训练方法,我们显示实现了性能的显著提高,特别是在较少的数据和无数据环境。
(b)模拟到真实世界迁移的详细实验:我们的实验涉及36个不同测试对象的25704个真实抓取,并考虑了多个维度:模拟对象的性质、模拟中使用的随机化类型,以及域适应技术用于将模拟图像适应现实世界。
(c)纯粹基于视觉的单目抓取的有效模拟到现实世界迁移的第一个示例:据我们所知,我们是第一个成功展示抓取的模拟到现实世界(simulation-to-real-world)迁移,并泛化到以前未见的自然物体,仅使用单目RGB图像。
结论
在本文中,我们研究了如何将模拟数据并入到基于学习的抓取系统中,以提高性能,并降低数据需求。我们研究机器人肩膀上的单目RGB图像的抓取,这是一个特别具有挑战性的设置,其中深度信息和分析型3D模型是不可用的。这对模拟现实世界的迁移提供了一个具有挑战性的设置,因为与模拟深度图像相比,模拟的RGB图像通常与真实的相同。我们研究了对象的性质在模拟、随机化和域适应方面的影响。我们还介绍了像素级域适应的新的扩展,使其适合于我们抓取系统中使用的高分辨率图像。我们的研究结果表明,模拟数据可以极大地改善我们所使用的基于视觉的抓取系统,实现可比或更好的性能,减少50倍的真实样本。研究结果还表明,使用逼真的3D模型进行模拟训练并不重要。最后,我们的实验表明,我们的方法可以提供合成图像的合理转换,并且包括域适应在大多数情况下大大提高了性能。
虽然我们的工作证明,在对较小数量的现实世界数据进行训练时,抓取成功率方面取得了很大的进步,但也存在一些局限性。我们考虑的两种适应方法都集中在不变性上,要么将模拟图像变换为真实图像,要么将特征规范化为跨域不变。由于我们网络的结构,这些特征包含外观和动作,但是并没有明确的推理出模拟与现实世界之间的物理差异。我们确实考虑了动力学性质的随机化,并表明它确实很重要。最近的几项研究着眼于明确地适应物理差异,将这些想法纳入抓取是未来工作的一个令人兴奋的途径。虽然我们的模拟到真实世界传输的方法现在只考虑单目RGB图像,但是将这种方法扩展到立体和具有深度的图像将是非常明确的。最后,我们的实验报告的成功率仍有改进的空间,我们预计在这一领域的进一步研究将会取得更好的成果。我们工作的主要观点来自不同方法的比较:我们不是要提出一个新的抓取系统,而是研究如何结合模拟数据来改进现有的方法。