说明:本文是Techbeat平台上李淼博士的讲座:“基于模仿学习的机器人抓取与操控”的总结笔记。
原视频:
TechBeat - 让AI大有可为www.techbeat.net视频介绍:
近四十年来,研究人员对机器人抓取的研究逐渐深入,涉及如机械臂设计、接触力学、机械臂运动学、物体抓取动力学等多个维度。尽管在学术界取得了长足的进步,但是将这些理论知识运用到工业届和现实应用中仍然存在不小的困难。在本次演讲中,首先将从以物体为中心的角度总结机器人抓取面临的主要挑战,以此来阐述实验室算法与工业应用之间的障碍。
然后,李淼博士将介绍库柏特科技最近的工作进展:开发一个统一的、基于学习的系统来展示各种机器人抓取的过程的系统。基于模仿学习,很多工业机器人抓取任务可以被快速部署、优化并适应各种场景。此外,他将通过一些实际案例来说明如何构建一个稳定的、可以抓取超过10万个不同的对象的物流拣选系统。
笔记
1.传统基于物理模型的方法:
可以分成手的动力学模型、物体的动力学模型,但是手的模型中的摩擦力是无法测量的,这部分无法建模。同时物体的重力和惯性模型也是无法测量的,只有提前对物体建模才行,无法适应于所有问题,同时还有一些外界干扰力。
2.经典抓取方法
一般抓取的时候先将物体模型存入database中,在进行抓取的时候,首先对物体进行识别(object recognition),看它是可以归属为database中的哪一类,然后通过姿态检测(pose estimation)确定物体姿态,从而在匹配数据库中的最优抓取点(grasp selection)。
2.1场景分割
将不同物体在场景中分割出来,区分出是不同的物体。
2.2目标检测与表示
对物体进行表示,是通过深度图?还是polyhedron?还是通过语义的方式?同时,怎么去对物体进行识别?
2.3抓取
传统方法中,有基于搜索的抓取方法,也有基于优化的抓取方法。搜索的类似工作可以参考find antipodal point on irregular object,然后再进行抓取质量评估。优化方法要对物体外形进行隐式建模,如果建模成point cloud这种离散点,就没办法进行穷尽搜索优化,然后找到所有的约束,再通过优化抓取较为简单的物体,同时耗时极长。
2.4抓取执行
抓取执行需要是一个序列化的过程,如何确定动作序列也是问题
2.5经典方法的问题
3.新方法
3.1如何解决老问题
仿真解决标签和验证问题,更多的传感器反馈包括视觉及触觉,深度学习则对这些传感器信息进行建模。
3.2场景分割
3.3物体表示识别
传统方法中,点云有限制,而如今可以使用点云补全技术。
3.4抓取规划
基于仿真数据确定抓取policy
知道很多的3D形状,可以通过物理引擎仿真,来在仿真模型中生成多个抓取点,然后通过物理引擎判断是否抓取成功,最后生成抓取成功的policy或者net。但是需要确定物理引擎是否足够好,policy是否具有泛化能力?其实基于深度学习的算法和以往的方法本质都是基于搜索的方法,只不过深度学习可以融合多模态进行了一个特征提取,建议所有人看一些autoencoder decoder的内容。
3.5运动执行
第一个14年的论文,就是典型的基于数据的学习,只关注已知的传感器信息,如触觉、物体外形。然后采集大量的数据,通过高斯混合模型拟合找到最合适的抓取位置。
第二篇论文:非常有挑战性的工作,根据实时反馈,调整抓取策略,形成closed loop。
第三篇 谷歌端到端
4.未来方向
5.From Lab to production
问题
从哪获取train data,无限的testing data如何保证都可以work,deep learning部分的运行时间?nice result需要根据客户确定准确率,可能需要99.9999%
问题总结:
1.deeplearning的一个的概率性的方法,而工业要求确定性。
2.数据在工业上十分贵。
3.工业要求成功率极高,可能需要99.9999%。
4.工业上有很多conner case。
5.工业上的1ms十分重要,实时性问题。
6.风险问题。