UC伯克利新机器人成果:灵活自由地使用工具

640?wx_fmt=png

来源:AI 科技评论

摘要:前几天我们刚刚介绍了加州大学伯克利分校 Pieter Abbeel 教授领导伯克利机器人学习实验室(UC Berkeley's Robot Learning Lab)开发的会叠衣服的家务向机器人 BLUE,今天伯克利人工智能实验室(BAIR)这边也带来了一项新的机器人科研成果 —— 教会机器人使用工具完成任务。这篇论文的作者之一是知名青年机器学习研究员、谷歌大脑研究科学家 Chelsea Finn,她目前正在 BAIR 做博士后。AI 科技评论把论文成果的介绍博客编译如下。


一个有难度的目标:学习使用工具


在许多动物身上,使用工具的能力都来自于观察学习和动手尝试两者的共同作用。比如,大猩猩可以通过观察自己已经掌握了技能的同伴学会如何用树枝从白蚁窝里“钓”白蚁吃,人类也观察到卷尾猴能够把树枝作为扫和拨的工具,把较远的食物弄到他们身边。有人也许会提出这只不过是猴子们依葫芦画瓢,但这篇论文的作者们认为使用工具的能力显然体现了更为高级的智慧。


640?wx_fmt=jpeg

大猩猩钓白蚁


在这项新研究中作者们探索的问题是:我们能否让机器人也拥有相似的使用工具的能力 —— 通过观察和自己动手实验学会使用工具。


在执行复杂的多物体控制任务时,有一项必须的要素是理解物理层面的因果关系,所以预测不同的物体之间会如何相互作用就非常关键。在之前的视觉深度强化学习研究(https://arxiv.org/abs/1812.00568)中,作者们已经探究了如何在机器人与世界的无监督交互过程中学习包含因果关系的视觉预测模型。在学习到这样的模型之后,机器人就可以开始规划并完成一系列简单的任务,包括叠衣服、整理物品。不过,如果考虑到使用工具的任务中更为复杂的物理交互,比如用扫帚把尘土扫进簸箕里,非指向性的动手实验就不够了。


因此,考虑到动物们是如何学习的,作者们设计了一个新的算法,它可以让机器人通过类似的模仿、互动的范式学习如何使用工具。具体来说作者们展示了,借助一组演示数据以及无监督的动手实验,机器人可以学会把新的物体作为工具使用,甚至可以在传统工具缺失的情况下灵活使用现有的工具完成任务。更进一步地,根据任务要求的不同,作者们的方法还让机器人有能力决定是否使用当前给定的工具。


640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=gif

640?wx_fmt=gif

640?wx_fmt=gif


作者们提出的方法让机器人有能力学习如何把不同的物体当作工具以完成用户给定的任务(第一行图中用黄色箭头标出)。任务中并没有指定机器人必须使用给定的工具,但机器人决定使用它们。


在指导中学习视觉预测


从演示中学习


首先,作者们需要使用一个演示动作数据集,其中展示了各种不同的工具是如何使用的。由于最终的目标是希望学习到一个具有多种多样的工具使用能力的模型,作者们采集的演示动作数据也就包含了多种不同的工具和多种不同的任务。对于每一个演示,作者们都让机器人自己的摄像头录制了图像序列和动作指令。


640?wx_fmt=gif

640?wx_fmt=gif

640?wx_fmt=gif

640?wx_fmt=gif

几个引导运动的例子


通过这些数据,作者们得到了一个模型,它可以提出把当前场景内存在的物体作为工具的运动序列。并且,为了能够从演示中捕捉更为丰富的行为,这个模型的输出形式是不同动作序列的分布。


为视觉预测模型的学习收集无监督数据


由于作者们希望机器人的行为不要局限于演示数据中出现的那些动作,并最终泛化到新的物体和新的情境中,他们就还需要很多不同的数据。最理想的来源当然是由机器人自己采集,而且是通过大规模可拓展的方式。比如,作者们希望机器人能够理解抓取姿态不好之类的小错误对后续的动作会有什么影响,所以他们就让机器人从现有的经验基础上继续动手实验、继续收集更多的数据。


具体来说,论文作者们设计了两种不同的数据自动采集方式:一种方式是执行随机的动作序列,另一种是从上一节中提到的动作序列提出模型中采样。后一种方式中,机器人可以把工具拿起来然后在空间中随机移动它。对于学习多物体的交互方式来说,在这一环节中学习到的经验非常重要。


640?wx_fmt=gif

640?wx_fmt=gif

640?wx_fmt=gif

根据日常物体和工具进行无监督交互学习


最终,作者们使用的数据集一共由这几部分构成:专家演示、机器人使用多种不同工具的无监督实验、以及 BAIR 机器人交互数据集中的数据。作者们用这些数据训练了一个动态模型。模型的实现方式是循环卷积神经网络,它在每个时间步骤的输入是前一副图像和一个动作,输出是一副生成的图像。


在指导中学习规划


在测试时,机器人可以使用模仿学习训练的模型来指导规划过程,然后用预测模型来觉得哪些动作可以让它完成目前的任务。


新任务的创建需要用户给定关键点的移动。比如下图中,我们希望机器人把地上的垃圾扫到簸箕中,就在图中选中垃圾的中心点,然后画出希望的最终位置。用这种方式指定任务并不会告诉机器人如何使用工具,在有多种工具可以选的环境下甚至都没有指明要用哪一种工具,机器人需要自己思考并规划。


作者们使用了一个简单的基于采样的规划过程,它会使用动作提议模型和图像预测模型的输出,并让机器人有能力用多种不同的工具和物品完成多种不同的任务。具体来说,动作序列最初是从随机采样的,然后,根据图像预测模型可以预测出每一种动作序列规划的结果。


640?wx_fmt=gif

640?wx_fmt=gif

640?wx_fmt=gif

640?wx_fmt=gif

同一个初始场景中,针对不同动作序列的预测结果


通过选出当前最佳的规划并根据它生成一个分布,系统可以进行反复的迭代采样,在当前最佳的规划的基础上一直优化改进,最后在机器人上执行。


640?wx_fmt=gif

系统运行框图


实验


作者们对这种方法进行了实验,让它使用新的工具执行用户设定的目标。


640?wx_fmt=png

640?wx_fmt=gif

640?wx_fmt=gif

从左到右:初始场景和任务目标;根据最佳运动规划的预测结果;机器人的实际执行结果


在前面提到过的清扫任务中,机器人可以抓起附近的扫帚,高效地完成任务。


640?wx_fmt=gif


在另一个场景中,虽然机器人从未见过海绵,但它能够思考如何用它把盘子中的碎渣扫走。


640?wx_fmt=gif


在下面的例子中,作者们设定只允许机器人在绿色阴影范围内移动,目标是把蓝色圆柱体向自己的方向移动。显然,这个任务的关键就是机器人想到了如何使用 L 型的木块把圆柱体钩过来。


640?wx_fmt=gif


以及,即便只给机器人提供矿泉水瓶之类的日常物体,它也能推理出如何把它作为工具完成任务。


640?wx_fmt=gif


最后,在最好不使用工具的环境中,机器人也会选择直接用自己的夹钳完成任务。


640?wx_fmt=gif

640?wx_fmt=gif

左:任务目标是把两个物体都移向左边,机器人选择用工具高效地完成;右:任务目标只需移动一个物体,机器人用自己的夹钳把它移过去


除了这些例子之外,论文中的量化实验结果表明他们的方法比单独使用从演示学习有更好的泛化通用性,也比单独从经验学习有更强的完成任务能力。


关于其他机器人使用工具研究的对比讨论


论文《A Relational Approach to Tool-Use Learning in Robots》(www.roboticsproceedings.org/rss14/p44.pdf)研究了如何在任务和运动规划框架下通过逻辑编程和已知模型控制工具。然而,基于逻辑的系统和基于解析模型的系统都容易受到建模误差的影响,这会在测试执行时累积并影响表现。


其它的研究中把工具看作了面向任务的抓取动作控制(ieeexplore.ieee.org/document/769),并根据规划(cs.stanford.edu/people/asaxena/papers/deepmpc_rss2015.pdf)或者策略学习(arxiv.org/abs/1806.09266)来使用工具。这些方法都限制了涉及到工具的运用的范围,而这篇论文中的方法不论场景中有没有工具都可以完成运动规划。


也有一些别的方法(ieeexplore.ieee.org/document/1570580,cs.stanford.edu/people/asaxena/papers/deepmpc_rss2015.pdf)提出在使用工具中学习动态模型。然而,这些方法需要额外使用手工设计的感知流水线,或者完全忽略感知,这篇论文中的方法就可以直接从原始图像像素中学习物体间的交互。


结论


会出现从未见过的物体的多样、复杂任务是机器人领域正在尝试攻克的问题。为了研究这个问题,这篇论文的作者们研究了需要把物体作为工具的多种任务。作者们提出了结合模仿学习和自我监督交互学习的新方法,并展示了这种方法可以让机器人完成复杂的多物体交互任务,其中可以含有多种多样的物体,甚至可以在新的环境中灵活运用物体作为工具。作者们希望这项研究展示了让机器人同时变得更通用和更能干的新方法,以便未来机器人可以在日常生活环境中执行有用的任务。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492221.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

bzoj 1934 最小割

收获&#xff1a; 1、流量为0的边可以不加入。 2、最小割方案要与决策方案对应。 1 #include <cstdio>2 #include <cmath>3 #include <cstring>4 #include <vector>5 #define min(a,b) ((a)<(b)?(a):(b))6 #define oo 0x3f3f3f3f7 #define N 6108 …

工业4.0:数字化供应链的三个方向

来源&#xff1a;资本实验室席卷全球的工业4.0革命几乎影响着每一个行业&#xff0c;包括各行业的供应链管理。在过去&#xff0c;供应链管理是令各行业都非常头疼的环节&#xff0c;因为传统供应链涉及大量模糊且无法访问的数据&#xff0c;就像”黑洞“一样吞噬着成本、时间与…

有效学习

怎样算有效学习&#xff1f; 记得有位大咖说过&#xff0c;‘当你把受过的教育都忘记了&#xff0c;剩下的就是教育’&#xff08;度娘说是爱因斯坦说的&#xff0c;此处未经考证&#xff09;。 学习可以看成是一个把知识放入潜意识的过程。所谓进入潜意识&#xff0c;是指当…

如果机器能帮我们学习,那么有多少东西能够被遗忘?

来源&#xff1a;原理在我还是个学生时的遥远年代&#xff0c;大多数计算机都还是体型巨大的机器。当时我有一个朋友&#xff0c;他的博士导师坚持让他对一个冗长又困难的原子理论进行手写计算。他用掉了一页又一页的草稿纸&#xff0c;上面充满了错误。于是最终他屈服于自己的…

如何通俗理解计算机视觉、计算机图形、图像处理之间的区别与联系

这三者之间联系和区别可以通过下图表示&#xff0c; 左边的图片表示实际景物&#xff0c;右边图片表示实际景物对应的图片。 1、计算机图形 计算机图形技术常用于计算机生成图形。该技术常用的领域有&#xff1a; a.动漫 b.游戏 c.计算机辅助设计&#xff08;CAD&#xff09;…

日本电信企业5G部署计划 限制了华为中兴设备的使用

来源&#xff1a;OFweek电子工程据外媒报道&#xff0c;日本监管机构日前正式向日本电信企业分配5G频谱&#xff0c;而这也正是日本在来年春季推出高速无线服务(5G)的一个重要里程碑。日本三大运营商NTT Docomo、KDDI和软银&#xff0c;以及新进入者Rakuten Inc&#xff0c;都获…

Python安装工具包踩过的坑

1、背景介绍 重装win10系统&#xff0c;重装Python。在坑出现之前&#xff0c;已经完成了Python的安装&#xff08;D盘&#xff09;&#xff0c;并且在系统中添加了环境变量。由于平时需要用到Python2.7和Python3.6&#xff0c;这里将对应的解释器分别改名为Python2和Python3。…

物联网面临的7大网络安全威胁

来源&#xff1a;51CTO译稿摘要&#xff1a;曾经在物联网世界&#xff0c;一切都变得更加庞大。不仅是设备本身——有些小到只容纳几个芯片&#xff0c;他们通常隐藏其中&#xff0c;眼不见心不烦。但物联网中庞大的数据和设备规模令任何网络安全专业人士都感到头疼。据广泛统计…

从技术分工的角度来看996.ICU

最近&#xff0c;Github上996.ICU话题自诞生以来异常火爆&#xff0c; 很多人在网上吐槽程序员工作时间长&#xff0c;Python之父也为此伸张正义。 有人在网上抱怨资本家黑心&#xff0c;无情的压榨剥削员工。 各国都存在加班的现象&#xff0c;但似乎加班现象在中国最为严重。…

谷歌自动驾驶专利大曝光!

来源&#xff1a;智车科技摘要&#xff1a;本文仅针对其中自动驾驶汽车部分&#xff0c;说明自动驾驶的分级&#xff0c;再以Google为例&#xff0c;说明其发展的自动驾驶汽车和相关技术&#xff0c;分析及说明Google与自动驾驶汽车相关的发明专利及设计专利的布局&#xff0c;…

(Python代码)通过视差图获取图片中不同物体的高度比

1、原理 可以推出不同物体的高度比可以通过如下公式得到&#xff1a; 是左边指定物体的高度&#xff08;图片中尺寸&#xff09; 是右边指定物体的高度&#xff08;图片中尺寸&#xff09; 是左边指定物体的平均视差值 是右边指定物体的平均视差值 2、代码逻辑框图 3、代码详解…

一文读懂生物医学领域的传感器

来源&#xff1a;传感器技术摘要&#xff1a;生物医学传感器是生物医学科学和技术的尖兵&#xff0c;生物医学研究的正确结论有赖于生物医学传感器的正确测量。而传感器是一门十分综合的科学和技术。现代传感器的物理模型如图所示&#xff1a;对于传统被测量而言&#xff0c;敏…

训练数据的分布对F-measure, recall 和 precision的影响

1、 Precision, recall and F-measure&#xff08;f1-score&#xff09; 2、思路 数据集&#xff1a;手写数字集 从训练集中抽取数据&#xff0c;保证每种label的数量一致&#xff0c;使用SVM 或ANN模型训练新数据集。按照高斯分布抽取新数据&#xff0c; 再次使用SVM 或ANN模…

稀疏矩阵的压缩存储--十字链表(转载)

稀疏矩阵的压缩存储--十字链表&#xff08;转载&#xff09;<?xml version"1.0" encoding"UTF-8"?> 来自为知笔记(Wiz)转载于:https://www.cnblogs.com/ZhangJinkun/p/4531626.html

不可思议的数字:互联网每天到底能产生多少数据?

来源&#xff1a;资本实验室随着互联网、传感器&#xff0c;以及各种数字化终端设备的普及&#xff0c;一个万物互联的世界正在成型。同时&#xff0c;随着数据呈现出爆炸式的指数级增长&#xff0c;数字化已经成为构建现代社会的基础力量&#xff0c;并推动着我们走向一个深度…

任正非:华为5G芯片用在iPhone上?我持开放态度

来源&#xff1a;机器之心摘要&#xff1a;外媒最近频传的「华为同意卖5G基带给苹果」&#xff0c;让科技界的人们浮想联翩。刚刚&#xff0c;华为终于有了较为官方的回应&#xff1a;华为总裁任正非在接受CNBC的时候表示&#xff0c;华为对于出售5G芯片给苹果用于iPhone「持开…

阿里120页PPT诠释国家“智能+”战略

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&#xff0c;互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&#xff1b;开展互联网&#xff08;城市&#xff09;云…

边缘检测

1、边缘的特征 先看一张实物图和边缘图 边缘是图片中灰度变化最快的地方。下图清楚地显示了最简单的一种情况。既然找变化最快的地方&#xff0c;可以通过导数来求解边缘 2、图片的导数 一张数字图片F[x,y], 其x方向导数可定义为&#xff1a; 3、图片的梯度 3.1 图片的梯度相…

边缘计算: 与5G同行,开拓蓝海新市场

来源&#xff1a;中银国际摘要&#xff1a;随着日渐成熟的SDN/NFV、大数据、人工智能等技术&#xff0c;5G网络将成为各行业数字化转型的关键基础设施。边缘计算技术作为5G网络架构中核心的一环&#xff0c;顺随运营商边缘机房智能化改造的趋势&#xff0c;致力于解决5G网络对于…

图像重采样

图像重采样包含两种情形&#xff0c;一种是下采样&#xff08;downsampling&#xff09;&#xff0c;把图像变小&#xff1b;另一种是上采样&#xff08;upsampling)&#xff0c;把图像变大。 1、次级采样&#xff08;sub-sampling&#xff09; 每隔一个&#xff0c;扔掉行和…