当世界模型被用于sim2real:机器人通过视觉想象和交互尝试来学习

74ed4a74ec549f34b7e053dc97f19252.png

来源:AI科技评论 

编译:杏花

编辑:青暮

人类是如何掌握这么多技能的呢?好吧,最初我们并非如此,但从婴儿时期开始,我们通过自监督发觉并练习越来越复杂的技能。但这种自监督并不是随机的——儿童发展文献表明,婴儿利用他们先前的经验,通过互动和感官反馈,对移动性、吸吮性、抓握性和消化性等可供性(affordance,也译作功能可供性、承担特质、直观功能、预设用途、可操作暗示、示能性等,指事物能够提示其可以帮助人们做什么的一种属性或特征)进行定向探索。这种类型的定向探索允许婴儿在既定环境中学习可以做什么以及如何做。那么,在机器人学习系统中,我们是否也可以实例一个类似于可供性定向探索的策略?

2503a130880029b91a0cad2835faa4b0.gif

如下图所示。在左侧,我们先收集了由机器人完成各种任务的视频,比如打开和关闭抽屉、抓取和移动物体。在右侧,我们放置了一个机器人从未见过的盖子。机器人被给予一小段时间来熟悉这个新物体,之后它将获得一个目标图像,并负责使场景匹配这个图像。机器人如何在没有任何外部监督的情况下迅速学会操控环境并抓住盖子?

c23e965c82c2eb84d8e06b30f7fa4b2f.gif

为此,我们面临几项挑战。当机器人被置于一个新环境时,它必须能够利用其先前的知识来思考环境可能提供的潜在有用行为。然后,机器人必须能够实际地练习这些行为。为了在新的环境中改进自己,机器人必须能够在没有外部奖励的情况下以某种方式评估自己的成功。

如果我们能可靠地战胜这些挑战,就能为一个强有力的循环打开大门。在这个循环中,我们的智能体使用先前的经验来收集高质量的交互数据,然后进一步增长它们以往的经验,不断提高它们的潜在效用!

1

VAL:视觉运动可供性学习

我们的方法,视觉运动可供性学习(Visuomotor Affordance Learning,简称VAL),解决了这些挑战。在VAL中,我们首先假设可以获得机器人在各种环境中展示可供性的先验数据集。至此,VAL进入了一个离线阶段,该阶段使用这些信息学习 1)想象新环境中有用的可供性生成模型,2) 用于有效探索这些可供性的强大离线策略,以及 3) 改进该策略的自我评估度量。最后,VAL已准备好进入在线阶段。智能体被放置在一个新的环境中,现在可以使用这些学到的功能来进行自监督的微调。整个框架如下图所示。随后,我们将深入探讨离线和在线阶段的技术细节。

0330a8d86e3186d46fbe3676f90e4274.gif

2

VAL:离线阶段

给定一个展示各种环境可供性的先验数据集,VAL在三个离线步骤中消化这些信息:用于处理高维真实世界数据的表示学习,在未知环境中实现自监督练习的可供性学习,用于获得高性能的初始策略以加快在线学习效率的行为学习。

1. 首先,VAL使用矢量量化变分自动编码器(VQVAE)学习该数据的低维表示。这个过程将我们的48x48x3图像压缩到144维的潜在空间。

02e293780d558d2f7cf5ad414d6694e3.png

在这个潜在空间的距离是有意义的,为我们自我评价成功的关键机制铺平了道路。给定当前图像s和目标图像g,我们将它们编码进潜在空间,并设定它们可以获得奖励的距离阈值。

随后,我们还将使用这个表示作为我们潜在空间的策略和Q函数。

2.接下来,VAL 通过在潜在空间中训练 PixelCNN 来学习可供性模型,以学习以环境图像为条件的可达状态分布。这是通过最大化数据的似然 p(sn|s0) 来完成的。我们使用这种可供性模型进行定向探索和重新标记目标。

fb2da197e7d1b3ae2130b89330340c1f.gif

可供性模型如右图所示。在该图的左下方,我们看到条件图像包含一个罐子,右上方解码的潜在目标显示了不同位置的盖子。这些连贯的目标将允许机器人进行连贯的探索。

3. 最后在离线阶段,VAL必须从离线数据中学习行为,然后可以通过额外的在线交互式数据收集进行改进。

247416395b6eb2ca627215c9b7c5c1bd.png

为了实现这一点,我们使用加权强化学习算法(Advantage Weighted Actor Critic)在先验数据集上训练目标条件策略,这是一种专为离线训练和在线微调而设计的算法。

3

VAL:在线阶段

现在,当VAL被放置在一个未见过的环境中时,它使用其先前的知识来想象有用可供性的视觉表示,通过尝试实现这些可供性来收集有用的交互数据,使用其自我评估指标更新其参数,并一直重复整个过程。

151679b630051c388c22c30816312745.gif

在这个真实的例子中,在左侧我们看到了环境的初始状态,它提供了打开抽屉和其他任务的功能。

在步骤1中,可供性模型对潜在目标进行采样。通过解码目标(使用 VQVAE 解码器,在RL期间从未实际使用过,因为我们完全在潜在空间中操作),我们可以看到可供性是打开抽屉。

在步骤2中,我们使用具有采样目标的训练策略。我们看到它成功打开了抽屉,实际上它拉太大力了,直接把抽屉拉了出来。但这为RL算法进一步微调和完善其策略提供了极其有用的交互。

在线微调完成后,我们现在可以评估机器人在每个环境中实现相应的未见过的目标图像的能力。

4

真实环境评估

我们在五个真实的测试环境中评估我们的方法,并评估VAL在无监督微调之前和五分钟之后完成环境提供的特定任务的能力。

每个测试环境至少包含一个未见过的交互对象和两个随机抽样的干扰对象。例如,当训练数据中有打开和关闭抽屉时,新的抽屉有没见过的把手。

8e56e389da408bd0778c54061931d1db.png

每个测试,我们都从离线训练策略开始,它每次完成任务的方式都不一致。然后,我们使用我们的可供性模型收集更多经验来采样目标。最后,我们评估经过微调的策略,它能始终一致地完成任务。

4bab706fd4619b6012e6d5df73957791.gif

我们发现,在这些环境中,VAL在离线训练后始终显示出有效的零样本泛化,随后通过其可供性导向的微调方案快速改进。与此同时,先前的自监督方法在这些新环境中几乎没有改善。这些令人兴奋的结果表明,像VAL这样的方法具有使机器人成功操纵的潜力,远远超出它们现在习惯的有限的出厂设置。

我们的2,500个高质量机器人交互轨迹数据集,涵盖20个抽屉把手,20个锅把手,60个玩具和60个干扰物,现已在我们的网站上公开发布。

数据集地址:https://sites.google.com/view/val-rl/datasets

5

模拟评估与代码

为了进一步分析,我们在具有视觉和动态变化的程序生成的多任务环境中运行 VAL。场景中的对象以及它们的颜色和位置都是随机的。媒介可以用把手打开抽屉、抓取物体并移动它们、按按钮打开隔间等等。

给定机器人一个包含各种环境的先验数据集,并根据其在以下测试环境中的微调能力进行评估。

同样,给定一个单一的非策略数据集,我们的方法可以快速学习高级操作技能,包括抓取物体、打开抽屉、移动物体,以及对各种新对象使用工具。

环境和算法代码均已公开,请查阅我我们的代码库。

52e51db35e4bad834d208bf760520d3d.gif

代码地址:https://github.com/anair13/rlkit/tree/master/examples/val

6

未来的工作

就像计算机视觉和自然语言处理等领域的深度学习是由大型数据集和泛化驱动的一样,机器人可能需要从类似规模的数据中学习。正因为如此,离线强化学习的改进对于使机器人能够利用大型先验数据集至关重要。此外,这些离线策略要么需要快速的非自主微调,要么需要完全自主的微调,以便在现实世界中部署是可行的。最后,一旦机器人独立运行,我们就能获得源源不断的新数据,这就强调了终身学习算法的重要性和价值。

原文链接:

https://bair.berkeley.edu/blog/2021/09/24/visual-affordances-robotics/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

c9bff4d23a60e273640a4c77bf40b7ab.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机网络复习】1.2.4 TCP/IP参考模型和5层参考模型

TCP/IP参考模型和5层参考模型一、OSI参考模型与TCP/IP参考模型二、5层参考模型一、OSI参考模型与TCP/IP参考模型 相同点: 1、都分层 2、基于独立的协议栈的概念 3、可以实现异构网络互联 不同点 1、OSI定义三点:服务、协议、接口 2、OSI先出现&…

量子物理学家:如果宇宙中所有物体突然消失,会剩下一个「空宇宙」吗?

文章来源:TNW如果量子物理学家能够证明现实世界的一切都是不真实的,会发生什么?你愿意接受这个假设吗?如果说,此时此刻你正在看的这篇文章,其实并不存在,你会不会觉得这句话是在胡说&#xff1f…

为什么数学的用途这么大?

来源:遇见数学翻译:萧福坤译自 Science Digest, August 1985原文:http://210.60.224.4/ct/content/1986/00050197/0008.htm我的父亲是一位物理学家,所以我从小耳濡目染,当他与同事讨论问题时,我坐在桌旁,「…

【计算机网络复习 物理层】2.1.2 数据通信基础知识

数据通信基础知识一、典型的数据通信模型二、数据通信相关术语三、三种通信方式四、两种数据传输方式一、典型的数据通信模型 二、数据通信相关术语 通信的目的是传送消息。 数据:传送信息的实体,通常是有意义的符号序列。 信号:数据的电气…

无线网络未来十年十大产业趋势

来源:华为编辑:蒲蒲5G的发展速度非常之快,截止2021年9月,全球已经部署了有176张5G商用网络,超过150万5G站点。5.2亿5G用户的感官体验,也迎来全面升级焕新:高清视频的时长占比提升到了80%;流行的短视频APP已…

git入门(廖雪峰老师)

根据廖雪峰老师的git教程进行学习总结; 1、之前上班用的都是svn进行管理,那么svn和git有什么区别呢? svn是集中式的版本控制系统,而git是分布式版本控制系统,那么集中式和分布式版本控制系统有什么区别呢? …

【计算机网络复习 物理层】2.1.3 码元、波特、速率、带宽

码元、波特、速率、带宽一、码元二、速率一、码元 码元是指用一个固定时长的信号波形(数字脉冲),代表不同离散值的基本波形,是数字通信中数字信号的计量单位,这个时长内的信号称为k进制码元,而该时长称为码…

智慧竞赛正在升温

来源:混沌巡洋舰原文:摘自 edge 系列图书 《那些最重要的科学新发现》迈克斯泰格马克(MaxTegmark):麻省理工学院物理系终身教授,平行宇宙理论研究专家,未来生命研究所创始人;著有《生命3.0》《穿越平行宇宙…

linux基础知识——CPU相关知识

1.CPU处理程序过程 \qquad在存储介质中,从下至上是进程的时间加载的先后顺序,也是存储空间大小的顺序。 2.MMU(内存管理单元) \qquadMMU是位于CPU内部的一个物理器件。在程序运行时,会产生进程,同时产生虚拟内存空间&#xff0c…

【计算机网络复习 物理层】2.1.4 奈氏准则和香农定理

奈氏准则和香农定理一、失真1.1 失真的一种现象 —— 码间串扰二、奈氏准则三、香农定理四、如何区分一、失真 影响失真程度的因素:1、码元传输速率 2、信号传输距离 3、噪声干扰 4、传输媒体质量 1.1 失真的一种现象 —— 码间串扰 码间串扰:接收端收到…

虚拟在左,真实在右:德国学者用AI合成一亿像素逼真3D图像,可任意旋转

来源:AI科技评论编译:杏花编辑:青暮近日,来自德国埃尔兰根-纽伦堡大学的学者提出了一种新颖的神经网络方法,用于3D图像的场景细化和新视图合成。只需要输入点云和相机参数的初始估计,就可以输出由任意相机角度合成的图像&#xff…

phpmyadmin登陆错误:The requested URL /phpmyadmin was not found on this serve

解决方法: 首先,重新安装apache2: sudo dpkg-reconfigure -plow phpmyadmin 配置时记得选择apache2 如果仍然无法登陆,再对phpmyadmin和apache服务器软链接 sudo ln -s /etc/phpmyadmin/apache.conf /etc/apache2/ssites-enabled/…

linux基础知识——环境变量

1.什么是环境变量? \qquad环境变量,即操作系统中的一些可以设置的参数,用于设置操作系统运行环境。 2.环境变量的特征 \qquad本质就是字符串; \qquad有统一的格式:名值[:值] \qquad值用来描述进程环境信息。 3.常用的…

【计算机网络复习 物理层】2.1.5 编码与调制

编码与调制一、基带信号与宽带信号二、编码与调制三、数字数据编码为数据信号一、基带信号与宽带信号 信道:信号的传输媒介。一般用来表示向某一个方向传送信息的介质,因此一条通信线路往往包含一条发送信道和一条接收信道。 按照传输信号分&#xff1…

MLOps是构建在一个谎言上的吗?

来源:AI前线作者:Mateusz Kwaśniak译者:王强策划:刘燕在一些 MLOps 项目的背景介绍中,都会提及“87% 的数据科学项目以失败告终”的论点。这个数据具体出自何处,是否准确测定?本文作者通过相关…

Intel格式与Motorola格式的区别

Intel低字节在前Motorola高字节在前 在进行CAN总线通信设计或者测试过程中,经常看到CAN总线信号的编码格式有两种定义:Intel格式与Motorola格式。究竟两种编码格式有什么样的区别呢?设计者、dbc文件编辑者或者测试人员又该如何判断两种格式,并进行有效正…

【计算机网络复习 物理层】2.2 物理传输介质

物理传输介质一、传输介质及分类1.1 导向性传输介质1.1.1 双绞线1.1.2 同轴电缆1.1.3 光纤1.2 非导向性传输介质一、传输介质及分类 传输介质也称为传输媒体/传输媒介,它就是数据传输系统中在发送设备和接收设备之间的物理通路。 **传输介质并不是物理层。**传输介…

前沿科技 | 中科院科学家在关于运动规划的环路机制研究方面获进展

来源:中国科学院网站今年5月11日,Nature Communications在线发表了题为《皮层上丘环路在记忆依赖感知决策任务中的作用机制》的研究论文,该研究由中国科学院科学家团队——脑科学与智能技术卓越创新中心(神经科学研究所&#xff0…

MyCP(课下作业,必做)

选做题目以及分析 题目:编写MyCP.java 实现类似Linux下cp XXX1 XXX2的功能,要求MyCP支持两个参数: java MyCP -tx XXX1.txt XXX2.bin 用来把文本文件(内容为十进制数字)转化为二进制文件java MyCP -xt XXX1.bin XXX2.t…

一文讲解单片机、ARM、MCU、DSP、FPGA、嵌入式错综复杂的关系!

来源: ittbank首先,“嵌入式”这是个概念,准确的定义没有,各个书上都有各自的定义。但是主要思想是一样的,就是相比较PC机这种通用系统来说,嵌入式系统是个专用系统,结构精简,在硬件和软件上都只…