强化学习大牛Sergey Levine新作:三个大模型教会机器人认路

8177fc7fc30725da7782f089a832d1e8.jpeg

来源:机器之心

内置大模型的机器人,在不看地图的情况下,学会了按照语言指令到达目的地,这项成果来自强化学习大牛 Sergey Levine 的新作。

给定一个目的地,在没有导航轨迹的情况下顺利到达,有多难?

e5894a4a713ba37cfbf837bf4abee51b.gif

对于方向感不好的人类来说,这个任务也是很有挑战性。但在最近的一项研究中,几位学者只用三个预训练模型就把机器人「教会了」。

我们都知道,机器人学习的核心挑战之一是使机器人能够按照人类的高级指令执行各种各样的任务。这就要求机器人能够理解人类的指令,并配备大量不同的动作,以便在现实世界中执行这些指令。

对于导航中的指令遵循任务来说,此前的工作主要集中在从带有文本指令注释的轨迹中学习。这样可能可以实现对文本指令的理解,但数据注释的成本问题阻碍了这种技术的广泛使用。另一方面,最近的工作表明,自监督训练的目标条件策略可以学习到稳健的导航。这些方法基于大型的、无标记的数据集,通过事后重新标记来训练基于视觉的控制器。这些方法具有可扩展性、通用性和稳健性,但通常需要使用基于位置或图像的笨重的目标规范机制。

在一篇最新的论文中,UC 伯克利、谷歌等机构的研究者旨在结合这两种方法的优势,使机器人导航的自监督系统能够适用于没有任何用户注释的导航数据,利用预训练模型的能力来执行自然语言指令。研究者使用这些模型来构建一个「界面」,用来向机器人传达任务。这个系统借助于预训练的语言和视觉 - 语言模型的概括能力,使机器人系统能够接受复杂的高级指令。

65b1adc6e20d75a37fdd389fbf853431.jpeg

  • 论文链接:https://arxiv.org/pdf/2207.04429.pdf

  • 代码链接:https://github.com/blazejosinski/lm_nav

研究者观察到,可以利用在视觉和语言数据集的大型语料库上训练的现成预训练模型(这些语料库广泛可用,并显示出零样本泛化能力)来创建界面,以实现具体的指令跟踪。为了实现这一点,研究者结合了视觉和语言的 robot-agnostic 预训练模型以及预训练导航模型的优点。具体而言,他们使用视觉导航模型(VNM:ViNG)来将机器人的视觉结果创建为环境的拓扑「心理地图」。给定自由形式的文本指令,使用预训练的大型语言模型(LLM:GPT-3)将指令解码为一系列文本形式的特征点。然后,使用视觉语言模型(VLM:CLIP)通过推断特征点和节点的联合似然概率来在拓扑图中建立这些文本特征点。之后使用一种新的搜索算法来最大化概率目标函数,并找到机器人的指令路径,然后由 VNM 执行。

研究的主要贡献在于大规模模型下的导航方法(LM Nav),一个具体的指令跟踪系统。它结合了三个大型的独立预训练模型——一个利用视觉观察和物理动作(VNM)的自监督机器人控制模型,一个将图像置于文本中但没有具体实施环境(VLM)的视觉语言模型,以及一个大型语言模型,该模型可以解析和翻译文本,但没有视觉基础或体现感(LLM),以便在复杂的真实环境中实现长视野指令跟踪。研究者首次将预训练的视觉和语言模型与目标条件控制器相结合的想法实例化,以在目标环境中不进行任何微调的情况下得出可操作的指令路径。值得注意的是,这三个模型都是在大规模数据集上训练的,具有自监督的目标函数,并且在没有微调的情况下现成使用 - 训练 LM Nav 不需要对机器人导航数据进行人工注释。

实验表明,LM Nav 能够在 100 米的复杂郊区导航过程中,在新环境中成功地遵循自然语言指令,同时使用细粒度命令消除路径歧义。

b2582e8209931fc786f515a350988700.jpeg

LM-Nav 模型概览

那么,研究者是如何利用预训练好的图像和语言模型,为视觉导航模型提供文本界面的?

13b72c19dec2c30631e16c81305c6b6b.jpeg

1、 给定目标环境中的一组观测值,使用目标条件距离函数,也就是视觉导航模型(VNM)的一部分,推断它们之间的连通性,并构建环境中连通性的拓扑图。

ced6f0c9ecf16476b8bd36b4a2ea647e.jpeg

2、大型语言模型(LLM)用于将自然语言指令解析为一连串的特征点,这些特征点可以作为导航的中间子目标。

23162f56145c2eaf3abe1f59141b5f9d.jpeg

3、视觉 - 语言模型(VLM)被用来在特征点短语上的基础上建立视觉观察结果。视觉 - 语言模型推断出一个关于特征点描述和图像的联合概率分布(形成上述图形中的节点)。

2c89f3cf4b76f9364b210ec31d7503e6.jpeg

4、利用 VLM 的概率分布和 VNM 推断的图连接性,采用一种新颖的搜索算法,在环境中检索出一个最优指令路径,该指令路径(i)满足原始指令,(ii)是图中能实现目标的最短的路径。

37da192b4dede3893c93973750e1eaca.jpeg

5、 然后,该指令路径由目标条件策略执行,该策略是 VNM 的一部分。

deee3b6f0fa59a3da8424073079b437c.jpeg

实验结果

定性评估

图 4 展示了机器人所走路径的一些实例(注意,机器人无法获得头顶上的图像和特征点的空间定位,所显示的只是视觉效果)。

185733eced5995ffd2ffcaafc51b92db.jpeg

在图 4(a) 中,LM-Nav 能够成功地从其先前的穿越中定位出简单的特征点,并找到一条通往目标的短路径。虽然环境中存在多个停车特征点,但公式 3 中的目标函数使机器人在上下文中选择正确的停车特征点,从而使整体行进距离最小。

图 4(b) 强调了 LM-Nav 解析有多个特征点的指定路线的能力—尽管在无视指令路径的情况下,直接到达最后的特征点是最短路线,但机器人仍然能找到了一条以正确顺序访问所有特征点的路径。

使用指令来消除歧义。由于 LM Nav 的目标是遵循指令,而不仅仅是达到最终目标,不同的指令可能导致不同的遍历。图 5 展示了修改指令可以消除目标的多条路径歧义的示例。对于较短的 prompt(蓝色),LM Nav 首选更直接的路径。在指定更细粒度的路线(洋红色)时,LM Nav 采用通过不同特征点集的备用路径。

c688c0f1f3e01e4fb1cfb8338040c946.jpeg

缺少特征点的情况。虽然 LM-Nav 能够有效地解析指令中的特征点,在图上对它们进行定位,并找到通往目标的路径,但这个流程依赖于这样的假设:特征点(i)存在于真实环境中,以及(ii)可以被 VLM 识别。图 4(c) 显示了这样一种情况:可执行的路径未能访问其中一个特征点—一个消防栓—于是采取了一条绕过建筑物顶部而不是底部的路径。这种失败案例是由于 VLM 无法从机器人的观察中发现消防栓。

在独立评估的 VLM 在检索特征点方面的功效时,研究者发现,尽管它是此类任务的最佳 off-the-shelf 模型,但 CLIP 无法检索少量的 「硬 」特征点,包括消防栓和水泥搅拌器。但是在许多实际情况下,机器人仍然能够成功地找到一条访问其余特征点的路径。

定量评估

表 1 总结了该系统在 20 条指令中的量化表现。在 85% 的实验中,LM-Nav 能够始终遵循指令,没有发生碰撞或脱离(平均每 6.4 公里的行进有一次干预)。与无导航模型的 baseline 相比,LM-Nav 在执行高效、无碰撞的目标路径方面一直表现得更好。在所有不成功的实验中,失败可归因于规划阶段的能力不足——搜索算法无法直观地定位图中的某些「硬」特征点—导致指令的不完整执行。对这些失败模式的调查表明,系统中最关键的部分是 VLM 检测不熟悉的特征点的能力,例如消防栓,以及在具有挑战性的照明条件下的场景,例如曝光不足的图像。

57385cf278edf6fb1ce564f6db7a428f.jpeg

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

68a7ccc1967ae74b30920bf5e7579bcb.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481785.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字化转型知识方法系列之五:数字化转型战略

数字化转型知识方法系列之五:数字化转型战略 人工智能技术与咨询 一、数字化转型是信息时代企业级核心战略 新一轮科技革命和产业变革迅猛发展,企业发展环境日益复杂多变,机遇挑战并存。全球经济从增量发展转向存量竞争,资源…

再发:迄今为止 脑网络结构功能模块元素 最全面复杂清晰 类芯片多图及分解...

来源:CreateAMind从工程的角度来看,大脑皮层是一个六层电路卡,由晶体管和逻辑门组成,其密度是我们最紧凑的微处理器(Apple A8)的五倍。然后它被智能折叠起来以适应更小的空间,同时还减少了相互连…

量子计算机研究进展

量子计算机研究进展 人工智能技术与咨询 来自《南京邮电大学学报(自然科学版)》,作者郭光灿等 摘要:量子计算机是未来量子技术时代最具颠覆性的技术,文中将以量子计算机的诞生、工作原理和在世界范围内的发展现状为主要阐述内容。目前阶段…

意识理论综述:众多竞争的意识理论如何相互关联?(干货)

来源:集智俱乐部 作者:Anil K. Seth & Tim Bayne译者:李路凯、陈斯信编辑:邓一雪导语意识和底层的神经活动之间如何联系起来?试图解释这一问题的意识理论层出不穷。然而,随着实验数据积累,众…

数字化转型知识方法系列之三:以价值效益为导向推进数字化转型的五大重点任务

数字化转型知识方法系列之三:以价值效益为导向推进数字化转型的五大重点任务 人工智能技术与咨询 一、数字化转型应围绕价值效益系统性推进 新一轮科技革命和产业变革迅猛发展,世界正处在一个从工业时代向信息时代加速转型的大变革时代。全球物质经济发…

笛卡尔与人工智能:“我思故我在”作为智能测试标准的可能性

来源:科学经济社会本文载于《科学经济社会》2022年第40卷第3期第38~55页作者简介:张伟特,海德堡大学哲学博士,清华大学新雅书院/哲学系助理教授,博士生导师,仲英青年学者,主要从事西方近代哲学&…

DeepMind 新作:AI 系统实现以人为中心的分配机制设计

来源:集智俱乐部作者:高晋宇编辑:邓一雪导语如何在经济和社会系统中重新分配资源?例如,一群人决定集中资金进行投资,获得回报后该如何分配收益?简单的平均分配看起来不太公平,但按照…

多Agent 深度强化学习综述

多Agent 深度强化学习综述 人工智能技术与咨询 来源:《自动化学报》,作者梁星星等 摘 要 近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能…

Science揭露奠基研究最大骗局:被引2300多次,重量级造假论文误导学界16年

来源:新智元谁能想到,一篇被引2300多次的Nature论文,竟涉嫌造假!更严重的是,这篇开创性论文竟误导了全世界阿尔茨海默病研究长达16年。一篇被引2300多次的Nature论文,竟涉嫌造假。影响有多恶劣?…

元学习研究综述

元学习研究综述 人工智能技术与咨询 来源:《电信科学》,作者朱应钊等 摘要 深度学习和强化学习严重受限于小样本数据集,容易发生过拟合,无法实现类似于人类强泛化性的学习能力。元学习为此应运而生,以累积经验的方…

【院士思维】张亚勤:我们正在让自动驾驶变成现实

来源:贝德尔的ICT世界7月19日,IEEE 2022网络、计算机和通信国际研讨会(ISNCC2022)首次落地中国,围绕“Touch the Future数字未来之路”主题,来自中国、美国、英国、意大利、法国、突尼斯、印度、日本、俄罗…

基于Grad-CAM与KL损失的SSD目标检测算法

基于Grad-CAM与KL损失的SSD目标检测算法 人工智能技术与咨询 来源:《电子学报》,作者侯庆山等 摘 要: 鉴于Single Shot Multibox Detector (SSD)算法对中小目标检测时会出现漏检甚至错检的情况,提出一种改进的SSD目标检测算法&…

图灵奖得主 Adi Shamir最新理论,揭秘对抗性样本奥秘

来源: 智源社区导读:为什么模型会将「猫」识别成「牛油果酱」,将「猪」识别成「飞机」?要回答这个问题,就涉及到对抗性样本(Adversarial examples)。对抗性样本指在原始样本添加一些人眼无法察觉…

基于多视角融合的夜间无人车三维目标检测

基于多视角融合的夜间无人车三维目标检测 人工智能技术与咨询 来源:《应用光学》,作者王宇岚等 摘 要:为了提高无人车在夜间情况下对周围环境的物体识别能力,提出一种基于多视角通道融合网络的无人车夜间三维目标检测方法。引入…

清华邓志东:城市智能路网新基建催生路端世界级企业

2022年7月16日,中国指挥与控制学会(CICC)城市大脑专业委会在北京正式成立。在成立大会上也举办了城市大脑前沿学术研讨会,新当选的专委会顾问、主任委员、副主任委员发表了最新研究成果和观点,对城市大脑的未来发展进行…

机器学习的可解释性

机器学习的可解释性 人工智能技术与咨询 来源:《计算机研究与发展》,作者陈珂锐等 摘 要 近年来,机器学习发展迅速,尤其是深度学习在图像、声音、自然语言处理等领域取得卓越成效.机器学习算法的表示能力大幅度提高&#xff0c…

对话加拿大工程院于非院士:寻找 AI 领域的「香农定理」

来源:AI科技评论作者:黄楠、青暮编辑:陈彩娴我相信智能是一种自然现象,就像岩石滚动和冰雪融化般自然的现象。——摘自于非著作《智能简史——从大爆炸到元宇宙》。当科学家把一些菟丝子移植到几株营养状态不同的山楂树上时&#…

工业人工智能及应用研究现状及展望

工业人工智能及应用研究现状及展望 人工智能技术与咨询 来源:《自动化学报》,作者李杰等 摘 要 工业4.0 将工业制造流程以及产品质量优化从以前依照经验和观察进行判断转变为以事实为基础,通过分析数据进而挖掘潜在价值的完整智能系统.人工智能技术的…

机器学习理论基础炼丹总结

来源:Datawhale机器学习发展迅猛,但对理论知识的理解却跟不上?本文将给出一名数据科学家的反思,他通过效用矩阵梳理了模型的实验结果和基础理论的关系,并探讨机器学习各个子领域的进展。引入知其然,知其所以…

基于改进SSD的车辆小目标检测方法

基于改进SSD的车辆小目标检测方法 人工智能技术与咨询 来源:《应用光学》,作者李小宁等 摘 要:地面车辆目标检测问题中由于目标尺寸较小,目标外观信息较少,且易受背景干扰等的原因,较难精确检测到目标。…