Google DeepMind推出DemoStart自主强化学习方法 利用少量示范样本实现复杂操作任务

一直以来,研究人员都在试图开发出能够在现实环境中安全、高效地执行复杂任务(如多指手操作)的机器人技能。传统的机器人学习方法往往需要大量的实际数据,这不仅耗时耗力,还存在安全风险。因此,仿真环境下的学习并结合后续的仿真到现实(sim-to-real)迁移成为了一个有效的替代方案。 已关注 关注 重播 分享 赞 关闭观看更多更多退出全屏切换到竖屏全屏退出全屏CAAI认知系统与信息处理专委会已关注分享视频,时长04:300/000:00/04:30 切换到横屏模式 继续播放进度条,百分之0播放00:00/04:3004:30全屏 倍速播放中 0.5倍 0.75倍 1.0倍 1.5倍 2.0倍 超清 流畅 您的浏览器不支持 video 标签 继续观看 Google DeepMind推出DemoStart自主强化学习方法 利用少量示范样本实现复杂操作任务 观看更多转载,Google DeepMind推出DemoStart自主强化学习方法 利用少量示范样本实现复杂操作任务CAAI认知系统与信息处理专委会已关注分享点赞在看已同步到看一看写下你的评论 视频详情
近日,谷歌DeepMind团队提出了一种名为DemoStart的新型自主强化学习方法,该方法能够在只有少量示范和稀疏奖励的情况下,让装备有机械手臂的机器人在仿真环境中学习复杂的操作技能,并成功实现了零样本的仿真到现实迁移。
▍Google DeepMind推出DemoStart技术
DemoStart方法是一种结合了示范引导与稀疏奖励的强化学习框架,目的是通过自动化课程设计,提高机器人在仿真环境中的操作技能学习效率,并最终实现这些技能从仿真到现实的零样本迁移。该方法的核心在于通过少量且可能不完全优化的示范来指导强化学习算法的探索过程,从而找到解决复杂操作任务的有效策略。
DemoStart从20个模拟演示开始 生成了强化学习教程
在这里插入图片描述

研究人员表示,DemoStart方法首先利用提供的示范数据,将示范中的每个状态转换为一系列不同难度的任务参数(TP)。这些任务参数在后续强化学习过程中作为学习的起点,通过动态调整学习任务的难度,引导策略逐步逼近最优解。与传统强化学习方法相比,DemoStart不需要复杂的奖励函数设计,仅需一个简单的稀疏奖励信号即可指导学习过程,大大降低了任务设计的难度和成本。
此外,DemoStart还通过一种称为零方差过滤(ZVF)的机制来优化学习过程。ZVF通过分析策略在当前任务参数下的表现稳定性,筛选出那些既能提供有效学习信号又不会导致训练过程陷入局部最优的任务参数。这种机制有助于策略在保持一定探索性的同时,稳步提高性能。
在这里插入图片描述

在实现过程中,DemoStart采用了一种分布式行动者-学习者架构,其中行动者在仿真环境中执行策略并收集经验数据,而学习者则根据这些数据进行策略更新。为了实现仿真到现实的迁移,DemoStart还引入了一种策略蒸馏技术,将基于仿真特征的策略转换为基于视觉的策略,从而使得训练出的策略能够在真实环境中执行。
▍DemoStart技术集成三个关键机制
研究人员表示,DemoStart技术集成了三个关键机制,分别为示范引导的任务参数化、零方差过滤的优化选择与策略蒸馏的视觉迁移。
具体来看,DemoStart方法能够利用示范数据来生成一系列不同难度的任务参数(TP)。在仿真环境中,通过记录并保存示范过程中每个时间步的环境状态,可以生成多个起始状态作为任务参数。这些起始状态分布在示范的不同位置,从而构成了一个从易到难的任务序列。
在这里插入图片描述

通过将这些任务参数作为强化学习的起点,DemoStart能够逐步引导策略从简单的任务开始学习,逐渐挑战更复杂的任务,最终实现复杂操作技能的掌握。
另一个关键机制是零方差过滤(ZVF),它通过对任务参数进行筛选,优化学习过程中的经验数据选择。ZVF机制通过分析策略在当前任务参数下的表现稳定性,即策略在某些任务参数下是否有时成功有时失败,来识别出那些既不过于简单也不过于困难的任务参数。这些任务参数能够提供有效的学习信号,帮助策略在保持探索性的同时稳步提高性能。通过丢弃那些成功率始终为0或1的任务参数,ZVF避免了策略陷入局部最优或无法获得学习信号的情况,从而提高了学习效率。
在这里插入图片描述

为了实现从仿真到现实的零样本迁移,DemoStart引入了策略蒸馏技术。在仿真环境中,首先训练一个基于特征的策略,该策略能够高效地完成各种操作任务。然后,通过策略蒸馏过程,将这个基于特征的策略转换为一个基于视觉的策略。
蒸馏过程中,利用行为克隆方法从教师策略(基于特征的策略)生成的数据中学习一个学生策略(基于视觉的策略),使得学生策略能够仅依靠视觉输入和机器人本体感觉信息来执行操作任务。这种转换不仅保留了教师策略的高效性,还使得策略能够在真实环境中运行,因为真实环境中的机器人通常只能通过视觉和本体感觉来获取环境信息。通过策略蒸馏,DemoStart实现了从仿真到现实的平滑迁移,为机器人在现实中的应用提供了可能。
▍DemoStart方法实现细节解析
DemoStart方法采用分布式行动者-学习者架构来实现高效的数据收集和策略更新。在架构中,多个行动者并行运行在仿真环境中,每个行动者负责执行当前策略并收集经验数据。收集到的经验数据被发送到中心化的学习者,学习者根据这些数据来更新策略。
实验设置:模拟(顶部)和真实(底部)机器人环境和任务在这里插入图片描述

这种架构的优势在于能够充分利用多核处理器的计算能力,加速数据收集和策略更新的速度。同时,由于行动者和学习者之间的解耦,使得系统更加灵活和可扩展,可以根据需要增加或减少行动者的数量来调整系统性能。
训练分布从演示的结束转移到演示的开始在这里插入图片描述

在策略蒸馏阶段,为了训练基于视觉的策略,需要从基于特征的策略中生成大量的训练数据。这些数据通常以轨迹的形式存在,每条轨迹包含一系列状态、动作和奖励信息。
在这里插入图片描述

为了确保蒸馏过程的稳定性和高效性,DemoStart方法对训练数据进行了一系列预处理。首先,从基于特征的策略中筛选出成功的轨迹,这些轨迹代表了策略在不同任务参数下的有效行为。然后,对每条轨迹进行标注,标记出每个时间步的视觉输入、本体感觉信息和相应的动作。最后,将这些标注好的轨迹组合成训练数据集,用于训练基于视觉的策略。
拾取放置成功率随情节持续时间而变化
在这里插入图片描述

在训练基于视觉的策略时,DemoStart方法利用多个相机来捕捉环境的视觉信息。这些相机被固定在机器人周围的不同位置,以确保能够全面覆盖机器人的工作空间。为了处理来自多个相机的视觉输入,DemoStart采用了一种多模态编码方法,将每个相机的图像输入到独立的卷积神经网络中进行特征提取。然后,将提取到的特征向量进行拼接和融合,作为视觉策略的输入。
此外,为了进一步提高策略的鲁棒性和适应性,DemoStart还引入了域随机化技术来模拟不同光照条件、相机视角和物体外观的变化。通过在训练过程中不断变化这些视觉因素,使得策略能够学习到更加泛化的视觉表示,从而更好地适应真实环境中的各种不确定性。
▍实测DemoStart在三指机械手上的任务执行能力在这里插入图片描述

为了验证DemoStart方法的有效性,研究人员在配备有三指机械手(DEX-EE Hand)的Kuka LBR iiwa14机器人上进行测试,真实环境中的设置被精确复制到仿真环境中,使用MuJoCo物理引擎进行模拟。机器人需要完成的任务包括插头提升、插头插入、立方体定向、螺母螺栓螺纹连接以及螺丝刀放入杯子等。
在这里插入图片描述

在这里插入图片描述

在仿真环境中,DemoStart在多个任务上均取得了超过98%的成功率,远超基于示范直接学习的策略。与标准的强化学习基线相比,DemoStart仅使用极少量的示范就达到了出色的性能,显示出其高效的学习能力。
在这里插入图片描述

在插头插入任务中,DemoStart方法通过少量示范和稀疏奖励,成功引导策略学习到了高效的插头插入行为。策略不仅学会了如何准确地定位和插入插头,还能够在面对不同初始状态时表现出良好的泛化能力。在实验过程中,研究人员观察到策略逐渐从依赖示范行为转变为发现更加高效和鲁棒的操作方式,充分证明了DemoStart方法在强化学习过程中的探索和优化能力。
在这里插入图片描述

为了进一步验证DemoStart方法的仿真到现实迁移能力,研究人员将训练好的策略通过策略蒸馏技术转换为基于视觉的策略,并在真实机器人上进行了测试。实验结果显示,经过蒸馏的策略在真实环境中依然保持了较高的成功率,特别是在插头插入和插头提升任务中,成功率分别达到了64%和97%,显著优于仅依赖示范学习的方法。
在这里插入图片描述

此外研究人员还对DemoStart方法进行了详细的消融实验,以分析不同机制对性能的影响。结果显示,零方差过滤机制在提升策略性能和稳定性方面发挥了关键作用,而策略蒸馏技术则是实现仿真到现实迁移的核心。通过结合这些机制,DemoStart方法成功地实现了在少量数据和稀疏奖励条件下的高效强化学习,为机器人操作技能的自动化学习提供了一种新的解决方案。
▍结语与未来:
DemoStart是一种创新的自主强化学习方法,能够在只有少量示范和稀疏奖励的情况下训练出高性能的机器人操作技能,并实现零样本的仿真到现实迁移,该方法不仅简化了任务设计过程,还有效提高了学习效率。随着未来研究的不断推进,DemoStart有望在更多复杂机器人操作任务中发挥重要作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/57460.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Netty简单应用

1.服务端构建 接收客户端请求,打印请求消息;消息采用内置String作为编码与解码器;开启信息输入监听线程,发送消息至客户端; 1.1 服务端消息处理类 import io.netty.channel.Channel; import io.netty.channel.Chann…

双十一好物必买清单攻略,这几款双十一必入的宝藏好物分享

随着双十一购物节的脚步日益临近,无数消费者都在期待着在这个年度大促中抢购到自己心仪已久的好物,为了帮助大家更好地规划购物计划,精选出真正值得入手的宝藏产品,我们特别整理了这份双十一好物必买清单攻略,无论你是…

spring day1023

ok了家人们,今天继续学习spring框架, 七.Spring的注解开发 在开发中,配置文件中 Bean 标签会非常多,难以维护。怎么 办? 使用注解的形式替代 xml 配置,可以将一些繁杂的 spring 配置 从工程中消除掉&…

业余时间试一试利用AI 人工智能赚钱

内容创作与写作: 撰写文章:许多网站、博客和企业都需要大量的优质内容。利用 AI 工具如 ChatGPT 等,获取文章的思路、框架甚至初稿,然后根据自己的知识和经验进行修改、润色和完善。你可以在一些自由撰稿人平台、内容创作平台上承…

智能园艺:Spring Boot植物健康系统

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理植物健康系统的相关信息成为必然。开发合适…

es索引库操作和使用RestHignLevelClient客户端操作es

目录 es索引库操作 mapping映射操作 索引库的CURD操作 1.创建索引库和映射 ​编辑 2.查询索引库 3.删除索引库 4.修改索引库 5.总结 文档的CURD操作 1.新增文档 2.查询文档 3.删除文档 4.修改文档 全量修改 增量修改 5.总结 RestAPI 使用API例子 需要的数…

一文掌握异步web框架FastAPI(五)-- 中间件(测试环境、访问速率限制、请求体解析、自定义认证、重试机制、请求频率统计、路径重写)

接上篇:一文掌握异步web框架FastAPI(四)-CSDN博客 目录 七、中间件 15、测试环境中间件 16、访问速率限制中间件,即限制每个IP特定时间内的请求数(基于内存,生产上要使用数据库) 1)限制单ip访问速率 2)增加限制单ip并发(跟上面的一样,也是限制每个IP特定时间内的请…

大模型算法二次开发,基本思路详细拆解

[ 导读 随着众多大模型相继问世,大模型二次开发、大模型微调成为一项热门技术。本文为大家总结了大模型二次开发的基本方法与思路,希望对大家有所帮助。 开发方法分类 1、领域知识注入:Continue PreTraining(增量预训练),一般垂直大模型是…

(STM32笔记)十二、DMA的基础知识与用法

我用的是正点的STM32F103来进行学习,板子和教程是野火的指南者。 之后的这个系列笔记开头未标明的话,用的也是这个板子和教程。 DMA的基础知识与用法 一、DMA功能框图1、DMA请求2、通道3、仲裁器 二、DMA传输设置1、数据来源与数据去向外设到存储器存储器…

Lua环境安装

软考鸭微信小程序 学软考,来软考鸭! 提供软考免费软考讲解视频、题库、软考试题、软考模考、软考查分、软考咨询等服务 Lua是一种轻量级、小巧且易于嵌入应用程序的脚本语言,广泛用于游戏开发、Web开发、自动化脚本等领域。本文将详细介绍如何在不同操作系统上安装L…

蓝桥杯注意事项

蓝桥杯注意事项 比赛注意事项 能暴力枚举就暴力枚举,能用简单的思路做就尽量用简单的思路做。认真审核题目的题意和输入输出的要求,避免因为误解题意而导致题目错误。对于提供多组测试样例或者需要对一个过程重复进行循环的代码,要时刻记住…

六大设计原则之一——单一职责原则

单一职责原则 面向对象三大特性之一的 封装 指的就是将单一事物抽象出来组合成一个类,所以我们在设计类的时候每个类中处理的是单一事物而不是某些事物的集合。 设计模式中所谓的 单一职责原则(Single Responsibility Principle - SRP),就是对一个类而…

autMan奥特曼机器人-实时翻译的用法

一、基本配置 访问并登录百度翻译开放平台:https://api.fanyi.baidu.com/ 进入开发者信息获取 APP ID和密钥,并开通“通用文本翻译”服务 autMan应用市场->我的->找到“实时翻译”插件安装后去点击“配参” 二、使用示例 假如你和一个俄国人聊…

C程序设计语言精髓 单向链表

目录 单向链表---定义 单向链表---建立 单向链表---删除 单向链表---插入​ 单向链表---输出​ 单向链表---定义 单向链表---建立 单向链表---删除 单向链表---插入 单向链表---输出

Visual Studio安装图文详解教程

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl 教程说明 本教程旨在详细介绍 Visual Studio 社区版的安装过程及其注意事项。 Visual Studio简介 Visual Studio 社区版功能完备且可扩展的免费 IDE,可用于创…

【通俗理解】Neurosymbolic AI——融合神经网络与符号推理的智慧之力

【通俗理解】Neurosymbolic AI——融合神经网络与符号推理的智慧之力 关键词提炼 #Neurosymbolic AI #神经网络 #符号推理 #感知能力 #逻辑能力 #认知水平 #智慧与力量 第一节:Neurosymbolic AI的类比与核心概念 Neurosymbolic AI就像是给神经网络这位“大力士”…

神策数据客户旅程 GPT:以 AI 驱动客户旅程及埋点落地

数据驱动时代,随着 AI 在数据处理及分析方面的能力日渐强大,将二者结合,可以帮助企业效能提升,获取更多商业价值。 我们在 AI 大模型探索过程中发现,产品经理、技术人员、市场营销人员以及需要数据驱动决策的团队&…

基于opencv的人脸闭眼识别疲劳监测

1. 项目简介 本项目旨在实现基于眼部特征的眨眼检测,通过监测眼睛开闭状态来计算眨眼次数,从而应用于疲劳监测、注意力检测等场景。使用了面部特征点检测算法,以及眼部特征比率(EAR, Eye Aspect Ratio)来判断眼睛的闭…

可观测日北京|观测云:可观测性需要做到“三个一”

2024年10月,备受期待的中国可观测日「北京站」圆满落幕。本次活动汇聚了来自云计算、技术创新等领域的专家,探讨了探讨了可观测性在云计算和数字化转型中扮演的角色。观测云也在活动展示了作为可观测性行业领袖的技术力和创新力。 观测云技术亮点&#…

python画图|坐标轴显隐设置

【1】引言 前序学习中,已经发现坐标轴的显示具有至关重要的影响,因此今天继续探索相关技巧:坐标轴显隐设置。 前序学习内容可通过下述链接直达: python画图| 对齐图名和标签-CSDN博客 【2】官网教程 点击下方链接可以直达官网…