具身智能controller---RT-1(Robotics Transformer)(中---实验介绍)

6 实验

实验目的是验证以下几个问题:

  1. RT-1可以学习大规模指令数据,并且可以在新任务、对象和环境上实现zero-shot的泛化能力?
  2. 训练好的模型可以进一步混合多种其他数据(比如仿真数据和来自其他机器人的数据)吗?
  3. 多种方法如何对long-horizon的机器人场景实现泛化?
  4. 泛化度量如何随着数据数量和数据多样性变化?
  5. 在设计模型方面重要和实践的决策应该是什么?他们又将如何影响性能和泛化性?

6.1 实验设置

机器人环境
机器人训练数据的采集是在一个环境下的,示教共13个机器人采集,然后会放在另外两个不同的环境中进行验证。
Seen task performance:即在训练过的任务上来评测,但这类数据也存在一定的变化(如机器人位置,物体位置不同等),一共测试了超过200个任务: 36物体抓取任务, 35敲击物体的任务, 35摆放物体的任务,48个移动物体的操作,18个开关不同抽屉的任务和36个从抽屉中取出或者放置物体的任务;
Unseen tasks generalization:在21个未见的指令任务上进行了测试,这里的未见是指组合任务未见,但拆分的动作和目标对象是见过的;
Robustness:进行了30个任务对错误诱导的鲁棒性验证实验和22个背景鲁棒性验证实验,如下图所示:
干扰Long-horizon scenarios: 测试了机器人需要执行一些列技能的场景,在两个厨房场景中测试了15个这样的任务,每个任务需要约10个步骤,这些步骤由Saycan系统根据高层指令自动产生,然后由RT-1执行。

数据
本工作的目标是建立一个高性能机器人控制系统,,对新任务具有一定的通用性,并对背景和干扰选项具有鲁棒性,因此需要采集大量的机器人数据集,包括多任务、对象和环境。原始数据集包含约130k机器人示教,在13个机器人上耗时17个月采集;当前的技能包括:抓取,放置,开关抽屉,从抽屉取放东西, 直立地放置细长东西,将他们锁住,抽出餐巾纸和打开瓶罐,同时技能的扩充是很容易的,随着需求扩增数据即可。
数据

6.2 RT-1是否可以学习大规模指令数据,并且可以在新任务、对象和环境上实现zero-shot的泛化能力?

为回答这个问题,首先和先前的几个工作(Gato, BC-Z, BC-Z XL)进行对比比较,实验结果表明本方法具有更好的性能和泛化性;
为了进一步验证泛化能力,我们在厨房环境中进行实验,首先根据真实厨房环境与训练环境的差异,将其划分成L1-L3三个等级,L1表示对新的案台上面布局和不同光照条件的通用性,L2表示额外有未见过的诱导物体,L3表示额外有较大的新未见任务设置,未见物体或者未见位置,然后对比不同方法在这三种场景下的成功率。
实验对比泛化性

6.3 训练好的模型可以进一步混合多种其他数据(比如仿真数据和来自其他机器人的数据)吗?

设计了两大类实验:(1) RT-1同时在真实数据和仿真数据上进行训练和测试 (2) RT-1在大规模不同任务上机芯训练,这些数据来自不同机器人,实验结果如下:
sim+real使用多个机器人数据训练

6.4 多种方法如何对long-horizon的机器人场景实现泛化?

在Saycan的框架下验证RT-1在long-horizon任务上的泛化能力。另外因为移动操作任务同时需要导航和操作,因此策略对底盘位置的鲁棒性也很重要(底盘可能无法到达期望位置,这时机械臂需要一定的鲁棒性)。
long horizon任务

6.5 泛化度量如何随着数据数量和数据多样性变化?

此部分对数据集的大小和多样性进行消融实验,因为数据在传统数据受限的机器人学习中扮演着重要的作用。同时由于数据采集是很昂贵的,了解什么样的数据有助于模型实现特定性能和泛化性也是很重要的。
数据泛化性
数据增长

D4 模型消融实验:在设计模型方面重要和实践的决策应该是什么?他们又将如何影响性能和泛化性?

可能的性能提升猜想包括(i) 模型的容量和表征能力,可以通过消融模型大小和试用其他结构来验证(e.g., 移除Transformer部分); (ii)特定的动作表征, 可以使得表征复杂的多模态动作分别更容易,可以通过转向连续(正态分布)动作,或者自回归动作表征; (iii) ImageNet预训练权重初始化,可以通过随机初始化进行验证;(iv)短历史帧输入,可以通过减少观测历史来验证。更具体地,消融实验包括(1)减少模型大小(参数了从 35M 降低到 21M), (2) 移除Transformer结构 (使用一个预训练的EfficientNet), (3)使用连续的动作空间(使用MSE损失和 多变量正太分布输出(multivariate normal output)), (4) 自回归训练动作, (5)移除ImageNet的预训练权重初始化, and (6) 移除历史(将历史6帧观测减少到当前单帧)。
模型消融实验

7 结论,局限和未来工作

结论

  1. RT-1在超过700个指令任务上达到97%的成功率,同时对新任务,物体和环境具有比之前工作更好的泛化性;.
  2. RT-1可以成功吸收多种数据,来自仿真环境或者其他机器人,不会牺牲在原来任务上面的性能,同时改进了对新场景的泛化性;
  3. 展示了这种性能和通用性如何可以被应用到SayCan框架中执行最多可达50步的long-horizon任务。

局限

  1. RT-1是一种模仿学习的方法,因此也继承了该类方法的缺陷,如无法超越示教者的能力;
  2. 对未见新指令的泛化性来自于以前见过的概念组合,对完全未见的指令任务不具备泛化性;
  3. 我们的方法应用在大规模但并不灵巧的操作任务.

未来工作

  1. 通过开发允许非专家来训练机器人的方法来加快机器人技能的扩充;
  2. 当前RT-1对错误诱导的鲁棒性很好,其对背景和环境的鲁棒性可以通过增加环境的多样性来提升;已有工作见diffusion-rosie;
  3. 通过可扩展的注意力和记忆来提升反应速度和文本记忆。

个人见解
RT-1模型上最大的创新在于使用了Transformer网络,其架构上也方便进行scale,比如输出可以按需增加或者减少,同时足以容纳足够多的训练数据,另外就是用充足的实验证明了机器人利用模仿学习里的BC训练方法可以从大量数据中学习到较泛化的能力,突出了数据的重要性,指引了通用机器人的一个研发方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/15661.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

远程控制软件安全吗?一文看懂ToDesk、RayLink、TeamViewer、Splashtop相关安全机制

目录 一、前言 二、远程控制中的安全威胁 三、国内外远控软件安全机制 【ToDesk】 【RayLink】 【Teamviewer】 【Splashtop】 四、安全远控预防 一、前言 近期,远程控制话题再一次引起关注。 据相关新闻报道,不少不法分子利用远程控制软件实施网络诈骗&…

灵雀云Alauda MLOps 现已支持 Meta LLaMA 2 全系列模型

在人工智能和机器学习领域,语言模型的发展一直是企业关注的焦点。然而,由于硬件成本和资源需求的挑战,许多企业在应用大模型时仍然面临着一定的困难。为了帮助企业更好地应对上述挑战,灵雀云于近日宣布,企业可通过Alau…

HTSA101伺服流量阀放大器

电液伺服阀放大器HTSA101特点: 可用拨码方式选择比例、积分(PI)控制前面板有电源、阀电流和继电器指示灯可开关选择阀电流的输出电流范围可选输出电流或者电压信号来匹配伺服阀或者比例阀采用标准 DIN rail 规格带有颤振信号、颤振信号的幅值和频率可调标准的DIN 导…

Qt应用开发(基础篇)——布局管理Layout Management

目录 一、前言 二:相关类 三、水平、垂直、网格和表单布局 四、尺寸策略 一、前言 在实际项目开发中,经常需要使用到布局,让控件自动排列,不仅节省控件还易于管控。Qt布局系统提供了一种简单而强大的方式来自动布局小部件中的…

Windows驱动开发

开发Windows驱动程序时,debug比较困难,并且程序容易导致系统崩溃,这时可以使用Virtual Box进行程序调试,用WinDbg在主机上进行调试。 需要使用的工具: Virtual Box:用于安装虚拟机系统,用于运…

Github Copilot在JetBrains软件中登录Github失败的解决方案

背景 我在成功通过了Github Copilot的学生认证之后,在VS Code和PyCharm中安装了Github Copilot插件,但在PyCharm中插件出现了问题,在登录Github时会一直Retrieving Github Device Code,最终登录失败。 我尝试了网上修改DNS&…

PLC1200使用CB1241RS485通讯模块做从站进行Modbus Rtu通信

1、接口及协议 通信接口:RS485 数据位:8个 奇偶校验位:无 停止位:1个 波特率:9600 输出编码格式:ModbusRTU 2、设备组态 添加新设备(PLC)->设备和网络管理->点击PLC-&…

音频转文字软件免费版让你快速完成转换

音频转文字技术是一种将音频文件转换为文本形式的技术,它可以帮助人们更方便地获取和处理音频信息。在实际生活和工作中,我们可能会遇到需要将音频转换为文字的情况,比如听取会议录音、收听讲座、学习外语等等。那么,你知道音频转…

计算机网络——传输层

文章目录 **1 传输层提供的服务****1.1 传输层的功能****1.2 传输层的寻址与端口** **2 UDP协议****2.1 UDP数据报****2.2 UDP校验** **3 TCP协议****3.1 TCP协议的特点****3.2 TCP报文段****3.3 TCP连接管理****3.4 TCP可靠传输****3.5 TCP流量控制****3.6 TCP拥塞控制** 1 传…

某拍房数据采集

某拍房数据采集 某拍房数据采集声明1.逆向目标2.寻找加密位置3.分析加密参数4.python代码书写 某拍房数据采集 声明 本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的…

flask创建数据库连接池

flask创建数据库连接池 在Python中,您可以使用 Flask-SQLAlchemy 这个扩展来创建一个数据库连接池。Flask-SQLAlchemy 是一个用于 Flask 框架的 SQLAlchemy 操作封装,实现了 ORM(Object Relational Mapper)。ORM 主要用于将类与数据库中的表建立映射关系…

接口自动化测试-Jmeter+ant+jenkins实战持续集成(详细)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、下载安装配置J…

uniapp实现带参数二维码

view <view class"canvas"><!-- 二维码插件 width height设置宽高 --><canvas canvas-id"qrcode" :style"{width: ${qrcodeSize}px, height: ${qrcodeSize}px}" /></view> script import uQRCode from /utils/uqrcod…

Stable-Diffusion-Webui部署SDXL0.9报错参数shape不匹配解决

问题 已经在model/stable-diffusion文件夹下放进去了sdxl0.9的safetensor文件&#xff0c;但是在切换model的时候&#xff0c;会报错model的shape不一致。 解决方法 git pullupdate一些web-ui项目就可以&#xff0c;因为当前项目太老了&#xff0c;没有使用最新的版本。

【【51单片机AD/DA的分析】】

51单片机AD/DA的分析 看似单片机实验&#xff0c;其实是要学好数电 模数转换 与 数模转换 运算放大器 DA的转换就是利用运算放大器实现的 输出电压v0-(D7~D0)/256 x (VrefxRfb)/R D7~D0 就是我们控制的按键看输入多少 然后再划分256份 Vref是我们设置的一个基准电压 PWM 这种…

用牛鲨水豚赚取SUI的机会又来喽,500万SUI奖励等你来领!

刚刚结束的第一轮Bullshark Quest真是一次惊心动魄的体验&#xff01;我们非常感激社区成员的积极参与以及对Sui生态系统的关注。此轮获奖者的奖励已于美国时间2023年7月28日&#xff0c;在Quest门户网站上公布。参与者点击“Claim”即可将奖励领取至Sui钱包。请注意&#xff0…

Opencv Win10+Qt+Cmake 开发环境搭建

文章目录 一.Opencv安装二.Qt搭建opencv开发环境 一.Opencv安装 官网下载Opencv安装包 双击下载的软件进行解压 3. 系统环境变量添加 二.Qt搭建opencv开发环境 创建一个新的Qt项目(Non-Qt Project) 打开创建好的项目中的CMakeLists.txt&#xff0c;添加如下代码 # openc…

neo4j教程-Cypher操作

Cypher基础操作 Cypher是图形存储数据库Neo4j的查询语言&#xff0c;Cypher是通过模式匹配Neo4j数据库中的节点和关系&#xff0c;从而对数据库Neo4j中的节点和关系进行一系列的相关操作。 下面&#xff0c;通过一张表来介绍一下常用的Neo4j操作命令及相关说明&#xff0c;具…

docker 部署 mysql8.0 无法访问

文章目录 &#x1f5fd;先来说我的是什么情况&#x1fa81;问题描述&#x1fa81;解决方法&#xff1a;✔️1 重启iptables✔️2 重启docker &#x1fa81;其他有可能连不上的原因✔️1 客户端不支持caching_sha2_password的加密方式✔️2 my.conf 配置只有本机可以访问 &#…

销售易和管易云接口打通对接实战

销售易和管易云接口打通对接实战 来源系统:销售易 销售易CRM支持企业从营销、销售到服务的全流程自动化业务场景&#xff0c;创新性地利用AI、大数据、物联网等新型互联网技术打造双中台型CRM&#xff1b;既能帮助B2B企业连接外部经销商、服务商、产品以及最终用户&#xff0c;…