Mobile ALOHA: 你需不需要一个能做家务的具身智能机器人

相信做机器人的朋友最近一段时间一定被斯坦福华人团队这个Mobile ALOHA的工作深深所震撼,这个工作研究了一个能做饭,收拾衣服,打扫卫生的服务机器人,完成了传统机器人所不能完成的诸多任务,向大家展示了服务机器人的美好愿景,让大家觉得这种机器人进入家庭指日可待。但不同于其他类似工作,该项目的主页上也放出了诸多失败的视频,让大家觉得机器人还处于非常初始阶段,容易犯下非常低端的错误。那承载着美好期望的家庭服务机器人发展到底怎样呢?离走进我们的家庭还有多远呢?还请跟随笔者先来了解这个具有重要意义的工作。
在这里插入图片描述
Mobile ALOHA: 一个低成本的具身智能移动操作机器人软硬件开发系统
背景介绍
机器人利用专家数据进行模仿学习可以学习到很多传统方法(依赖于抓取位姿估计和运动规划)所做不到的任务,比如使用工具、叠抹布、整理家务等,打开了通往通用机器人的希望之门。大多数家庭服务任务都需要双臂操作和底盘移动,如同人类一样,这就需要机器人具有类人架构的硬件和全身协调控制算法,当前在双臂移动机器人领域主要有两大挑战:a) 缺乏适合整体远程操作以便采集数据和训练部署验证的硬件平台; b) 移动和双臂协调自主完成任务。为了解决这些问题,本工作提出了Mobile ALOHA的低成本整体远程操作系统,该系统通过在轮式底座上安装ALOHA,使用户能够通过物理连接来控制移动基座,同时使用双手控制ALOHA。这使得他们能够同时记录基座速度数据和手臂操纵数据,形成一个整体远程操作数据采集系统,本工作开源了完整的软硬件设计图纸和代码,希望可以推进整个领域的发展。

主要贡献
(1) Mobile ALOHA,一个低成本的整体远程操作系统,可用于遥操作数据采集和模仿学习部署验证;
(2) 发现简单的协同训练方法能够实现对复杂移动操作任务的高效学习。
在这里插入图片描述

模仿学习网络方法与训练部署验证

任 务: 倒红酒(Wipe Wine), 烹饪虾(Cook Shrimp), 清洗平底锅(Rinse Pan),使用橱柜(Use Cabinet), 呼叫电梯(Call Elevator), 推动椅子(Push Chairs),击掌(High Five);
任务
训练数据: 825条静态双臂操作数据 + 每个人物20~100条专家示教数据;
方法: ACT, Diffusion Policy, VINN
实验验证问题:
(1) Mobile ALOHA是否可以通过联合训练吸收少量的移动操作数据来获得复杂的移动操作技能 ?
(2)Mobile ALOHA是否可以在不同的模仿学习方法上工作,包括ACT , Diffusion Policy和基于检索的VINN?
实验结果和结论:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. 与静态操作数据联合训练能极大地提升准确率
  2. 联合训练的效果对于混合数据的比例不敏感,这个结论可以帮助减少训练新任务时对混合数据比例的调节;
  3. 联合训练效果由于预训练和微调。

个人拙见

本工作在算法研发上并没有任何贡献,使用的三个模仿学习均是前人的成果,实验结论也得不到令人耳目一新的结论,本工作最大的贡献在于开源了模仿学习一整套软硬件方案,使得高校团队也有能力做大规模模仿学习的工作,要知道在此之前这个领域大都有大厂高额投入才能完成的,比如谷歌的RT1、英伟达的VIMA和Meta的RoboAgent等。

同时该工作作者也很务实地放出了诸多失败的视频,在此之前的工作大都只展示其成功的一面,让大家觉得服务机器人马上就要走进千家万户了,作者公开这些视频展示了机器人的潜能,同时也显示了这种机器人离走进我们家庭还需要一段时间,但这个方向绝对是值得我们为之探索和奋斗的,这个工作也为这个领域作出了巨大的贡献。

笔者研究模仿学习也由来已久,模仿学习就是将深度学习中的自监督学习用到机器人领域,学习的是一个机器人观测到动作的映射网络,监督学习所有的问题模仿学习都有,同时还带来了机器人领域的更多问题,最大的问题就是泛化性,作者自己也承认这个工作纯属research,不具备任何泛化性,也难以落地,现在学术界正在通过搜集大规模不同机器人真实数据集(Open-X-Embodiment dataset),希望像训练大语言模型那样先用大规模数据集来做预训练,然后在真实场景中采集少量数据进行微调,提高方法的适用性,但这有一个问题,不同机器人数据对实际部署机器人的用处难以保证是正向的,特别是两者的传感器执行器布局类型差异较大时;笔者预测工业界会有不同的解决方案,同一场景下的机器人形态会日渐趋于大一统,比如将来进入我们生活中的人形机器人,没必要多种身高的机器人,而那些不愿意走向统一的机器人形态,终将因为自身数据量太少丧失竞争而被淘汰出局。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/42547.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文全解Nginx

一文全解Nginx 一文全解 Nginx 1. 技术介绍 Nginx(发音为"engine-x")是一个高性能的开源 Web 服务器软件,同时也可以用作反向代理、负载均衡器和 HTTP 缓存。它最初由俄罗斯的 Igor Sysoev 开发,并于 2004 年首次公开…

在Qt中使用C++编程与传统C++编程的区别

引言 C作为一种强大的编程语言,被广泛应用于系统编程、游戏开发、嵌入式系统等领域。而Qt作为一个跨平台的应用开发框架,通过其丰富的功能库和高效的开发工具,使得C开发变得更加高效和便捷。本文将深入探讨在Qt中使用C编程与传统C编程的区别…

el-date-picker 设置默认值为当前日期

this.listQuery.Date new Date().toISOString().substr(0, 10); <el-date-picker v-model"listQuery.Date" format"yyyy-MM-dd" value-format"yyyy-MM-dd" type"date" placeholder"选择日期" change"getList()&qu…

【MySQL】4.MySQL 的数据类型

MySQL 的数据类型 一.数据类型分类在这里插入图片描述二.注意点1.char VS varchar2.datetime VS timestamp3.enum 和 set 的使用方法 一.数据类型分类 二.注意点 1.char VS varchar char 的意义是直接开辟固定大小的空间&#xff0c;浪费磁盘空间&#xff0c;但是效率高varcha…

WEB05Web开发HTMLCSS

Web前端开发 什么是 Web &#xff1f; Web&#xff1a;全球广域网&#xff0c;也称为万维网(www World Wide Web)&#xff0c;能够通过浏览器访问的网站。 Web 网站的工作流程 W3C 万维网联盟&#xff08; World Wide Web Consortium &#xff09;&#xff0c;创建于1994年1…

ESP32-C3模组上跑通AES-GCM(1)

本文内容参考: mbedtls学习笔记 AES GCM_aes128 gcm的aad是什么-CSDN博客 https://www.cnblogs.com/testlearn/p/16547583.html 对称加密和非对称加密,一文讲解明白!-CSDN博客 深入理解高级加密标准(Advanced Encryption Standard)_aes在线加密-CSDN博客 特此致谢! …

OpenEarthMap:全球高分辨率土地覆盖制图的基准数据集(开源来下载!!!)

OpenEarthMap由220万段5000张航拍和卫星图像组成&#xff0c;覆盖6大洲44个国家97个地区&#xff0c;在0.25-0.5m的地面采样距离上人工标注8类土地覆盖标签。我们提供8类标注:裸地、牧场、已开发空间、道路、树木、水、农业用地和建筑。类选择与现有的具有亚米GSD的产品和基准数…

std::unordered_map和std::map在性能上有何不同

std::unordered_map和std::map在性能上的不同主要体现在以下几个方面&#xff1a; 1. 底层数据结构 std::unordered_map&#xff1a;基于哈希表实现&#xff0c;通过哈希函数计算元素的存储位置。哈希表能够直接通过哈希值快速定位到元素的位置&#xff0c;从而实现高效的查找…

30、PHP 实现 左旋转字符串、翻转单词顺序列

题目&#xff1a; PHP 实现 左旋转字符串 描述&#xff1a; 汇编语言中有一种移位指令叫做循环左移&#xff08;ROL&#xff09;&#xff0c;现在有个简单的任务&#xff0c; 就是用字符串模拟这个指令的运算结果。对于一个给定的字符序列S&#xff0c;请你把其循环左移K位后的…

电源纹波相关

什么是纹波&#xff1f;什么是噪声&#xff1f; 这种叠加在直流稳定量上的交流分量就称为纹波。 纹波的危害 电源纹波能影响设备性能和稳定性 纹波会导致电器上产生谐波&#xff0c;降低电源的使用效率&#xff1b; 高频电源纹波可能会产生浪涌电压或电流&#xff0c;影响设…

android deep links即scheme uri跳转以及googlePlay跳转配置

对于googlePlay的Custom URL就是googlePlay上APP网址&#xff1a; https://play.google.com/store/apps/details?idcom.yourapp如果是国内一些应用&#xff0c;则考虑market://包名等方式&#xff0c;自行百度。 对于Android URI Scheme&#xff1a; 首先需要在Manifest xm…

第2章大话 ASP.NET Core 入门

1.什么是ASP.NET Core框架 ASP.NET Core是一个超级棒的框架&#xff0c;它是免费的&#xff0c;你可以在任何主流的系统上&#xff0c;比如Windows、Linux或macOS上使用它&#xff0c;而且它是完全开放源代码的&#xff0c;意味着你可以看到并修改它的内部代码。这个框架是专门…

浅尝Apache Mesos

文章目录 1. Mesos是什么2. 共享集群3. Apache Mesos3.1 Mesos主节点3.2 Mesos代理3.3 Mesos框架 4. 资源管理4.1 资源提供4.2 资源角色4.3 资源预留4.4 资源权重与配额 5. 实现框架5.1 框架主类5.3 实现执行器 6. 小结参考 1. Mesos是什么 Mesos是什么&#xff0c;Mesos是一个…

如何更好地对接第三方数据库

在现代企业信息化建设中&#xff0c;对接第三方数据库是一个常见且重要的任务。无论是为了单据录入还是报表统计&#xff0c;确保对接过程的顺利进行对于业务运转至关重要。本文将详细介绍如何更好地对接第三方数据库&#xff0c;涵盖命名方式、业务理解和数据对接的具体步骤。…

【国产AI绘图】快手把“可图”大模型开源了,这是一款支持中文的SDXL模型

Kolors 是由 Kuaishou Kolors 团队&#xff08;快手可图&#xff09;开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿对文本图像的训练&#xff0c;Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面&#xff0c;与开源和专有模型相比都具有显著优势…

SQLAlchemy迁移数据库

SQLAlchemy迁移数据库 目录 SQLAlchemy迁移数据库安装Alembic配置Alembic编辑 alembic.ini编辑env.py生成迁移文件建表语句示例修改迁移文件命名格式 安装Alembic pip install alembic配置Alembic 执行初始化后会创建一个 alembic 目录&#xff0c;包含Alembic的配置文件 ale…

Linux中C语言指针的意义及高级用法

引言 指针是C语言中一个重要的特性&#xff0c;它为程序提供了强大的功能和灵活性。指针在内存管理、数据结构、函数参数传递等方面发挥着关键作用。本文将深入探讨C语言指针的意义及其在Linux环境中的一些高级用法。 一、指针的基本概念 指针是存储内存地址的变量。它指向存…

MSPM0G3507——外部中断测编码器数据

方式1&#xff1a;单相 void GROUP1_IRQHandler(void) //编码器的中断函数 {uint32_t gpioA DL_GPIO_getEnabledInterruptStatus(GPIOA, GPIO_Encoder_PIN_Back_Left_A_PIN | GPIO_Encoder_PIN_Back_Right_A_PIN );if (gpioA & GPIO_Encoder_PIN_Bac…

基础权限储存

一、要求&#xff1a; 1、建立用户组shengcan&#xff0c;其id为2000工 2、建立用户组 caiwu&#xff0c;其id为2001 3、建立用户组 jishu&#xff0c;其id 为 2002 4、建立目录/sc,此目录是 shengchan 部门的存储目录&#xff0c;只能被 shengchan 组的成员操作,其他用户没有…

笔记:Newtonsoft.Json 自定义序列化反序列化规则

使用 Newtonsoft.Json&#xff0c;你可以在类内部自定义序列化和反序列化规则。这通常通过实现 JsonConverter 抽象类来完成。自定义转换器允许你控制类的序列化和反序列化行为&#xff0c;使你能够处理复杂的场景&#xff0c;比如序列化第三方库的对象&#xff0c;或者处理不支…