人形机器人进展：IEEE Robotics出版双臂通用协同机械手操作架构

文章目录

1. Main
2. My Thoughts
Reference
彩蛋
- a. OpenAI 投资: 人形机器人公司 Figure AI
- b. 人工智能软件工程师 Devin 上线

1. Main

在这里插入图片描述

图1 人居环境下的人形双臂机器人系统

通用人形机器人 作为近年来机器人与AI交叉领域的研究热点和技术竞争高地，因其具备在非结构化人居环境中承担各种琐碎家务的潜力而得到广泛关注。 人形双臂系统 直接承载着人形机器人操作任务的执行能力，通用且灵巧的操作不仅依赖先进的感知与推理决策，而且对复杂的协同规划控制设计提出了极高要求。

现有研究工作大多专注在解决某一特定层级的问题，例如环境-物体的感知、推理与策略生成、机器人系统的规划或操作控制，并且方案通常与特定的被操作物体或任务强相关，难以迁移和泛化。

任意抓取和操作具有各种几何和物理特性的任意物体是人形双臂机器人系统通用化的技术体现，构建一个通用的感知-规划-控制架构有望能利用双臂系统硬件本体能力并充分发挥其灵巧性和多功能性的特点，弥合AI技术与机器人技术间的鸿沟。近日, 机器人领域顶级期刊IEEE Transactions on Robotics 上在线出版了长文 Enabling Versatility and Dexterity of the Dual-Arm Manipulators: A General Framework toward Universal Cooperative Manipulation。这项研究工作设计并提出了业界首个双臂通用协同灵巧操作架构，该架构在感知层、双手抓取、协同操作规划和底层控制等方面提供了丰富的接口，具有很高的通用性、可扩展性和兼容性。

基于该框架研究人员实现了包括协同旋拧、人机物理协同操作、协同倒水、基于物体可供性和意图识别的动态交互、干扰抑制和大体积物体的自主交接等各种显著差异化的任务。

在这里插入图片描述

图2 干扰抑制

该项研究一作兼通讯作者为任义博士，共同作者包括张正友教授和Martin Buss教授两位IEEE Fellow，人形机器人总师倪风雷教授，郑宇博士以及杨扬教授两位IEEE Senior Member等多位机器人领域专家。

在这里插入图片描述

图3 协同抓取与操作的双臂系统

在这里插入图片描述

图4 双臂协同操作多优先级优化框架

Long-Horizon重排实验

在long-horizon重排实验中，双臂机器人系统连续抓取和操作人居环境中常见的桌面书架，储物篮和显示器支架这3个未建模物体，实验结果表明双臂机器人在所设计的通用架构下能协同抓取大尺寸物体并能在执行复杂协同操作任务过程中全自主高精度避自碰。

在这里插入图片描述

近期引发业界热议的 Tesla Optimus 机器人以及 Mobile ALOHA 在双臂灵巧操作方面的最新成果均采用基于模仿学习的人-机技能迁移路线，以期望达成双臂灵巧操作技能的泛化。自上而下研究具身智能并自下而上研究机器人操作规划与控制，有助于弥合AI与Robotics之间的技术鸿沟，提升基于AI生成的操作策略在物理世界中执行的稳定性和可靠性，加速双臂系统全自主通用化的到来。

更多内容和视频资料可阅读论文原文。
IEEE Transactions on Robotics：Enabling Versatility and Dexterity of the Dual-Arm Manipulators: A General Framework toward Universal Cooperative Manipulation

https://ieeexplore.ieee.org/document/10449470

2. My Thoughts

我看到的是人工智能大模型方法 对传统机器人自下而上的控制方法的降维打击，或者更准确的说结合。智能技术对现有信息电子世界的影响，就像上世纪数字/模拟电子技术对精密机械生产技术的颠覆影响，比如IBM数字计算器的诞生对机械式打字机的替换，直接让机械技术淡出历史舞台。智能技术展现出让现有一切信息技术被颠覆式影响的可能。

世界各地商业化公司/资本重金介入机器人领域的研究后，通用人形机器人的进展得到了极快提高。过往机器人研究团队30年、5年的进展成果，近期初始团队/公司在十几天、一年、两年的时间里就推出类似成果，2023年大模型的兴起再次点燃了人们对于机器人操作能力的想象。

不过，传统通过编程和计算机仿真实现的机器人操控，新创公司有可能是通过人机协控系统模仿实现，但在宣传时更强调了大模型的作用，毕竟很多公司设立的目的是为了逐利，与学术界不同，公司也没有公开的、或经过了同行评审的技术报告/权威期刊会议刊登的论文公布出来。让子弹飞一会儿。

尽管如此，无可否认，通用人形机器人正在进入产业爆发的前夕。

Reference

https://mp.weixin.qq.com/s/GVS-39N6oSgwfDmeDUa0tA

彩蛋

a. OpenAI 投资: 人形机器人公司 Figure AI

北京时间2024年 3 月 13 日深夜，一段人形机器人的视频开始在 X 上热传。

擎天柱最大劲敌来了，Figure one调用OpenAI API实现惊人效果，已获超额融资

在视频中，Figure 的人形机器人，可以完全与人类流畅对话，理解人类的意图，同时还能理解人的自然语言指令进行抓取和放置，并解释自己为什么这么做。

在过去一年的具身智能进展中，或许你曾经看过类似的机器人自主决策、拿取物品的展示，但在这段视频中，Figure 人形机器人的对话流畅度、展现出的智能感，接近人类操作速度的动作流畅性，绝对都是第一流的。

Figure 还特意强调，整段视频没有任何加速，也没有任何剪辑，是一镜到底拍摄的。同时，机器人是在完全自主的情况下进行的行为，没有任何远程操纵。

在这里插入图片描述
Figure 01 引入 AI 学会做咖啡｜图片来源：Figure

比起机器人的智能表现，更可怖的是——从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域的前沿，到这个视频的发布，只有短短的十三天。而 Figure 本身，成立于 2022 年。

图片来源：Corey Lynch 的 X

2024 年 3 月初，OpenAI 和其他投资人一起，参与了 Figure 的 B 轮融资，使其成立两年，就达到了 26 亿美金估值。

Figure 的创始人 Brett Adcock，是个「擅长组局」的连续创业者，整个职业生涯中创立过至少 7 家公司，其中一家以 27 亿美元的估值上市，一家被 1.1 亿美元的价格收购。创建公司后，他招募到了研究科学家 Jerry Pratt 担任首席技术官，前波士顿动力/苹果工程师 Michael Rose 担任机器人控制主管。此次进行分享的 AI 团队负责人 Corey Lynch，则原本是 Google Deepmind 的 AI 研究员。

Figure 宣布自己在电机、固件、热量、电子产品、中间件操作系统、电池系统、执行器传感器、机械与结构方面，都招募了硬核的设计人才。公司的确进展很快。在与 OpenAI 合作之前，已经做出了不少成绩。

2024 年 1 月，Figure 01（Figure 的第一款人形机器人）学会了做咖啡，公司称，这背后引入了端到端神经网络，机器人学会自己纠正错误，训练时长为 10 小时。2024年 2 月，公司对外展示 Figure 01 的最新进展，在视频里，这个机器人已经学会搬箱子，并运送到传送带上，但速度只有人类的 16.7%。

在商业化上，也已经迈出了第一步：Figure 宣布与宝马制造公司签署商业协议，将 AI 和机器人技术整合到汽车生产中，部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂。

北京时间 3 月 13 日，来自谷歌研究团队、加州大学伯克利分校、斯坦福大学教授等一群研究者新成立的一家机器人 AI 公司 Physical Intelligence，被彭博社爆料也拿到了 OpenAI 的融资。毫无意外，该公司也是研究未来能够成为通用机器人系统的人工智能。

https://mp.weixin.qq.com/s/YdWRNPkNdt1iYcfD4S26pw

b. 人工智能软件工程师 Devin 上线

近日，首个人工智能软件工程师 Devin 发布。在 SWE-bench 基准测试中，它无需人类帮助，可解决 13.86% 的问题。相比之下，GPT-4 只能处理 1.74% 的问题，且都需要人类提示告知处理哪些文件。Devin 被介绍为世界首个完全自主的 AI 软件工程师。据介绍，它已经成功通过一家 AI 公司面试，并且在 Upwork 上完成了实际工作。

Devin 背后公司名为 Cognition AI，总部设在纽约和旧金山，定位是一家专注于推理的应用 AI 实验室。目前该团队规模仅有 10 人，但共揽获了 10 枚 IOI 金牌。

目前，Devin 尚未对外开放，但已经有不少开发人员和产品人员拿到了测试资格，并再次引发了 AI 能否替代程序员的讨论。

https://mp.weixin.qq.com/s/TUxFqotS2pzPvTCpSt0hTw