ChatGPT有身体了，能走向千家万户吗？

3月13日，OpenAI投资的人形机器人——Figure 01迎来重磅更新，接入最新版ChatGPT后，它能和人交流描述眼前看到的事物。在视频中，Figure 的人形机器人，可以完全与人类流畅对话，还能理解人的自然语言指令进行抓取和放置，并解释自己为什么这么做。而其背后，就是 OpenAI 为其配置的智能大脑。

人形机器人Figure 01

Figure 01，最懂你的人形机器人？

得益于 OpenAI 多模态大模型的强大支持，Figure 01 现在可是个桌上物品识别的小能手。苹果、沥水架、水杯和盘子，对它来说都是小菜一碟。饿了，想让它整口吃的，它能秒懂你的心思，麻溜地递上一个苹果。它甚至能一边拣起你丢弃的垃圾，一边跟你解释为啥刚才给了你苹果。在人类的一声令下，Figure 01 还能做家务，收拾餐具，这机器人，简直是家庭生活的最佳伙伴。

综合来看，Figure 01拥有的能力包括：

一、视觉识别和理解。当人类问Figure 01看到了什么，Figure 01回答道：“我看到了桌子中央的盘子上有一个红苹果、一个装满杯子和盘子的晾碗架，以及你站在附近，手放在桌子上。”

二、语言识别和理解。当人类问Figure 01能够吃点什么东西时，Figure 01将桌上的苹果递给了人类，并表示这是“唯一我可以从桌上为你提供的食物”。

三、流畅的任务执行。Figure 01清理桌面垃圾、整理晾碗架的场景。

Figure 01整理家具

机器人的速度已经接近人类速度

Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了机器人互动背后的原理。此次的突破，由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解，而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过，内化了的能力，而不是来自远程操作。

研究人员将机器人摄像头中的图像输入，和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的，可以理解图像和文本的多模态模型（VLM）中，由该模型处理对话的整个历史记录，得出语言响应，然后通过文本到语音的方式将其回复给人类。同样的模型，也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令，将特定的神经网络权重加载到 GPU 上并执行策略。

人形机器人Figure 01

这也是为什么这个机器人，属于“端到端”的机器人控制。从语言输入开始，模型接管了一切处理，直接输出语言和行为结果，而不是中间输出一些结果，再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像，然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到，这代表机器人的速度已经有显著提高，开始接近人类的速度。

人形机器人加快“进厂打工”

值得注意的是，Figure AI近期还与汽车制造商宝马公司签署了一项商业协议，将在汽车制造中部署通用机器人。

在人工智能技术的加持下，人形机器人的智能化水平大幅提升，并加速进入工厂等真实的工作场景当中。梳理发现，已有多家海内外公司将在工厂中引入人形机器人，或已经演示了机器人“进厂打工”的视频。

去年底，美国机器人公司AgilityRobotics宣布，将在俄勒冈州塞勒姆市开设世界上第一座“人形机器人制造工厂”，并且承诺每年将生产1万台智能人形机器人“Digit”，作为“机器人同事”在仓库和工厂内运输和搬运货物。亚马逊在其西雅图郊区的一个配送中心也引入了Digit人形机器人，用于协助员工完成仓库中的搬运工作。

今年1月，特斯拉CEO埃隆·马斯克在财报电话会上透露，特斯拉正致力于在2025年实现人形机器人Optimus初步出货，马斯克还表示，预计2024年Optimus在特斯拉工厂进行实用性测试。

国内方面，今年2月22日，“人形机器人第一股”优必选发布了工业版人形机器人Walker S在新能源车厂的首次实训视频。视频中，Walker S完成了对蔚来汽车门锁、安全带、车灯盖板的检测，并以流畅的动作贴好了车标。在整个过程中，Walker S展示出精巧的身体控制能力，手部动作尤为灵巧。优必选创始人、董事长兼CEO周剑曾透露，已经在跟多家新能源汽车制造厂接触，“2024年会有更多工业制造客户的消息”。

从秘书起步，十年内无人超越，以一己之力力挽狂澜成就一段传奇

Walker S “进厂打工”

具身智能加速商业落地

大部分人很容易将人形机器人和具身智能画等号，其实不然，人形机器人只是具身智能的物理形态之一。英伟达公司创始人黄仁勋将具身智能定义为，能理解、推理及与物理世界互动的智能系统。具身智能并不一定以人形状态呈现，根据应用场景不同，可以有无尽想象力，比如可能是动物、汽车等形态。

近年来，具身智能作为人工智能研究中的一个新领域，热度不断攀升。根据赛迪智库最新研究显示，国家层面，世界主要经济具身智能产业的发展方向各有侧重。美国不断推进具身智能基础研究，并且掌握着前沿技术；日本聚焦工业机器人和服务机器人领域；韩国重点关注机器人核心零部件和软件、自动驾驶汽车领域的技术创新；欧盟则全方位推进具身智能发展。企业层面，国内外具身智能主要企业亦动作频繁。谷歌发布具身视觉语言模型，打造机器人大脑；微软以ChatGPT为内核，通过对话来指挥机器人操作，进一步简化人机交互模式；英伟达发布的多模态具身AI系统可以在视觉文本提示的指导下执行复杂任务；阿里入局“AI+机器人”赛道，将“千问”大模型接入工业机器人；优必选人形机器人已应用于教育领域。