具身智能计算系统,机器人时代的 Android | 新程序员

图片

【导读】具身智能作为一种新兴的研究视角和方法论,正在刷新我们对智能本质及其发展的理解:传统的 AI 模型往往将智能视为一种独立于实体存在的抽象能力,而具身智能则主张智能是实体与其环境持续互动的结果。

本文深度剖析了具身智能计算系统在当今社会经济转型中的核心角色,围绕自主经济的内涵、具身智能的理念及其计算系统的挑战与发展进行了深入阐述,展现了具身智能如何通过提升机器人对物理世界的感知、理解和决策能力,进而重塑未来的经济结构和社会生活。

本文精选自《新程序员 007:大模型时代的开发者》,《新程序员 007》聚焦开发者成长,其间既有图灵奖得主 Joseph Sifakis、前 OpenAI 科学家 Joel Lehman 等高瞻远瞩,又有对于开发者们至关重要的成长路径、工程实践及趟坑经验等,欢迎大家点击订阅年卡。

作者 | 俞波 夏轩 刘少山

责编 | 王启隆

出品 | 《新程序员》编辑部

图片

图片

图片

大模型时代的社会正逐步实现从数字经济向自主经济的转型,而这种转型的核心驱动力来自机器人计算技术;其中,具身智能计算系统代表了机器人计算技术的重要前沿方向。正如 Android 为各种手机设备提供了一个统一而开放的操作系统,使得开发者创造出无数应用和功能,具身智能计算系统也为机器人计算技术打开了同样广阔的可能性。

具身智能计算系统的内核为不同形态的机器人提供了感知、认知和行动的基础能力,还允许开发者在此基础上构建更加复杂和多样化的机器人应用。通过这样的系统,机器人能够更好地理解和互动于其所处的物理世界中,从而实现更加自然和高效的服务与协作。总而言之,具身智能计算系统的内核驱动了多样化机器人应用生态的发展,而具身智能计算应用生态进一步促进了自主经济的爆发。

图片

自主经济是什么

自主经济(the Autonomy Economy)标志着社会转型的新阶段,主要由各式机器人(比如自动驾驶汽车、配送机器人和无人机)与商品及服务的融合驱动。这场经济变革的核心在于机器人计算 (Autonomous Machine Computing),即为这些多样化机器人提供支持的关键计算技术[1]。

自主机器的出现预示着数字经济模式的演变[2]。这些机器最开始只用于简单的机器人技术和工业应用,现在却已经深入我们的日常生活,宣告着自主经济时代的到来。举例来说,中国的一些酒店已经投入使用送餐机器人,将所需物品送至住客的房间。而在订购食品和生活用品送达上,某些城市已经出现了机器人将餐食或商品直接送至用户家门口的景象。在家庭环境中,机器人吸尘器更是成了家庭常备电器。

图片

AIGC 生成图片

在过去几十年中,数字经济极大促进了经济增长。以 2005 年至 2010 年为例,互联网经济对成熟经济体 GDP 增长的贡献达到 21%,并在 2019 年为美国经济贡献了 2.1 万亿美元。相较于数字经济,自主经济预计将带来更深远的影响。例如,自动驾驶技术的普及预计将重塑价值 1.9 万亿美元的美国运输行业,显示出机器人计算将在各行各业引发革命性的变化。

为了赋能自主经济的大爆发,当前我们的重要工作在于设计并实现先进的具身智能计算系统,为不同形态的机器人提供脑力,类似于移动互联网时代 Android 系统对多种移动设备的赋能。正如智能手机时代 Android 系统重塑市场软件生态一样,对具身智能机器人软硬件系统的研究与开发,将引领机器人领域的重大变革,也将为机器人时代开启新的篇章。

图片

具身智能是什么?

具身智能(Embodied AI)是一种全新的人工智能理念,它区别于传统人工智能的观念,主张智能的产生不仅依赖算法和算力,还需要通过与实际世界的互动来实现。这意味着,智能体(例如机器人)需要具备感知环境、执行物理操作和与环境互动的能力,以便更全面地理解和掌握世界知识。

同样的一套具身智能系统可以赋能不同的机器人形态,使它们能够直接与周围环境互动和感知的智能形式。这种智能不仅涉及到算法和数据处理,还包括对物理世界的理解和操作。具身智能计算系统的技术挑战主要包括如何使机器人能够准确地感知环境、理解复杂的人类指令以及在多变的环境中自主作出决策和执行任务。此外,如何优化机器人的能量效率、处理速度和安全性也是重要的技术挑战。

具身智能研究跨越了机器人学、人工智能、认知科学及神经科学等多个学科,旨在深化对智能本质的理解。具身智能的挑战在于如何构建高度适应性的感知和决策系统,使机器人能够准确理解和预测物理世界的复杂动态,并确保机器人能以自然有效的方式与人类及其他智能体交互。解决这些挑战有望将智能机器人应用推向家庭、工业、医疗和探索等多个领域,促进人机交互的自然化和任务执行的效率化。

图片

历史启示——良性循环以及生态的重要性

机器人计算成为自主经济转型的关键,继个人计算与移动计算之后,它成为了机器人时代不可或缺的技术核心[3, 4]。机器人计算支撑着从智能汽车、自主无人机、配送机器人、家用服务机器人到农业、工业机器人等多种形态的机器人,甚至包括我们还未能想象到的机器人类型。它涵盖了传感技术、计算技术、通信技术、自主控制算法、可靠性和安全性等多个技术领域,至今仍在持续发展与演化中。

历史上的先例明确展示了机器人计算对自主经济发展的重要性。例如,个人计算和移动计算领域的市场规模及其对应的计算系统市场之间的相关性,展示了移动系统市场 351 亿美元的价值与移动计算生态系统 8000 亿美元市场规模之间、个人计算系统 550 亿美元的市场价值与其生态系统 9000 亿美元价值之间的显著差异(参见图 1)。这表明,随着计算时代的演进,计算系统行业在培育出其市场规模 15 到 25 倍的生态系统方面扮演着至关重要的角色

图片

图 1 计算技术及其生态系统的良性循环

这些洞察力揭示了半导体行业作为现代经济基石的事实。随着机器人计算等新兴领域的发展,计算系统行业推动了技术创新和关键技术的发展,这些技术进步又反过来促进了新兴领域的成长,形成了一个相互增强的发展循环。这一良性循环突显了计算系统行业在推动未来经济关键行业增长中的核心作用,尤其是在新兴的自主经济中。

图片

算力分配决定生态规模

图片

图 2 移动计算生态系统的发展

如图 2 所示,在生态系统增长中,算力分配扮演了决定性角色,特别是在移动计算行业的演变中尤为明显。21 世纪初期,以功能手机为主流的移动电话虽广泛普及,但功能受限,90% 的计算力被用于执行编解码等基础通讯任务。应用程序可用的计算力不足 10%,这极大限制了应用多样性,使得移动计算生态系统的市场规模仅约 100 亿美元。 

智能手机的兴起改变了这一格局,激发了市场对更高计算能力的需求,以适应和支持日益增多且复杂度不断提升的移动应用。这种需求催生了从基础的单芯片系统到复杂的片上系统(SoC)的进化,这些系统集成了多核心 CPU、移动 GPU、移动 DSP 以及先进的电源管理系统。技术的这一飞跃使得高达 90% 的计算能力能够支持 YouTube、WhatsApp、Uber 等应用,将移动计算生态系统的市场规模扩张至现今的 8,000 亿美元。这一发展轨迹凸显了计算系统技术进步的革命性影响。通过支持更多样化的应用,这些技术不仅增强了现有市场,还开辟了新的生态系统,使得市场规模达到了计算系统行业价值的多倍。

图片

具身智能计算系统

图片

图 3 具身智能计算系统

目前,家庭扫地机器人、服务机器人和无人驾驶车辆的计算系统,通过环境感知、自身定位和建图、决策、路径规划和控制软件已实现了自主移动等功能。图 3 展示了一种具身机器人系统,其与传统机器人计算类似,也需要地图、决策控制、导航和运动控制等模块。

那么,相比于传统的机器人计算系统,具身智能计算系统的核心不同之处是什么,它为什么可以直接接收人类的文字指令表示的任务,并在不需要提前为任务编程的情况下进行灵活和自主的决策?我们认为,构建具身智能计算的关键在于打造能够融合多模态信息的世界模型,以及能够承载此类多模态模型与具身软件的实时高效的计算系统。 

  • 多模态的世界模型:世界模型是赋能具身智能的最关键软件。

    按照 M. Mitchell 等人在《科学》杂志的表述[5],世界模型“构建针对物理世界和社会世界的抽象模型,并反映事件发生的原因而非仅仅是事件之间的相关性”。借助世界模型,机器人将能够理解物理世界和人类社会的运行机制,并据此产生自主、灵活、可信、有益的决策。

    DeepMind 的 RT 系列模型[6]是构建世界模型的一次初步尝试:通过多模态大模型处理自然语言和视觉图像,机器人能够将命令中的信息与物理世界的物体关联,还能命令拆分成多个子任务,并逐个执行。 

  • 实时高效的计算系统:在一定成本范围内,能够高效、实时地完成传感、计算和控制任务的计算系统是具身智能机器人大规模应用的关键。

    相比于传统机器人计算系统,多模态大模型等软件对计算平台的算力、存储和通信的需求成倍增加,具身智能计算平台的设计充满挑战。目前具身机器人研究中常用的计算架构是在云端或边缘服务器端运行多模态大模型,在机器人端运行传感和控制执行等任务。这类方案仍处于实验室演示阶段,仍需要大量的系统方面的研究和优化,才能实现规模化的部署。

图片

智能体:具身智能计算的应用

在具身智能计算系统的基础上,多模态大模型支持的智能体智能(Agent AI)是具身智能应用生态的关键技术[7]。 这些具身智能 APP 将成为我们日常生活中无处不在的存在。

具身智能计算系统利用现有的基础模型(Foundation Model)作为创建 APP 的基本构件。将 APP 嵌入到具身智能计算系统中有助于提高机器人本体处理、理解世界信息,以及与世界互动的能力。例如,一个能够感知用户行为、人类行为、环境物体、音频表达和场景的集体情绪的 APP,可赋能机器人本体作为人类的陪伴机器人。如果说工具是人类智能的延申,那么智能体就是人工智能的延申。而人工智能本身就是人类的工具,因此智能体智能的发展将为人类提供有史以来最强大的智能工具。

为了推进具身智能 APP 的研究与应用,我们在智能体的智能方向开展了多项研究,成功开发了三类智能体(框架)。这些智能体将为机器人提供更强大的感知、学习、决策和行动能力,推动机器人技术与行业需求的深度融合。

  • 规划智能体 AIRS-Bot(见图 4)。借助多模态大模型能力,该智能体可以与人类进行自然语言交互、通过图像感知环境、基于文字生成图像、以及以用户定制的语音进行交互。该智能体能够通过系统 prompt 扮演任意角色,并支持多种形式的 API 调用,可以为机器人提供行为规划与决策能力,满足机器人具身智能的功能实现。 

图片

图 4 规划智能体 AIRS-Bot 为机器人提供行为规划

  • 编程智能体 AIRS-Coder(见图 5)。该智能体的能力包括诊断错误,优化代码,提供详细的编程概念解释,并提供各种编程语言和技术的步骤指导。该智能体在 7B 大小的大模型基础上,在 HumanEval 指标上 pass@1 性能达到 43.4%,超过了 CodeLlama-Python-13B 的 43.3%,用更少的参数获得了更好的性能。该智能体可以为机器人提供自主编程能力,满足机器人的自主复杂操作技能需求。 

图片

图 5 编程智能体 AIRS-Coder 可以为机器人提供自主编程能力

  • 群智智能体框架 AIRS-Agents(见图 6)。该智能体框架支持定义多个不同类型的机器人智能体以及它们的规划智能体,将它们构成智能体集群并进行统一的调度规划。不同智能体可以调用不同软件 APP 处理各自领域内的问题,也可以编程并在沙盒中执行代码。该智能体可以为机器人集群提供群体智能,实现大范围的机器人具身智能。 

图片

图 6 群智智能体框架 AIRS-Agents 可以为机器人机器人集群提供群体智能

智能体是具身智能 APP 的实例,其出现和发展开启了从人工操作软件 APP 到智能体自行调用软件 APP 的时代,并在这一过程中推动了具身智能的进程。随着技术进步,我们相信会有更多的智能体构成庞大的具身智能 APP 群,进一步引发智能体调用软件 APP 到机器人调用具身智能 APP 的范式转变

图片

结论

具身智能被视为人工智能赋能于机器人的重要技术,可以将机器人从传统的预编程模式解放出来,赋予机器人更强的自主性和适应能力。具身智能的计算和应用将推动机器人技术与生产制造、服务和医疗康复等行业的深度融合,成为经济和社会发展的重要推动因素。我们将具身智能计算系统类比为智能机器人领域的 Android 系统,在底层实时计算平台、世界大模型的基础上,延伸出诸多基于机器人的应用。具身智能技术刚刚兴起,在具身软件与应用、多模态世界模型、实时计算系统等方面面临着挑战。这些领域也将是学术和产业界研究的热点。

参考文献

[1] S. Liu, "The Role of Autonomous Machine Computing in Shaping the Autonomy Economy.", Communications of the ACM, https://cacm.acm.org/blogs/blog-cacm/279636-the-role-of-autonomous-machine-computing-in-shaping-the-autonomy-economy/fulltext

[2] S. Liu, "The Transition to the Autonomy Economy and China-US Tech Competition", the Diplomat, 2023.

[3] S. Liu, J.L., Gaudiot,"Rise of the autonomous machines." Computer, 55(1), pp.64-73, 2022.

[4] 刘少山,甘一鸣,韩银和,"机器人计算正在崛起:中国美国实力全面对比", 知识分子, 2024.

[5] M. Mitchell, "AI's challenge of understanding the world". Science 382, eadm8175, 2023. DOI:10.1126/science.adm8175.

[6] A. Brohan, et al., "Rt-2: Vision-language-action models transfer web knowledge to robotic control." arXiv preprint arXiv:2307.15818, 2023.

[7] Z. Durante, et al., "Agent ai: Surveying the horizons of multimodal interaction." arXiv preprint arXiv:2401.03568, 2024.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/718644.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员如何选择职业赛道?

一、自我评估与兴趣探索 程序员选择职业赛道时,可以考虑以下几个关键因素: 1、兴趣与热情:首先要考虑自己的兴趣和热情,选择符合个人喜好和激情的领域,能够激励自己持续学习和进步。 2、技术能力&am…

mysql5.7配置主从

原理: MySQL主从复制的工作原理如下:1. 主服务器产生Binlog日志当主服务器的数据库发生数据修改操作时,如INSERT、UPDATE、DELETE语句执行,主服务器会记录这些操作的日志信息到二进制日志文件中。2. 从服务器读取Binlog日志 从服务器会向主服务器发送请求,主服务器把…

微信小程序开发学习笔记《18》uni-app框架-网络请求与轮播图

微信小程序开发学习笔记《18》uni-app框架-网络请求 博主正在学习微信小程序开发,希望记录自己学习过程同时与广大网友共同学习讨论。建议仔细阅读uni-app对应官方文档 一、下载网络请求包 这个包是以前黑马程序员老师写的一个包,跟着课程学习&#x…

Open3D(C++) 指定点数的体素滤波

目录 一、算法原理1、算法过程2、参考文献二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、算法原理 1、算法过程 对于数据量较大的点云,在后期进行配准时会影响计算效率。而体素格网…

LCR 170. 交易逆序对的总数

解题思路: 归并排序,在归并的过程中不断计算逆序对的个数 count mid -i 1;的来源见下图,因为两个数组都是单调递增的,所以如果第一个数组的前一个元素大于第二个数组的对应元素,那么第一个数组的这一元素…

借助Aspose.SVG图像控件,在 C# 中将图像转换为 Base64

Base64 编码是一种二进制到文本的编码方案,可有效地将二进制数据转换为 ASCII 字符,为数据交换提供通用格式。在某些情况下,我们可能需要将JPG或PNG图像转换为 Base64 字符串数据。在这篇博文中,我们将学习如何在 C# 中将图像转换…

分享经典、现代和前沿软件工程课程

随着信息技术的发展,软件已经深入到人类社会生产和生活的各个方面。软件工程是将工程化的方法运用到软件的开发、运行和维护之中,以达到提高软件质量,降低开发成本的目的。软件工程已经成为当今最活跃、最热门的学科之一。 本次软件工程MOOC课…

现在如何才能开通微信公众号留言功能?

为什么公众号没有留言功能?2018年2月12日之后直到现在,新注册公众号的运营者会发现一个问题:无论是个人还是企业的公众号,在后台都找不到留言功能了。这对公众号来说绝对是一个极差的体验,少了一个这么重要的功能&…

万村乐数字乡村系统开源代码:革命性引领,助推乡村振兴新篇章

如今,国际社会普遍认为信息化、数字化已是重大且不可逆转的发展趋势,如何让广大农村地区充分分享到这个发展带来的红利,从而提升农村的经济活力,确保村民生活质量不断优化,已然成为我们需要认真研究并积极解决的重大议…

Window下编写的sh文件在Linux/Docker中无法使用

Window下编写的sh文件在Linux/Docker中无法使用 一、sh文件目的1.1 初始状态1.2 目的 二、过程与异常2.1 首先获取标准ubuntu20.04 - 正常2.2 启动ubuntu20.04容器 - 正常2.3 执行windows下写的preInstall文件 - 报错 三、检查和处理3.1 评估异常3.2 处理异常3.3 调整后运行测试…

uniapp+vue基于Android的图书馆借阅系统qb4y3-nodejs-php-pyton

uni-app框架:使用Vue.js开发跨平台应用的前端框架,编写一套代码,可编译到Android、小程序等平台。 框架支持:springboot/django/php/Ssm/flask/express均支持 前端开发:vue 语言:pythonjavanode.jsphp均支持 运行软件:idea/eclip…

2023天津公租房网上登记流程图,注册到信息填写

2023年天津市公共租赁住房网上登记流程图 小编为大家整理了天津市公共租赁住房网上登记流程,从登记到填写信息。 想要体验的朋友请看一下。 申请天津公共租赁住房时拒绝申报家庭情况会怎样? 天津市住房保障家庭在享受住房保障期间,如在应申…

智慧草莓基地:Java与SpringBoot的技术革新

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…

xss.haozi:0x00

0x00没有什么过滤所以怎么写都没有关系有很多解 <script>alert(1)</script>

【Linux取经路】文件系统——inode与软硬链接

文章目录 一、前言二、认识硬件——磁盘2.1 磁盘的存储构成2.2 磁盘的逻辑抽象 三、操作系统对磁盘的使用3.1 再来理解创建文件3.2 再来理解删除文件3.3 再来理解目录 四、硬链接五、软链接六、结语 一、前言 在之前的【Linux取经路】文件系统之被打开的文件——文件描述符的引…

DevStack 基于 Ubuntu 部署 OpenStack

Devstack 简介 DevStack 是一系列可扩展的脚本&#xff0c;用于基于 git master 的最新版本快速调出完整的 OpenStack 环境。devstack 以交互方式用作开发环境和 OpenStack 项目大部分功能测试的基础。 devstack 透过执行 stack.sh 脚本&#xff0c;搭建 openstack 环境&…

Day31|贪心算法1

贪心的本质是选择每一阶段的局部最优&#xff0c;从而达到全局最优。 无固定套路&#xff0c;举不出反例&#xff0c;就可以试试贪心。 一般解题步骤&#xff1a; 1.将问题分解成若干子问题 2.找出适合的贪心策略 3.求解每一个子问题的最优解 4.将局部最优解堆叠成全局最…

【MySQL】深入解析 Buffer Pool 缓冲池

文章目录 1、前置知识1.1、Buffer Pool介绍1.2、后台线程1.2.1、Master Thread1.2.2、IO Thread1.2.3、Purge Thread1.2.4、Page Cleaner Thread 1.3、重做日志缓冲池 2、Buffer Pool 组成2.1、数据页2.2、索引页2.3、undo页2.4、插入缓冲2.5、锁空间2.6、数据字典2.6、自适应哈…

JavaScript之structuredClone现代深拷贝

在JavaScript中&#xff0c;实现深拷贝的方式有很多种&#xff0c;每种方式都有其优点和缺点。今天介绍一种原生JavaScript提供的structuredClone实现深拷贝。 下面列举一些常见的方式&#xff0c;以及它们的代码示例和优缺点&#xff1a; 1. 使用JSON.parse(JSON.stringify(…

代码随想录 二叉树第四周

目录 617.合并二叉树 700.二叉搜索树中的搜索 98.验证二叉搜索树 530.二叉搜索树的最小绝对差 501.二叉搜索树中的众树 236.二叉树的最近公共祖先 617.合并二叉树 617. 合并二叉树 简单 给你两棵二叉树&#xff1a; root1 和 root2 。 想象一下&#xff0c;当你将其…