黄仁勋:人形机器人在内,仅有三种机器人有望实现大规模生产

11月23日,芯片巨头、AI时代“卖铲人”和最大受益者、全球市值最高【英伟达】创始人兼CEO黄仁勋在香港科技大学被授予工程学荣誉博士学位;并与香港科技大学校董会主席沈向洋展开深刻对话,涉及人工智能(AI)、计算力、领导力和创业等。

图片

对话中,提到机器人时,“黄教主”黄仁勋表示:有三种机器人有望实现大规模生产,而且几乎仅限于这三种;这三种机器人分别是:汽车,因为我们在过去150到200年间构建了一个适应汽车的世界;其次是无人机,因为天空几乎没有限制;当然,产量最大的将是人形机器人,因为我们为自己构建了一个世界;历史上出现过的其他类型的机器人都很难实现大规模量产。

同时表示:大规模生产至关重要,因为它能驱动技术飞轮效应;高投入的研发(R&D)能带来技术突破,从而生产出更优秀的产品,进一步推动生产规模的扩大。这个研发飞轮对任何行业都是关键。

11月20日,资深游戏玩家、世界首富马斯克边玩游戏边接受采访,涉及AGI、人形机器人Optimus、猫女机器人、自动驾驶等;

图片

谈到Optimus,马斯克表示:人形机器人Optimus将真正开启下一阶段的技术突破,各种皮肤随便换(“You'll be able to skin Optimus in a white, you know, pretty much anything”)等等。

图片

11月22日,马斯克在 X 平台介绍了Optimus机器人和Robotaxi/Cybercab智驾出租车的定价愿景。

图片

黄仁勋和马斯克都是人形机器人赛道拥护者且私交甚好,两者皆在多个重大场合,表达了对人形机器人未来美好畅想;前者曾表示:“机器人时代已经带来,人工智能的下一波浪潮是机器人技术,其中最令人兴奋的发展之一是人形机器人。”后者曾表示:“人形机器人是当下最大的机遇,并预测未来机器人的数量将远超人类,达到2:1至3:1的比例,将有100亿个人形机器人,甚至是200亿到300亿个,成为人类生活中不可或缺的伙伴与助手。”

当然,两者所代表[英伟达]和[特斯拉]也的确大力布局具身智能赛道,更是全球科技巨头/大厂(谷歌、微软、Meta、OpenAI、华为、腾讯等)入局代表。

[特斯拉]被称为人形机器人赛道引领者,旗下人形机器人Optimus更是行业标杆;[英伟达]从芯片和中间件层面入局,核心目的是打造底层开发生态,成为具身智能领域当之无愧最强“卖铲人”。

具身智能领域研究方向可粗略分为:具身智能大模型(机器人“大脑”)和人形机器人(本体+小脑)。

人形机器人大致分为三大部分:人形本体、高动态性能的控制算法(小脑)、具有泛化性的具身智能及非常接近人的通用人工智能。

具身智能领域初创公司主要分三种:专注于具身智能大模型、人形机器人整机和两者同时涉及;全球范围内,专注于人形机器人本体初创公司最多,初步统计,人形机器人整机公司目前已超150家且持续增加中(其中国内最多,并远超第二名是美国);具身智能大模型因涉及芯片、软件、AI算法,资金投入远高于人形机器人本体,目前更多是科技大厂间博弈,初创公司数量远低于人形机器人本体初创公司。

全球人形机器人本体公司背景可大体分为:汽车制造企业(特斯拉、小鹏等)、机器人企业(优必选、宇树等)、科研院校孵化(银河通用)和互联网背景创业团队(星尘智能、1X等),目前科研院校教授“兼职”创业占据国内人形本体初创企业半壁江山,国外更多是互联网背景创业团队。

全球具身智能大模型(机器人通用“大脑”)公司背景大体可分为:科技大厂(英伟达、OpenAI等)和科研院校背景创业团队(Physical Intelligence、Skild AI等);国外科技大厂早已布局具身智能大模型方向研究(如谷歌、英伟达等;谷歌已完成多次技术迭代,从Saycan到RT-H),目前处于领先地位;国内科技大厂目前也逐步切入具身智能赛道,推出相应具身智能大模型,但目前对具身智能大模型研发投入极其有限,更多以对外投资方式入局。

现阶段,[华为]是国内入局具身智能赛道佼佼者,并有意沿袭[英伟达]路线;[小鹏汽车]、[小米]作为车企,切入人形机器人本体制造,沿袭[特斯拉]路线。

NVIDIA:芯片和中间件层面入局

NVIDIA 在机器人领域的核心目标是打造底层开发生态,主要围绕着大模型、数据、开发平台三大核心领域展开,其终极目标是借助芯片等核心产品,为打造机器人底层开发生态。

2018年,英伟达推出全新硬件、软件、虚拟世界机器人模拟器的NVIDIAIsaac,同时还推出专为机器人设计的计算机平台Jetson Xavier和相关的机器人软件工具包,正式布局智能机器人领域;

图片

2019-2022年,英伟达从底层芯片、到计算平台、到训练与验证,开启智能机器人领域的全方位布局:

  • 2019年,推出lsaac软性开发套件(SDK),为机器人提供更新的AI感知和仿真功能;

  • 2021年,英伟达推出Omniverse平台,支持机器人的协作和模拟,对协作机器人影响深远;

  • 2022年,英伟达推出IsaacNova Orin,其配置的计算和传感器参考平台旨在帮助AMR(自主移动机器人)制造商缩短开发时间并降低成本;

  • 2022年10月,英伟达发布基于Transformer架构的支持多模形态的(仿真)智能体VIMA;

  • 2022年11月22日,英伟达发布具有互联网规模知识的开放式具身智能体-MinDojo;

2023年5月,英伟达发布全新JetsonAGXOrin 工业级模块;

2023年5月25日,英伟达发布VOYAGER智能体,这是第一个由LLM驱动的可以终身学习的智能体,为具身控制生成可执行代码;

2023年10月,英伟达对Jetson平台上的Metropolis和Isaac框架进行有史以来规模最大的软件扩展,用以来满足边缘AI的快速部署需求;与此同时,英伟达还宣布创建Jetson生成式AI实验室;另外宣布推出IsaacROS和IsaacSim软件的全新版本;

2023年10月20日,英伟达发布了Eureka(Evolution-driven Universal Reward Kit for Agent)智能机器人训练工具,本质是一种由大模型驱动的算法生成工具;

图片

2024年2月,英伟达成立通用具身智能体研究GEAR(Generalist EmbodiedAgent Research)团队,目标是在虚拟和现实世界中建立具身智能体基础模型,致力于实现跨多模态、多场景的智能应用;

2024年3月19日,GTC2024大会上,英伟达发布了人形机器人通用基础模型Project GR00T、基于Thor SoC的新型人形机器人计算机Jetson Tho;对Isaac机器人平台进行了重大升级,包括生成式AI基础模型和仿真工具、AI工作流基础设施,新功能将在下个季度推出;

图片

图片来源:英伟达官网

2024年7月29日,在丹佛SiGGRAPH2024大会上,英伟达携带自家生成式AI时代的新王牌-升级版“Nvidia NIM”(Nvidia Inference Microservices)云原生微服务亮相;Nvidia布局的NIM生态系统已经可提供一系列预训练的AI模型。英伟达宣布,帮助开发者在多个领域加速应用开发和部署,并且重点在不同的领域(如理解、数字人、三维开发、机器人技术和数字生物学)中提供的具体AI模型:

图片

Nvidia NIM(Nvidia Inference Model)提供的服务及其具体模型

谷歌:从Saycan到RT-H,软件领军者,步步为营,模型高速迭代

2017 年,提出的Transformer架构,是大语言模型(LLM)的最底层的基座,是大模型的基础;

2022年4月,谷歌推出Say-can模型;将任务拆分成两个部分,先是“Say”,之后是“Can”;Say-can模型首次引入大语言模型帮助理解任务,选择合适的任务规划;但机器人的动作仍然是预设好的,因此只能完成特定任务;底层技能通用性和泛用性较差,只能输出高级指令。

2022年12月,谷歌推出了动作控制的端到端模型RT-1(Robotics Transformer 1);RT-1模型,将任务通过Saycan拆分成具体的任务,然后使用RT-1去执行;本质上是模仿学习,无法超越数据集的遥操作,严格意义上不是“大模型”;

2023年3月6日,谷歌推出多模态视觉语言具身大模型(VLM)PaLM-E;该模型让机器人能够接收持续的多模态的输入,并具有一定的推理能力,具备5620亿的参数模型,但本质为大语言模型,对于动作的完成和指导较弱;

2023年7月28日,谷歌推出全球首个控制机器人视觉-语言-动作(VLA)大模型RT-2 (Robotics Transformer2),可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令;

2023年10月,谷歌推出RT-X,具身智能大数据集Open X加持的RT-2与RT-1(分别为 RT-1-X 和 RT-2-X),创造了新的具身智能大数据集OpenX,并用此数据集训练前述的机器人模型RT-1和RT-2得到新的模型RT-1-X与RT-2-X;

2024年1月,谷歌研究成果三连发数据收集的AutoRT系统、提高决策深度的SARA-RT 和提高泛化能力的RT-Trajectory 模型

2024年3月,谷歌推出RT-H;它能通过将复杂任务分解成简单的语言指令,再将这些指令转化为机器人行动,来提高任务执行的准确性和学习效率。

图片

Open AI:GPT持续迭代,模型赋能加对外投资

... ... ...

接下来,小编将详细盘点具身智能大模型领域,全球初创公司(PI、Skild AI、Covariant、有鹿机器人、X Square等)介绍及产品进展、全球科技巨头/大厂(谷歌、英伟达、微软、等)现阶段产品进展、人形机机器人本体厂家与科技巨头/大厂合作现状。

... ... ...

本文内容仅展示一部分,更多详细解读,加入知识星球“机器人头条”,查看完整版文章[原创]具身智能大模型赛道:科技巨头技术进展、初创公司盘点,第一款“机器人通用大脑”花落谁家(文字5W+)并深度了解“具身智能&人形机器人”赛道

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/62035.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux学习】【Ubuntu入门】2-3 make工具和makefile引入

1.使用命令新建三个.c文件vi main.c,vi input.c,vi caclcu.c,两个.h文件vi input.h,vi caclcu.h 2.vi Makefile:新建Makefile文件,输入一下内容 注意:命令列表中每条命令前用TAB键,不…

wsl2的Ubuntu18.04安装ros和anaconda

参考:超详细 WSL2 安装 ros 和 anaconda_wsl2安装anaconda-CSDN博客 一.安装ros 1. 更换系统源 输入 wget http://fishros.com/install -O fishros && . fishros 和上面的链接一样,依次输入5-2-1 2. 安装ros 输入 wget http://fishros.c…

1-golang_org_x_crypto_bcrypt测试 --go开源库测试

1.实例测试 package mainimport ("fmt""golang.org/x/crypto/bcrypt" )func main() {password : []byte("mysecretpassword")hashedPassword, err : bcrypt.GenerateFromPassword(password, bcrypt.DefaultCost)if err ! nil {fmt.Println(err)…

【FPGA】Verilog:利用 4 个串行输入- 串行输出的 D 触发器实现 Shift_register

0x00 什么是寄存器 寄存器(Register)是顺序逻辑电路中使用的基本组成部分之一。寄存器用于在数字系统中存储和处理数据。寄存器通常由位(bit)构成,每个位可以存储一个0或1的值。通过寄存器,可以设计出计数器、加法器等各种数据处理电路。 0x01 寄存器的种类 基于 D 触发…

用 Python 从零开始创建神经网络(十):优化器(Optimizers)(持续更新中...)

优化器(Optimizers) 引言1. 随机梯度下降/Stochastic Gradient Descent (SGD)2. 学习率(Learning Rate)3. 学习率衰减(Learning Rate Decay)4. 带动量的随机梯度下降法(Stochastic Gradient Des…

利用c语言详细介绍下栈的实现

数据结构中,栈是一种线性结构,数据元素遵循后进先出的原则。栈的一端为栈顶,一端为栈底或栈尾,数据只在栈顶端进行操作。新插入数据称为入栈或者压栈,删除数据叫做出栈或者退栈。 一、图文介绍 我们通过建立一个stack…

Jackson、Gson、FastJSON三款JSON利器比拼

在Java领域,有多种JSON工具包,比如Jackson、Gson、FastJSON,每家都各有所长,下面我们从性能、特性、生态、易用 性等几个方面来展开下: 一、Jackson 性能 Jackson是一款高性能的JSON处理库。它在序列化和反序列化操作…

使用 OpenCV 进行视频中的行人检测

在计算机视觉领域,行人检测是一个重要的研究方向,它在视频监控、自动驾驶、人机交互等领域都有着广泛的应用。本文将介绍如何使用 OpenCV 库来实现视频中的行人检测。 环境准备 首先,我们需要安装 OpenCV 库。可以通过以下命令来安装&#…

pytest日志总结

pytest日志分为两类: 一、终端(控制台)打印的日志 1、指定-s,脚本中print打印出的信息会显示在终端; 2、pytest打印的summary信息,这部分是pytest 的默认输出(例如测试结果PASSED, FAILED, S…

数据治理:在企业数据管理中的关键角色与实现路径——《DAMA 数据管理知识体系指南》读书笔记- 第 3 章

文章目录 1. 数据治理的核心内涵与战略价值2. 数据治理的驱动因素:不仅仅是合规3. 数据治理的组织模型:选择适合企业结构的运营模式4. 实施数据治理的关键步骤:战略、制度和文化5. 数据治理工具的选择:支持业务与流程的高效管理6.…

candence: 常用的一些命令: Move / Mirror / Rotate / Spain / Fix / unFix / Flipdesign

常用的一些命令 一、 Move 移动 一个可移动一个,也可多个 移动器件 二、 Mirror 镜像 Mirror 就是top 和 bottom 层的器件进行相互转换 三、 Rotate 旋转 移动过程中旋转 四、旋转 Spain 不能在移动中旋转 可以一次旋转一个,也可多个 一次旋转…

【测试工具JMeter篇】JMeter性能测试入门级教程(二)出炉,测试君请各位收藏了!!!

上篇文章:CSDN 我们介绍了JMeter的一些原理介绍,以及安装配置和启动流程,本文我们就来讲讲JMeter如何使用。 一、JMeter目录结构组成 1. 根目录 Jmeter安装包解压后的根目录如下图: 1.1 backups目录:脚本备份目录&am…

MATLAB深度学习(六)——LSTM长短期神经网络原理与应用

LSTM的应用可以参见一个相当好的视频:小车倒立摆最优控制教程 - Part1 Simulink Simscape Multibody仿真建模_哔哩哔哩_bilibili 6.1 序列建模——循环神经网络 循环神经网络RNN是一类专门用于处理序列性数据x,,xn的神经网络结构&#xff0c…

c++趣味编程玩转物联网:树莓派Pico控制 LED点阵屏

88 LED点阵屏是一种常见的数字显示设备,被广泛应用于电子时钟、公交车显示屏和游戏设备中。在本项目中,我们使用树莓派Pico开发板,通过I2C协议驱动HT16K33芯片,实现点阵屏显示心形图案、倒计时、动态矩形和动态圆等内容。本文详细…

transformer.js(四): 模型接口介绍

前面的文章底层架构及性能优化指南介绍了transformer.js的架构和优化策略,在本文中,将详细介绍 transformer.js 的模型接口,帮助你了解如何在 JavaScript 环境中使用这些强大的工具。 推荐阅读 ansformer.js(二)&…

11.25 校内模拟赛总结

难评 复盘 7:40 开题 还是决定采取前期审题时间长一点的策略 T1,显然枚举斜率比较优,算一下复杂度是对的,就会了;T2 好神秘啊,感觉又是什么根据结论然后贪心删数;T3 显然是优化 dp,感觉可做…

学习编程,学习中间件,学习源码的思路

01 看的多,内化不足 最近想复习一下编程相关的知识,在复习前我翻开了之前的一些笔记,这些笔记基本都是从书本、视频、博客等摘取记录的,看着这些笔记心里总结:看的多,内化不足。 02 整理大纲 为了解决这个…

[C++]vector:迭代器失效和vector<string>中更深层次拷贝的问题

迭代器失效 一、迭代器失效的两大类型异地扩容后的失效原地删除后的失效 二、vector<string>出现的深层次拷贝问题 一、迭代器失效的两大类型 异地扩容后的失效 在vector容器中&#xff0c;通常情况下的扩容都是异地扩容&#xff0c;例如resize, reserve&#xff0c;但…

初识 Django

声明 适用于想要快速入门的开发者&#xff0c;有前后端开发以及语言基础&#xff0c;想要学习语法或者特性。 想要学会快速开发&#xff0c;快速入门&#xff0c;请看博客【实用向】Django 框架入门并结合本篇文章。 命令 命令描述startproject创建一个 Django 项目startapp…

.net core MVC入门(一)

文章目录 项目地址一、环境配置1.1 安装EF core需要包1.2 配置数据库连接二、使用EF创建表2.1 整体流程梳理2.1 建表详细流程三、添加第一个视图3.1整体流程梳理3.1 添加视图,并显示在web里四、使用EF增加Catogory数据,并且读取数据到页面4.1整体流程梳理4.2 实现五、增加Cat…