人形机器人的理想与现实

ba35f0febea347abb6750b65a9895b6a.jpeg

李开复曾提到过一个AI界流传的“骗子又来了曲线”。 人会不断给机器进行“是否具有人类智能”的鉴定,而这个过程,总是从被人工智能在某些领域的惊艳表现震撼,到逐渐认识到当时的人工智能还有各种局限,以至于产生巨大心理落差。

近来,人形具身智能机器人在WAIC世界人工智能大会上密集亮相,我们在现场所感受到的就是“人类要毁灭了”与“骗子又来了”,两种声音同时存在的复杂现象。

9135583da57b55678919040438887467.png

具体来说,认为“人类要毁灭了”,大多是不明觉厉的普通观众,而冷静甚至不看好人形机器人的多为AI、机器人领域的业内人士。

比如猎豹移动董事长兼CEO、猎户星空董事长傅盛就表示,“机器人在今年的展厅里是爆发了,但在日常生活当中,我们并没有看到它在哪个地方被大规模用起来。机器人行业的产业爆发还远远没有到来……对人形机器人的不看好一定会被时间证明”。

这两种心态,究竟哪一种才代表人形机器人产业的真相呢?

其实并没有什么真相。不同的心态,是由不同的判定标准而产生的。大众、从业者和技术专家,都有一张“我心中的人形机器人”打分表,评价尺度各不相同。

而关于人形机器人的期待,在人形、大模型、具身三个标准上,大众的预期、媒体的宣传、产业的实际进展等都有比较大的分野。这构成了当前,人形机器人的理想与现实。

a568caa92fb74c09054a9f728cfed11c.png

“变形金刚”的理想与现实

“他们怎么不动啊,不表演有什么必要插电源?”

“插电亮着好看。”

本届WAIC最吸睛的,就是中央展厅的“十八金刚”了。18个人形机器人同台而立,几乎每个参观者都聚集在展台前打卡拍照,在展台旁边,我听到了这段对话。

大众理想中,人形机器人就是变形金刚、机甲战士那样,走路又稳又快,行动灵活,随意移动,无论是工厂上班、护理老人还是投递包裹,都手拿把掐。

16cded617f81a26cb42af6730e568c43.png

但产业现实中,WAIC上的人形机器人大多数时间都待在展台上,在特定时间表演一些拿苹果、端杯子之类的手部动作,特斯拉的机器人甚至始终待在玻璃展柜中一动不动。和全场溜达的机器狗相比,人形机器人显得“内向”很多。

由此可见,到底需不需要“双足行走”,成了目前公众和从业者对人形机器人,最大的认知差异。

总的来说,双足人形机器人是“机器人的皇冠”,是终极方向,才是大众期待的“变形金刚”。

但至少要走过三步:双足行走、执行复杂任务、规模商用。

而目前,仅仅是第一步“双足行走”,在技术和商业上都并不是最佳状态。

一方面,稳定的行走,需要系统拥有极高的鲁棒性。

机器人在面临各种异常情况和输入时,仍然能快速通过运动控制模块调整姿态,保持正常运行。

要提升系统的鲁棒性(或者说稳健性),依赖于机器人与人类、物理世界的真实交互,来积累高质量数据。如果遇到训练环境中没有出现过的问题,机器人就可能出现异常或“死机”,系统研发效率是比较低的。

05ebc530bc2c025568341d50aa9f7c8d.png

另外,商业上“双足行走”也并不是刚需。

比如特斯拉、Figure等都宣布要让人形机器人“进厂打工”,从事电池分拣等工作。但实际上,制造环节80%以上生产作业动作,其实很少用到下肢,用到躯干,主要是靠手来完成的。这种上肢为主的简单系统,可以减少控制难度,降低投入成本,并且更容易规模化量产,因为只需要将最重要的一部分功能(手部)进行复制。一旦加上四肢、躯干,控制难度、续航、成本都会大幅提升。

所以,目前能够规模化应用的机器人形态,都是以机器狗、机械手等单一、极简形态。满足大众期待的“变形金刚”,要在迈过很多步之后,才能带来极大产业效应。

几年之内,我们应该都会更常在展台和展柜中看见人形机器人,而非零距离互动。

大模型的理想与现实

02724cd284373686c4d978f051fe6f12.png

“现场机器人好多,我都感觉主题有点跑偏了”,一位计算领域的从业者对我说道。

智能机器人在人工智能大会上遍地开花,根本逻辑是——大模型为具身智能开启了新的解决方案的大门

传统的人工智能系统,受限于缺乏先验知识,理解力与泛化能力捉襟见肘,导致机器人难以像人类一样拥有基本的常识判断能力,这严重制约了高级别具身智能的发展。机器人执行任务时,往往需要人类工程师将复杂指令拆解为一系列简化的、程序化的步骤,再由机器人(如机械臂)逐一执行。显然,这种“智能水平”并不算很高,还需要人来做大量的代码和开发工作。

e400dee606a822bf2a0efc128ecfd27a.png

理想中,大模型会为人形机器人的“智能水平”,带来颠覆性的变革。

大模型相较于传统机器学习方法,拥有更加强大的泛化能力,可以为人形机器人的大量任务,比如复杂任务解析、流畅连续对话、零样本推理等,提供全新的解决方案。

举个例子,告诉人形机器人“我饿了”,它会自动分析这句话背后的需求,并拆解为可执行的具体动作,通过观察物理环境,从冰箱里拿出一个苹果给你吃,不需要人来拆分指令。

但现实中,大模型给人形机器人带来的变革,仍然停留在初级的“自然语言交互”。

目前绝大多数人形机器人,更多是拥有了类ChatGPT的“嘴”。这种结合,虽然能提供更自然生动的交互体验,但只是将现有的语音交互进行了升级,并非“端到端”任务执行能力的颠覆式突破。

90828cecd240fbd7f870219ec5cd3bdb.png

无需人工参与的高度自动化,为什么有了大模型也没能快速实现呢?

究其根本,机器人是一个非常复杂的学科,涉及精密机械、自动控制、电气电子、计算科学,最后呈现出一个非常复杂智能机电一体化系统。

从有监督机器学习到大语言模型,是计算领域的技术突破,可以在交互、规划、决策等环节发挥作用。然而,从机械化到高度自动化,人形机器人的再进化,还需要感知技术、驱动与传动技术、万兆网络等的技术和资源支持。

9bfc5b32c4aec1c44f6526d9796e2eaf.png

国产机器人崛起的理想与现实

“美国公司负责忽悠概念,中国公司负责让机器人落地、商用,把价格打下来,让人人实现机器人自由。”

此次WAIC大会,国产人形机器人的表现确实要比海外公司亮眼很多。无论是特斯拉、谷歌,在机器人的展示上都堪称乏味。而国产人形机器人不仅批量化、大规模出现,而且展现出了在很多具体场景中的商用能力,比如做饭机器人、电信机器人、家政陪伴机器人等。

8f080cdc8b03061b3e4379ea341568bf.png

那么,这是不是意味着国产人形机器人厂商会很快崛起呢?

我们当然希望这一天能尽快实现,但目前来看现实还有不确定性。

数据层面,特斯拉、谷歌等科技巨头,在自动驾驶领域有多年积累,可以将足够多的空间数据喂给模型,解决人形机器人在复杂空间中的学习问题,从而更好地进行迭代学习。而在WAIC现场,我们看到的大多数国产人形机器人厂商的业务面还比较孤立,百度、商汤等数据积累面广的AI公司,则更多聚焦在汽车形态的智能机器人。这意味着,解决人形机器人的数据问题,还有赖于产生生态化、产业化、多方共建的解决方案。

算法层面,类GPT-4o能力的国产多模态大模型还比较稀缺,这使得人形机器人通过视觉、音频等多维度数据来识别地图和复杂场景的能力,大大受到限制。目前,海外产学界已经在多模态大模型上系统性发力。比如OpenAI基于GPT-4o为Figure 01构建了一个具身智能AI模型,谷歌推出了多模态具身视觉语言模型PaLM-E。加州大学伯克利分校推出了LM Nav,来实现硬件本体、运动小脑、决策大脑三部分逐渐融合。目前来看,国产基础大模型还有一段路要追赶。

7dbdfb0dd91e5d0512e2478a0d4d92c9.png

发展国产人形机器人产业,是一条难而正确的路。在这条路上,我们既不希望“骗子又来了”,也不希望“人类被毁灭了”。历史告诉我们,技术发展过程中一定会经历上升、顶峰、陷入低谷、攀升、稳定5个阶段。

人形机器人产业要避免跌入低谷,持续发展,就要在理想与现实中,不断校正自己的坐标,在每一个发展阶段兑现实用价值。

2a2a34d5381ab5d1db1fb920d60640c2.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/44768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html js 3d z轴移动 实现星空

用chatgpt还有kimi 让实现动画效果的星空,都太垃圾了 不是y轴移动,就是x轴移动, 我要z轴移动,他们就是搞不出来, ai写代码还有很长的路。 <!DOCTYPE html> <meta charset="utf-8" /> <head> <title>ai相关博客</title> </h…

【操作系统】手把手带你搭建DNS服务器!

DNS服务器 DNS服务器指域名系统或者域名服务。域名系统为Internet上的主机分配域名地址和IP地址&#xff0c;用户使用域名地址&#xff0c;该系统就会自动把域名地址转为IP地址。域名服务是运行域名系统的Internet工具。执行域名服务的服务器称之为DNS服务器&#xff0c;通过DN…

51单片机嵌入式开发:8、 STC89C52RC 操作LCD1602原理

STC89C52RC 操作LCD1602原理 1 LCD1602概述1.1 LCD1602介绍1.2 LCD1602引脚说明1.3 LCD1602指令介绍 2 LCD1602外围电路2.1 LCD1602接线方法2.2 LCD1602电路原理 3 LCD1602软件操作3.1 LCD1602显示3.2 LCD1602 protues仿真 4 总结 1 LCD1602概述 1.1 LCD1602介绍 LCD1602是一种…

maven——(重要)手动创建,构建项目

创建项目 手动按照maven层级建好文件夹&#xff0c;并写上java&#xff0c;测试代码和pom文件 构建项目 在dos窗口中执行如下命令 compile编译 当前maven仓库中什么都没有。 在pom所在层级下&#xff0c;执行&#xff1a; mvn compile 就开始显示下面这些&#xff0c;…

数据库-ubuntu环境下安装配置mysql

文章目录 什么是数据库&#xff1f;一、ubuntu环境下安装mysql二、配置mysql配置文件1.先登上root账号2.配置文件的修改show engines \G; mysql和mysqld数据库的基础操作登录mysql创建数据库显示当前数据库使用数据库创建表插入students表数据打印students表数据select * from …

前端使用Vue和Element实现可拖动弹框效果,且不影响底层元素操作,Cesium作为底图(可拖拽的视频实时播放弹框,底层元素可以正常操作)

简述&#xff1a;在前端开发中&#xff0c;弹框和实时视频播放是常见的需求。这里来简单记录一下&#xff0c;如何使用Vue.js和Element UI实现一个可拖动的弹框&#xff0c;并在其中播放实时视频。同时&#xff0c;确保在拖拽弹框时&#xff0c;底层元素仍然可以操作。这里来记…

vue 画二维码及长按保存

需求 想要做如下图的二维码带文字&#xff0c;且能够长按保存 前期准备 一个canvas安装qrcode&#xff08;命令&#xff1a;npm i qrcode&#xff09; 画二维码及文字 初始化画布 <template><div><canvas ref"canvas" width"300" he…

JAVASE进阶day07(泛型,集合,Set,TreeSet,枚举,数据结构)

泛型 1.泛型的基本使用 限制集合存储的数据类型 package com.lu.day07.generics;/*** 定义了一个泛型类* E 泛型通配字母(不固定代替真实数据类型A-Z都可以)* 常见的泛型通配字母:* E:element 元素* T:type 类型* R:return 返回值类型* K:key 键* …

14.爬虫---Selenium 经典动态渲染工具的使用

14.Selenium 经典动态渲染工具的使用 1.查看chrome浏览器版本2.ChromeDriver 安装3.Selenium 安装4.验证安装5.基本用法5.1启动浏览器5.2导航到页面5.3查找元素5.3.1单个元素 find_element5.3.2多个元素 find_elements 5.4 执行操作5.5 动作链ActionChains5.6 执行 JavaScript …

Python基础语法:运算符详解(算术运算符、比较运算符、逻辑运算符、赋值运算符)②

文章目录 Python中的运算符详解一、算术运算符二、比较运算符三、逻辑运算符四、赋值运算符五、综合示例结论 Python中的运算符详解 在Python编程中&#xff0c;运算符用于执行各种操作&#xff0c;例如算术计算、比较、逻辑判断和赋值。了解并掌握这些运算符的使用方法是编写…

N-(4-Azido-2-nitrophenyl)-N‘‘-biotinylnorspemidine

​一、基本信息 常用名&#xff1a;N-(4-Azido-2-nitrophenyl)-N-biotinylnorspemidine 英文名&#xff1a;N-(4-Azido-2-nitrophenyl)-N-biotinylnorspemidine CAS号&#xff1a;786609-83-4 分子式&#xff1a;C22H33N9O4S 分子量&#xff1a;519.62 二、结构特点 该化…

SQL职场必备:掌握数据库技能提升职场竞争力

&#x1f482; 个人网站:【 摸鱼游戏】【网址导航】【神级代码资源网站】&#x1f91f; 一站式轻松构建小程序、Web网站、移动应用&#xff1a;&#x1f449;注册地址&#x1f91f; 基于Web端打造的&#xff1a;&#x1f449;轻量化工具创作平台&#x1f485; 想寻找共同学习交…

vue3 + tsx 表格 Action 单独封装组件用法

前言 先上图看右侧列 action 的 UI 效果&#xff1a; 正常来说&#xff0c;如果一个表格的附带 action 操作&#xff0c;我们一般会放在最右侧的列里面实现&#xff0c;这个时候有些UI 框架支持在 SFC 模板里面定义额外的 solt&#xff0c;当然如果不支持&#xff0c;更通用的…

Linux进行vi编译代码出现“E45: ‘readonly‘ option is set (add ! to override)”(完美解决)。

用vi修改文件&#xff0c;保存文件时&#xff0c;提示没有修改该文件的权限“E45: ‘readonly’ option is set (add ! to override)”的解决方法。 E45: ‘readonly’ option is set (add ! to override) 如果您遇到了“当前用户没有权限对文件作修改”的错误 1. 检查文件…

2024.7.11最新版IDM破解,操作简单

前言 IDM的强劲对手&#xff0c;100%免费&#xff0c;如果破解IDM失败&#xff0c;推荐使用FDM&#xff0c;下载地址&#xff1a;Free Download Manager 破解步骤 打开PowerShell&#xff0c;非CMD 在左下角开始菜单右键点击后选择PowerShell&#xff0c;注意不是打开CMD。…

园林类专刊《花卉》简介及投稿邮箱

园林类专刊《花卉》简介及投稿邮箱 《花卉》杂志是经国家新闻出版总署批准&#xff0c;广东省农业科学院主管&#xff0c;广东省农业科学院环境园艺研究所主办&#xff0c;面向国内外公开发行林业系统专业期刊&#xff0c;是全国从事林业、园林、生态、环保、旅游、自然资源、…

CentOS7安装部署git和gitlab

安装Git 在Linux系统中是需要编译源码的&#xff0c;首先下载所需要的依赖&#xff1a; yum install -y curl-devel expat-devel gettext-devel openssl-devel zlib-devel gcc perl-ExtUtils-MakeMaker方法一 下载&#xff1a; wget https://mirrors.edge.kernel.org/pub/s…

【文档+源码+调试讲解】冷冻仓储管理系统

摘 要 随着互联网时代的到来&#xff0c;同时计算机网络技术高速发展&#xff0c;网络管理运用也变得越来越广泛。因此&#xff0c;建立一个B/S结构的冷冻仓储管理系统&#xff0c;会使冷冻仓储管理系统工作系统化、规范化&#xff0c;也会提高冷冻仓储管理系统平台形象&#x…

现在国内的ddos攻击趋势怎么样?想了解现在ddos的情况该去哪看?

目前&#xff0c;国内的DDoS攻击趋势显示出以下几个特征&#xff1a; 攻击频次显著增加&#xff1a;根据《快快网络2024年DDoS攻击趋势白皮书》&#xff0c;2023年DDoS攻击活动有显著攀升&#xff0c;总攻击次数达到1246.61万次&#xff0c;比前一年增长了18.1%。 攻击强度和规…

微软子公司Xandr遭隐私诉讼,或面临巨额罚款

近日&#xff0c;欧洲隐私权倡导组织noyb对微软子公司Xandr提起了诉讼&#xff0c;指控其透明度不足&#xff0c;侵犯了欧盟公民的数据访问权。据指控&#xff0c;Xandr的行为涉嫌违反《通用数据保护条例》&#xff08;GFPR&#xff09;&#xff0c;因其处理信息并创建用于微目…