ChatGPT有身体了,能走向千家万户吗?

3月13日,OpenAI投资的人形机器人——Figure 01迎来重磅更新,接入最新版ChatGPT后,它能和人交流描述眼前看到的事物。在视频中,Figure 的人形机器人,可以完全与人类流畅对话,还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。而其背后,就是 OpenAI 为其配置的智能大脑。

人形机器人Figure 01

Figure 01,最懂你的人形机器人?

得益于 OpenAI 多模态大模型的强大支持,Figure 01 现在可是个桌上物品识别的小能手。苹果、沥水架、水杯和盘子,对它来说都是小菜一碟。饿了,想让它整口吃的,它能秒懂你的心思,麻溜地递上一个苹果。它甚至能一边拣起你丢弃的垃圾,一边跟你解释为啥刚才给了你苹果。在人类的一声令下,Figure 01 还能做家务,收拾餐具,这机器人,简直是家庭生活的最佳伙伴。

综合来看,Figure 01拥有的能力包括:

一、视觉识别和理解。当人类问Figure 01看到了什么,Figure 01回答道:“我看到了桌子中央的盘子上有一个红苹果、一个装满杯子和盘子的晾碗架,以及你站在附近,手放在桌子上。”

二、语言识别和理解。当人类问Figure 01能够吃点什么东西时,Figure 01将桌上的苹果递给了人类,并表示这是“唯一我可以从桌上为你提供的食物”。

三、流畅的任务执行。Figure 01清理桌面垃圾、整理晾碗架的场景。

Figure 01整理家具

机器人的速度已经接近人类速度

Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了机器人互动背后的原理。此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作。

研究人员将机器人摄像头中的图像输入,和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。同样的模型,也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。

人形机器人Figure 01

这也是为什么这个机器人,属于“端到端”的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像,然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到,这代表机器人的速度已经有显著提高,开始接近人类的速度。

人形机器人加快“进厂打工”

值得注意的是,Figure AI近期还与汽车制造商宝马公司签署了一项商业协议,将在汽车制造中部署通用机器人。

在人工智能技术的加持下,人形机器人的智能化水平大幅提升,并加速进入工厂等真实的工作场景当中。梳理发现,已有多家海内外公司将在工厂中引入人形机器人,或已经演示了机器人“进厂打工”的视频。

去年底,美国机器人公司AgilityRobotics宣布,将在俄勒冈州塞勒姆市开设世界上第一座“人形机器人制造工厂”,并且承诺每年将生产1万台智能人形机器人“Digit”,作为“机器人同事”在仓库和工厂内运输和搬运货物。亚马逊在其西雅图郊区的一个配送中心也引入了Digit人形机器人,用于协助员工完成仓库中的搬运工作。

今年1月,特斯拉CEO埃隆·马斯克在财报电话会上透露,特斯拉正致力于在2025年实现人形机器人Optimus初步出货,马斯克还表示,预计2024年Optimus在特斯拉工厂进行实用性测试。

国内方面,今年2月22日,“人形机器人第一股”优必选发布了工业版人形机器人Walker S在新能源车厂的首次实训视频。视频中,Walker S完成了对蔚来汽车门锁、安全带、车灯盖板的检测,并以流畅的动作贴好了车标。在整个过程中,Walker S展示出精巧的身体控制能力,手部动作尤为灵巧。优必选创始人、董事长兼CEO周剑曾透露,已经在跟多家新能源汽车制造厂接触,“2024年会有更多工业制造客户的消息”。

广告

从秘书起步,十年内无人超越,以一己之力力挽狂澜成就一段传奇

×

Walker S “进厂打工”

具身智能加速商业落地

大部分人很容易将人形机器人和具身智能画等号,其实不然,人形机器人只是具身智能的物理形态之一。英伟达公司创始人黄仁勋将具身智能定义为,能理解、推理及与物理世界互动的智能系统。具身智能并不一定以人形状态呈现,根据应用场景不同,可以有无尽想象力,比如可能是动物、汽车等形态。

近年来,具身智能作为人工智能研究中的一个新领域,热度不断攀升。根据赛迪智库最新研究显示,国家层面,世界主要经济具身智能产业的发展方向各有侧重。美国不断推进具身智能基础研究,并且掌握着前沿技术;日本聚焦工业机器人和服务机器人领域;韩国重点关注机器人核心零部件和软件、自动驾驶汽车领域的技术创新;欧盟则全方位推进具身智能发展。企业层面,国内外具身智能主要企业亦动作频繁。谷歌发布具身视觉语言模型,打造机器人大脑;微软以ChatGPT为内核,通过对话来指挥机器人操作,进一步简化人机交互模式;英伟达发布的多模态具身AI系统可以在视觉文本提示的指导下执行复杂任务;阿里入局“AI+机器人”赛道,将“千问”大模型接入工业机器人;优必选人形机器人已应用于教育领域。

熊猫机器人优悠在迪拜世博会中国馆教游客打太极

近日,美国科技公司英伟达宣布成立通用具身智能体研究实验室GEAR。去年以来,包括中国电科21所、智元机器人、科大讯飞、小鹏汽车、傅利叶智能在内的多家国内企业相继发布了自主研发的具身智能机器人,并有多家企业拟在今年实现具身智能的商业化落地。业界普遍认为,2024年有望成为具身智能商业落地元年。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/750937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JDK、JRE和JVM的区别

一、JDK java development kit java开发工具包 负责开发、编译和运行java代码 二、JRE java runtime environment java运行时环境 负责运行java类,比如运行jar包,无需开发的话,只安装JRE即可 三、JVM java virtual machine java虚拟机…

搞懂分布式技术:缓存更新的套路

目录 缓存更新的套路 Cache Aside Pattern Read/Write Through Pattern Read Through Write Through Write Behind Caching Pattern 再多唠叨一些 缓存更新的套路 看到好些人在写更新缓存数据代码时,先删除缓存,然后再更新数据库,而后续的操作…

代码随想录 -- 回溯算法

文章目录 回溯算法理论什么是回溯法回溯法的效率回溯法解决的问题理解回溯法回溯法模板 组合问题I描述题解优化 组合总和III描述题解 电话号码的字母组合描述题解 组合总和描述题解 组合总和II描述题解 分割回文串描述题解 复原IP地址描述题解 子集描述题解 子集II描述题解 递增…

shallowReactive浅层式响应对象

一、 reactive 和ref 都是深层响应式对象: 就是不管对象有多少层,修改此对象任一属性都会响应式处理 shallowReactive 和shallowRef 浅层响应式对象: 只会修改第一层对象,修改此对象第一层属性,视图会有同步变化,非第一层&#xf…

Webapi 日志过滤器(接口日志记录)

/// <summary> /// 日志过滤器 /// </summary> public class LogFilter : IAsyncActionFilter {private readonly ILogger<LogFilter> _logger;public LogFilter(ILogger<LogFilter> logger){_logger logger;}public async Task OnActionExecutionAsy…

WorkPlus Meet局域网视频会议软件的领先解决方案

局域网视频会议软件在现代企业中发挥着重要的作用&#xff0c;而在众多选项中&#xff0c;为何选择WorkPlus Meet作为局域网视频会议软件&#xff1f; 选择局域网视频会议软件时需要考虑到企业的需求。WorkPlus Meet提供了稳定、高效的局域网视频会议功能&#xff0c;能够满足…

关于d3dx9_43.dll文件丢失的解决办法,六种详细方法

当d3dx9_43.dll文件缺失时&#xff0c;系统会显示错误信息来提示用户。这些错误信息可能会包含类似于"d3dx9_43.dll未找到"或"找不到d3dx9_43.dll"等字样。通常出现这样的字样那就是导致应用程序通常无法正常启动或执行相关功能。那么出现这样的功能有什么…

哔哩哔哩后端Java一面

前言 作者&#xff1a;晓宜 个人简介&#xff1a;互联网大厂Java准入职&#xff0c;阿里云专家博主&#xff0c;csdn后端优质创作者&#xff0c;算法爱好者 最近各大公司的春招和实习招聘都开始了&#xff0c;这里分享下去年面试B站的的一些问题&#xff0c;希望对大家有所帮助…

【自动化】C#中的全双工通信与半双工通信:读写问题及应用实例

引言&#xff1a; 在网络编程和嵌入式系统中&#xff0c;串口通信是一个常见的任务。C#语言通过SerialPort类为开发者提供了实现串口通信的便捷方式。在串口通信中&#xff0c;根据通信双方能否同时发送和接收数据&#xff0c;可以将通信模式分为全双工和半双工两种。本文将详细…

c语言:于龙减

于龙减 任务描述 于老师觉得于龙加法还不够刺激&#xff0c;于是又设计了于龙减。 两个非负整数的于龙减“A&#xff0d;B”的意义是&#xff1a;在A的所有数字中&#xff0c;凡是在B中出现的数字都划掉&#xff0c;A中剩下的数就是结果&#xff0c;如果不剩结果就是0。 于龙…

【Golang星辰图】Go语言游戏开发:选择合适的库加速你的开发过程

打造出色的游戏体验&#xff1a;使用Go库进行游戏和图形开发 前言 Go语言通过其简洁、高效和并发性的特性&#xff0c;逐渐在开发领域中崭露头角。对于游戏和图形开发&#xff0c;Go也有一些优秀的库和引擎可供选择。本文将介绍几个流行的Go库&#xff0c;包括ebiten、raylib…

Centos7安装ffmpeg

Centos7安装ffmpeg 用到的包压缩并安装 用到的包 压缩并安装 tar xvJf ffmpeg-5.0.1.tar.xz yum install -y gcctar -zxvf yasm-1.3.0.tar.gz cd yasm-1.3.0 ./configure make && make install yasm --versionyum install -y bzip2tar jxvf nasm-2.14.02.tar.bz2 cd n…

C语言向C++过渡的基础知识(二)

目录 C中的函数重载 函数重载介绍 函数类型的使用 C中的引用 引用的介绍 引用的使用 引用与指针的对比 常量引用 引用在实际中的使用 函数返回值 返回值和返回引用时间消耗对比 函数形式参数 形式参数为值与形式参数为引用时间消耗对比 内联函数 内联函数的特点…

Spring MVC文件上传配置

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl 文件上传 Spring MVC文件上传基于Servlet 3.0实现&#xff1b;示例代码如下&#xff1a; Overrideprotected void customizeRegistration(ServletRegistration.Dynamic reg…

Guitar Pro 8.1功能介绍及如何安装安装破解教程

音乐创作是许多音乐人的核心工作&#xff0c;而吉他作为其中最为常用的乐器之一&#xff0c;其创作和演奏的重要性也不言而喻。在创作过程中&#xff0c;如何更好地记录和编辑音乐成为了许多音乐人所面临的挑战。而Guitar Pro 8.1则是一款专业的吉他音乐编辑软件&#xff0c;它…

T1.数据库MySQL

二.SQL分类 2.1 DDL 2.1.1数据库操作 1). 查询所有数据库 show databases ; 2). 查询当前数据库 select database(); 3)创建数据库 create database [if not exists] 数据库名 [default charset 字符集] [collate 排序规则] ; 4&#xff09;删除数据库 drop database …

【机器学习系列】M3DM工业缺陷检测部署与训练

一.基础资料 1.Git 地址 地址 2.issues issues 3.参考 参考 csdn 二.服务器信息 1.GPU 服务器 GPU 服务器自带 CUDA 安装(前提是需要勾选上)CUDA 需要选择大于 11.3 的版本登录服务器后会自动安装 GPU 驱动 2.CUDA 安装 GPU 服务器自带 CUDA CUDA 版本查看 3.登录信…

欢迎来到实力至上教室-名言(解释来自文心一言)-04

人在这世上是无法独自生存的。因为学校和社会都是由众多人所组成。——绫小路清隆 首先&#xff0c;从生物学的角度看&#xff0c;人类作为社会性动物&#xff0c;天生就具有与他人互动和合作的本能。无论是在原始社会还是现代文明中&#xff0c;人类都需要通过集体合作来确保生…

小红书图片怎么提取?小红书图片提取原图方法!

说到小红书&#xff0c;不少女性群体都知道这个&#xff0c;他的价值很高而且变现对于大多数做自媒体的小伙伴来说&#xff0c;也是不错的选择&#xff01; 小红书对于普通大众还是互联网创作者来说&#xff0c;都太实用了&#xff0c;唯一的缺点可能就是当我们需要存储他的图…

2.VDMA视频流显示通路搭建

1.简介 本节主要讲解如何基于ZYNQ7020搭建一个视频流接收以及显示的数据通路。为后续的算法图像验证提供基础。 2.项目框架 整个项目简略框架如图&#xff0c;img_gen负责产生图像像素点&#xff0c;给到video in to AXI_Stream模块后转化为AXI_Stream数据流给到VDMA&#xff…