ChatGPT有身体了,能走向千家万户吗?

3月13日,OpenAI投资的人形机器人——Figure 01迎来重磅更新,接入最新版ChatGPT后,它能和人交流描述眼前看到的事物。在视频中,Figure 的人形机器人,可以完全与人类流畅对话,还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。而其背后,就是 OpenAI 为其配置的智能大脑。

人形机器人Figure 01

Figure 01,最懂你的人形机器人?

得益于 OpenAI 多模态大模型的强大支持,Figure 01 现在可是个桌上物品识别的小能手。苹果、沥水架、水杯和盘子,对它来说都是小菜一碟。饿了,想让它整口吃的,它能秒懂你的心思,麻溜地递上一个苹果。它甚至能一边拣起你丢弃的垃圾,一边跟你解释为啥刚才给了你苹果。在人类的一声令下,Figure 01 还能做家务,收拾餐具,这机器人,简直是家庭生活的最佳伙伴。

综合来看,Figure 01拥有的能力包括:

一、视觉识别和理解。当人类问Figure 01看到了什么,Figure 01回答道:“我看到了桌子中央的盘子上有一个红苹果、一个装满杯子和盘子的晾碗架,以及你站在附近,手放在桌子上。”

二、语言识别和理解。当人类问Figure 01能够吃点什么东西时,Figure 01将桌上的苹果递给了人类,并表示这是“唯一我可以从桌上为你提供的食物”。

三、流畅的任务执行。Figure 01清理桌面垃圾、整理晾碗架的场景。

Figure 01整理家具

机器人的速度已经接近人类速度

Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了机器人互动背后的原理。此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作。

研究人员将机器人摄像头中的图像输入,和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。同样的模型,也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。

人形机器人Figure 01

这也是为什么这个机器人,属于“端到端”的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像,然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到,这代表机器人的速度已经有显著提高,开始接近人类的速度。

人形机器人加快“进厂打工”

值得注意的是,Figure AI近期还与汽车制造商宝马公司签署了一项商业协议,将在汽车制造中部署通用机器人。

在人工智能技术的加持下,人形机器人的智能化水平大幅提升,并加速进入工厂等真实的工作场景当中。梳理发现,已有多家海内外公司将在工厂中引入人形机器人,或已经演示了机器人“进厂打工”的视频。

去年底,美国机器人公司AgilityRobotics宣布,将在俄勒冈州塞勒姆市开设世界上第一座“人形机器人制造工厂”,并且承诺每年将生产1万台智能人形机器人“Digit”,作为“机器人同事”在仓库和工厂内运输和搬运货物。亚马逊在其西雅图郊区的一个配送中心也引入了Digit人形机器人,用于协助员工完成仓库中的搬运工作。

今年1月,特斯拉CEO埃隆·马斯克在财报电话会上透露,特斯拉正致力于在2025年实现人形机器人Optimus初步出货,马斯克还表示,预计2024年Optimus在特斯拉工厂进行实用性测试。

国内方面,今年2月22日,“人形机器人第一股”优必选发布了工业版人形机器人Walker S在新能源车厂的首次实训视频。视频中,Walker S完成了对蔚来汽车门锁、安全带、车灯盖板的检测,并以流畅的动作贴好了车标。在整个过程中,Walker S展示出精巧的身体控制能力,手部动作尤为灵巧。优必选创始人、董事长兼CEO周剑曾透露,已经在跟多家新能源汽车制造厂接触,“2024年会有更多工业制造客户的消息”。

广告

从秘书起步,十年内无人超越,以一己之力力挽狂澜成就一段传奇

×

Walker S “进厂打工”

具身智能加速商业落地

大部分人很容易将人形机器人和具身智能画等号,其实不然,人形机器人只是具身智能的物理形态之一。英伟达公司创始人黄仁勋将具身智能定义为,能理解、推理及与物理世界互动的智能系统。具身智能并不一定以人形状态呈现,根据应用场景不同,可以有无尽想象力,比如可能是动物、汽车等形态。

近年来,具身智能作为人工智能研究中的一个新领域,热度不断攀升。根据赛迪智库最新研究显示,国家层面,世界主要经济具身智能产业的发展方向各有侧重。美国不断推进具身智能基础研究,并且掌握着前沿技术;日本聚焦工业机器人和服务机器人领域;韩国重点关注机器人核心零部件和软件、自动驾驶汽车领域的技术创新;欧盟则全方位推进具身智能发展。企业层面,国内外具身智能主要企业亦动作频繁。谷歌发布具身视觉语言模型,打造机器人大脑;微软以ChatGPT为内核,通过对话来指挥机器人操作,进一步简化人机交互模式;英伟达发布的多模态具身AI系统可以在视觉文本提示的指导下执行复杂任务;阿里入局“AI+机器人”赛道,将“千问”大模型接入工业机器人;优必选人形机器人已应用于教育领域。

熊猫机器人优悠在迪拜世博会中国馆教游客打太极

近日,美国科技公司英伟达宣布成立通用具身智能体研究实验室GEAR。去年以来,包括中国电科21所、智元机器人、科大讯飞、小鹏汽车、傅利叶智能在内的多家国内企业相继发布了自主研发的具身智能机器人,并有多家企业拟在今年实现具身智能的商业化落地。业界普遍认为,2024年有望成为具身智能商业落地元年。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/750937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搞懂分布式技术:缓存更新的套路

目录 缓存更新的套路 Cache Aside Pattern Read/Write Through Pattern Read Through Write Through Write Behind Caching Pattern 再多唠叨一些 缓存更新的套路 看到好些人在写更新缓存数据代码时,先删除缓存,然后再更新数据库,而后续的操作…

代码随想录 -- 回溯算法

文章目录 回溯算法理论什么是回溯法回溯法的效率回溯法解决的问题理解回溯法回溯法模板 组合问题I描述题解优化 组合总和III描述题解 电话号码的字母组合描述题解 组合总和描述题解 组合总和II描述题解 分割回文串描述题解 复原IP地址描述题解 子集描述题解 子集II描述题解 递增…

shallowReactive浅层式响应对象

一、 reactive 和ref 都是深层响应式对象: 就是不管对象有多少层,修改此对象任一属性都会响应式处理 shallowReactive 和shallowRef 浅层响应式对象: 只会修改第一层对象,修改此对象第一层属性,视图会有同步变化,非第一层&#xf…

WorkPlus Meet局域网视频会议软件的领先解决方案

局域网视频会议软件在现代企业中发挥着重要的作用,而在众多选项中,为何选择WorkPlus Meet作为局域网视频会议软件? 选择局域网视频会议软件时需要考虑到企业的需求。WorkPlus Meet提供了稳定、高效的局域网视频会议功能,能够满足…

关于d3dx9_43.dll文件丢失的解决办法,六种详细方法

当d3dx9_43.dll文件缺失时,系统会显示错误信息来提示用户。这些错误信息可能会包含类似于"d3dx9_43.dll未找到"或"找不到d3dx9_43.dll"等字样。通常出现这样的字样那就是导致应用程序通常无法正常启动或执行相关功能。那么出现这样的功能有什么…

哔哩哔哩后端Java一面

前言 作者:晓宜 个人简介:互联网大厂Java准入职,阿里云专家博主,csdn后端优质创作者,算法爱好者 最近各大公司的春招和实习招聘都开始了,这里分享下去年面试B站的的一些问题,希望对大家有所帮助…

Centos7安装ffmpeg

Centos7安装ffmpeg 用到的包压缩并安装 用到的包 压缩并安装 tar xvJf ffmpeg-5.0.1.tar.xz yum install -y gcctar -zxvf yasm-1.3.0.tar.gz cd yasm-1.3.0 ./configure make && make install yasm --versionyum install -y bzip2tar jxvf nasm-2.14.02.tar.bz2 cd n…

Spring MVC文件上传配置

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl 文件上传 Spring MVC文件上传基于Servlet 3.0实现;示例代码如下: Overrideprotected void customizeRegistration(ServletRegistration.Dynamic reg…

Guitar Pro 8.1功能介绍及如何安装安装破解教程

音乐创作是许多音乐人的核心工作,而吉他作为其中最为常用的乐器之一,其创作和演奏的重要性也不言而喻。在创作过程中,如何更好地记录和编辑音乐成为了许多音乐人所面临的挑战。而Guitar Pro 8.1则是一款专业的吉他音乐编辑软件,它…

T1.数据库MySQL

二.SQL分类 2.1 DDL 2.1.1数据库操作 1). 查询所有数据库 show databases ; 2). 查询当前数据库 select database(); 3)创建数据库 create database [if not exists] 数据库名 [default charset 字符集] [collate 排序规则] ; 4)删除数据库 drop database …

【机器学习系列】M3DM工业缺陷检测部署与训练

一.基础资料 1.Git 地址 地址 2.issues issues 3.参考 参考 csdn 二.服务器信息 1.GPU 服务器 GPU 服务器自带 CUDA 安装(前提是需要勾选上)CUDA 需要选择大于 11.3 的版本登录服务器后会自动安装 GPU 驱动 2.CUDA 安装 GPU 服务器自带 CUDA CUDA 版本查看 3.登录信…

小红书图片怎么提取?小红书图片提取原图方法!

说到小红书,不少女性群体都知道这个,他的价值很高而且变现对于大多数做自媒体的小伙伴来说,也是不错的选择! 小红书对于普通大众还是互联网创作者来说,都太实用了,唯一的缺点可能就是当我们需要存储他的图…

2.VDMA视频流显示通路搭建

1.简介 本节主要讲解如何基于ZYNQ7020搭建一个视频流接收以及显示的数据通路。为后续的算法图像验证提供基础。 2.项目框架 整个项目简略框架如图,img_gen负责产生图像像素点,给到video in to AXI_Stream模块后转化为AXI_Stream数据流给到VDMA&#xff…

STM32---SG90舵机控制(HAL库,含源码)

写在前面:在嵌入式的项目中,舵机是一个十分常见的元器件模块,其主要的功能是实现机械转动,实质上舵机是一个伺服的驱动器,适用于那些需要角度不断变化并可以保持的控制系统。例如在机器人的电控制器系统中,…

用户数据的FLASH存储与应用(FPGA架构)

该系列为神经网络硬件加速器应用中涉及的模块接口部分,随手记录,以免时间久了遗忘。 一 背景 我们知道,在FPGA做神经网络应用加速时,涉及到权重参数的存储和加载。通常在推理过程中,会将权重参数存储在外部DDR或片上S…

c++简单实现avl树

文章目录 AVL树节点类节点类的构造函数 AVLinsert()插入RotateL(左单旋)RotateR(右单旋)RotateLR(右双旋)RotateRL(左双旋) Find(查找)IsBalance(检查是否是avl树) AVL树 AVL树:又名高度平衡树,在二叉搜索树的基础上加上了一个条件,条件是左右子树高度差…

vulhub中GitLab 远程命令执行漏洞复现(CVE-2021-22205)

GitLab是一款Ruby开发的Git项目管理平台。在11.9以后的GitLab中,因为使用了图片处理工具ExifTool而受到漏洞CVE-2021-22204的影响,攻击者可以通过一个未授权的接口上传一张恶意构造的图片,进而在GitLab服务器上执行任意命令。 环境启动后&am…

FFmpeg查看所有支持的编码/解码器/封装/解封装/媒体格式/滤镜

查看所有支持的编码器与解码器 ffmpeg -codecs 只查看所有编码器: ffmpeg -encoders 只查看所有解码器: ffmpeg -decoders 只查看H264编码器: ffmpeg -h encoderh264 只查看H264解码器: ffmpeg -h decoderh264 查看所有支持的封装: ffmpeg -muxers 查看所有支持的解封装…

【开源鸿蒙】为QEMU RISC-V虚拟平台构建OpenHarmony轻量系统

文章目录 一、背景介绍二、准备OpenHarmony源代码三、准备hb命令3.1 安装hb命令3.2 检查hb命令 四、编译RISC-V架构的OpenHarmony轻量系统4.1 设置hb构建目标4.2 启动hb构建过程 五、问题解决5.1 hb set 报错问题解决 六、参考链接 开源鸿蒙坚果派,学习鸿蒙一起来&a…

【每日算法】常见AIGC模型; 刷题:力扣单调栈

上期文章 【每日算法】理论:生成模型基础; 刷题:力扣单调栈 文章目录 上期文章一、上期问题二、理论问题1、stable diffusion模型的网络架构2、T5的网络架构(Text-To-Text Transfer Transformer模型)3、SDXL模型4、DA…