为机器人装“大脑” 谷歌发布RT-2大模型

大语言模型不仅能让应用变得更智能,还将让机器人学会举一反三。在谷歌发布RT-1大模型仅半年后,专用于机器人的RT-2大模型于近期面世,它能让机器人学习互联网上的文本和图像,并具备逻辑推理能力。

该模型为机器人智能带来显著升级——即便在机器人没有经历过的场景下,RT-2也通过学习让它根据指令完成任务。

谷歌DeepMind机器人技术主管Vincent举例称,如果让以前的机器人丢垃圾,必须要专门训练它理解什么是垃圾、如何捡起和扔到哪去。现在RT-2能够从网络数据上学习识别和处理垃圾的方法,不必逐一特训不同的场景了。

AI的发展让机器人的“大脑”实现了物种进化般的迭代,另一面是,机器人失控的风险也随之增加。

RT-2大模型实现机器人自主学习

ChatGPT的火爆,让世界见识了大语言模型的强大力量。人们对大模型不再陌生,开始使用基于大模型的应用绘画、作图、搜索资料、设计剧情等,而妙用不止于此。谷歌脑洞大开,专门给机器人造了个大模型,让机器人拥有了自主学习能力。

不久前,谷歌旗下DeepMind发布了一款名为Robotics Transformer 2(简称RT-2)的新型视觉-语言-动作(VLA)模型,该模型相当于机器人的专用大脑,能够指导机器人识别视觉和语言,让其理解指令并做出正确的操作。

谷歌介绍,RT-2基于Transformer模型开发,根据互联网上的文本和图像进行训练,直接指示机器人执行动作。就像用文本训练大语言模型学习人类知识一样,RT-2可以将网络数据喂给机器人,指导机器人的行为。

为了展示RT-2的能力,谷歌发布了一个演示视频,让搭载RT-2的机器人完成一些它此前从未经过训练的项目。

视频中,面对一堆随意放在桌上的物品,搭载了RT-2模型的机械臂能够听懂人类语言并做出相应的反应。

比如,命令它“捡起已灭绝的动物”,机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙;如果命令它将香蕉放到2+1的总和的位置,机械臂直接把香蕉放在了数字3的位置;再让它把草莓放入碗里,机器人也能够无视苹果、橘子等水果,选对草莓。

不过,在演示过程中,机器人也出现了错误,它不能准确地识别汽水口味,这让它看起来还有不小的优化空间。

 搭载RT-2的机器人能按人类指令行事

即便还不够完美,但机器人能够自主理解、推理和执行任务,已经是一个长足的进步。

DeepMind机器人技术主管 Vincent 以“扔垃圾”这个看似简单的操作举例,如果想要以前的系统执行丢弃垃圾的行为,必须明确训练它识别和处理垃圾,而RT-2可以从大量网络数据中学习并理解什么是垃圾,并在未经特定训练的情况下进行识别。尽管未曾接受过相关动作训练,但它能掌握如何丢弃垃圾的方法。“考虑到垃圾的抽象性,比如各种薯片包或香蕉皮在你食用后就成为了垃圾,RT-2 能通过其视觉语言培训数据理解这个概念,并完成任务。

RT-2就给机器人输入了认知能力,让它能够在互联网上学习和进步,甚至还能进行一般推理。这对于机器人产业来说,不亚于一次物种进化。

机器人加速进化再触AI安全底线

事实上,给机器人装上大脑这件事,谷歌并不是第一次尝试了。就在去年12月,谷歌发布了RT-1大模型,它可以标记机器人输入和输出的动作,在运行时实现高效推理,并使实时控制成为可能。

RT-1模型是在一个包含130k个“情景”的大型真实世界机器人数据集上训练的,该数据集涵盖700多项任务,由13台机器人在17个月内收集而成。也就是说,RT-1大模型可以让单一机器人,学习其他机器人在过去积攒的经验,从而具备相应的能力。

 RT-1大模型论文

当时,谷歌让搭载RT-1的机器人进行一系列复杂操作,包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。据团队称,RT-1 以 97% 的成功率执行了 700 多个训练指令,并且可以泛化到新的任务。

但对于没有具体学习过的场景,RT-1还是很难自主依据推理完成任务。根据测试,它在不熟悉的场景下,操作的准确率只有32%。

如果说当时的RT-1还是个“教什么学什么”的小学生,RT-2则进步成了能够举一反三的初高中生。在没见过的新场景中,RT-2 的性能表现几乎翻了一番,从RT-1的32%提高到了62%,而此时距离RT-1的发布时间仅仅过去了半年多。

谷歌 DeepMind机器人技术主管Vincent 解释,RT-2 建立在 RT-1 模型的基础上,消除了一些复杂性;使单个模型不仅能够执行基础模型中看到的复杂推理,而且还可以输出机器人动作。最重要的是,它表明在少量的机器人训练数据下,该系统就能够将其语言和视觉训练数据中嵌入的概念转变为指导机器人行为,即使是从未接受过训练的任务。“简而言之,RT-2 的能力在于将信息转化为行动,这显示了其快速适应新环境和情况的潜力。”

得益于大模型的快速进步,机器人产业迎来了质变,按照谷歌的迭代速度,或许明年就能看到更强大的RT-3。

研究机器人的不止谷歌,特斯拉也对机器人兴趣浓厚。今年5月,特斯拉发布了一个视频,5个人形机器人在工厂中直立行走,它们装备了很多传感器,能够探测周围环境,执行分拣物品等任务。特斯拉的机器人也在走AI路线,这家电动汽车厂商的CEO马斯克称,特斯拉正在尝试打通电动汽车的辅助驾驶软件(FSD)系统和人形机器人的底层模块,让机器人智商在线。

而倘若后续特斯拉机器人能够接入RT-2甚至更高级的大模型,机器人的能力预计又将大幅进步。

但越来越聪明的机器人,也加剧了人们对AI失控的担忧。大模型的软件应用可能会在网络学习中操控人类的思想、舆论,金属外壳的人形机器人直接具备了物理杀伤力。

有人在社交媒体发问,“人类是否亲手打开了一个潘多拉魔盒?”

如何规训机器人,仍然回到了大模型安全性这一老问题上,但这个问题至今还未在全球的研究与应用领域达成共识。

技术另一面的未知危机仍未解除,装上AI大脑的机器人出现了,你会期待还是警惕?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/23265.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

剑指Offer 58.左旋转字符串

58.左旋转字符串 目录 58.左旋转字符串题目代码(字符串拼接)利用切片函数同余简化代码利用StringBuilder 面试:StringBuilder与String的使用比较 题目 官网地址 代码(字符串拼接) class Solution {public String r…

【深度学习】在 MNIST实现自动编码器实践教程

一、说明 自动编码器是一种无监督学习的神经网络模型,主要用于降维或特征提取。常见的自动编码器包括基本的单层自动编码器、深度自动编码器、卷积自动编码器和变分自动编码器等。 其中,基本的单层自动编码器由一个编码器和一个解码器组成,编…

K8S 部署 RocketMQ

文章目录 添加模板部署本地访问 集群使用 kubesphere 作为工具 添加模板 添加 helm 模板 helm repo add rocketmq-repo https://helm-charts.itboon.top/rocketmq helm repo update rocketmq-repo编写 value.yaml 文件 配置主从节点的个数,例子为单节点 broker:…

snap xxx has “install-snap“ change in progress

error description * 系重复安装,进程冲突 solution 展示snap的改变 然后sudo snap abort 22即可终止该进程 之后重新运行install command~~ PS: ubuntu有时候加载不出来,执行resolvectl flush-caches,清除dns缓存…

用python编写的软件有哪些,编写python 用什么软件

大家好,小编来为大家解答以下问题,用python编写的软件有哪些,编写python 用什么软件,现在让我们一起来看看吧! 随着互联网的迅速发展,新技术不断创新,万物互联的时代,企业对IT人员的…

【51单片机】晨启科技,酷黑版,音乐播放器

四、音乐播放器 任务要求: 设计制作一个简易音乐播放器(通过手柄板上的蜂鸣器发声,播放2到4首音乐),同时LED模块闪烁,给人视、听觉美的感受。 评分细则: 按下播放按键A6开始播放音乐&#xff0…

SpringCloud入门Day01-服务注册与发现、服务通信、负载均衡与算法

SpringCloudNetflix入门 一、应用架构的演变 伴随互联网的发展,使用互联网的人群越来越多,软件应用的体量越来越大和复杂。而传统单体应用 可能不足以支撑大数据量以及发哦并发场景应用的框架也随之进行演变从最开始的单体应用架构到分布式&#xff08…

18. SpringBoot 如何在 POM 中引入本地 JAR 包

❤️ 个人主页:水滴技术 🌸 订阅专栏:成功解决 BUG 合集 🚀 支持水滴:点赞👍 收藏⭐ 留言💬 Spring Boot 是一种基于 Spring 框架的轻量级应用程序开发框架,它提供了快速开发应用程…

Palo Alto Networks® PA-220R 下一代防火墙 确保恶劣工况下的网络安全

一、主要安全功能 1、每时每刻在各端口对全部应用进行分类 • 将 App-ID 用于工业协议和应用,例如 Modbus、 DNP3、IEC 60870-5-104、Siemens S7、OSIsoft PI 等。 • 不论采用何种端口、SSL/SSH 加密或者其他规避技术,都会识别应用。 • 使用…

Python GUI编程(Tkinter)

Python GUI编程(Tkinter) Python 提供了多个图形开发界面的库,几个常用 Python GUI 库如下: Tkinter: Tkinter 模块(Tk 接口)是 Python 的标准 Tk GUI 工具包的接口 .Tk 和 Tkinter 可以在大多数的 Unix 平台下使用,同样可以应用在 Windows …

【硬件设计】模拟电子基础三--放大电路

模拟电子基础三--放大电路 一、集成运算放大器1.1 定义、组成与性能1.2 电流源电路1.3 差动放大电路1.4 理想运算放大器 二、集成运算放大器的应用2.1 反向比例运算电路2.2 同向比例运算电路2.3 反向加法运算电路2.4 反向减法运算电路2.5 积分运算电路2.6 微分运算电路2.7电压比…

浅析大数据时代下的视频技术发展趋势以及AI加持下视频场景应用

视频技术的发展可以追溯到19世纪初期的早期实验。到20世纪初期,电视技术的发明和普及促进了视频技术的进一步发展。 1)数字化:数字化技术的发明和发展使得视频技术更加先进。数字电视信号具有更高的清晰度和更大的带宽,可以更快地…

软考高级架构师——2、操作系统

一、进程管理 • 进程的状态(★) • 进程的同步与互斥(★★★★) 临界资源:诸进程间需要互斥方式对其进行共享的资源,如打印机、磁带机等 临界区:每个进程中访问临界资源的那段代码称为临界区…

STM32(HAL)串口中断接收

目录 1、简介 2 基础配置 2.1.1 SYS配置 2.1.2 RCC配置 2.2 串口外设配置 2.3 项目生成 3、KEIL端程序整合 1、简介 本文对HAL串口中断函数进行介绍。 2 基础配置 2.1.1 SYS配置 2.1.2 RCC配置 2.2 串口外设配置 2.3 项目生成 3、KEIL端程序整合 首先在main.c文件中进行…

【云原生】k8s中Contrainer 生命周期回调/策略/指针学习

个人主页:征服bug-CSDN博客 kubernetes专栏:kubernetes_征服bug的博客-CSDN博客 目录 1 容器生命周期 2 容器生命周期回调/事件/钩子 3 容器重启策略 4 自定义容器启动命令 5 容器探针 1 容器生命周期 Kubernetes 会跟踪 Pod 中每个容器的状态&am…

C++和Lua交互总结

C和Lua交互总结 Chapter1. C和Lua交互总结一、Lua与C的交互机制——Lua堆栈二、堆栈的操作三、C 调用 Lua1)C获取Lua值2)C调用Lua函数示例: 四、Lua 调用 C包装C函数 最后总结一下 Chapter1. C和Lua交互总结 原文链接:https://bl…

c++实现Qt对象树机制

文章目录 对象树是什么使用对象树的好处使用c实现对象树 对象树是什么 我们常常听到 QObject 会用对象树来组织管理自己&#xff0c;那什么是对象树&#xff1f;  这个概念非常好理解。因为 QObject 类就有一个私有变量 QList<QObject *>&#xff0c;专门存储这个类的子…

上海亚商投顾:沪指震荡微涨 金融、地产午后大幅走强

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。 市场情绪 三大指数早盘震荡&#xff0c;午后集体拉升反弹&#xff0c;创业板指涨超1%。券商等大金融板块午后再度走强&#…

问题解决方案

前端开发 1、npm安装的时候老是卡住 reify:rxjs: timing reifyNode:node_modules/vue/cli/node_modules 查看当前使用的那个镜像 nrm lsnpm ---------- https://registry.npmjs.org/yarn --------- https://registry.yarnpkg.com/cnpm --------- https://r.cnpmjs.org/taobao …

力扣 343. 整数拆分

题目来源&#xff1a;https://leetcode.cn/problems/integer-break/description/ C题解1&#xff1a;动态规划。dp[i] 代表数字i拆分后得到的最大乘积。递归公式为拆分后两个数的最大乘积相乘&#xff0c;即 dp[i] max(dp[i], dp[j] * dp[i-j])。对于n2或3需要另外讨论。 cla…