机器人“瓦力”近在咫尺?谷歌最新的RT-2 AI模型简介

由 RT-2 控制的谷歌机器人。

“首创”的机器人 AI 模型能够识别垃圾并执行复杂的动作。

上周五,谷歌 DeepMind 宣布了机器人变形器 2(RT-2),这是一种“首次推出”的视觉-语言-行动(VLA)模型,利用从互联网上抓取的数据,通过简单的语言命令实现更好的机器人控制。最终目标是创建能够在人类环境中导航的通用型机器人,类似于虚构的机器人 WALL-E 或 C-3PO。

当人类想要学习一项任务时,我们通常会阅读和观察。类似地,RT-2利用了一个大型语言模型(ChatGPT技术背后的技术),该模型经过在在线文本和图像上的训练。RT-2利用这些信息来识别模式并执行动作,即使机器人没有被专门训练执行这些任务,这个概念被称为泛化。

例如,谷歌表示RT-2可以使机器人识别和丢弃垃圾,即使没有被专门训练执行此操作。它利用对垃圾是什么以及如何处置垃圾的理解来指导其行动。RT-2甚至将废弃的食品包装或香蕉皮视为垃圾,尽管存在潜在的歧义。
RT-2可以执行的广义机器人技能示例,这些技能不在机器人数据中,而是从网络上的抓取中学习到的。

在另一个例子中,纽约时报援引一位谷歌工程师下达指令:“拿起灭绝的动物”,然后RT-2机器人从一张桌子上的三个仿真动物中定位并拿起了一只恐龙。

这种能力非常值得注意,因为机器人通常需要从大量手动获取的数据点中进行训练,这使得该过程由于需要涵盖每种可能的情况而变得困难和耗时。简而言之,现实世界是一个动态的混乱,存在着不断变化的情况和物体配置。一款实用的机器人助手需要能够以不可能通过显式编程的方式即时适应,这就是RT-2的作用所在。

表象之后

RT-2是基于转换器AI模型的优势而制定的战略。转换器AI模型以广泛泛化信息的能力而闻名。RT-2借鉴了谷歌早期的AI工作,包括Pathways语言和图像模型(PaLI-X)和Pathways语言模型体系(PaLM-E)。此外,RT-2还在前任模型(RT-1)的数据上进行了联合训练,该数据由13台机器人在“办公厨房环境”中收集了长达17个月。

RT-2的结构包括对机器人和网页数据进行预先训练的VLM模型的微调。产生的模型处理机器人摄像机图像并预测机器人应该执行的操作。

Google对VLM模型进行了机器人和Web数据的微调,生成的模型可以接收机器人摄像头图像并预测机器人执行的操作。
Google对VLM模型进行了机器人和Web数据的微调,生成的模型可以接收机器人摄像头图像并预测机器人执行的操作。

由于RT-2使用语言模型来处理信息,Google选择将动作表示为token,这些token通常是一个单词的片段。Google写道:“要控制机器人,必须训练它输出动作。我们通过在模型输出中将动作表示为类似于语言token的token来解决这个挑战,并将动作描述为可以被标准自然语言分词器处理的字符串。”

在开发 RT-2 时,研究人员采用了拆分机器人动作为更小部分的相同方法,就像他们在第一个版本的机器人 RT-1 中所做的一样。他们发现,通过将这些动作转化为一系列符号或代码("字符串"表示),他们可以使用与处理网络数据相同的学习模型来教导机器人新技能。

该模型还利用了链式思维推理的能力,使它能够执行多阶段推理,例如选择一种替代工具(如用石头代替锤子)或为疲惫的人选择最好的饮料(例如能量饮料)。

根据 Google 的说法,链式思维推理使得机器人控制模型能够在指令下执行复杂的动作。

根据 Google 的说法,链式思维推理使得机器人控制模型能够在指令下执行复杂的动作

Google 表示,在超过 6,000 次测试中,RT-2 在它接受训练的任务中(称为“seen tasks”)的表现与其前身 RT-1 相当。然而,在新的“未知”情境下进行测试时,RT-2 的表现几乎翻倍,达到了 62%,而 RT-1 的表现仅为 32%。

虽然 RT-2 表现出了很好的适应能力,可以将其所学习的知识适用于新的情境,但 Google 认识到它并不完美。在 RT-2 技术论文的“限制”部分中,研究人员承认,虽然将 Web 数据包含在训练材料中“提高了对语义和视觉概念的泛化”,但这并不能使机器人在没有从其前身的机器人训练数据中学到的物理动作上获得新的能力。换言之,它无法执行它以前未曾练习过的动作,但它可以更好地运用它已经学过的动作来完成新的任务。

虽然 Google DeepMind 的最终目标是创建通用机器人,但公司知道在实现这一目标之前还有大量的研究工作要做。但像 RT-2 这样的技术似乎是朝着这个方向迈出的坚实一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/21117.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux学习之延时计划任务anacontab和锁文件flock

cat /etc/redhat-release看到操作系统的版本是CentOS Linux release 7.6.1810 (Core),uname -r可以看到内核版本是3.10.0-957.21.3.el7.x86_64 参考的博客有: 1.《Linux anacron命令用法详解》 2.《详解anacron 命令》 3.《Anacron的用法》 4.《shell脚…

Libevent开源库的介绍与应用

libeventhttps://libevent.org/ 一、初识 1、libevent介绍 Libevent 是一个用C语言编写的、轻量级的开源高性能事件通知库,主要有以下几个亮点:事件驱动( event-driven),高性能;轻量级,专注于网络&#xff…

【雕爷学编程】MicroPython动手做(37)——驱动LCD与图文显示

MixPY——让爱(AI)触手可及 MixPY布局 主控芯片:K210(64位双核带硬件FPU和卷积加速器的 RISC-V CPU) 显示屏:LCD_2.8寸 320*240分辨率,支持电阻触摸 摄像头:OV2640,200W像素 扬声器&#…

【Ajax】笔记-设置CORS响应头实现跨域

CORS CORS CORS是什么? CORS(Cross-Origin Resource Sharing),跨域资源共享。CORS是官方的跨域解决方案,它的特点是不需要在客户端做任何特殊的操作,完全在服务器中进行处理,支持get和post请求。跨域资源共享标准新增了一组HTTP首…

页面技术基础-html

页面技术基础-html 环境准备:在JDBC中项目上完成代码定义 1. 新建一个 Module:filr->右键 -》Module -》Java-》next->名字(html_day1)->finish 2. 在 Moudle上右键-》第二个选项:add framework .. -> 选择JavaEE下第一个选项 Web Apllicat…

Vue系列第六篇:axios封装,登录逻辑优化,404页面实现,Go语言跨域处理

第五篇利用vue实现了登录页面,用go语言开发了服务端并最后在nginx上进行了部署。本篇将axios封装,登录逻辑优化,404页面实现。 目录 1.前端 1.1代码结构 1.2源码 2.服务端 2.1源码 3.运行效果 4.注意事项 4.1webpack.config.js和vue…

Docker安装RabbitMQ集群

一、安装单机版 1、更新yum源安装 vim、net-tools等工具 yum update -yyum install vim -yyum install net-tools -y 2、安装单机版 #创建挂载路径 mkdir /data/rabbitmq -p#拉取镜像 docker pull rabbitmq:3.9-management#创建容器并启动 docker run -d -it --name rabbi…

从k8s 的声明式API 到 GPT的 提示语

命令式 命令式有时也称为指令式,命令式的场景下,计算机只会机械的完成指定的命令操作,执行的结果就取决于执行的命令是否正确。GPT 之前的人工智能就是这种典型的命令式,通过不断的炼丹,告诉计算机要怎么做&#xff0…

Cesium 加载ArcGIS Server切片服务错级问题

1.首先上官方api说明 ArcGisMapServerImageryProvider - Cesium Documentation 里面没有 zoomoffset参数!!! 2.如果按照互联网栅格切片规则 3857、4326、4490常用切片层级参数,则直接加载显示地图 viewer.imageryLayers.addImageryProvider(new Cesium.ArcGisMapServerI…

三种方式创建对象的几种方式及new实例化时做了什么?

创建对象的几种方式 利用对象字面量创建对象 const obj {}2.利用 new Object创建对象 const obj new Object()3.使用 构造函数实例化对象 function Fn(name) {this.name name} const obj new Fn(张三) console.log(obj.name); //张三为什么要用构造函数的形式&#xff1…

node.js系列-常见问题处理方案(持续更新)

问题1:nodejs 如何使用 atob、btoa 解决方案(base64与uint8array转换),btoa和atob在nodejs中应该怎么写? 浏览器中我们可以这样使用: btoa(123456) MTIzNDU2 atob(MTIzNDU2) 123456node.js中实现方案 con…

Java版Spring Cloud+Spring Boot+Mybatis+uniapp知识付费平台讲解+免费搭建 qt

Java版知识付费源码 Spring CloudSpring BootMybatisuniapp前后端分离实现知识付费平台 提供职业教育、企业培训、知识付费系统搭建服务。系统功能包含:录播课、直播课、题库、营销、公司组织架构、员工入职培训等。 提供私有化部署,免费售…

【1.4】Java微服务:服务注册和调用(Eureka和Ribbon实现)

✅作者简介:大家好,我是 Meteors., 向往着更加简洁高效的代码写法与编程方式,持续分享Java技术内容。 🍎个人主页:Meteors.的博客 💞当前专栏: 微服务 ✨特色专栏: 知识分享 &#x…

如何用python做自然语言处理

如何用python做自然语言处理 使用Python进行自然语言处理(NLP)是非常常见和强大的。以下是一些基本步骤: 安装所需的库: 首先,您需要安装一些用于自然语言处理的Python库,如NLTK(自然语言工具包…

云原生之使用Docker部署homer静态主页

云原生之使用Docker部署homer静态主页 一、homer介绍1.1 homer简介1.2 homer特点 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、本地环境检查3.1 检查Docker服务状态3.2 检查Docker版本3.3 检查docker compose 版本 四、下载homer镜像五、部署homer静态主页5.1 创建挂…

2023年信息系统项目管理师-学习计划安排

1. 关注信管网: 信管网 - 考试专业网站! (cnitpm.com) 2023年下半年信息系统项目管理师报名时间将于8月14日开始,各地报名时间不同,请考生注意查看当地报名时间,但报名官网入口是统一的,均在中国计算机技术…

kafka权威指南(阅读摘录)

零复制 Kafka 使用零复制技术向客户端发送消息——也就是说,Kafka 直接把消息从文件(或者更确切地说是 Linux 文件系统缓存)里发送到网络通道,而不需要经过任何中间缓冲区。这是 Kafka 与其他大部分数据库系统不一样的地方&#…

【雕爷学编程】MicroPython动手做(32)——物联网之MQTT

MQTT (Message Queuing Telemetry Transport)消息队列遥测传输协议,是一种基于发布/订阅(publish/subscribe)模式的"轻量级"通讯协议,该协议构建于TCP/IP协议上,由IBM在1999年发布。M…

Unity CanvasGroup组件

文章目录 1. 简介2. 组件属性2.1 Alpha(透明度)2.2 Interactable(是否为可交互)2.3 Blocks Raycasts(是否接受射线监测)2.4 Ignore Parent Groups(忽视上层的画布组带来的影响) 1. 简介 CanvasGroup(画布组) 组件,可集中控制整组 UI 元素(自身和所有子物体)的某些属…

C# Blazor 学习笔记(6):热重置问题解决

文章目录 前言热重置问题描述解决方法演示 总结 前言 我最近在使用Blazor的时候,使用了BootstrapBlazor(以下简称BB)创建模板的时候,发现热重置无效。经过了一上午的折腾,我终于解决了这个问题。 热重置 问题描述 …