机器人“瓦力”近在咫尺?谷歌最新的RT-2 AI模型简介

由 RT-2 控制的谷歌机器人。

“首创”的机器人 AI 模型能够识别垃圾并执行复杂的动作。

上周五,谷歌 DeepMind 宣布了机器人变形器 2(RT-2),这是一种“首次推出”的视觉-语言-行动(VLA)模型,利用从互联网上抓取的数据,通过简单的语言命令实现更好的机器人控制。最终目标是创建能够在人类环境中导航的通用型机器人,类似于虚构的机器人 WALL-E 或 C-3PO。

当人类想要学习一项任务时,我们通常会阅读和观察。类似地,RT-2利用了一个大型语言模型(ChatGPT技术背后的技术),该模型经过在在线文本和图像上的训练。RT-2利用这些信息来识别模式并执行动作,即使机器人没有被专门训练执行这些任务,这个概念被称为泛化。

例如,谷歌表示RT-2可以使机器人识别和丢弃垃圾,即使没有被专门训练执行此操作。它利用对垃圾是什么以及如何处置垃圾的理解来指导其行动。RT-2甚至将废弃的食品包装或香蕉皮视为垃圾,尽管存在潜在的歧义。
RT-2可以执行的广义机器人技能示例,这些技能不在机器人数据中,而是从网络上的抓取中学习到的。

在另一个例子中,纽约时报援引一位谷歌工程师下达指令:“拿起灭绝的动物”,然后RT-2机器人从一张桌子上的三个仿真动物中定位并拿起了一只恐龙。

这种能力非常值得注意,因为机器人通常需要从大量手动获取的数据点中进行训练,这使得该过程由于需要涵盖每种可能的情况而变得困难和耗时。简而言之,现实世界是一个动态的混乱,存在着不断变化的情况和物体配置。一款实用的机器人助手需要能够以不可能通过显式编程的方式即时适应,这就是RT-2的作用所在。

表象之后

RT-2是基于转换器AI模型的优势而制定的战略。转换器AI模型以广泛泛化信息的能力而闻名。RT-2借鉴了谷歌早期的AI工作,包括Pathways语言和图像模型(PaLI-X)和Pathways语言模型体系(PaLM-E)。此外,RT-2还在前任模型(RT-1)的数据上进行了联合训练,该数据由13台机器人在“办公厨房环境”中收集了长达17个月。

RT-2的结构包括对机器人和网页数据进行预先训练的VLM模型的微调。产生的模型处理机器人摄像机图像并预测机器人应该执行的操作。

Google对VLM模型进行了机器人和Web数据的微调,生成的模型可以接收机器人摄像头图像并预测机器人执行的操作。
Google对VLM模型进行了机器人和Web数据的微调,生成的模型可以接收机器人摄像头图像并预测机器人执行的操作。

由于RT-2使用语言模型来处理信息,Google选择将动作表示为token,这些token通常是一个单词的片段。Google写道:“要控制机器人,必须训练它输出动作。我们通过在模型输出中将动作表示为类似于语言token的token来解决这个挑战,并将动作描述为可以被标准自然语言分词器处理的字符串。”

在开发 RT-2 时,研究人员采用了拆分机器人动作为更小部分的相同方法,就像他们在第一个版本的机器人 RT-1 中所做的一样。他们发现,通过将这些动作转化为一系列符号或代码("字符串"表示),他们可以使用与处理网络数据相同的学习模型来教导机器人新技能。

该模型还利用了链式思维推理的能力,使它能够执行多阶段推理,例如选择一种替代工具(如用石头代替锤子)或为疲惫的人选择最好的饮料(例如能量饮料)。

根据 Google 的说法,链式思维推理使得机器人控制模型能够在指令下执行复杂的动作。

根据 Google 的说法,链式思维推理使得机器人控制模型能够在指令下执行复杂的动作

Google 表示,在超过 6,000 次测试中,RT-2 在它接受训练的任务中(称为“seen tasks”)的表现与其前身 RT-1 相当。然而,在新的“未知”情境下进行测试时,RT-2 的表现几乎翻倍,达到了 62%,而 RT-1 的表现仅为 32%。

虽然 RT-2 表现出了很好的适应能力,可以将其所学习的知识适用于新的情境,但 Google 认识到它并不完美。在 RT-2 技术论文的“限制”部分中,研究人员承认,虽然将 Web 数据包含在训练材料中“提高了对语义和视觉概念的泛化”,但这并不能使机器人在没有从其前身的机器人训练数据中学到的物理动作上获得新的能力。换言之,它无法执行它以前未曾练习过的动作,但它可以更好地运用它已经学过的动作来完成新的任务。

虽然 Google DeepMind 的最终目标是创建通用机器人,但公司知道在实现这一目标之前还有大量的研究工作要做。但像 RT-2 这样的技术似乎是朝着这个方向迈出的坚实一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/21117.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux学习之延时计划任务anacontab和锁文件flock

cat /etc/redhat-release看到操作系统的版本是CentOS Linux release 7.6.1810 (Core),uname -r可以看到内核版本是3.10.0-957.21.3.el7.x86_64 参考的博客有: 1.《Linux anacron命令用法详解》 2.《详解anacron 命令》 3.《Anacron的用法》 4.《shell脚…

C#的yield

在 C# 中,yield 关键字用于定义迭代器方法(Iterator Methods),并使其返回一个可枚举的序列。通过使用 yield 关键字,可以简化迭代器的实现,使其更加直观和易于理解。 使用 yield 关键字定义的方法被称为迭…

Libevent开源库的介绍与应用

libeventhttps://libevent.org/ 一、初识 1、libevent介绍 Libevent 是一个用C语言编写的、轻量级的开源高性能事件通知库,主要有以下几个亮点:事件驱动( event-driven),高性能;轻量级,专注于网络&#xff…

【雕爷学编程】MicroPython动手做(37)——驱动LCD与图文显示

MixPY——让爱(AI)触手可及 MixPY布局 主控芯片:K210(64位双核带硬件FPU和卷积加速器的 RISC-V CPU) 显示屏:LCD_2.8寸 320*240分辨率,支持电阻触摸 摄像头:OV2640,200W像素 扬声器&#…

【Ajax】笔记-设置CORS响应头实现跨域

CORS CORS CORS是什么? CORS(Cross-Origin Resource Sharing),跨域资源共享。CORS是官方的跨域解决方案,它的特点是不需要在客户端做任何特殊的操作,完全在服务器中进行处理,支持get和post请求。跨域资源共享标准新增了一组HTTP首…

页面技术基础-html

页面技术基础-html 环境准备:在JDBC中项目上完成代码定义 1. 新建一个 Module:filr->右键 -》Module -》Java-》next->名字(html_day1)->finish 2. 在 Moudle上右键-》第二个选项:add framework .. -> 选择JavaEE下第一个选项 Web Apllicat…

Vue系列第六篇:axios封装,登录逻辑优化,404页面实现,Go语言跨域处理

第五篇利用vue实现了登录页面,用go语言开发了服务端并最后在nginx上进行了部署。本篇将axios封装,登录逻辑优化,404页面实现。 目录 1.前端 1.1代码结构 1.2源码 2.服务端 2.1源码 3.运行效果 4.注意事项 4.1webpack.config.js和vue…

Docker安装RabbitMQ集群

一、安装单机版 1、更新yum源安装 vim、net-tools等工具 yum update -yyum install vim -yyum install net-tools -y 2、安装单机版 #创建挂载路径 mkdir /data/rabbitmq -p#拉取镜像 docker pull rabbitmq:3.9-management#创建容器并启动 docker run -d -it --name rabbi…

【ES】使用日志记录

1、修改操作 1、要删除Elasticsearch索引的分区下的数据 <index_name>是要删除数据的索引名称。这个命令会删除该索引下的所有数据。 POST /<index_name>/_delete_by_query {"query": {"match_all": {}} }2、删除特定条件下的数据 要删除a…

从k8s 的声明式API 到 GPT的 提示语

命令式 命令式有时也称为指令式&#xff0c;命令式的场景下&#xff0c;计算机只会机械的完成指定的命令操作&#xff0c;执行的结果就取决于执行的命令是否正确。GPT 之前的人工智能就是这种典型的命令式&#xff0c;通过不断的炼丹&#xff0c;告诉计算机要怎么做&#xff0…

Sheel编写关于mysqldump实现分库分表备份

编写脚本&#xff0c;使用mysqldump实现分库分表备份。 #编辑脚本文件 [rootlocalhost scripts]# vim bak_tb1.sh#脚本内容&#xff1a; #设置变量&#xff0c;减少代码冗余 mysql_cmd-uroot -p123 exclude_dbDatabase|information_schema|-S|mysql|performance_schema|sys ba…

Cesium 加载ArcGIS Server切片服务错级问题

1.首先上官方api说明 ArcGisMapServerImageryProvider - Cesium Documentation 里面没有 zoomoffset参数!!! 2.如果按照互联网栅格切片规则 3857、4326、4490常用切片层级参数,则直接加载显示地图 viewer.imageryLayers.addImageryProvider(new Cesium.ArcGisMapServerI…

词法分析器

词法分析器 在早期编译1.0时代&#xff0c;我们的目标是完成程序语言到机器语言的翻译&#xff0c;所以重点在编译器前端&#xff0c;于是我们花费大量时间研究词法分析、语法分析、语义分析等内容。如今的本科编译原理课程&#xff0c;基本上也就到这一层面吧。 在编译2.0时…

三种方式创建对象的几种方式及new实例化时做了什么?

创建对象的几种方式 利用对象字面量创建对象 const obj {}2.利用 new Object创建对象 const obj new Object()3.使用 构造函数实例化对象 function Fn(name) {this.name name} const obj new Fn(张三) console.log(obj.name); //张三为什么要用构造函数的形式&#xff1…

node.js系列-常见问题处理方案(持续更新)

问题1&#xff1a;nodejs 如何使用 atob、btoa 解决方案&#xff08;base64与uint8array转换&#xff09;&#xff0c;btoa和atob在nodejs中应该怎么写&#xff1f; 浏览器中我们可以这样使用&#xff1a; btoa(123456) MTIzNDU2 atob(MTIzNDU2) 123456node.js中实现方案 con…

Java版Spring Cloud+Spring Boot+Mybatis+uniapp知识付费平台讲解+免费搭建 qt

&#xfeff;Java版知识付费源码 Spring CloudSpring BootMybatisuniapp前后端分离实现知识付费平台 提供职业教育、企业培训、知识付费系统搭建服务。系统功能包含&#xff1a;录播课、直播课、题库、营销、公司组织架构、员工入职培训等。 提供私有化部署&#xff0c;免费售…

c++的类与对象(下)

1.初始化列表 在创建对象时&#xff0c;编译器通过调用构造函数&#xff0c;给对象中各个成员变量一个合适的初始值&#xff0c;构造函数体中的语句只能将其称作为赋初值&#xff0c;而不能称作初始化&#xff0c;因为初始化只能初始化一次(初始化的本质就是只能初始化一次)&am…

ubuntu2204中vscode无法输入中文

解决方法&#xff1a;重新安装VSCode。 我一开始是在ubuntu商店下载的&#xff0c;结果上网查了了下&#xff0c;商店里的VSCode是阉割版的&#xff0c;想要输入中文就要重新安装。 安装流程&#xff1a;先删除再安装。 1.可以在商店里已安装界面下选择移除&#xff0c;或者…

【1.4】Java微服务:服务注册和调用(Eureka和Ribbon实现)

✅作者简介&#xff1a;大家好&#xff0c;我是 Meteors., 向往着更加简洁高效的代码写法与编程方式&#xff0c;持续分享Java技术内容。 &#x1f34e;个人主页&#xff1a;Meteors.的博客 &#x1f49e;当前专栏&#xff1a; 微服务 ✨特色专栏&#xff1a; 知识分享 &#x…

如何用python做自然语言处理

如何用python做自然语言处理 使用Python进行自然语言处理&#xff08;NLP&#xff09;是非常常见和强大的。以下是一些基本步骤&#xff1a; 安装所需的库&#xff1a; 首先&#xff0c;您需要安装一些用于自然语言处理的Python库&#xff0c;如NLTK&#xff08;自然语言工具包…