“最强”机器学习辅助!利用自然语言让机器人更好地理解开放性世界

原创 | 文 BFT机器人 

图片

想象一下,你正在国外拜访朋友,打开他的冰箱看看有没有能够制作一顿美味早餐的食材。最初,冰箱里的许多物品对你来说都很陌生,每个物品的包装都是你不熟悉的。你开始试图理解每个物品的用途,并根据自己的需要拿起它们。

受到人类处理陌生物体能力的启发,麻省理工学院计算机科学与人工智能实验室(CSAIL)的一个团队设计了“用于机器人操作的特征场(F3RM)”,这是将2D图像与基础模型特征结合成3D场景的系统。如此,在2D图像中构建的图像特征和语义数据,就能被三维的机器人理解并使用。不仅操作简单,训练过程中需要的样本量也很小,低训练样本实现轻松取物。

F3RM为机器人提供了解释自然语言的开放性文本提示的能力,帮助机器操作物体。因此,即使机器人接收到来自人类不太具体的请求,仍然能够完成所需的任务。例如,如果用户要求机器人拿起一个高杯子,机器人可以找到并拿取最符合这个描述的物品。

来自麻省理工学院计算机科学与人工智能实验室的博士后研究员Ge Yang表示:“使机器人在现实世界中能够泛化是非常困难的,我们真的想弄清楚如何做到这一点,因此在这个项目中,我们试图推动一种激进的泛化水平,从仅有三四个物体到我们在麻省理工学院发现的任何东西。我们想学会如何使机器人像我们自己一样灵活,因为我们可以轻松抓取和放置即使从未见过的物体。”

图片

01

通过视觉了解事物的位置

这种方法可以帮助机器人在充满混乱和不可预测性的大型订单处理中挑选物品。在这些仓库中,通常需要给机器人提供库存描述,以便它们能够识别。机器人必须将提供的文本与物体匹配,而不管包装方式如何,以确保客户的订单被正确地发货。

大型在线零售商的订单处理中心可能包含数百万件物品,其中许多物品机器人以前从未遇到过。为了在如此大规模的操作中运行,机器人需要理解不同物品的几何形状和语义,其中一些可能位于狭小空间中。借助F3RM的先进空间感知和语义感知能力,机器人可以更有效地定位物体,将其放入箱子中,然后送往包装。这将有助于工厂更高效地完成客户订单。

麻省理工学院的研究团队指出,F3RM理解不同场景的能力可能在城市和家庭环境中也很有用。例如,这种方法可以帮助个性化机器人识别和拾取特定物品。该系统帮助机器人把握它们的周围环境,无论是在物理上还是在感知上。

麻省理工学院电气工程和计算机科学副教授、CSAIL首席研究员Phillip Isola表示:“David Marr曾经将视觉感知定义为‘通过看的方式知道物体的位置’的问题。最近的基础模型在知道它们正在看什么方面做得非常好,它们可以识别成千上万种物体类别,并提供图像的详细文本描述。与此同时,辐射场在表示场景中的物体位置方面也表现出色。这两种方法的结合可以创建一个关于3D中物体位置的表示。我们的工作表明,这种组合对于需要在3D中操纵物体的机器人任务特别有用。”

图片

02

创造“数字孪生”

F3RM通过使用自拍杆拍照来开始理解周围环境。安装在自拍杆上的摄像头以不同的姿势拍摄了50张照片,从而使其构建了神经辐射场(NeRF),这是一种深度学习方法,用于从2D图像构建3D场景。这些RGB照片的集合创建了其周围环境的“数字孪生”,以360度的形式呈现附近的场景。

除了高度详细的神经辐射场,F3RM还构建了一个特征场,以增强几何形状与语义信息。该系统使用CLIP——一个在数亿张图像上训练的视觉基础模型,以有效地学习视觉概念。通过重建自拍杆拍摄的图像的2D CLIP特征,F3RM有效地将这些2D特征提升到一个3D表示中。

图片

03

保持事物的开放性

在接收了一些演示之后,机器人将其关于几何形状和语义的知识应用于抓取它以前从未遇到过的物体。一旦用户提交了文本查询,机器人会搜索场景中可能满足用户抓取需求的所有物体。每个潜在的选项都根据其与提示的相关性、与机器人所训练的演示的相似性以及是否会引起任何碰撞来评分,然后选择并执行得分最高的抓取方式。

为了展示该系统解释来自人类的开放性请求的能力,研究人员要求机器人拾取Baymax(迪士尼电影《超能陆战队》中的角色)。尽管F3RM从未直接训练过如何拾取这个卡通超级英雄的玩具,但机器人利用其来自基础模型的空间感知和视觉语言特征来决定要拾取哪个物体以及如何拾取它。

F3RM还使用户能够在不同语言细节水平上指定他们希望机器人处理的物体。例如,如果有一个金属杯子和一个玻璃杯,用户可以要求机器人拾取“玻璃杯”。如果机器人看到两个玻璃杯,其中一个装有咖啡,另一个装有果汁,用户可以要求机器人拾取“带咖啡的玻璃杯”。特征场中嵌入的基础模型特征使这种开放性理解成为可能。

图片

麻省理工学院博士研究生、CSAIL联合作者和共同主要作者William Shen表示:“如果我向一个人展示如何通过杯口拾取杯子,他们可以轻松将这种知识应用于拾取几何形状类似的物体,如碗、量杯,甚至胶带卷。对于机器人来说,实现这种适应性水平一直非常具有挑战性。F3RM将来自互联网规模数据训练的基础模型的几何理解与语义相结合,使从仅有少量演示中实现这种激进的泛化成为可能。”

该项目的研究团队成员全部来自MIT的CSAIL实验室(计算机科学与人工智能实验室),共同一作是华裔博士生William Shen和华人博后Ge Yang,由Phillip Isola和Leslie Kaelbling监督指导。该团队得到了亚马逊公司、国家科学基金会、空军科学研究办公室、海军研究办公室多学科大学计划、陆军研究办公室、麻省理工学院IBM沃森实验室以及麻省理工学院智能追求计划的部分支持,并预计将在未来的机器人学习会议上进行展示。

若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/136841.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重温设计模式之什么是设计模式?

设计面向对象软件比较困难,而设计可复用的面向对象软件就更加困难。你必须找到相关的对象,以适当的粒度将它们归类,再定义类的接口和继承层次,建立对象之间的基本关系。你的设计应该对手头的问题有针对性,同时对将来的…

万界星空科技MES系统软件体系架构及应用

MES系统是数字化车间的核心。MES通过数字化生产过程控制,借助自动化和智能化技术手段,实现车间制造控制智能化、生产过程透明化、制造装备数控化和生产信息集成化。生产管理MES系统主要包括车间管理系统、质量管理系统、资源管理系统及数据采集和分析系统…

go语言相关bug

第一个bug itcastitcast:/home/jian/share/src/go-test/homeweb-client$ go mod tidy go: finding module for package github.com/micro/go-grpc go: found github.com/micro/go-grpc in github.com/micro/go-grpc v1.0.1 go: homeweb-client/handler importsgithub.com/micr…

Ubuntu开机无法进入系统,文件根系统目录空间不足导致?

前言: 自己电脑上装的是Win11和Ubuntu20双系统,平时就是切换着用。 偶然有次,Ubuntu提示文件根系统目录空间不足,自己没在意。 结果下次开机进入Ubuntu时候,芭比Q了。。进不了系统 这样的事情发生很多次了,…

学者观察 | 数字经济中长期发展中的区块链影响力——清华大学柴跃廷

导语 区块链是一种全新的分布式基础架构与计算范式,既能利用非对称加密和冗余分布存储实现信息不可篡改,又可以利用链式数据结构实现数据信息可溯源。当前,区块链技术已成为全球数据交易、金融结算、国际贸易、政务民生等领域的信息基础设施…

xLua Lua访问C#注意事项(七)

调用成员方法 注意:调用成员方法,第一个参数需要传该对象,建议用冒号语法 loacl camera CS.UnityEngine.GameObject.Find("Main Camera") --冒号语法 camera:GetComponent("Camera") --点语法 camera.GetComponent(camera,"…

事务(本地事务与分布式事务)

事务 1 本地事务1.1 事务的特性1.2 事务的隔离级别1.3 事务的传播属性 2 分布式事务2.1 分布式事务基础2.1.1 CAP定理2.1.2 BASE定理 2.2 分布式事务的解决方案2.2.1 两阶段提交(2PC)2.2.2 TCC补偿式事务2.2.3 消息事务最终一致性 1 本地事务 1.1 事务的…

could not read ok from ADB Server

执行adb devices提示 List of devices attached * daemon not running; starting now at tcp:5037 could not read ok from ADB Server * failed to start daemon 方法1,关闭防火墙, could not read ok from ADB Server_夜星辰2023的博客-CSDN博客 我…

module ‘torch‘ has no attribute ‘_six‘

主要问题是torchvision的问题 在122服务器上的scvi-env2环境中 import torch import torch.nn as nnimport numpy as npfrom tqdm import tqdm from torchvision.utils import save_image, make_grid # Model Hyperparametersdataset_path ./datasetscuda True DEVICE tor…

httpRequest库代码示例

python # 首先导入所需的库 library(httpRequest) # 设置主机名和端口号 proxy_host <- proxy_port <- # 使用httpRequest库的get函数下载图片 response <- httpRequest(", proxyHost proxy_host, proxyPort proxy_port) # 确保请求成功 if (response$sta…

腾讯云真的是良心云!服务器带宽、CPU、硬盘IO性能大揭秘!

本文将通过对腾讯云服务器CVM S5 4核配置的云服务器进行测试&#xff0c;来评估其在带宽、CPU和硬盘IO性能方面的表现。 在云服务器的并发处理中&#xff0c;带宽是一个重要的因素。经过测试&#xff0c;腾讯云的带宽网络表现非常出色&#xff0c;能够跑满带宽&#xff0c;同时…

表象变换与矩阵元

表象变换 一维粒子哈密顿量 表象中的矩阵元 态的表象变换 不难证明 算符的表象变换 坐标表象 Non-denumerable basis

人车实时精准管控!北斗让换流站作业更安全

换流站是高压直流输电系统的核心组成部分&#xff0c;对促进电网稳定运行、保障电力行业的可持续发展有着重要作用。长期以来&#xff0c;随着电网主变改扩建设工程的开展&#xff0c;站内作业人员安全管控压力随之增大&#xff0c;仅依靠传统的“人盯人”和“自主”管控模式较…

Java设计模式之迭代器模式

定义 提供一个对象来顺序访问聚合对象中的一系列数据&#xff0c;而不暴露聚合对象的内部表示。 结构 迭代器模式主要包含以下角色&#xff1a; 抽象聚合角色&#xff1a;定义存储、添加、删除聚合元素以及创建迭代器对象的接口。具体聚合角色&#xff1a;实现抽象聚合类&a…

mysql隐式转换转换引起的bug

生产环境中遇到一个情况情况 &#xff0c;过滤数据发现过滤不掉相关值情况&#xff0c;具体情况如下 原始数据&#xff1a; CREATE TABLE test (id bigint(11) NOT NULL AUTO_INCREMENT COMMENT 自增id,subject_id bigint(11) NOT NULL DEFAULT 0 COMMENT 主题id,subject_nam…

《QT从基础到进阶·十七》QCursor鼠标的不同位置坐标获取

一些常用鼠标图形&#xff1a; 鼠标光标相对于整个电脑屏幕的位置&#xff1a;QCursor::pos() 当前光标相对于当前窗口的位置&#xff1a;this->mapFromGlobal(QCursor::pos()) void MainWindow::mouseReleaseEvent(QMouseEvent* event) {QPoint pos event->pos(); …

pip 安装任意软件包报错

现象 使用 pip 命令时提示 查看源码 可以看到是从 pip 包中导入 main失败&#xff0c;点击查看目录 main 文件不见了&#xff0c;判断是文件缺失&#xff0c;重装 pip 即可 # python3 下载 pip curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py # python2 下载…

代码随想录训练营Day1:二分查找与移除元素

本专栏内容为&#xff1a;代码随想录训练营学习专栏&#xff0c;用于记录训练营的学习经验分享与总结。 文档讲解&#xff1a;代码随想录 视频讲解&#xff1a;二分查找与移除元素 &#x1f493;博主csdn个人主页&#xff1a;小小unicorn ⏩专栏分类&#xff1a;C &#x1f69a…

Java进阶(JVM调优)——阿里云的Arthas的使用 安装和使用 死锁查找案例,重新加载案例,慢调用分析

前言 JVM作为Java进阶的知识&#xff0c;是需要Java程序员不断深度和理解的。 本篇博客介绍JVM调优的工具阿里云的Arthas的使用&#xff0c;安装和使用&#xff0c;命令的使用案例&#xff1b;死锁查询的案例&#xff1b;重新加载一个类信息的案例&#xff1b;调用慢的分析案…

通配符匹配

题目链接 通配符匹配 题目描述 注意点 s 仅由小写英文字母组成p 仅由小写英文字母、‘?’ 或 ‘*’ 组成‘?’ 可以匹配任何单个字符‘*’ 可以匹配任意字符序列&#xff08;包括空字符序列&#xff09; 解答思路 最初想到的是dfs 剪枝&#xff0c;但是用例超时了参照题…