计算机视觉和机器人技术中的下一个标记预测与视频扩散相结合

一种新方法可以训练神经网络对损坏的数据进行分类,同时预测下一步操作。 它可以为机器人制定灵活的计划,生成高质量的视频,并帮助人工智能代理导航数字环境。

在这里插入图片描述
Diffusion Forcing 方法可以对嘈杂的数据进行分类,并可靠地预测任务的下一步,例如帮助机器人完成操纵任务。 在一项实验中,它帮助机械臂将玩具水果重新排列到圆形垫子上的目标位置,尽管开始时位置随机且存在视觉干扰。 鸣谢:图片:Mike Grimmett/MIT CSAIL Mike Grimmett/MIT CSAIL

在当前的人工智能潮流中,序列模型因其分析数据和预测下一步行动的能力而大受欢迎。 例如,你可能用过 ChatGPT 这样的下一个标记预测模型,它可以预测序列中的每个单词(标记),从而形成用户查询的答案。 还有像 Sora 这样的全序列扩散模型,通过对整个视频序列进行连续 “去噪”,将单词转换成炫目逼真的视觉效果。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员对扩散训练方案提出了一个简单的改动,使这种序列去噪变得更加灵活。

在应用于计算机视觉和机器人等领域时,下一标记词模型和全序列扩散模型都需要权衡能力。 Next-token 模型可以产生不同长度的序列。 然而,它们在生成这些序列的同时,并不了解远期的理想状态–比如将序列生成导向 10 个标记之外的某个目标–因此需要额外的机制来进行远期(长期)规划。 扩散模型可以执行这种未来条件采样,但缺乏下一个标记模型生成可变长度序列的能力。

CSAIL 的研究人员希望将两种模型的优势结合起来,因此他们创造了一种名为 "Diffusion Forcing"的序列模型训练技术。 这一名称来源于 “教师强化”(Teacher Forcing),它是一种传统的训练方案,将完整的序列生成分解成更小、更容易的下一个标记生成步骤(就像一位好老师简化复杂的概念一样)。

扩散强化发现了扩散模型和教师强化之间的共同点: 它们都使用从未加掩码的标记预测加掩码(噪声)标记的训练方案。 在扩散模型中,它们会逐渐向数据中添加噪声,这可以看作是部分掩蔽。 麻省理工学院研究人员的 "扩散强化法 "可以训练神经网络净化标记集,去除每个标记中不同数量的噪声,同时预测下几个标记。 结果:一个灵活、可靠的序列模型为机器人和人工智能代理带来了更高质量的人工视频和更精确的决策。

通过整理嘈杂的数据并可靠地预测任务的下一步,扩散强化技术可以帮助机器人忽略视觉干扰,完成操作任务。 它还能生成稳定一致的视频序列,甚至引导人工智能代理通过数字迷宫。 这种方法有可能让家用机器人和工厂机器人适应新的任务,并改善人工智能生成的娱乐效果。

"序列模型的目的是以已知的过去为条件,预测未知的未来,这是一种二进制掩蔽。 然而,掩蔽并不需要是二进制的,"第一作者、麻省理工学院电子工程与计算机科学(EECS)博士生、CSAIL 成员陈博源说。 利用 "扩散强化 "技术,我们为每个标记添加了不同程度的噪声,从而有效地起到了分数掩码的作用。 在测试时,我们的系统可以 "解除 “标记集合的屏蔽,并在不久的将来以较低的噪音水平扩散一个序列。 它知道在其数据中应该相信什么,以克服分布外输入”。

在多项实验中,"扩散强化 "技术在忽略误导数据的情况下执行任务,同时预测未来的行动。

例如,当将其应用到机械臂中时,它可以帮助在三个圆形垫子上交换两个玩具水果,这是一系列需要记忆的长视距任务中的一个最简单的例子。 研究人员通过在虚拟现实中对机器人进行远距离控制(或远程操作)来训练机器人。 机器人通过摄像头模仿用户的动作进行训练。

为了生成视频,他们在谷歌 DeepMind 实验室模拟器创建的 "Minecraft "游戏玩法和丰富多彩的数字环境中进行了扩散强化训练。 与类似 Sora 的全序列扩散模型和类似 ChatGPT 的下一个标记模型等同类基线相比,该方法在给定单帧视频时,能生成更稳定、分辨率更高的视频。 这些方法生成的视频似乎并不一致,后者有时甚至无法生成超过 72 帧的工作视频。

Diffusion Forcing 不仅能生成花哨的视频,还能充当运动规划器,引导人们朝着期望的结果或奖励前进。 得益于其灵活性,Diffusion Forcing 可以独特地生成不同视距的计划,执行树状搜索,并将 "远期未来比近期未来更不确定 "这一直觉融入其中。 在求解二维迷宫的任务中,Diffusion Forcing 的表现优于六种基线方法,它能更快地生成通往目标位置的计划,这表明它可以成为未来机器人的有效规划器。

在每次演示中,Diffusion Forcing 都充当全序列模型、下一个标记预测模型或两者兼而有之。 陈博士认为,这种多用途方法有可能成为 "世界模型 "的强大支柱。"世界模型 "是一种人工智能系统,可以通过在数十亿互联网视频上进行训练来模拟世界的动态。 这样,机器人就能根据周围环境想象自己需要做什么,从而执行新颖的任务。 例如,如果你要求机器人在没有经过训练的情况下打开一扇门,模型可以制作一段视频,向机器展示如何打开门。

该团队目前正寻求将他们的方法扩展到更大的数据集和最新的变压器模型,以提高性能。 他们打算扩大工作范围,建立一个类似于 ChatGPT 的机器人大脑,帮助机器人在没有人类示范的情况下在新环境中执行任务。"通过扩散强化,我们正在迈出一步,将视频生成和机器人技术更紧密地结合在一起,"资深作者、麻省理工学院助理教授兼 CSAIL 成员 Vincent Sitzmann 说,他在 CSAIL 中领导着场景表示小组。 “最后,我们希望能利用互联网上视频中存储的所有知识,让机器人为日常生活提供帮助。 还有许多令人兴奋的研究挑战,比如机器人如何通过观察人类来学习模仿人类,即使他们自己的身体与我们的身体如此不同!”

Paper: “Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60827.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大学语文教材电子版(第十一版)教学用书PDF及课件

大学语文课件:https://caiyun.139.com/m/i?005CiDusEVWnR 《大学语文》(第十一版)主编:徐中玉 齐森华 谭帆。 大学语文教材电子版教师用书PDF第一课《齐桓晋文之事》艺术赏析: 孟子四处游说,养成善辩的…

鸿蒙核心技术理念

文章目录 1)一次开发,多端部署2)可分可合,自由流转3)统一生态,原生智能1)一次开发,多端部署 “一次开发,多端部署”指的是一个工程,一次开发上架,多端按需部署。目的是支撑开发者高效地开发多种终端设备上的应用 2)可分可合,自由流转 元服务是鸿蒙系统提供的一…

数学分组求偶数和

问题描述 小M面对一组从 1 到 9 的数字,这些数字被分成多个小组,并从每个小组中选择一个数字组成一个新的数。目标是使得这个新数的各位数字之和为偶数。任务是计算出有多少种不同的分组和选择方法可以达到这一目标。 numbers: 一个由多个整数字符串组…

PCHMI串口接收实验

插入的唯一一行代码 config1.START((Control)this, System.Reflection.Assembly.GetExecutingAssembly().GetTypes(), null);

华为Ensp模拟器配置RIP路由协议

目录 RIP路由详解:另一种视角解读 1. RIP简介:轻松理解基础概念 2. RIP的核心机制:距离向量的魅力 3. RIP的实用与局限 RIP配置实验 实验图 ​编辑 PC的ip配置 RIP配置步骤 测试 结语:RIP的今天与明天 RIP路由详解&…

IDEA 开发工具常用快捷键有哪些?

‌在IDEA中,输出System.out.println()的快捷键是sout,输入后按回车(或Tab键)即可自动补全为System.out.println()‌‌。 此外,IDEA中还有一些其他常用的快捷键: 创建main方法的快捷键是psvm,代…

鲸鱼机器人和乐高机器人的比较

鲸鱼机器人和乐高机器人各有其独特的优势和特点,家长在选择时可以根据孩子的年龄、兴趣、经济能力等因素进行综合考虑,选择最适合孩子的教育机器人产品。 优势 鲸鱼机器人 1)价格亲民:鲸鱼机器人的产品价格相对乐高更为亲民&…

【java基础】总结一

目录 特点 JavaSE和JavaEE JVM,JDK,JRE 字节码 编译语言和解释语言 AOT介绍 不同jdk java语法 变量 静态方法 静态方法和实例方法 重载和重写 可变长参数 特点 简单,面向对象(封装、继承、多态),平台无关&#xff…

vue内置指令和自定义指令

常见的指令: v-bind : 单向绑定解析表达式, 可简写为 :xxx v-model : 双向数据绑定 v-for : 遍历数组/对象/字符串 v-on : 绑定事件监听, 可简…

redis linux 安装

下载解压 https://download.redis.io/releases/ tar -zvxf ----redis-7.4.1编译 进入目录下 # redis 依赖c yum install gcc-cmake可能会有问题,所以记得换源# 安装到 /usr/local/redis make PREFIX/usr/local/redis installcd src ./redis-serverredis.confi…

使用ACF插件向WooCommerce商城产品添加自定义字段

WooCommerce网站的一个常见请求是需要在单个产品页面上包含额外的字段输入,并在前端输出它们。我将解释如何使用出色的ACF高级自定义字段插件(免费版)来实现这一点。 需要编写一些代码,但不用担心,一切都非常简单。此…

3.task1 suimove helloword 上链

1.创建项目 sui move new hello_world 2.代码部分 module hello_move::hello {use std::ascii::{String, string};use sui::object::{Self,UID};use sui::transfer::transfer;use sui::tx_context::{TxContext, sender};public struct Hello has key{id:UID,say: String}fun …

CSS回顾-基础知识详解

一、引言 在前端开发领域,CSS 曾是构建网页视觉效果的关键,与 HTML、JavaScript 一起打造精彩的网络世界。但随着组件库的大量涌现,我们亲手书写 CSS 样式的情况越来越少,CSS 基础知识也逐渐被我们遗忘。 现在,这种遗…

从0开始机器学习--Day27--主成分分析方法

主成分分析方法(Principal components analysis) 在降维算法中,比较普遍的是使用主成分分析方法(PCA) PCA算法简单示例 如图,假设我们有一个二维的特征,想要将其降为一维,简单的方法是寻找一条直线&#…

电子工牌独立双通道定向拾音方案(有视频演示)

现在一些行业的客服人员在面对客户都要求使用电子工牌分别记录客服和顾客的声音,我们利用双麦克风阵列双波束拾音的方案设计了一个电子工牌方案.可以有效分别记录客服和顾客的声音. 方案思路: 我们采用了一个双麦阵列波束拾音的模块A-59,此模块可以利用2个麦克风组成阵列进行双…

Qt Quazip压缩解压实例

qt 中Quazip封装了zip压缩解压操作类,windows编译出dll,lib 最简单的使用示例如下:

小程序19-微信小程序的样式和组件介绍

在小程序中不能使用 HTML 标签,也就没有 DOM 和 BOM,CSS 也仅支持部分选择器 小程序提供了 WXML 进行页面结构的编写,WXSS 进行页面的样式编写 WXML 提供了 view、text、image、navigator等标签构建页面结构,小程序中标签称为组件…

HCIP-HarmonyOS Application Developer 习题(二十二)

1、用户将手机导航迁移至智能手表之后,智能手表如果需要获取手机传过来的数据,从下列哪个方法中获取? A、onCompleteContinuation() B、onStartContinuation() C、onRestoreData() D、onSaveData() 答案:C 分析:FA发起迁移后&am…

动态规划-背包问题——[模版]完全背包问题

1.题目解析 题目来源 [模版]完全背包_牛客题霸_牛客 测试用例 2.算法原理 1.状态表示 与01背包相同,这里的完全背包也是需要一个二维dp表来表示最大价值,具体如下 求最大价值dp[i][j]:在[1,i]区间选择物品,此时总体积不大于j时的最大价值 求…

高效分支管理规范

一、目的 通过标准化的流程和最佳实践,确保代码组织清晰、版本控制高效、变更管理有序,从而提高软件开发的质量、效率和可维护性,支持团队协作和持续集成/持续部署流程,最终实现项目的长期成功和发展 二、分支命名规范 简洁明了…