OpenAI最新研究:AI模型看看视频,就学会了玩《我的世界》

《我的世界》里,玩家不一定都是人类,现在 AI 也会玩了。

来源:机器之心

《我的世界》是全球知名度最高的开放世界游戏。小朋友只需观看十分钟的教学视频,就能学会在游戏中寻找稀有的钻石,但这却是 AI 此前无法企及的高度。

今天 OpenAI 的研究团队宣布他们开发了一种能玩《我的世界》的智能体,其中使用《我的世界》游戏大量未标记视频数据集训练神经网络,仅使用少量标记数据。

微调之后,OpenAI 训练的模型还可以学习制作挖矿工具,熟练的人类玩家在 20 分钟内可以完成这个任务(24000 次操作)。OpenAI 的模型使用按键和鼠标移动控制人机界面,这使得该模型非常通用,这向通用计算机使用智能体迈出了一步。

f67512aa6e9024f8f0919c9f508c7d25.png

论文地址:https://cdn.openai.com/vpt/Paper.pdf

我们先来看下效果,模型建造一个简陋的木制避难所:

04d550967121196a9c9401df58b84bf8.gif

制作石镐

334dfd82e8ec08f901987cbf0439df4a.gif

在村庄里搜寻

77efe120acab2070fe757b5d67b5b126.gif

VPT 方法

互联网包含大量可供我们学习的公开视频,例如游戏玩家演示游戏玩法,《我的世界》玩家建造一个错综复杂的房子。然而这些视频只提供了事情发生的记录,而不是确切的实现方式,即没有说明鼠标移动和按键的确切顺序。

相比于 OpenAI 的大型语言模型,要在视频游戏等更通用领域构建大型基础模型(foundation model),缺乏动作标签带来了新的挑战。

为了利用互联网上可用的大量未标记视频数据,该研究提出了一种新颖但简单的半监督模仿学习方法:视频预训练(VPT)。

该研究首先从游戏商家那里收集了一个小型数据集,其中不仅记录了玩游戏的视频,还记录了玩家采取的行动,即按键和鼠标的移动。利用这些数据,该研究训练了一个逆动力学模型 (IDM),以预测视频中每个步骤所采取的动作。重要的是,IDM 可以使用过去和未来的信息来猜测每一步动作。与仅给定过去视频帧预测动作的行为克隆任务相比,这种任务要容易得多,需要的数据也要少得多。然后该研究使用经过训练的 IDM 来标记更大的在线视频数据集,并通过行为克隆来学习行动。

下图为 VPT 方法概览:

fb35f95f8663c384619e1234a97f19c3.png

VPT 零样本结果

该研究选择《我的世界》这个游戏中验证了所提方法,因为它 (1) 是世界上最流行的视频游戏之一,拥有大量可免费获得的视频数据,并且 (2) 是开放式的,可以提供各种各样的行为动作,类似于现实世界的应用程序(如计算机使用)。与之前的工作在《我的世界》中使用简化动作空间不同,OpenAI 的新模型使用更普遍适用、难度也更大的原生人机界面:鼠标和键盘使用 20Hz 帧率。

该研究的行为克隆模型(VPT 基础模型)使用 70000 小时的 IDM 标记在线视频进行训练,在《我的世界 》中完成了强化学习几乎不可能实现的任务。新模型学会了砍树收集原木,将原木制作成木板,然后将木板制作成箱子;这个行为序列对于《我的世界》高级玩家在约 50 秒内执行 1000 个连续的游戏动作。

8968a103f69e972fa8510841ed6be50d.png

《我的世界》制作箱子过程中每一步所需的动作数目和时间

2f79c923cd0ee39584ece142db3a1e5f.gif

零样本模型制作箱子的过程

此外,该模型还可以执行人类在游戏中经常执行的其他复杂技能,例如游泳、狩猎动物、食用食物以及一些《我的世界》专用技能。

70c15783e94b5ffb014d6669b4cd5bc7.gif

游泳

6653219a96caf198c5c8c3c0d6b2ab7b.gif

狩猎

2c9111f30556ac1a3b08273e978d5bbb.gif

食用食物

用行为克隆进行微调

基础模型旨在具有广泛的行为特征,并且完成各种任务。为了整合新知识或让他们专注于更具体的任务,通常的做法是基于更小、更具体的数据集对模型进行微调。

那么,VPT 基础模型如何微调到下游数据集呢?OpenAI 让人类玩家在最新版《我的世界》中玩了 10 分钟,并用基本的材料建造房子。OpenAI 希望这能增强基础模型执行早期游戏技能的能力。结果表明,基础模型在可靠执行早期游戏技能方面有了巨大进步,而且微调后的模型还掌握了制作石器等新技能。

ec62c9b19ae6abb24104be25d4d1329d.png

制作一个石镐所需要的物品顺序

dad53014c38edd9a70cfef1d63f68f1e.png

数据扩展

也许该研究中最重要的假设是,使用标记的 contractor 数据训练 IDM(作为 VPT pipeline 的一部分)要比直接从同一个小型 contractor 数据集训练 BC 基础模型有效得多。为了验证这一假设,研究者不断增加数据量来训练基础模型,数据量规模从 1 小时增加到 70000 小时。他们将训练分为两个部分,如下图虚线所示,训练数据时长以 2000 为分界线。

基础模型训练数据对微调的影响:从图中可以看出,随着基础模型数据的增加,模型制作能力随之增加,只有在最大的数据规模下,我们才会看到石器工具制作的出现。

a962f09358a295e1a9ba9bc1ab9cbf55.png

通过强化学习进行微调

当指定的奖励函数足够好时,强化学习便能够成为一种强大的方法去激发更高的,甚至是超人类的表现。VPT 模型和 RL 搭配更好,因为模仿人类行为可能比采取随机行动更有帮助。该研究设置了一些模型挑战任务,即收集钻石鹤嘴锄,这是在《我的世界》中前所未有的能力。

制作一把钻石鹤嘴锄需要一长串复杂的子任务。为了使这个任务易于处理,该研究会奖励序列中的每一项智能体。

01378aacf09f114e7f1afa71d3690703.png

4a72e09578434a4aa6b50f2519cc437c.gif

4614a126bd5125a73c1c51739ec4bbf6.gif

RL 微调 VPT 模型制作钻石鹤嘴锄

该研究发现,从随机初始化(标准 RL 方法)训练的 RL 策略几乎没有获得任何奖励。与之形成鲜明对比的是,VPT 模型的微调不仅可以(它在 10 分钟的《我的世界》中有 2.5% 会这样做),而且它在收集所有物品以获得钻石镐方面的成功率甚至达到了人类的水平。这是人类首次展示计算机智能体能够在《我的世界》中制作钻石工具,而人类平均需要 20 多分钟(24000 次操作)。

cdc6fd3ed74827e7b5bc2c6b2228212c.png

VPT 让智能体通过观看互联网上的大量视频就可以进行学习铺平了道路。与只会产生表征先验的生成视频建模或对比方法相比,VPT 提供了在更多领域可以直接学习大规模行为先验的可能性,而不仅仅是语言。虽然该研究只在 《我的世界》中进行实验,但该游戏开放的,并且原生人机界面(鼠标和键盘)非常通用,因此这项研究也会给其他领域带来益处,例如电脑使用。

此外,该研究还开源了数据、《我的世界》所需环境、模型代码、模型权重,他们希望这些开源有助于未来 VPT 的研究。

原文链接:

https://openai.com/blog/vpt/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

456c5c1eb657100c9a39e80338c510a6.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481920.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器的崛起:隐藏的控制论历史

来源:sayonly在二战后的几年里,计算机作为一种“思维机器”是如此的新奇和未知,而且,进步似乎是无限的。新的思维机器可以计算得出如何建造摩天大楼、如何经营证券交易所以及如何飞向月球。唯一的极限是想象力。“超级大脑”是等待…

Richard Sutton:经验是AI的终极数据,四个阶段通向真正AI的发展之路

来源:智源社区导读:强人工智能的发展是近年来关注的话题。让AI从人类的感知和行为,而非单纯的标注数据中学习,成为许多研究者关注的重点。其中,如何利用人类习得的日常生活经验,启发构建能够适应不同环境&a…

一张图带你了解JRE、JDK、JVM

目录 1.JRE 2.JDK 3.JVM 三者关系: 1.JRE JRE是Java Runtime Environment,Java 运行环境,包含Java运行的环境和核心类库。 2.JDK JDK是 Java Development Kit,Java 开发工具包,包含Java编译工具和运行工具。 3.JV…

机器的崛起:隐藏的控制论历史(二)

来源:sayonly大家好,我是只说,我在《图说元宇宙》之外开了一个新的番外,叫《元宇宙新使命》,本文是第34篇,“机器的崛起:隐藏的控制论历史(二)”。在上一篇文章中&#x…

毕业设计-基于Python爬虫的疫情数据可视化系统

基于Python爬虫的疫情数据可视化系统 采用EChartsFlaskRequests架构: 源码加3105088663

不要再「外包」AI 模型了!最新研究发现:有些破坏机器学习模型安全的「后门」无法被检测到...

来源:AI科技评论作者:王玥、刘冰一、黄楠编辑:陈彩娴一个不可检测的「后门」,随之涌现诸多潜伏问题,我们距离「真正的」机器安全还有多远?试想一下,一个植入恶意「后门」的模型,别有…

Git命令:常用Git命令集合

1.Git基本工作流程 2.命令 命令作用git init初始化,创建 git 仓库git status查看 git 状态 (文件是否进行了添加、提交操作)git add 文件名添加,将指定文件添加到暂存区git commit -m 提交信息提交,将暂存区文件提交到…

从微观到宏观:涌现的实质是信息转换?

来源: 集智俱乐部作者:梁金编辑:邓一雪导语之前的研究表明,还原并非总是好的科学策略,一些情况下,降维可以增加系统元素之间的依赖性,使得粗粒化的宏观尺度比底层微观尺度携带更多有效信息&…

Java栈内存、堆内存、方法区对对象和引用的关系

问题:Java栈内存、堆内存、方法区对对象和引用的关系 答案: 1.单个对象 如图所示: (1)首先类加载器加载要运行的类,首先将main方法加载进方法区,并进栈内存,顺序执行代码&#xff…

清华徐勇、段文晖研究组开发出高效精确的第一性原理电子结构深度学习方法与程序...

来源:ScienceAI第一性原理计算已被广泛应用于物理、材料、化学、生物相关的科学研究。然而,受限于计算效率和精度,如何实现大尺度材料体系的第一性原理研究是该领域的一个重大挑战。基于人工神经网络的深度学习方法为解决该挑战问题带来了曙光…

图灵奖获得者罗杰·瑞迪:AI不可能取代人类

来源:中国电子报作者:张维佳编辑:赵晨美编:马利亚监制:赵晨6月24日,图灵奖获得者、美国国家工程院院士、美国艺术与科学学院院士、中国工程院外籍院士罗杰瑞迪在第六届世界智能大会上表示,对待A…

LeCun用62页论文公布未来十年研究计划:AI自主智能

来源:量子位 | 公众号 QbitAI丰色 发自 凹非寺这段时间,关于“AI未来往哪走的”讨论,可以说是越来越激烈了。先是Meta被曝AI相关部门大重组,又有谷歌AI是否具备人格大讨论,几乎每一次讨论都能看到Yann LeCun的身影。现…

Java面试知识点:Date类、异常

问题:Java面试知识点:Date类、异常 答案: 1.Date类 代码如下: (1)创建日期: package com.xy;import java.util.Date;/*** ProjectName: day01* Package: com.xy* ClassName: test01* Author…

Cell解开谜题:原来是这种细胞教会新生的T细胞如何区分敌我!

来源:生物通研究人员发现了一种新的机制,可以教会正在训练中的免疫细胞在攻击病原体时保护自身组织。作为这种早期教育的一部分,专门的胸腺细胞会“摆”成不同的组织,教会免疫系统如何识别朋友和敌人。错误地对身体自身蛋白质做出…

Java面试知识点:集合、Set、泛型、HashSet、HashMap

Java面试知识点:集合、Set、泛型、HashSet、HashMap 答案: 1.集合 集合和数组的对比小结 1,数组的长度是不可变的,集合的长度是可变的。 2 ,数组可以存基本数据蟀和引用数据类型。 集合只能存引用数据类型&#xff0…

Java面试知识点:红黑树、Stream流

问题:Java面试知识点:红黑树、Stream流 答案: 1.红黑树 红黑树 • 平衡二叉B树 • 每一个节点可以是红或者黑 • 红黑树不是高度平衡的,它的平衡是通过“自己的红黑规则”进行实现的 2.Stream流 Stream流的常…

2022年SCI期刊最新影响因子正式发布

来源:高分子科技今日,广大科研人员期待的2022年最新影响因子已正式揭晓。每年的官方影响因子的发布,奖学金、毕业、职称、年终奖、申请国自然……几乎没有不需要它的。今年共有近13000本期刊获得影响因子,其中60%以上的期刊IF实现…

Java面试知识点:File、IO流

问题:Java面试知识点:File、IO流 答案: 1.File listFiles方法注意事项: • 当调用者不存在时,返回null • 当调用者是一个文件时,返回null • 当调用者是一个空文件夹时,返回一体度为0的数组 • 当调用者是…

中国科学家建立可与人脑突触数量相较的AI模型——“八卦炉”

来源:俄罗斯卫星通讯社中国科学家基于最新的一台配备双威处理器的超级计算机,建立了“脑级人工智能模型”——八卦炉(BAGUALU)。其具有174万亿个参数,可与人脑中的突触数量相媲美,将在从自动驾驶汽车到科学…

Java面试知识点:多线程

问题:Java面试知识点:多线程 答案: 1.线程 代码如下: package com.xy;/*** ProjectName: day01* Package: com.xy* ClassName: test01* Author: 杨路恒* Description:* Date: 2021/8/25 0025 16:57* Version: 1.0*/ public class…