谷歌 DeepMind 推出了 SIMA,这是一种通过训练学习游戏技能的人工智能代理,因此它玩起来更像人类,而不是一个只做自己事情的强大人工智能。
从早期与 Atari 游戏合作,到以人类大师级别玩《星际争霸 II》的 AlphaStar 系统,谷歌 DeepMind 在人工智能和游戏领域拥有悠久的历史。
01 游戏是人工智能的重要试验场
视频游戏是人工智能 (AI) 系统的重要试验场。与现实世界一样,游戏是丰富的学习环境,具有响应灵敏、实时的设置和不断变化的目标。
在一份新技术报告中,谷歌 DeepMind 介绍了 SIMA(Scalable Instructable Multiworld Agent),它是一种用于 3D 虚拟设置的通用 AI Agent。这项研究标志着智能体首次证明它可以理解广泛的游戏世界,并像人类一样遵循自然语言指令执行其中的任务。
SIMA 的存在并不是为了获得游戏高分,对于人工智能系统来说,学会玩一款视频游戏本身就是一项技术壮举。SIMA 的研究向人们展示了如何通过语言界面将高级人工智能模型的功能转化为有用的、现实世界的动作。
谷歌 DeepMind 希望 SIMA 和其他智能体研究能够使用视频游戏作为沙箱,以更好地了解人工智能系统如何变得更有帮助。
02 SIMA 经过九种不同游戏测试
谷歌 DeepMind 与八家游戏工作室合作,在九种不同的视频游戏上训练和测试 SIMA,例如Hello Games 的《No Man's Sky》和 Tuxedo Labs 的《Teardown》。
SIMA 产品组合中的每款游戏都开辟了一个新的互动世界,包括一系列可供学习的技能,从简单的导航和菜单使用,到采矿资源、驾驶宇宙飞船或制作头盔。
此外,谷歌 DeepMind 还使用了四个研究环境 - 包括 Unity 构建的“构建实验室”等,智能体需要用积木构建雕塑,以测试他们的对象操作和对物理世界的直观理解。
通过学习不同的游戏世界,SIMA 可以捕捉到界面语言并与游戏行为联系起来。例如,在游戏中,SIMA 会观察玩家所做的事情并记录导致他们进行游戏操作的指令。
03 SIMA 可在十秒内完成简单任务
SIMA 是一种人工智能代理,可以感知和理解各种环境,然后采取行动来实现指示的目标。它包括一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。
同时,谷歌 DeepMind 还会根据 SIMA 产品组合中特定于 3D 设置的训练数据对这些模型进行微调。
SIMA 不需要访问游戏的源代码,也不需要定制的 API。它只需要两个输入:屏幕上的图像以及用户提供的简单的自然语言指令,SIMA 使用键盘和鼠标输出来控制游戏的中心角色来执行这些指令。
这意味着 SIMA 可以与任何虚拟环境进行交互。
SIMA 的当前版本通过 600 项基本技能评估测试,涵盖导航(例如“左转”)、对象交互(“爬梯子”)和菜单使用(“打开地图”)等简单任务,SIMA 均可在大约 10 秒内完成。
谷歌 DeepMind 希望未来的 SIMA 能够处理需要高层战略规划和多个子任务才能完成的任务,例如“寻找资源和建立营地”。
04 SIMA 表现优于单游戏训练智能体
SIMA 的成功应用证明受过多种游戏训练的智能体比仅学习如何玩一种游戏的智能体更好。
在谷歌 DeepMind 的测试中,SIMA 智能体在九个 3D 游戏上进行了训练,其表现明显优于仅在每个单独的游戏上进行训练的所有专业智能体。而且,多款游戏训练过的 SIMA 在新游戏中的表现几乎与专门针对该游戏进行过训练的智能体一样好。
这种在全新环境中运行的能力凸显了 SIMA 超越其训练的泛化能力,但是 SIMA 需要进行更多的研究才能在已知和未知的游戏中达到人类的水平。
此外,谷歌 DeepMind 的测试结果还表明 SIMA 的性能依赖于语言。在控制测试中,若智能体没有接受任何语言训练或指令,它的行为是漫无目的的。例如,智能体可能会收集资源(这是一种常见行为),但不是按照指示去收集。
SIMA 的测试结果显示了开发新一代通用语言驱动的智能体的潜力。谷歌 DeepMind 也表示,SIMA 代表可扩展、可指导、多世界的智能体,目前还处于内测阶段,期待在更多训练环境中进一步构建 SIMA,并纳入更强大的模型。
最终,SIMA 可以理解并安全地执行各种任务,从而对网上和现实世界中的人们有所帮助。