AI Agent满级进化!骑马种田、办公修图,样样精通,昆仑万维等发布通用Agent新框架

【导读】智能体又双叒叕进化了!这次,什么游戏都能玩,什么软件都能操控了。

近日,昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学等顶尖名校机构,联合提出了迄今为止第一个既能玩多种商业游戏又能操作各种软件应用的AI框架——Cradle

在这个全新的通用计算机控制框架加持下,AI Agent无需训练便能像人一样直接控制键盘鼠标,不依赖任何内部API,实现任意开闭源软件交互。

目前,Cradle的论文、项目、代码均已开源。

图片

论文地址:https://arxiv.org/abs/2403.03186

项目主页:https://baai-agents.github.io/Cradle

代码链接:https://github.com/BAAI-Agents/Cradle

Cradle:真正的全能AI Agent

在游戏中,Cradle不仅能在《荒野大镖客2》里完成长达40分钟主线剧情还能在开放世界自由探索。

图片

在《星露谷物语》里清理农场,种地,去商店购物。

图片

在《城市天际线》中建造出千人小镇。

图片

甚至,还能在《当铺人生2》中和客户讨价还价,并实现最高87%的周收益率!

图片

不仅如此,发推、浏览网页、下载论文,Cradle是样样精通。

图片

撰写、回复、查找邮件也不在话下。

图片

此外,Cradle还能在美图秀秀里修图。

图片

在剪映里剪视频。

图片

在飞书里日常办公。

图片

堪称是一个真正的全能AI Agent。

GCC:通用计算机控制

随着大模型的发展,越来越多的智能体(AI Agents)研究关注计算机控制,包括浏览网页、操作智能手机、玩游戏等。

然而,已有研究依赖软件内部API获取输入,并输出预先定义好的动作,无法真正像人类一样通过眼、脑、手的配合操控计算机。

图片

要构建能完成计算机上一切任务的通用智能体,必须使用最通用和最标准的输入输出与计算机进行交互。

因此,通用计算机控制使用统一的输入和输出,从而让智能体的通用性变为可能。

但通用性带来了操作上的难度:

(1)使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求,例如由于没有内部API,需要通过视觉信息判断动作是否执行成功;

(2)使用键盘和鼠标操作作为输出使得智能体需要更高的时空操作精度,比如键盘按键和鼠标点击通常额外涉及时间维度;

(3)许多计算机上的复杂任务往往需要连续执行成百上千次的正确操作才能完成,是智能体的长程规划决策和历史信息维护处理能力的一大挑战;

(4)虚拟世界中多如繁星的环境和任务是对智能体高效探索并自我提升实现通用性的一大考验。

这些难题成为了构建通用计算机控制智能体(GCC Agents)的挑战。

六大模块,三大环节

Cradle一共由6个模块组成:信息收集、自我反思、任务推断、技能管理、行动规划,以及记忆模块。

Cradle高度的通用性,来源于其对和电脑交互过程中的原始输入输出的合理封装和抽象。

以从屏幕中显示的视频图像作为输入,提取其中的文本和视觉信息进行决策,并且输出最底层的操作系统中控制键盘和鼠标的信号去和电脑交互,使其可以不依赖于任何假设和任何内部API进行交互。

图片

同时,Cradle强大的决策推理模块让其得以自发和软件进行交互并且完成任务,这个过程可以被简单地总结为:反思过去,总结现在,规划未来

反思过去: Cradle使用执行过往动作过程的视频作为输入,分别提取出其中关键的文本和视觉信息,通过反思来判断上一步动作是否执行成功任务是否完成以及如何改进。

总结现在: 反思完之后,Cradle需要总结当前情况,并且以此为根据来决定是否更换任务目标或是修改任务内容。

规划未来: 最后Cradle会根据当前任务以及现状生成或者更新自身的技能,并且从已经学会的技能中检索一部分和当前任务相关的技能作为备选,然后从中选取合适的技能实例化为动作去执行。

图片

在决策推理的同时,Cradle还会周期性地总结和维护储存在情境记忆中的历史信息以及储存在周期性记忆中的技能。

在此过程中,Cradle为其添加了记忆,总结和反思的功能,进一步提升了其对于决策过程中的观察和行为的理解。

Cradle能直接根据游戏内的提示和教程或是自我探索的方式生成对应的操作键鼠的可执行代码作为技能,一步步丰富自己的技能库,并在之后的游戏中重复使用这些技能。

在这里插入图片描述

游戏办公全精通

为了验证Cradle的通用性,研究者们选择了4款风格迥异,操作各不相同的经典游戏进行测试——

从第三视角的3D角色扮演类游戏《荒野大镖客2》到2D固定视角的模拟经营类游戏《星露谷物语》到俯视角的城市规划类游戏《城市天际线》再到侧重交易策略的模拟经营类游戏《当铺人生2》,并分别设计了不同的任务。

在通用软件方面,Cradle团队也同样选择了5款常用软件进行测试,包括Chrome、Outlook、CapCut(剪映)、Meitu(美图秀秀)和Feishu(飞书)。

图片

首先,Cradle能够胜任游戏中的各种任务:

在《荒野大镖客2》的主线剧情以及开放世界中均有出色表现,能够连续完成长达40分钟的2个完整主线任务,骑马、战斗、购物样样在行。

在这里插入图片描述

  • 在《城市天际线》中修路、保障水电供应,合理划分居民、商业和工业区,建立起千人小镇;
  • 在《星露谷物语》中清理农场杂物、种地收获作物、购买种子;
  • 在《当铺人生2》中在和客户讨价还价近2轮后以93.6%的交易成功率达成了平均39.6%的周收益率。

图片

表1:Cradle在各游戏中的表现,所有任务均测试5次,4/5表示5次测试中成功4次

其次,Cradle在日常软件应用的各项任务执行上表现不俗,如论文下载、发邮件、修图、剪视频、发送飞书文件等。

图片

同时,Cradle在非常有挑战性的benchmark OSWorld上也同样击败了使用真值作为标签的基线方法。

图片

表2:Cradle在OSWorld各类任务上的成功率(%)以及和基线方法的对比

最后,Cradle也同样击败了众多常见基线方法,证明了框架各个模块的合理性和必要性。

图片

表3:Cradle和各种基线的对比的消融实验,所有任务均测试5次,括号前数字表示完成任务的平均步数,括号中数字表示5次测试中成功的次数,N/A表示5次全部失败

通往AGI之路

此前,大量关于AI智能体的研究都依赖于计算机内部API的信息获取,无法让AI真正「像人类一样」通过眼、脑、手的配合与计算机进行互动,其环境、行为、动作都相对固定,难以实现跨软件、跨平台的通用智能。

Cradle极大程度地扩展了智能体可以交互的范围,并且证明了将一切软件转化为测试智能体不同能力的testbed的可能性。

它所提出的通用计算机控制的设定统一了输入输出的接口,促进了统一粒度数据的搜集,为未来Agent在各个环境中交互并且自我提升打下了坚实的基础。

面向数字世界的通用人工智能,正在加速到来。

图片

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45398.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Excel的Index+MATCH组合使用方法

INDEX函数 INDEX函数作用:用于从指定的单元格区域中返回特定行和列的值。 参数形式为:INDEX(array, row_num, [column_num]) array:必需。单元格区域或数组常量。 row_num:必需。要返回的值所在的行号。 [column_num]&#x…

【算法】【二分法】二分法详解

先给y总打一个广告。(我这种废物收不到钱) 本科时候就在打蓝桥杯玩玩算法,当时听朋友的一个刷题且涵盖教程的网站,ACWING。 www.acwing.com 里面好处是大部分基础算法都有,Y总的视频! y总我的神&#xff01…

LLMs 入门实战系列

【LLMs 入门实战系列】 第一层 LLMs to Natural Language Processing (NLP) 第一重 ChatGLM-6B 【ChatGLM-6B入门-一】清华大学开源中文版ChatGLM-6B模型学习与实战 介绍:ChatGLM-6B 环境配置 和 部署 【ChatGLM-6B入门-二】清华大学开源中文版ChatGLM-6B模型微调…

Rust入门实战 编写Minecraft启动器#5启动游戏

首发于Enaium的个人博客 好了,我们已经完成了所有的准备工作,现在我们可以开始编写启动游戏的代码了。 首先我们需要添加几个依赖。 model { path "../model" } parse { path "../parse" } download { path "../downlo…

ensp防火墙综合实验作业+实验报告

实验目的要求及拓扑图: 我的拓扑: 更改防火墙和交换机: [USG6000V1-GigabitEthernet0/0/0]ip address 192.168.110.5 24 [USG6000V1-GigabitEthernet0/0/0]service-manage all permit [Huawei]vlan batch 10 20 [Huawei]int g0/0/2 [Huawei-…

git常用命令及git分支

git常用命令及git分支 git常用命令设置用户签名初始化本地库查看本地库状态将文件添加到暂存区提交到本地库查看历史记录版本穿梭 git分支什么是分支分支的好处分支的操作查看分支创建分支切换分支合并分支合并冲突 git常用命令 设置用户签名 //设置用户签名 git config --gl…

Datawhale 2024 年 AI 夏令营第二期——基于术语词典干预的机器翻译挑战赛

#AI夏令营 #Datawhale #夏令营 1.赛事简介 目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通…

emqx 负载均衡配置 HAProxy 健康检查 轮询 haship

HAProxy配置文件 配置文件: /etc/haproxy/haproxy.cfg 负载均衡参数: 轮询方式轮询注解roundrobin基于权重进行轮叫调度的算法,在服务器的性能分布比较均匀时,这是一种最公平合理,常用的算法。此算法使用较为频…

【银河麒麟高级服务器操作系统】数据中心系统异常卡死分析处理建议

了解银河麒麟操作系统更多全新产品,请点击访问:https://product.kylinos.cn 1.服务器环境以及配置 【机型】浪潮NF5280M5 处理器: Intel 内存: 1T 【内核版本】 4.19.90-24.4.v2101.ky10.x86_64 【OS镜像版本】 银河麒麟…

PDF 中图表的解析探究

PDF 中图表的解析探究 0. 引言1. 开源方案探究 0. 引言 一直以来,对文档中的图片和表格处理都非常有挑战性。这篇文章记录一下最近工作上在这块的探究。图表分为图片和表格,这篇文章主要记录了对表格的探究。还有,我个人主要做日本项目&…

MFC Ribbon菜单 - 中英文实时切换方法

简介 最近在搞一个老外的项目,本来谈的好好的,纯英文界面。项目接近尾声了,又提出了中英文实时切换的新需求,没办法就只能想办法,毕竟客户最大嘛。 实现方法 还好本来的ribbon英文菜单不复杂,就用纯C编码…

Python轻松添加行编号到Word文档及删除行编号

Word文档中的行号(行编号)功能是对于精细化的文档编辑以及解析非常有用的功能。添加行号能够极大地提升文档的可读性和定位效率,尤其是在需要引用特定行内容时,为读者提供了清晰的指引,避免了不必要的混淆和误解。然而…

Java BigInteger 类

目录 BigInteger 1. 如何获取一个BigInteger类型的对象? (1)构造方法 (2)静态方法 2. 常用方法 BigInteger 可以用来表示很大很大的数,有多大都可以。通过创建对象调用相应的方法。详见:…

45、tomcat+课后实验

tomcat 1、tomcat tomcat和php一样,都是用来处理动态页面的。 tomcat也可以作为web应用服务器,开源的。 php .php tomcat .jsp nginx .html tomcat 是用Java代码写的程序,运行的是Java的web应用程序。 tomcat的特点和功能&#xff1a…

前端调试技巧(npm Link,vscode调试,浏览器调试等)

Npm Link 功能: 在本地开发npm模块的时候,我们可以使用npm link命令,将npm 模块链接到对应的运行项目中去,方便地对模块进行调试和测试 断点调试 vscode调试 Debug Vue2 Project 目标:在VSCode中调试项目代码…

DockerFile文件解析

DockerFile 要研究自己如何做一个镜像,而且微服务项目打包上云部署,Docker就是最方便的。 微服务打包成镜像,任何装了Docker的地方,都可以下载使用,极其的方便。 流程:开发应用>DockerFile>打包为…

负载均衡-轮询-两种简易实现

1、描述 下游可用的服务器目前有5个(node),设计一个方法,方法没有任何参数,采用轮询的方式返回其中一个node; 2、使用环形链表 每次取下一个node即可。注意:需要保证线程安全! // …

安泰高压功率放大器主要应用场景有哪些

高压功率放大器是一种专门设计用于处理高电压信号并提供大功率输出的设备。它们在各种领域中发挥着重要作用,以下是它们的主要应用场景和特点。 一、医疗设备 医疗成像:高压功率放大器在医疗成像设备中扮演关键角色,例如X射线设备和CT扫描仪。…

【启明智显分享】乐鑫HMI方案4.3寸触摸串口屏应用于称重测力控制仪表

称重测力控制仪表是将称重传感器信号(或再通过重量变送器)转换为重量数字显示,并可对重量数据进行传输、储存、统计、打印的电子设备,常用于工农业生产中的自动化配料,称重,以提高生产效率。随着工业化的发…

TC4056A 1A线性锂离子电池充电器芯片IC

产品描述 TC4056A是一款完整的单节锂离子电池采用恒定电流/恒定电压线性充电器。其底部带有散热片的ESOP8/DIP8封装与较少的外部元件数目使得TC4056A成为便携式应用的理想选择TC4056A可以适合USB电源和适配器电源工作。 由于采用了内部PMOSFET架构,加…