清华新突破,360°REA重塑多智能体系统:全方位提升复杂任务表现

427f0dcb2e9019068901c9a326326ca9.jpeg

引言:多智能体系统的新篇章——360°REA框架

在多智能体系统的研究领域,最新的进展揭示了一种全新的框架——360°REA(Reusable Experience Accumulation with 360° Assessment)。这一框架的提出,不仅是对现有系统的一次重大改进,也为未来的智能体系统设计提供了新的方向。360°REA框架的核心在于通过全方位的评估和经验积累,提升智能体处理复杂任务的能力。它借鉴了现代企业组织中的绩效评估和员工经验积累机制,将其应用于智能体的性能提升中。

标题:360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System

作者:Shen Gao1†, Hao Li2†, Zhengliang Shi2, Chengrui Huang1, Quan Tu3, Zhiliang Tian4*, Minlie Huang5, Shuo Shang1

论文链接:https://arxiv.org/pdf/2404.05569.pdf


360°REA框架概述:灵感来源与框架目标

360°REA框架的灵感来源于企业组织中的360度绩效评估方法。在企业管理中,绩效评估不仅仅是为了打分或者奖惩员工,更重要的是通过评估帮助员工反思工作,从而提升他们履行角色的能力。360度评估是一个全面的过程,涉及从同事、上司甚至外部来源收集对员工行为的评价。越来越多的商业组织将360度评估纳入绩效评价和雇佣决策中,如薪酬和晋升。

受此启发,360°REA框架旨在帮助智能体基于评估结果积累经验,使其在后续任务中表现更佳。这一设计原则强调了帮助智能体提升能力的重要性,而不仅仅是评估或从系统中移除表现不佳的智能体。因此,设计一种智能体评估和能力学习机制,成为多智能体系统设计中的一个挑战。

360°REA框架的目标是通过模仿组织结构、员工绩效评估和公司内部的经验积累,提升智能体处理复杂任务的性能。框架采用了层级结构来组织智能体,领导智能体负责分配任务和角色给执行智能体,而执行智能体协作完成给定任务。为了评估每个执行智能体的表现,360°REA引入了一种新颖的360度性能评估方法,该方法采用多维度评价,从同伴层面和监督层面对智能体进行细粒度的评估。此外,为了实现更好的智能体性能,提出了双层经验池,帮助智能体在处理复杂任务时积累有用的经验。

06e3ac8f457a590c7438c7c0b81eaba5.jpeg


多维度性能评估:360°性能评估法的创新之处

1. 同伴评估与自我评估

在多维度性能评估的实践中,360°性能评估法的创新之处在于它不仅仅依赖于自我评估,而是引入了同伴评估的维度。这种方法允许同一团队中的代理(crew agents)相互评价,从而提供了一个更全面的性能反馈。每个代理在完成其子任务后,会接受来自其他代理的反馈,这些反馈将用于修正其对子任务的响应。通过这种方式,代理能够在多个回合中不断完善其响应,从而提高其输出的质量。例如,在一个旅行规划任务中,一个代理可能会评估另一个代理提出的旅行计划,并给出建议,如何使计划更符合特定的评估标准,如个性化、新颖性和正确性。

2. 领导者评估的重要性

除了同伴评估,360°性能评估法还强调了领导者评估的重要性。在这个框架中,领导者代理(leader agent)负责对团队成员的表现进行评估,并提供从全局视角出发的反馈。这种监督层面的评估有助于代理从更宏观的角度理解问题,从而在解决复杂任务时提供更有价值的指导。例如,领导者代理可能会评估一个代理在处理子任务时的表现,并根据任务指令提供反馈,帮助代理更好地理解其在整个任务中的角色和贡献。


双层经验池的设计:本地与全局经验的积累

1. 本地经验池的构建与作用

本地经验池是为每个代理个体设计的,它汇集了代理在完成当前子任务过程中的经验。这些经验是基于360°性能评估的多轮反馈总结而来的,旨在帮助代理在下一个回合中取得更好的结果。例如,一个代理在接收到同伴的反馈后,会反思并总结出本地经验,这些经验可能包括如何改进其旅行计划的个性化或如何确保计划的可行性。

2. 全局经验池的构建与作用

全局经验池则是为整个多代理系统设计的,它从每个代理的最终响应和评估者的反馈中构建可复用的经验。这些经验涵盖了整个任务解决过程中的高层次技能,有助于整个团队在处理类似任务时的性能提升。例如,领导者代理在任务完成后,会从评估者的反馈中学习经验,总结出如何在未来的任务中更好地协调团队,以及如何平衡任务的可行性和活动的多样性。


实验设计与数据集介绍:验证360°REA的有效性

为了验证360°REA框架的有效性,我们在两个广泛使用的复杂任务数据集上进行了广泛的实验。这些数据集包括创意写作和旅行计划制定任务。在创意写作任务中,我们使用了Trivia Creative Writing数据集,该数据集要求生成一个故事来覆盖所需的输入。在旅行计划制定任务中,我们使用了Trip Planning数据集,该数据集包含了50个世界著名景点的旅行计划,这些计划是基于目的地特点生成的具体要求。通过这些实验,我们能够展示360°REA在多个复杂任务上相较于现有基准的优势,同时也证实了综合评估和经验积累对于提升多代理系统性能的重要性。


综合评估指标:如何衡量任务完成的质量

在多代理系统中,衡量任务完成的质量是一个复杂的过程,需要从多个维度进行考量。360°REA框架通过引入360°绩效评估方法,提供了一种全面的评价机制。这种评估方法不仅仅局限于自我反思,而是包括来自同伴和上级的评价,从而提供了更有价值的反馈。具体来说,评估指标包括以下几个方面:

1. 自我评估(Self-level Assessment):代理根据自己的响应进行自我反思,以此来评估自己的表现。

2. 同伴评估(Peer-level Assessment):在基于LLM的多代理系统中,代理之间的合作是常见的。通过同伴评估,代理可以从其他任务的角度评价智能代理的表现,从而获得更全面的评价。

3. 上级评估(Supervisory-level Assessment):领导代理可以从更全局的角度评估每个代理完成子任务的表现,并协助他们更好地解决问题。

通过这三种评估方式,代理能够从不同的角度获得反馈,并据此改进自己的表现。此外,360°REA还引入了双层经验池(dual-level experience pool),帮助代理基于评估结果收集有用的经验,从而在处理类似任务时表现得更好。


基线模型与对比实验:360°REA与现有方法的比较

在进行实验对比时,我们选择了几种基线模型进行比较,以验证360°REA的有效性。这些基线模型包括:

GPT-4:OpenAI的封闭源LLM,使用单一指令进行上下文学习。

Mistral:开源LLM,使用专家混合版本Mistral-medium。

OKR:一个层次化的多代理协作框架,通过分解目标到多个子目标,并基于关键结果和代理责任分配新代理。

SPP:Solo Performance Prompting,将单一LLM转化为通过多个角色进行多轮自我协作的认知协同者。

在对比实验中,360°REA展示了在处理复杂任务时的优势。通过在两个广泛使用的复杂任务数据集上进行的实验,360°REA在多个评估指标上均优于这些基线模型。

52131dbe5e750bb3029382611376d3ed.jpeg


人类评估与消融研究:360°REA的实际效果分析

为了进一步验证360°REA生成答案的有效性,我们还进行了人类评估。在创意写作任务中,我们评估了故事的连贯性和创造性;在旅行计划制作任务中,我们评估了计划的正确性和定制性。通过雇佣具有学士学位的受过教育的注释者进行双盲注释,我们发现360°REA在所有方面都优于强大的多代理基线SPP和GPT-4。

此外,我们还进行了消融研究,以验证360°REA中每个模块的有效性。通过移除双层经验池或不进行所有层次的评估,我们发现这些变体模型的性能下降,这表明使用双层经验池和进行全层次评估的必要性。

通过这些实验,我们可以看到360°REA不仅在自动评估指标上表现出色,而且在人类评估中也得到了验证,证明了其在处理复杂任务时的实际效果。

0c22346c46b5d5f79788c6c26ead5eae.jpeg


案例研究:360°REA在创意写作任务中的应用

在探索360°REA(Reusable Experience Accumulation with 360° Assessment)的实际应用中,我们选择了创意写作任务作为案例研究的对象。创意写作任务的复杂性在于它不仅需要语言模型生成连贯和吸引人的故事,还要求故事内容能够与特定的问题或要求相匹配。

10303ca4909601d19f4a605b1243e126.jpeg

在这个案例中,我们使用了Trivia Creative Writing数据集,该数据集包含100个样本,每个样本都要求生成一个故事来覆盖所需的输入。360°REA的应用展示了其在处理此类任务时的有效性。通过360°性能评估和双层经验池的结合,360°REA能够帮助语言模型代理(agents)从评估反馈中积累经验,并在类似任务中表现出更好的性能。

在一个具体的创意写作任务中,360°REA框架的应用涉及到了多个代理的协作。首先,领导代理(leader agent)根据用户输入的查询分配任务和角色给执行代理(crew agents)。执行代理根据指令生成响应,然后通过360°性能评估进行多轮迭代,以此改进他们的输出。在这个过程中,执行代理不仅接受来自同伴的评价,还会从领导代理那里获得全局视角的反馈。

通过这种方式,每个代理都能够在完成子任务时获得更细致的反馈,并将这些反馈转化为本地经验(local experience),同时领导代理也会从最终结果中总结出全局经验(global experience)。这些经验被存储在双层经验池中,供未来类似任务的解决方案使用。

案例中的一个具体故事生成任务要求代理围绕《塞尔达传说》编写一个短小精悍的故事,并且要融合对以下五个问题的回答:哪位英国君主著名地说过“我不希望打开人们灵魂的窗户”?哪位英国歌手在1986年电影《迷宫》中扮演了Jareth the Goblin King?1987年的电影《自由之声》是关于哪位南非民权领袖的传记剧?哪位英国女演员在1997年电影《无言以对》中扮演了Valerie?1959年、1960年和1964年在温布尔登女子单打决赛中获胜的巴西选手叫什么名字?

通过360°REA框架,代理能够生成一个包含了所有必要元素的连贯故事,同时也展示了它在提高故事情节丰富性、逻辑性和流畅性方面的优势。这个案例不仅证明了360°REA在创意写作任务中的有效性,也展示了其在提升语言模型处理复杂任务能力方面的潜力。


结论与未来展望:360°REA的意义与发展方向

360°REA代表了一个重要的步骤,它通过引入全面的代理性能评估策略和双层经验池,显著提升了基于大型语言模型(LLM)代理在处理复杂任务方面的能力。与仅侧重于团队优化或自我反思的现有方法不同,360°REA提供了多视角和细粒度的反馈,使代理能够从自我、同伴和监督级别获得宝贵的见解。

通过在复杂任务数据集上的实验,360°REA展示了其在与最先进基准相比时的卓越性能。通过强调全面评估和经验积累的重要性,360°REA为基于LLM的多代理系统的发展提供了一个实用且有影响力的框架,为解决复杂任务提供了一种新的方向。

尽管360°REA已经取得了显著的成果,但我们认识到未来的发展方向还包括将多模态信息(如图像和视频)融入到框架中。考虑到现有的多模态LLM能够理解文本和多模态信息,我们的多代理框架可以适应许多复杂任务中的多模态输入。因此,我们计划在未来的工作中将多模态信息纳入我们的框架。


安全性与伦理考量:人工审核与多模态数据的融合展望

在构建基于LLM的多代理协作框架时,我们必须考虑到安全性和伦理问题。尽管LLM在通过人类反馈进行强化学习(RLHF)阶段已经与人类价值观和偏好对齐,从而降低了生成不道德内容的可能性,但现有的LLM仍然无法完全防止生成有害内容。因此,多代理协作框架生成的答案在使用前仍需要进一步的人类专家验证。

展望未来,我们认识到在多模态数据日益普及的今天,人工审核与多模态数据的融合将成为一个重要的研究方向。我们将探索如何结合人工智能和人类智慧,以确保生成的内容不仅在技术上先进,而且在伦理上负责任。这将涉及到开发新的工具和方法,以便更好地理解和管理多模态数据中的复杂性,同时确保我们的技术创新能够为社会带来积极的影响。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/1899.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何修改WordPress数据库表前缀以提高安全性

WordPress作为世界上最受欢迎的内容管理系统之一,吸引了数以百万计的用户。然而,正因为其广泛的使用,WordPress网站也成为了黑客攻击的目标之一。其中一个最常见的安全漏洞是使用默认的数据库表前缀wp_,使得黑客能够更轻松地进行大…

Oracle交换分区测试

1、用exchange分区表减少初始化过程中对业务中断的影响 2、创建分区表 create table t_p (id number,name varchar2(30),addr varchar2(50)) partition by range(id) (partition p1 values less than(10), partition p2 values less than(20), partition p3 values less …

sql(ctfhub)

一.整数型注入 输入1 输入2 输入2-1,回显为1的结果,说明是数字型,只有数字型才可加减 判断字段数为2 查询数据库 查表 查列 显示flag内容 二.字符型注入 输入1 输入2 输入2-1,说明为字符型,不是数字型 判断闭合方式为…

【数据分析面试】27. 计算广告评论比例 (SQL)

题目: 计算广告评论比例 假设你有一个ads表,包含ID和广告名称,比如“劳动节衬衫促销”。feed_comments表保存了不同用户在常规信息流中对广告的评论。moments_comments表保存了不同用户在moments中对广告的评论。 编写一个查询,获取广告在f…

问题总结笔记

1.向量旋转 问题: 将一个向量旋转90 方法:旋转矩阵 FVector FrontDir EndMousePoint - Point; FrontDir.Normalize(); FVector Left FVector(-FrontDir.Y, FrontDir.X, 0); Verties.Add(Point Left * (WallWedith / 2)); Verties.Add(FVector(Vertie…

BFS 专题 ——FloodFill算法:733.图像渲染

文章目录 前言FloodFill算法简介题目描述算法原理代码实现——BFSCJava 前言 大家好啊,今天就正式开始我们的BFS专题了,觉得有用的朋友给个三连呗。 FloodFill算法简介 中文:洪水灌溉 举个例子,正数为凸起的山峰,负…

攻防世界---misc---easycap

1.下载附件是一个流量包,拿到wireshark中分析 2.查看分级协议 3.过滤data 4.追踪tcp流 5.得到flag

OpenCV与AI深度学习 | OpenCV如何读取仪表中的指针刻度

本文来源公众号“OpenCV与AI深度学习”,仅用于学术分享,侵权删,干货满满。 原文链接:OpenCV如何读取仪表中的指针刻度 最近遇到一个问题,如何读取仪表中的指针指向的刻度。 解决方法有多种,比如&#xff…

Linux使用Docker部署DashDot访问本地服务器面板

文章目录 1. 本地环境检查1.1 安装docker1.2 下载Dashdot镜像 2. 部署DashDot应用 本篇文章我们将使用Docker在本地部署DashDot服务器仪表盘,并且结合cpolar内网穿透工具可以实现公网实时监测服务器系统、处理器、内存、存储、网络、显卡等,并且拥有API接…

【C++】双指针算法:复写零

1.题目 别看这是一道简单题,它的通过率低于一些中等甚至困难的题目! 大大增加这道题目难度的是最后一句话:1.不可越界写入。2.就地修改。 如果可以再创建一个数组的话,那么这道题目就会非常简单,但这道题目必须要求在…

Linux的学习之路:18、进程间通信(2)

摘要 本章主要是说一下命名管道和共享内存 目录 摘要 一、命名管道 1、创建一个命名管道 2、匿名管道与命名管道的区别 3、命名管道的打开规则 4、代码实现 二、system V共享内存 1、共享内存 2、共享内存函数 三、代码 四、思维导图 一、命名管道 1、创建一个命…

13.Nacos简介,下载,安装,启动-windows

Nacos是阿里巴巴的产品,现在是SpringCloud的一个组件。 相比Eureka功能更加丰富,服务注册与发现和分布式配置。 Nacos下载地址: https://github.com/alibaba/nacos windows下载nacos-server-1.4.1.zip文件 nacos是基于java语言实现的&…

【系统架构师】-案例考点(三)

1、信息系统架构ISA设计 四种架构模型: 1)单机应用 2)客户机/服务器模式:两层、三层C/S、B/S模型、MVC模式等 3)面向服务架构SOA 4)企业数据交换总线:不同企业应用之间通过信息交换的公共频…

一招下载transformers真不用网上那些教程(我试了1*mol多次才知道)

pip很多是2 然而!!!!!!!!!!!!!!!!!!!!…

element中file-upload组件的提示‘按delete键可删除’,怎么去掉

问题描述 element中file-upload组件会出现这种提示‘按delete键可删除’ 解决方案: 这是因为使用file-upload组件时自带的提示会盖住上传的文件名,修改一下自带的样式即可 ::v-deep .el-upload-list__item.is-success.focusing .el-icon-close-tip {d…

洛谷 -P1007 独木桥(模拟,思维)

独木桥 题目背景 战争已经进入到紧要时间。你是运输小队长,正在率领运输部队向前线运送物资。运输任务像做题一样的无聊。你希望找些刺激,于是命令你的士兵们到前方的一座独木桥上欣赏风景,而你留在桥下欣赏士兵们。士兵们十分愤怒&#xf…

排队分红,你想象不到的电商新玩法

亲爱的朋友们,我是微三云的周丽,一名专注于私域电商模式创新的探索者。 随着互联网的迅猛发展,电商行业的商业模式也在不断演变。最近,一种全新的消费返利模式——排队分红模式,成为了业界瞩目的焦点。这一模式结合了…

组合模式【结构型模式C++】

1.概述 组合模式又叫部分整体模式属于结构型模式,是用于把一组相似的对象当作一个单一的对象。组合模式依据树形结构来组合对象,用来表示部分以及整体层次。 2.结构 组件(Component):定义了组合中所有对象的通用接口&#xff0c…

three.js(3):添加three. js坐标轴、光源和阴影效果

1 实现步骤 要实现阴影效果同样需要几个重要的概念。 我们首先研究一下日常生活中是如何产生阴影效果的。 需要有光。需要一个物体,比如苹果、狗等。需要一个接受投影的元素,比如地面、桌面等。 在 Three.js 中要产生阴影效果其实和现实世界的原理差…

mysql 5.7分组报错问题 Expression #1 of ORDER BY clause is not in GROUP BY clause

解决方案: select version(), sql_mode;SET sql_mode(SELECT REPLACE(sql_mode,ONLY_FULL_GROUP_BY,)); 完美的解决方案是: 1 show variables like "sql_mode"; 2 3 set sql_mode; 4 set sql_modeNO_ENGINE_SUBSTITUTION,STRICT_TRANS_TABL…