MindAgent:基于大型语言模型的多智能体协作基础设施

2023-09-18 ,加州大学洛杉矶分校(UCLA)、微软研究院、斯坦福大学等机构共同创建的新型基础设施,目的在评估大型语言模型在游戏互动中的规划和协调能力。MindAgent通过CuisineWorld这一新的游戏场景和相关基准,调度多智能体协作效率,并监督多个智能体同时玩游戏。

一、研究背景

大型语言模型(LLMs)在处理复杂任务方面展现出巨大潜力,从数学推理到专业领域的问答,LLMs的应用范围不断扩大。然而,对于LLMs在多智能体系统中的规划能力,尤其是与人类玩家协作完成任务的能力,研究仍相对不足。

目前遇到困难和挑战:

1、计算成本高:多智能体规划需要同时控制多个智能体,避免冲突并协调完成共享目标,这对计算资源要求极高。

2、上下文长度限制:LLMs在处理多智能体任务时,受限于上下文长度,难以处理复杂的任务序列。

3、非最优计划:尽管LLMs可以通过上下文学习来改进计划,但生成的计划可能并非最优,需要进一步优化。

数据集地址: CuisineWorld

二、让我们一起来看一下CuisineWorld

CuisineWorld是一个虚拟厨房环境中的多智能体调度和协调游戏,用于测试LLMs的多智能体规划能力。

CuisineWorld构建:

1、从社区贡献的维基百科中爬取规则和食谱,简化并修改后形成CuisineWorld的基本版本。

2、包含10种地点(服务台、存储和8种不同的烹饪工具)、27种食材和33种独特的菜品。

CuisineWorld特点:

  • 多任务:包含多种不同的任务,从简单的生鱼片制作到复杂的意大利面烹饪,任务难度逐渐增加。

  • 多智能体:支持多达4个智能体同时协作。需要协调完成尽可能多的菜品订单。

  • 动态任务生成:任务会根据游戏进度动态生成,增加了游戏的挑战性和多样性。

CuisineWorld通过文本界面与LLMs交互,提供游戏状态描述和可能的行动命令。LLMs根据这些信息做出决策,调度智能体完成任务。

基准测试:

  • 引入了新的自动评估指标——协作得分(CoS),用于计算协作效率。

  • 在不同的任务间隔条件下,评估智能体完成任务的能力,CoS得分越高,表示协作效率越高。

MINDAGENT 能够在多智能体系统和人机协作的基础设施中,实现跨越不同领域的复杂任务规划。

CUISINEWORLD 与其他相关基准之间的比较。

CUISINEWORLD 中的行动空间

关于所涉及工具和食材数量、烹饪步骤以及食谱中最大混合量的菜肴分布情况

MINDAGENT 架构的概述:

1、规划技能与工具使用:游戏环境需要多样化的规划技能和工具运用来完成任务。它会发出相关的游戏信息。此模块还会将相关游戏数据转换为结构化文本格式,以便大语言模型(LLMs)进行处理。

2、大语言模型(LLM):我们基础设施的核心组件,负责做出决策,它是多智能体系统的调度器。

3、记忆历史:一种存储实用工具,用于存储相关信息。

4、行动模块:从文本输入中提取行动,并将其转换为特定领域语言。验证特定领域语言(DSLs),确保其在执行时不会引发错误。

展示CuisineWorld中的一个多智能体协作示例,三个智能体正在一起准备混合果汁。

三、让我们一起来看一下CuisineWorld应用场景

比如:有一所职业学校,开设了一门烹饪技能与团队协作的培训课程,旨在帮助学生掌握烹饪技巧的同时,提升他们在团队中的协作能力。学校引入了CuisineWorld这一虚拟厨房游戏作为教学工具。

课程设置

课程时长:共12周,每周2次课,每次课2小时。

学生分组:将学生分成4人一组,每组配备一台电脑,用于运行CuisineWorld游戏。

教学目标:学生能够在团队中高效协作,完成各种烹饪任务,同时掌握基本的烹饪技巧和食谱知识。

课程内容

1、前3周:基础烹饪知识学习

教师通过AR课程引导,向学生介绍厨房的基本设备、工具和食材。

学生在PC端进行实训教学,学习简单的烹饪技巧,如切菜、煮沸等。

在CuisineWorld游戏中,学生独自完成简单的烹饪任务,如制作生鱼片,熟悉游戏界面和操作方式。

2、中间6周:团队协作与任务规划

每组学生开始在CuisineWorld中协作完成更复杂的烹饪任务,如制作意大利面。

教师引导学生讨论如何分配任务,例如谁负责切菜,谁负责烹饪,谁负责摆盘。

学生需要根据游戏中的任务订单,合理安排烹饪步骤和时间,确保在规定时间内完成菜品制作。

教师在旁观察,记录学生在团队协作中的表现,如沟通能力、任务分配合理性等。

3、最后3周:综合实践与评估

学生在CuisineWorld中挑战高级烹饪任务,如制作多道菜的套餐。

教师组织学生进行小组间的烹饪比赛,鼓励学生在比赛中发挥团队协作精神,提高烹饪效率和菜品质量。

通过CuisineWorld的自动评估系统,计算每个小组的协作得分(CoS),并结合教师的观察记录,对学生的团队协作能力和烹饪技能进行综合评估。

CuisineWorld作为一个教育工具不仅提供了一个虚拟的实践平台,还能够通过自动评估系统为教师提供教学反馈,帮助教师更好地了解学生的学习情况,从而优化教学方法。

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。icon-default.png?t=O83Ahttps://www.selectdataset.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/893363.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Excel 技巧17 - 如何计算倒计时,并添加该倒计时的数据条(★)

本文讲如何计算倒计时,并添加该倒计时的数据条。 1,如何计算倒计时 这里也要用公式 D3 - TODAY() 显示为下面这个样子的 然后右键该单元格,选 设置单元格格式 然后点 常规 这样就能显示出还书倒计时的日数了。 下拉适用到其他单元格。 2&a…

rocketmq基本架构

简介 Name server 负责broker注册、心跳,路由等功能,类似Kafka的ZKname server节点之间不互相通信,broker需要和所有name server进行通信。扩容name server需要重启broker,不然broker不会和name server建立连接producer和consum…

国产编辑器EverEdit - 大纲视图

1 大纲视图 1.1 应用场景 在编辑较长代码文件时,使用大纲视图可以方便的检视当前文件的变量、函数等信息,方便在不同函数间跳转,对整个文档的全貌了然于胸。   在编辑XML文档时,通过展示XML文件的层次结构、节点布局&#xff0…

Linux中的基本指令(一)

一、Linux中指令的存在意义 Linux中,通过输入指令来让操作系统执行,以此达到控制操作系统的目的,类似于Windows中的双击,右键新建文件,新建文件夹等 1.补:关于屏幕的几个操作指令 ①清屏指令 clear 回…

2025/1/21 学习Vue的第四天

睡觉。 --------------------------------------------------------------------------------------------------------------------------------- 11.Object.defineProperty 1.在我们之前学习JS的时候&#xff0c;普通得定义一个对象与属性。 <!DOCTYPE html> <h…

Go Map 源码分析(一)

Go语言中的map是通过哈希表实现的&#xff0c;其底层结构和实现机制如下&#xff1a; 一、hash 结构 hmap结构体&#xff1a;是map的头部结构&#xff0c;主要字段及含义如下&#xff1a; count&#xff1a;表示当前哈希表中的元素数量&#xff0c;与len()函数相对应。flags…

Linux-C/C++--深入探究文件 I/O (上)(文件的管理、函数返回错误、exit()、_Exit()、_exit())

经过上一章内容的学习&#xff0c;相信各位读者对 Linux 系统应用编程中的基础文件 I/O 操作有了一定的认识和理解了&#xff0c;能够独立完成一些简单地文件 I/O 编程问题&#xff0c;如果你的工作中仅仅只是涉及到一些简单文件读写操作相关的问题&#xff0c;其实上一章的知识…

【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格

音乐流派分类 – 自动化分类不同音乐风格 在本教程中,我们将开发一个深度学习项目,用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。 对于这个项目,我们需要一个具有相似大小和相似频率范围的音频曲目数据集…

Walrus Learn to Earn计划正式启动!探索去中心化存储的无限可能

本期 Learn to Earn 活动将带领开发者和区块链爱好者深入探索 Walrus 的技术核心与实际应用&#xff0c;解锁分布式存储的无限可能。参与者不仅能提升技能&#xff0c;还能通过完成任务赢取丰厚奖励&#xff01;&#x1f30a; 什么是 Walrus&#xff1f; 数据主权如今正成为越…

git 常用命令 git archive

git archive 是 Git 中用于创建一个包含指定提交或分支中所有文件的归档文件&#xff08;如 .tar 或 .zip&#xff09;的命令。这个命令非常适合用于分发项目快照、备份代码库或导出特定版本的文件。 git archive --formatzip --outputproject.zip HEAD …

Excel 技巧15 - 在Excel中抠图头像,换背景色(★★)

本文讲了如何在Excel中抠图头像&#xff0c;换背景色。 1&#xff0c;如何在Excel中抠图头像&#xff0c;换背景色 大家都知道在PS中可以很容易抠图头像&#xff0c;换背景色&#xff0c;其实Excel中也可以抠简单的图&#xff0c;换背景色。 ※所用头像图片为百度搜索&#x…

持续升级《在线写python》小程序的功能,文章页增加一键复制功能,并自动去掉html标签

增加复制按钮后的界面是这样的 代码如下&#xff1a; <template><view><x-header></x-header><view class"" v-if"article_info"><view class"kuai bgf"><view class"ac fs26"><img sr…

FPGA与ASIC:深度解析与职业选择

IC&#xff08;集成电路&#xff09;行业涵盖广泛&#xff0c;涉及数字、模拟等不同研究方向&#xff0c;以及设计、制造、封测等不同产业环节。其中&#xff0c;FPGA&#xff08;现场可编程门阵列&#xff09;和ASIC&#xff08;专用集成电路&#xff09;是两种重要的芯片类型…

【Linux】Linux入门(三)权限

目录 前提权限概念whoami指令 Linux权限管理文件访问者的分类&#xff08;人&#xff09;file指令权限信息权限的表示方法 chmod指令 更改权限chown指令 修改文件&#xff0c;文件夹所属用户和用户组 权限掩码umask&#xff08;权限掩码&#xff09; 粘滞位 前提 请先看下面这…

蓝桥与力扣刷题(73 矩阵置零)

题目&#xff1a;给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,1,1],[1,0,1],[1,1,1]] 输出&#xff1a;[[1,0,1],[0,0,0],[1,0,1]]示例 2&…

Node.js接收文件分片数据并进行合并处理

前言&#xff1a;上一篇文章讲了如何进行文件的分片&#xff1a;Vue3使用多线程处理文件分片任务&#xff0c;那么本篇文章主要看一下后端怎么接收前端上传来的分片并进行合并处理。 目录&#xff1a; 一、文件结构二、主要依赖1. express2. multer3. fs (文件系统模块)4. pat…

大数据,Hadoop,HDFS的简单介绍

大数据 海量数据&#xff0c;具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集 合 大数据的特征: 4V Volume : 巨大的数据量 Variety : 数据类型多样化 结构化的数据 : 即具有固定格式和有限长度的数据 半结构化的数据 : 是…

深度强化学习:PPO

深度强化学习算法&#xff1a;PPO 1. Importance Sampling 先说一下什么是采样&#xff1a;对于一个随机变量&#xff0c;我们通常用概率密度函数来描述该变量的概率分布特性。具体来说&#xff0c;给定随机变量的一个取值&#xff0c;可以根据概率密度函数来计算该值对应的概…

Flink底层架构与运行流程

这张图展示了Flink程序的架构和运行流程。 主要组件及功能&#xff1a; Flink Program&#xff08;Flink程序&#xff09;&#xff1a; 包含Program code&#xff08;程序代码&#xff09;&#xff0c;这是用户编写的业务逻辑代码。经过Optimizer / Graph Builder&#xff08…

嵌入式知识点总结 C/C++ 专题提升(一)-关键字

针对于嵌入式软件杂乱的知识点总结起来&#xff0c;提供给读者学习复习对下述内容的强化。 目录 1.C语言宏中"#“和"##"的用法 1.1.(#)字符串化操作符 1.2.(##)符号连接操作符 2.关键字volatile有什么含意?并举出三个不同的例子? 2.1.并行设备的硬件寄存…