AI速读：解锁LLM下Game Agent的奇妙世界

在 AI 浪潮中，大语言模型（LLMs）正重塑游戏智能体格局。想知道基于 LLMs 的游戏智能体如何运作，在各类游戏中有何惊艳表现，未来又将走向何方？

大型语言模型（LLMs）的兴起为游戏智能体的发展注入了强大动力，引发学界和业界广泛关注。这篇论文全面且深入地回顾了基于 LLMs 的游戏智能体相关研究，内容涵盖智能体框架、核心组件、应用实例以及未来发展趋势等多个关键层面。

论文标题：A Survey on Large Language Model Based Game Agents
来源：arXiv:2404.02039 [cs.AI] + 链接：http://arxiv.org/abs/2404.02039

基于 LLMs 的游戏智能体框架

游戏设定与策略表示

在游戏环境里，智能体与环境的交互常用马尔可夫决策过程（MDP）来描述。与传统智能体不同，基于 LLMs 的智能体依赖 LLMs 处理自然语言。它将游戏策略以文本形式呈现，依据观察到的游戏状态生成推理内容，进而决定采取何种行动，这种方式让智能体对复杂环境的理解和应对更具灵活性。

核心组件

记忆模块：它如同智能体的 “大脑仓库”，存储着过去积累的丰富经验、各种想法以及掌握的技能。在游戏进程中，记忆模块帮助智能体快速回忆起有用信息，使智能体在不同情节中保持连贯的行动逻辑，不断优化自身游戏策略，以更好地应对各类复杂情况。
推理模块：此模块堪称基于 LLMs 的智能体区别于传统 AI 的核心所在。通过语言进行策略规划，智能体能够在复杂多变的游戏潜在空间中展开探索，有效解决更为复杂的任务。不过，其初始推理能力源自预训练数据，所以在实际应用中，通过与环境积极互动来持续提升推理能力显得尤为重要。
输入 / 输出模块：输入模块的作用是把游戏世界的各种信息转化为 LLMs 能够理解的自然语言形式，让智能体得以利用预训练所积累的知识，而不是像传统强化学习（RL）智能体那样一切从头开始学习。输出模块则负责将 LLMs 生成的行动决策转化为游戏环境可以执行的具体指令，实现智能体在游戏中的实际操作。

示例分析

井字棋（Tic - Tac - Toe）：输入模块把井字棋 3×3 棋盘上的符号状态转化为文本描述。记忆模块存储着过往游戏中的走法（情景记忆）以及通用的游戏策略（语义知识），比如 “形成双威胁（fork）可获胜” 这类策略。推理过程通过树状搜索对不同落子位置的后续结果进行评估，最终输出行动决策，再由输出模块转化为实际的落子操作，更新棋盘状态。
宝可梦对战（Pokémon Battles）：输入模块将对战中的各种状态信息，如宝可梦的属性、技能、生命值等，转化为文本形式。记忆模块不仅记录近期对战的具体情况，还从中提炼出属性相克等语义知识。推理时，智能体结合当前对战状态和记忆中的知识，选择最佳行动，比如根据对方宝可梦属性和自身宝可梦状态来决定是否切换宝可梦以及使用何种技能，最后输出模块将决策转化为游戏中的实际行动指令。

核心组件详细剖析

记忆系统

Working Memory：受限于预训练条件，LLMs 的上下文长度存在一定限制。为了有效处理长序列信息，可采用位置插值 / 外推（例如 PI、LongRoPE 等方法）以及并行上下文处理（如 PCW、PoSE 等技术）来扩展上下文窗口，增加智能体能够处理的信息长度。同时，通过软令牌压缩（像 AutoCompressor、ICAE 等）和分层总结（例如 Nugget、WDMM 等）等手段来解决信息过载问题，让智能体在有限的资源下高效处理信息。
Long-term Memory：长期记忆包含情景记忆（记录特定的游戏事件）、语义记忆（存储游戏相关的事实性知识）和程序记忆（掌握游戏中的任务执行技能）。其组织形式丰富多样，有文本块、键值对、树结构、知识图等，甚至还能将信息存储在模型参数之中。不同的组织形式对应着不同的检索方式，并且可以通过言语强化（即从失败和成功的经验对比中学习）来显著提升智能体的性能。

推理

Deliberate Prompting：包含思维链（CoT）、结构推理（如 Self - Consistency、GPTLens 等）和心理理论（ToM）思维等多种方法。思维链（CoT）能够促使 LLMs 在生成最终答案之前进行中间步骤的推理，显著提升智能体处理复杂任务的能力，不过可能会出现行动不一致的情况。结构推理则通过改进推理路径的选择，有效解决了这一问题。心理理论（ToM）思维帮助智能体更好地理解其他游戏参与者的意图，在各类游戏场景中都发挥着重要作用。
监督微调：通过在收集到的游戏轨迹数据上对 LLMs 进行微调，使智能体能够学习到专家玩家的推理方式和行动策略。其中，行为克隆是直接模仿专家的游戏轨迹，拒绝采样微调则是挑选符合特定标准的样本进行训练，以提高智能体的学习效果。
强化学习：基于策略的方法（例如 PPO）主要是训练 LLMs 作为智能体的决策策略，同时学习价值模型来评估行动的优势程度。价值 - based 方法侧重于学习估计状态 - 行动对的预期回报。过程奖励建模（PRM）则为智能体的推理步骤提供实时反馈，有效提升推理效率，让智能体在不断试错中优化策略。
直接偏好优化：以 DPO 为例，它通过对比学习的方式，最大化优质生成结果与较差生成结果之间的差异，这种方法简化了训练过程，并且降低了内存成本，提高了训练的效率和效果。

输入 / 输出

输入：根据游戏状态的模态不同，输入方式主要有文本观察（直接利用游戏中已有的文本描述信息）、符号状态描述（将结构化的游戏状态信息转化为文本提示）、视觉到文本转换（借助外部视觉模型将游戏画面等视觉信息处理为文本）和多模态 LLM 感知（直接运用多模态 LLMs 同时处理图像和文本等多种信息）。
输出：LLMs 生成的高级文本行动需要转化为具体的游戏行动，实现方式包括直接使用高级行动（在合适的游戏场景中直接应用 LLMs 生成的高级指令）、通过低级控制器转换（将高级行动进一步细化为低级的控制序列）和程序性行动（输出结构化的代码来执行具体操作），但每种方式在实际应用中都面临着各自独特的挑战。

在各类游戏中的应用

冒险游戏：冒险游戏分为文本冒险游戏（像 TextWorld、Jericho 等）和视频冒险游戏（例如 Red Dead Redemption 2）。在文本冒险游戏中，游戏进程高度依赖常识知识，LLMs 可以作为强大的语言先验，有效引导智能体采取合理行动。在视频冒险游戏方面，如 Cradle 项目利用 GPT - 4V 来感知游戏屏幕画面，并据此控制游戏角色的行动。
交流游戏：包括狼人杀（Werewolf）、阿瓦隆（Avalon）和外交（Diplomacy）等游戏。这类游戏的难点在于需要智能体准确推断其他玩家的意图，同时巧妙隐藏自身意图。LLMs 通过推理和策略学习参与到这类游戏中，然而，像 GPT - 3.5 在某些复杂情况下，仍然存在难以制定有效策略以及准确执行策略的问题。
竞争游戏：例如星际争霸 II（StarCraft II）、宝可梦对战、国际象棋（Chess）和扑克（Poker）等。这些游戏是检验智能体推理和规划能力的重要基准。在这些游戏中，LLMs 能够实现与人类玩家相当的游戏表现，比如 PokéLLMon 在宝可梦对战中能够充分利用游戏反馈信息，不断优化自身对战策略。
合作游戏：涵盖合作烹饪、实体家庭合作和合作建造与探索等多种任务类型，并且分为去中心化合作（如在 Overcooked 游戏中，智能体需要推断伙伴的意图以实现有效协作）和中心化合作（例如在 Minecraft 游戏中，通过中央调度器来分配任务）两种模式。LLMs 的应用有助于显著提升团队协作的效率，促进智能体之间的协同配合。
模拟游戏：可细分为人类和社会模拟（比如 Generative Agents 模拟人类的日常生活场景）、文明模拟（如 CivRealm 模拟人类历史的发展进程）和实体模拟（例如在虚拟环境中执行各种实际任务）。在这些模拟游戏中，LLMs 主要用于模拟各种场景和进行决策，帮助玩家更好地体验和管理复杂的虚拟世界。
建造与探索游戏：以 Minecraft 和 Crafter 为典型代表，智能体在这类游戏中面临着收集材料、规划建造以及探索游戏世界等多重任务。在建造任务中，LLMs 可以作为规划器，将复杂的建造目标分解为具体的子目标和步骤。在探索任务中，LLMs 又可以充当目标生成器，例如 Voyager 在 Minecraft 中能够根据自身当前状态自动生成合理的探索目标。

未来研究方向展望

游戏基准：高质量的游戏基准对于提升基于 LLMs 的智能体能力起着至关重要的作用。不同类型的游戏能够有针对性地培养智能体的特定技能，例如包含丰富语义知识的游戏有助于智能体进行知识发现；具有复杂决策空间的游戏能够有效锻炼智能体的推理能力；动作类游戏可以用于评估智能体的视觉感知和低级控制能力；竞争与合作类游戏能够检验智能体的心理理论推理水平；模拟游戏则有利于促进智能体涌现行为的研究。
环境中的自我进化：智能体的自我进化可以通过基于模型的方法（比如利用强化学习技术来改进智能体的推理和决策过程，精心设计合适的奖励函数，并确保训练过程的稳定性）和基于记忆的方法（例如从过往经验中提取和存储有用的语义知识，进行言语强化学习，构建高效的记忆模块，以支持智能体的持续进化）来实现。
智能体社会模拟：未来在智能体社会模拟方面，可以从三个主要方向展开拓展研究。一是构建更为准确的认知框架，以更精准地捕捉人类认知的复杂性；二是创建更加逼真的建模环境，使其能够更好地反映现实世界的复杂性；三是开展大规模模拟，通过解决并行计算等技术挑战，实现对大量智能体的有效处理和模拟。