如何让面向应急管理的多智能体具备自主决策能力

现代应急管理面对的是复杂、多变、跨部门的灾害与事故场景——从自然灾害（洪水、地震、台风、火灾）到公共安全事件（疫情、重大安全事故），都需要在极短时间内进行快速响应和全局协同。传统的集中式指挥模式虽然有效，但在数据爆炸、态势急速变化、资源分散管理等条件下，很难全面、实时地给出“最优”或“近似最优”的应对策略。为此，借助多智能体系统（Multi-Agent System, MAS） 和现代人工智能（AI） 技术，可以让多个“决策智能体”拥有自主决策能力，从而更好地支撑指挥调度、资源分配以及应急处置。

尝试从多智能体系统（MAS）的角度出发，结合应急管理需求与现代人工智能技术，探讨如何让各个“决策智能体”在应急场景中具备自主学习、实时感知和协同决策的能力。整体设计从以下五个方面展开：

体系结构总体设计：多层次、可扩展的智能体架构
核心技术方法：强化学习、规划算法与知识图谱推理
关键模块与算法：数据融合、任务规划、冲突解决、协作与通信
训练与部署：多灾种仿真、演练与实时动态修正
安全与容错：冗余设计与人机协同

力求在面对此类复杂、动态、跨部门的应急场景时，让多智能体系统既能快速感知和处理多源数据，又能根据灾情发展和资源状态实时给出“最优或近似最优”的应对策略。

一、总体架构设计

在应急管理中，为了让“决策智能体”在关键时刻如同政府指挥部那样高效运转，通常需要构建多层次多智能体架构。该架构不仅要保证各个领域（交通、医疗、电力、物资保障等）的自主运行，还要能在宏观层面实现跨部门联动和实时调度。整体设计可分为以下四层：

宏观决策层（Top-level / Government Decision Agent）
- 扮演最高指挥角色，对全局态势进行综合分析并进行跨区域、跨部门的资源调度。
- 在需要时，指挥下级或邻近区域发出支援请求，或接受上级指令进行大规模联动。
部门/专业领域子智能体层（Sub-agents for Different Domains）
- 每个子智能体专注于其领域业务逻辑，如“交通指挥子智能体”“医疗应急子智能体”“电力保障子智能体”等。
- 各自以专业知识和自主学习能力执行决策，并周期性地向宏观决策层汇报进度与需求。
资源执行与操作层（Resource Execution Agents）
- 由执行救援任务的实际资源（无人机、消防队、救护车、工程机械、志愿者等）或它们的数字孪生模型组成。
- 接收来自上级子智能体或宏观决策层的指令，在一线展开具体操作，并实时回传执行反馈。
支持与服务层（Data & Knowledge Services）
- 提供地理信息系统（GIS）、物联网（IoT）传感器数据、历史灾害案例库、实时舆情监测等数据支撑服务。
- 存储规则引擎、知识图谱、强化学习网络参数、历史决策日志等，为各决策层和子智能体提供知识与信息供给。

下图展示了该架构的层次与主要通信关系：

二、核心技术方法

1. 强化学习（Reinforcement Learning, RL）与规划算法相结合

分层强化学习（Hierarchical RL）
- 让高层策略关注整体调度与宏观决策，例如发布大规模撤离指令、呼叫跨区域支援。
- 让子策略专注领域级或局部任务，如医疗子智能体如何规划急救车数量、交通子智能体如何动态分配车道等。
多智能体强化学习（Multi-Agent RL, MARL）
- 各子智能体分别学习在不同状态下的策略，并通过信息交互进行协作。
- 常用方法为集中式训练、分散式执行（CTDE）：训练时汇总全局信息进行优化，执行时由各智能体根据本地观测独立决策。

2. 计划与调度算法（Planning & Scheduling）

数学优化方法
- 利用混合整数规划（MIP）、线性规划（LP）等方法对资源调度和物资分配进行优化，目标可包括最小化救援时间、最大化覆盖率或最小化经济损失等。
- 在灾害规模和约束条件过于复杂时，可采用分布式算法或分块求解，提高实时性。
启发式搜索（Heuristic Search）
- 对极其复杂的路径规划、疏散路线设计等问题，可使用A*、遗传算法、蚁群算法等启发式或元启发式方法，快速逼近可行解或近似最优解。
- 尤其在应急场景中，时间和资源有限，快速得到一个高质量解往往比等待精确最优解更具有实际意义。

3. 认知推理与知识图谱支撑

知识图谱（Knowledge Graph）
- 将历次灾害案例、地理要素、交通网络、公共设施、常见次生灾害关系等编码为知识图谱。
- 帮助决策智能体进行因果推理、关联分析，以及在灾害复杂演化时做出更准确的预判。
规则引擎 + 学习型策略
- 对部分关键环节（如危险化学品区域防护、生命救援优先级等）内置强约束规则，防止出现重大失误或伦理风险。
- 其余决策环节则交由强化学习、规划算法或联合策略网络进行自主优化，实现规则与学习的互补。

三、关键模块与算法设计

让多智能体系统在应急场景中实现高效运作，需要在每个智能体内部设计状态获取、决策规划、通信协作、执行控制等关键功能模块。下面以**宏观决策智能体（政府主决策）**为例，说明其内部结构与核心算法。

1. 状态获取与数据融合模块

多源数据接入
- 实时对接多类型数据源：气象、水文、地震监测、火情探测、舆情监测、物资库存、交通流量等。
- 若含视频流或影像数据，可使用计算机视觉算法进行目标检测与事件识别。
动态决策状态更新
- 每个关键时步或重大事件触发时，更新宏观智能体的内部状态；在多智能体强化学习中通常称为联合状态 (Joint State)。
- 采用卡尔曼滤波或粒子滤波等方法对高噪声传感器数据进行平滑与融合。

2. 决策规划与策略网络

决策网络结构
1. 输入层：汇总全局态势（灾情、资源分布、交通数据、舆情等），并与历史决策信息、知识图谱节点信息一起编码。
2. 隐藏层：可采用图神经网络（GNN）或融合多头注意力（Transformer）等结构，以捕捉地理网络拓扑和多模态数据之间的关联。
3. 输出层：产生一系列决策动作（例如疏散指令、交通限行级别、医疗物资调度策略等）及其优先级和执行范围。
价值函数/奖励函数设计
- 目标可同时包含最小化人员伤亡、最小化经济损失、控制舆情、保证关键基础设施运行等多个要素。
- 结合实际约束（如人力、物力、审批流程、通信延时、社会稳定风险），在训练时进行加权或约束处理，确保策略符合应急管理实际需求。
策略优化与改进
- 在训练阶段使用Q-Learning、Policy Gradient、Actor-Critic (PPO, A3C) 等强化学习算法。
- 当场景过于复杂时，可结合规划算法进行局部搜索（例如在交通疏散模块内部应用A*或遗传算法，辅助强化学习策略网络做局部路径优化）。

3. 多智能体通信与协同模块

通信协议
- 可以采用服务总线（ESB）、消息队列（MQ）或Agent Communication Language (ACL) 等标准化协议，保证数据交换的稳定性与通用性。
- 在网络部分中断或带宽受限时，应提供备用通信手段（如卫星通信、短波电台），保证应急信息及时传递。
协作与冲突管理
- 分布式调度：当子智能体（如交通与医疗）需要对同一资源或路段同时发出指令时，由宏观决策层协调。
- 冲突检测：对不同部门子智能体的资源申请进行排队或仲裁，实现有序分配和优先级管理。

4. 执行与反馈控制模块

指令执行
- 将宏观决策层的高层指令分解为可执行的具体子任务（如“调拨1000份救灾物资到B区”、“派遣5辆消防车至X地”），下达给资源执行层。
- 对时效性高的任务可启动事件驱动模式（Event-driven）或优先队列进行处理。
反馈采集与实时重规划
- 资源执行智能体回传执行进度与异常信息（如道路损毁、设备故障、物资运输延误等），宏观层据此动态更新状态并进行策略修正。
- 若灾情恶化或跨区支援失败，系统会自动触发实时重规划，并发出新的应对策略。

四、训练与部署方案

1. 多灾种仿真平台与演练环境

虚拟仿真训练
- 在数字孪生或灾难仿真平台（如AnyLogic、GAMA、Unity 3D等地理建模环境）中模拟多个灾种（洪水、地震、山火、疫情），让多智能体在逼真环境中强化训练。
- 可引入舆情演变模型、社会行为学模型，让智能体学习如何在谣言扩散或恐慌情绪加剧的条件下应对突发事件。
历史案例回放与迁移学习
- 将真实历史灾害数据（如过去的强震、特大洪水案例）导入仿真平台，利用离线强化学习或逆向强化学习技术，学习专家行动策略或最佳应对方案。
- 在不同城市、不同灾情类型间做迁移学习，提高模型的泛化能力。
在线演练与沙盘推演
- 在应急演练或临战沙盘推演中，小规模上线多智能体系统进行实战测试。
- 收集操作人员、专家及公众的反馈，对策略网络进行微调并进行风险评估。

2. 分层部署与弹性伸缩

云边协同架构
- 宏观决策层和主要子智能体通常部署在云端，以便享受大规模计算和多地区数据整合的优势。
- 一线资源执行智能体可部署在“边缘”或本地节点，实现低时延的即时决策。
容错与冗余设计
- 为应对突发的服务器故障、网络攻击或硬件损坏，应在关键节点进行冗余部署并备有分布式共识算法（Raft、Paxos等）以确保系统高可用性。
- 提供离线应急预案与数据备份，一旦出现大规模网络中断，可快速切换到本地化或局域网模式。

五、安全与容错：冗余设计与人机协同

1. 安全策略与约束

强制规则与伦理边界
- 对关乎生命安全与社会稳定的重要环节设置刚性规则（如不向化学品泄漏区派遣无防护人员、不实施歧视性或极端封锁措施等）。
- 避免基于不实信息而发布错误舆情管控指令。
数据安全与隐私保护
- 利用访问控制、数据脱敏、零信任安全架构、区块链等技术加强对灾情数据、民众个人信息的安全防护。

2. 人机协同与决策监督

半自动决策模式
- 针对关键命令或高风险指令，系统输出“可视化建议”供专家团队或指挥官进行审核，减少因模型误判导致的重大损失。
- 利用可解释AI技术（XAI），让人类决策者能够了解模型决策的依据，提高信任度与可控性。
紧急超控机制
- 当AI决策可能引发严重社会影响或存在重大伦理风险时，预留人工“一键叫停”或“强制重置”的端口，由高级指挥官进行干预。
- 同时保留各阶段决策日志，事后可对AI决策流程进行审计与追踪，积累改进经验。

六、示例：多智能体协作应对大规模洪灾

预判与预警
- 宏观决策智能体综合气象部门强降雨预报与水文监测数据，识别洪灾高风险区域，并在舆情子智能体的辅助下发布早期预警。
- 启动辟谣机制，对社交媒体上出现的夸张或虚假信息实时跟踪并进行辟谣。
交通疏导与人员转移
- 交通子智能体基于实时道路状况与预测淹水地图，动态调整封路、开启应急车道等方案，引导公众有序疏散。
- 医疗子智能体提前调度医疗力量至潜在重灾区，保障脆弱人群的安全撤离。
资源调用与跨区域支援
- 当局部堤坝风险增大或抢险受阻，宏观决策智能体向邻近城市或上级政府发出支援请求，协同调动工程机械、抢险人员及物资。
- 通过混合整数规划模型或启发式搜索算法，优化调拨路线与时序，减少往返时间。
动态反馈与实时重规划
- 无人机巡逻与一线抢险队的执行智能体实时上传现场信息，若发现物资短缺或交通拥堵，则由宏观层触发决策网络的重规划，发布新的应对策略。
- 同时评估舆情波动，视情况采用多渠道稳定社会情绪，防止次生危机扩散。
事后评估与模型更新
- 事件结束后，多智能体系统总结各项指标，包括受灾规模、救援效率、舆论反应、资源利用率等。
- 宏观与子智能体分别进行强化学习模型的再训练或参数调优，为未来灾害应对提供更精准的决策支持。

以下代码仅供技术讨论与原型设计演示使用，并非可直接部署到生产环境的真实解决方案。在实际项目中还需结合各种业务需求、安全合规要求、数据治理与网络架构进行深度定制与测试。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
多智能体自主决策系统在应急管理中的示例性代码
=================================================示例用于演示在应急管理场景下，如何从“多智能体自主决策”视角组织系统的基本框架与交互方式。包含以下核心要点：1. 环境 (EmergencyEnv) ：模拟多灾种应急场景 (洪水、水文、交通、舆情等)；
2. 知识库与规则引擎 (KnowledgeBase, RulesEngine) ：存储历史灾害案例、地理信息、专家规则等；
3. 多智能体类 (MacroDecisionAgent, SubAgent, ResourceAgent) ：分别对应宏观决策层、部门专业领域层和资源执行层；
4. 简化的多智能体训练/模拟循环 (train_multi_agent_system) ：演示如何让各智能体与环境进行交互、策略评估与更新；
5. main 函数 : 作为示例主入口，组合并运行该系统若干回合。!!! 重要提示 !!!
该示例非生产级别。真实项目需根据实际需求 (数据量、灾情类型、法规要求、网络环境等) 做二次开发和深入验证。-------------------------------------------------------------
聚焦如下问题：
-------------------------------------------------------------
1. 更真实的灾害模拟- 将水文、地质、气象、交通、舆情演化等多维模型整合到 EmergencyEnv 中，实现多因子耦合的动态环境；- 可利用真实的传感器和历史大数据进行环境状态更新，提高模拟的可信度与丰富度。2. 多智能体强化学习- 为每个智能体 (宏观、子智能体、资源执行智能体) 分别设计策略网络与价值函数；- 应用集中式训练、分散式执行 (CTDE) 等多智能体强化学习范式；- 可采用现有 MARL 框架 (如 PyMARL、Ray RLlib 等) 进行分布式训练，提升训练效率与可扩展性。3. 知识图谱与推理- 将 KnowledgeBase 升级为基于图数据库或知识图谱 (如 Neo4j、JanusGraph 等)，并结合因果推理、路径搜索、推理引擎等；- 在灾害场景扩张或突发新问题时，通过图搜索与关联分析给予更深层的决策支持。4. 规则系统升级- 基于多种业务逻辑和专家建议编写更多复杂规则，构建可解释的规则引擎；- 结合可解释 AI (XAI) 技术，让人类指挥官能理解 AI 决策背后的依据，并可对关键指令进行调整或驳回。5. 分层部署与实时通信- 在云端/边缘端进行架构协同，考虑实际网络通信机制 (MQTT、ESB、卫星通信等)，并模拟断网、低带宽等极端场景；- 在真实应急场景中部署时，要设置容错和可重连机制，确保应急数据及时共享。6. 人机协同- 设计人类专家对关键决策的复核环节，提供可视化监控、应急演练模式切换等功能；- 人机协同有助于在复杂应急决策中平衡自动化与人类经验，确保智能系统的可靠性与可控性。7. 安全与容错- 引入分布式一致性算法 (如 Raft、Paxos) 或冗余部署、分布式存储，保障系统在断网或节点故障时依旧保持关键功能；- 考虑网络攻击、数据篡改等安全威胁，构建多层安全防护策略与数据审计。-------------------------------------------------------------
示例代码
-------------------------------------------------------------
"""import random
import numpy as np
from typing import Dict, Any, List, Tuple# ======================= 支持与服务层：知识库与规则引擎 =======================class KnowledgeBase:"""用于存储历史案例、地理信息、灾害演化模型等知识。在实际系统中可采用图数据库 (Neo4j / JanusGraph / TigerGraph 等) 或知识图谱 (RDF, OWL) 形式进行更深入的关联与推理。"""def __init__(self):# 在真实系统中，这里可加载外部文件、数据库或图数据库self.historical_cases = {}self.infrastructure_data = {}self.disaster_relations = {}def load_historical_case(self, case_id: str, data: Dict[str, Any]):"""加载历史应急案例到知识库"""self.historical_cases[case_id] = datadef query_case(self, case_id: str) -> Dict[str, Any]:"""查询历史应急案例"""return self.historical_cases.get(case_id, {})class RulesEngine:"""用于存储各种硬性规则与伦理/安全约束，以及与可解释 AI 结合的判定逻辑。例如：避免派遣无防护人员进入化学污染区；避免歧视性封锁政策等。"""def __init__(self):# 在实际系统中，这些规则可来自专家系统或政策法规self.hard_constraints = ["NO_ENTRY_CHEM_ZONE_WITHOUT_PROTECTION","NO_DISCRIMINATION_POLICY"]def validate_actions(self, actions: Dict[str, Any]) -> bool:"""校验当前决策是否违反关键安全或伦理规则。如果违反，则返回 False。"""# 这里只做示例性判断逻辑for constraint in self.hard_constraints:if constraint == "NO_ENTRY_CHEM_ZONE_WITHOUT_PROTECTION":# 假设如果决策中包含派遣普通人员到化学区，则违规if actions.get("send_unprotected_unit_to_chem_zone", False):return Falsereturn True# ======================= 环境层：应急仿真环境 =======================class EmergencyEnv:"""模拟多灾种应急环境 (洪水、水文、交通、舆情等)。每个 step() 中，各智能体根据最新状态做出决策，环境再根据决策进行状态更新，返回新的状态与奖励。"""def __init__(self, knowledge_base: KnowledgeBase):self.knowledge_base = knowledge_base# 示例状态包含多种要素：水位、感染率、交通、舆情、资源状况等self.state = {"time_step": 0,"flood_level": 0.0,         # 洪水水位"infection_rate": 0.0,      # 疫情感染率"traffic_congestion": 0.0,  # 交通拥堵度"public_sentiment": 0.0,    # 舆情指数 (负面情绪、恐慌等)"resource_status": {"food_supply": 1000,"medical_supply": 500,"rescue_teams": 10},"infrastructure_damage": 0.0}self.done = Falsedef reset(self) -> Dict[str, Any]:"""重置环境到初始状态"""self.state["time_step"] = 0self.state["flood_level"] = random.uniform(0, 0.3)self.state["infection_rate"] = random.uniform(0, 0.05)self.state["traffic_congestion"] = random.uniform(0, 0.2)self.state["public_sentiment"] = random.uniform(-0.1, 0.1)self.state["resource_status"] = {"food_supply": 1000,"medical_supply": 500,"rescue_teams": 10}self.state["infrastructure_damage"] = 0.0self.done = Falsereturn self.statedef step(self,macro_actions: Dict[str, Any],sub_actions: Dict[str, Dict[str, Any]],resource_actions: Dict[str, Dict[str, Any]]) -> Tuple[Dict[str, Any], float, bool, Dict]:"""执行宏观决策智能体、子智能体和资源执行智能体的指令，更新环境状态并返回 (新状态, 全局奖励, 是否结束, 额外信息)。"""self.state["time_step"] += 1# ========== 1) 宏观决策影响 ==========if macro_actions.get("request_external_support", False):# 可能加快救援速度，也增加资源储备extra_teams = macro_actions.get("extra_teams", 0)self.state["resource_status"]["rescue_teams"] += extra_teams# ========== 2) 子智能体决策影响 (示例) ==========for sub_agent_name, action_dict in sub_actions.items():if sub_agent_name == "transportation":if action_dict.get("close_flooded_road", False):# 封闭部分易涝路段，减少灾害扩大，但可能引起交通拥堵上升self.state["traffic_congestion"] = min(1.0, self.state["traffic_congestion"] + 0.05)if action_dict.get("open_emergency_lane", False):# 开通紧急车道，缓解交通压力self.state["traffic_congestion"] = max(0.0, self.state["traffic_congestion"] - 0.02)elif sub_agent_name == "medical":allocated = action_dict.get("allocate_medical_supply", 0)if allocated > 0:self.state["resource_status"]["medical_supply"] -= allocated# 假设医疗资源投入会降低感染率self.state["infection_rate"] = max(0.0, self.state["infection_rate"] - allocated * 0.0001)# 其他子智能体逻辑可在此补充# ========== 3) 资源执行智能体 (示例) ==========for resource_name, act_dict in resource_actions.items():if act_dict.get("rescue_people", False):# 成功救援可能减缓舆情负面蔓延self.state["public_sentiment"] = max(-1.0, self.state["public_sentiment"] - 0.01)if act_dict.get("damage_repair", False):# 降低基础设施受损self.state["infrastructure_damage"] = max(0.0, self.state["infrastructure_damage"] - 0.02)# ========== 4) 环境自身演化 (示例) ==========# 洪水水位可能随降雨等因素上升self.state["flood_level"] = min(1.0, self.state["flood_level"] + 0.02)# 感染率继续随机波动self.state["infection_rate"] = min(1.0, self.state["infection_rate"] + random.uniform(0, 0.01))# 舆情也可能因社交媒体传言等因素快速扩散self.state["public_sentiment"] = min(1.0, self.state["public_sentiment"] + random.uniform(0, 0.02))# 计算奖励 (示例)reward = self.calculate_reward()# 设置终止条件if (self.state["time_step"] >= 30) or (self.state["flood_level"] > 0.9):self.done = Truereturn self.state, reward, self.done, {}def calculate_reward(self) -> float:"""根据当前状态计算奖励。示例：惩罚洪水水位、交通拥堵、基础设施损坏；鼓励保存更多资源。"""flood_penalty = self.state["flood_level"] * 5infra_penalty = self.state["infrastructure_damage"] * 10traffic_penalty = self.state["traffic_congestion"] * 3infection_penalty = self.state["infection_rate"] * 5sentiment_penalty = max(0, self.state["public_sentiment"]) * 2resources_score = (self.state["resource_status"]["food_supply"] +self.state["resource_status"]["medical_supply"] +self.state["resource_status"]["rescue_teams"] * 50) / 100.0reward = resources_score - (flood_penalty + infra_penalty + traffic_penalty + infection_penalty + sentiment_penalty)return reward# ======================= 多智能体层：宏观 / 子智能体 / 资源智能体 =======================class MacroDecisionAgent:"""宏观决策智能体 (政府主决策)：关注整体态势分析、跨部门资源调度、外部支援请求等"""def __init__(self, rules_engine: RulesEngine):self.rules_engine = rules_enginedef act(self, global_state: Dict[str, Any]) -> Dict[str, Any]:"""根据全局态势 (灾情、资源分布、舆情变化等) 输出宏观指令。返回动作字典, 例如:{"request_external_support": True,"extra_teams": 5}"""actions = {}if global_state["flood_level"] > 0.6:actions["request_external_support"] = Trueactions["extra_teams"] = 3else:actions["request_external_support"] = False# 校验规则引擎if not self.rules_engine.validate_actions(actions):# 如果触发了硬性约束，可进行修正或使用安全策略actions["request_external_support"] = Falseactions["extra_teams"] = 0return actionsclass SubAgent:"""专业领域子智能体的基础类。可派生出交通子智能体、医疗子智能体、电力子智能体等。"""def __init__(self, name: str):self.name = namedef act(self, sub_state: Dict[str, Any]) -> Dict[str, Any]:raise NotImplementedErrorclass TransportationAgent(SubAgent):"""交通子智能体 (道路管制、车辆调度、交通流量预测等)"""def __init__(self):super().__init__("transportation")def act(self, sub_state: Dict[str, Any]) -> Dict[str, Any]:actions = {}if sub_state["flood_level"] > 0.3:actions["close_flooded_road"] = Trueif sub_state["traffic_congestion"] > 0.3:actions["open_emergency_lane"] = Truereturn actionsclass MedicalAgent(SubAgent):"""医疗子智能体 (医疗资源分配、急救指派等)"""def __init__(self):super().__init__("medical")def act(self, sub_state: Dict[str, Any]) -> Dict[str, Any]:actions = {}if sub_state["infection_rate"] > 0.1:actions["allocate_medical_supply"] = 50else:actions["allocate_medical_supply"] = 0return actionsclass ResourceAgent:"""资源执行智能体，例如无人机、消防队、志愿者团队等。负责具体行动：侦查、运输物资、抢险修复等。"""def __init__(self, name: str):self.name = namedef act(self, command: Dict[str, Any]) -> Dict[str, Any]:"""根据上级指令(如: {"repair": True, "rescue": 3})，执行并返回资源层动作"""# 示例：随机选择执行哪项操作action = {}if random.random() < 0.5:action["rescue_people"] = Trueelse:action["damage_repair"] = Truereturn action# ======================= 多智能体训练与模拟循环 (简化示例) =======================def train_multi_agent_system(env: EmergencyEnv,macro_agent: MacroDecisionAgent,sub_agents: List[SubAgent],resource_agents: List[ResourceAgent],num_episodes: int = 5
):"""简化的多智能体训练/模拟循环示例。真实系统中可使用多智能体强化学习(MARL)框架：- 集中式训练、分散式执行 (CTDE)- 多策略 (each agent a policy network)- 价值函数共享/不共享- 协作/竞争 等范式"""for episode in range(num_episodes):print(f"=== Episode {episode+1}/{num_episodes} ===")state = env.reset()done = Falsetotal_reward = 0.0while not done:# 1) 宏观决策智能体macro_action = macro_agent.act(state)# 2) 各专业子智能体sub_actions = {}for agent in sub_agents:sub_actions[agent.name] = agent.act(state)# 3) 资源执行智能体 (示例：同一份指令，但实际应针对每个资源区分）resource_actions = {}for r_agent in resource_agents:cmd = {"some_command": True}resource_actions[r_agent.name] = r_agent.act(cmd)# 4) 环境 stepnext_state, reward, done, info = env.step(macro_action,sub_actions,resource_actions)total_reward += rewardstate = next_stateprint(f"Episode {episode+1} finished with total reward = {total_reward:.2f}\n")# ======================= 示例主程序 =======================def main():# 1) 初始化知识库与规则引擎kb = KnowledgeBase()kb.load_historical_case("flood_2022", {"details": "Severe flood happened in 2022"})rules_engine = RulesEngine()# 2) 构建应急仿真环境env = EmergencyEnv(kb)# 3) 创建多智能体 (宏观决策 + 专业子智能体 + 资源执行)macro_agent = MacroDecisionAgent(rules_engine)transportation_agent = TransportationAgent()medical_agent = MedicalAgent()sub_agents = [transportation_agent, medical_agent]# 假设有 3 个资源执行智能体 (无人机1、无人机2、志愿者团队1)resource_agents = [ResourceAgent("Drone_A"),ResourceAgent("Drone_B"),ResourceAgent("Volunteer_Team_1")]# 4) 运行简化训练/模拟train_multi_agent_system(env,macro_agent,sub_agents,resource_agents,num_episodes=5)print("多智能体自主决策系统示例模拟结束。")if __name__ == "__main__":main()

该示例主要使用 Python 标准库和 numpy，可在任意常见 Python 环境下测试。
如果需要更高级的多智能体强化学习，可安装 Ray、PettingZoo 或其他 MARL 框架。
将以上代码保存为 multi_agent_emergency_demo.py 并在终端执行：
```
python multi_agent_emergency_demo.py
```
观察控制台输出，每个回合会打印累计奖励值。
本示例未实现真正的“强化学习算法”，只演示了环境交互与多智能体结构。
实际项目中，可为每个智能体引入独立的策略网络 (policy network) 与价值网络 (value network)，并通过集中式训练 + 分散式执行的方式迭代优化。
也可在step过程中加入网络通信模拟、消息队列、云边协同等机制，贴合真实应急管理场景。