第一次听说Mixture of Agents,原来Agent也能混合,有意思!
介绍
Together AI的最新研究“Together MoA”(Mixture of Agents,代理混合)是一种创新的方法,旨在通过结合多个开源大型语言模型(LLMs)的集体智慧来增强单个模型的性能。该研究采用了分层架构,每一层包含多个LLM代理,这些代理各自具有不同的专长和优势。
具体来说,Together MoA使用六个开源模型作为提议者,并以Qwen1.5-110B-Chat作为最终的聚合器。这些开源模型包括WizardLM-2-8x22b、Qwen1.5-110B-Chat、Qwen1.5-72B-Chat和Llama-3-70B等。通过这种方式,Together MoA能够显著提升模型在各种任务上的表现,例如在AlpacaEval 2.0上的得分从GPT-4o的57.5%提高到了65.1%。
这种方法的核心思想是利用多个专家的集体智慧来解决更复杂的问题,类似于多个专家在团队中合作的情况。通过这种方式,Together MoA不仅提高了模型的生成效果,还推动了LLM能力边界的进一步发展。
总结来说,Together MoA通过结合多个开源大模型的集体优势,采用分层架构和代理混合的策略,显著提升了模型在各种任务上的性能,成为当前LLM领域的一个重要突破。
Mixture of Agents
研究基于一个关键的观察结果,称之为LLM的协作性 - 当呈现其他模型的输出时,LLM往往会产生更好的响应,即使这些其他模型本身的能力较差。
为了调查这种现象是否在开源模型中普遍存在,利用其他模型的响应时评估了分数。图 2 显示,每个模型在 AlpacaEval 2.0 上的基本分数都显著增加。即使参考响应质量低于模型自身的质量,也会发生这种改进。
为了有效地利用多个 LLM 的协作,根据他们在协作的不同方面的优势对他们的角色进行分类:
提议者:这些模型生成初始参考响应。虽然提议者可能会自己产生高质量的回应,但其主要价值在于提供细致入微和多样化的观点,作为聚合者的宝贵参考。
聚合器:这些模型将提案者的不同响应综合成一个单一的、高质量的响应。
基于这种分类,提出了一个分层过程来改进响应,如图 1 所示。最初,几个提议者独立地生成对给定提示的响应。然后,这些响应将呈现给下一层的聚合器,聚合器将它们合成更高质量的响应。这个迭代过程会持续到几个层次,直到实现更强大、更全面的响应。
MoA 共同使用六个开源模型作为提议者,Qwen1.5-110B-Chat 作为最终聚合器。测试的六个开源模型是:WizardLM-2-8x22b、Qwen1.5-110B-Chat、Qwen1.5-72B-Chat、Llama-3-70B-Chat、Mixtral-8x22B-Instruct-v0.1、dbrx-instruct。设计的MoA共有三层,在质量和性能之间取得了良好的平衡。
MoA-Lite 一起使用相同的提议器集,但使用 Qwen1.5-72B-Chat 作为聚合器,并且只有两层。
带有 GPT-4o 的 MoA 也使用同一组提议器,并具有三层,但最终聚合器更改为 GPT-4o。
在三个标准基准上展示了评估结果:AlpacaEval 2.0、MT-Bench 和 FLASK。选择这些基准是为了全面评估方法的性能,并与最先进的 LLM 进行比较。 具体来说,在 AlpacaEval 2.0 排行榜和 MT-Bench 上都名列前茅。值得注意的是,在 AlpacaEval 2.0 上,仅使用开源模型,实现了 7.6% 的绝对改进,从 57.5% (GPT-4o) 到 65.1% (Together MoA)。Together MoA-Lite 配置尽管层数更少且更具成本效益,但仍然取得了与 GPT-4o 相当的分数。
结论和未来方向
MoA 通过连续的协作阶段共同利用多个开源 LLM 的优势,与强大的闭源模型相比,具有卓越的性能。这项研究强调了增强人工智能系统的潜力,使它们更有能力、更强大并与人类推理保持一致。
展望未来,对几个潜在的未来方向感兴趣。一个关键的兴趣领域是MoA架构的系统优化,探索模型、提示和架构配置的各种选择。计划优化第一个Token的时间延迟,并有许多期望将显着提高性能的技术。此外,下一步的目标是评估和优化 Together MoA,以完成更多以推理为中心的任务,进一步增强其应对 AI 中复杂而微妙的挑战的能力。
文章链接:https://www.together.ai/blog/together-moa?continueFlag=73a51343b42e6d9e8e3db83cc8bb0f7f