上海人工智能实验室：LLM无监督自训练

在这里插入图片描述

📖标题：Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
🌐来源：arXiv, 2504.08672

🌟摘要

🔸推进LLM推理技能引起了广泛的兴趣。然而，当前的训练后技术严重依赖监督信号，例如结果监督或辅助奖励模型，这面临着可扩展性和高注释成本的问题。这促使我们在不需要外部监督的情况下增强LLM推理。
🔸我们引入了一个名为 Genius 的 gen erli zable 和纯 unsu perved 自训练框架。在没有外部辅助的情况下，Genius 需要逐步寻求最优响应序列并优化 LLM。为了探索潜在的步骤并利用最优步骤，Genius引入了一种逐步远见重采样策略，通过模拟未来的结果对步骤值进行采样和估计。此外，我们认识到无监督设置不可避免地导致内在噪声和不确定性。为了提供稳健的优化，我们提出了一种优势校准优化 (ACO) 损失函数来减轻估计不一致。
🔸将这些技术结合在一起，Genius 为使用通用查询和没有监督的自我改进 LLM 推理提供了高级初始步骤，在给定通用查询的大量可用性的情况下彻底改变了推理缩放定律。该代码将发布在 https://github. com/xufangzhi/Genius.

🛎️文章简介

🔸研究问题：如何在没有外部监督的情况下，增强大语言模型（LLM）的推理能力？
🔸主要贡献：论文提出了一种名为Genius的通用自我训练框架，该框架仅依赖于无监督查询来提升LLM的推理能力。

📝重点思路

🔸Genius框架仅依赖无监督自然语言查询作为输入，模型生成响应并选择最佳响应进行自我优化。
🔸采用前瞻重采样（foresight re-sampling）策略，通过模拟未来步骤来探索和利用响应序列。
🔸引入优势校准优化（Advantage-Calibrated Optimization, ACO）损失函数，以增强自我奖励机制，提升优化的鲁棒性。
🔸在自训练过程中，Genius通过收集高质量的偏好对来优化LLMs的性能。

🔎分析总结

🔸实验结果显示，Genius在使用25K无监督查询后，平均提升了LLM在各种推理基准上的性能超过7%。
🔸Genius在复杂任务（如数学推理）中表现优异，显著超过其他自我奖励方法。
🔸与现有的监督微调方法相比，Genius展示了更好的稳定性和性能一致性，尤其是在一般性基准测试中。
🔸研究表明，Genius对不同基础LLM的适应性强，能够扩展到更复杂的场景。