📖标题:Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
🌐来源:arXiv, 2504.08672
🌟摘要
🔸推进LLM推理技能引起了广泛的兴趣。然而,当前的训练后技术严重依赖监督信号,例如结果监督或辅助奖励模型,这面临着可扩展性和高注释成本的问题。这促使我们在不需要外部监督的情况下增强LLM推理。
🔸我们引入了一个名为 Genius 的 gen erli zable 和纯 unsu perved 自训练框架。在没有外部辅助的情况下,Genius 需要逐步寻求最优响应序列并优化 LLM。为了探索潜在的步骤并利用最优步骤,Genius引入了一种逐步远见重采样策略,通过模拟未来的结果对步骤值进行采样和估计。此外,我们认识到无监督设置不可避免地导致内在噪声和不确定性。为了提供稳健的优化,我们提出了一种优势校准优化 (ACO) 损失函数来减轻估计不一致。
🔸将这些技术结合在一起,Genius 为使用通用查询和没有监督的自我改进 LLM 推理提供了高级初始步骤,在给定通用查询的大量可用性的情况下彻底改变了推理缩放定律。该代码将发布在 https://github. com/xufangzhi/Genius.
🛎️文章简介
🔸研究问题:如何在没有外部监督的情况下,增强大语言模型(LLM)的推理能力?
🔸主要贡献:论文提出了一种名为Genius的通用自我训练框架,该框架仅依赖于无监督查询来提升LLM的推理能力。
📝重点思路
🔸Genius框架仅依赖无监督自然语言查询作为输入,模型生成响应并选择最佳响应进行自我优化。
🔸采用前瞻重采样(foresight re-sampling)策略,通过模拟未来步骤来探索和利用响应序列。
🔸引入优势校准优化(Advantage-Calibrated Optimization, ACO)损失函数,以增强自我奖励机制,提升优化的鲁棒性。
🔸在自训练过程中,Genius通过收集高质量的偏好对来优化LLMs的性能。
🔎分析总结
🔸实验结果显示,Genius在使用25K无监督查询后,平均提升了LLM在各种推理基准上的性能超过7%。
🔸Genius在复杂任务(如数学推理)中表现优异,显著超过其他自我奖励方法。
🔸与现有的监督微调方法相比,Genius展示了更好的稳定性和性能一致性,尤其是在一般性基准测试中。
🔸研究表明,Genius对不同基础LLM的适应性强,能够扩展到更复杂的场景。
💡个人观点
论文的核心是在没有任何外部监督的情况下,通过前瞻重采样和优势校准进行优化。