Reinforcement Learning Heats Up 强化学习持续升温

核心观点：强化学习正成为构建具有高级推理能力大语言模型（LLMs）的重要途径。

最新进展

模型示例：近期出现了如DeepSeek - R1及其变体（DeepSeek - R1 - Zero）、Kimi k1.5等高性能模型，它们借助强化学习提升生成的推理思路。OpenAI去年的GPT - 4率先采用此方法。这些模型的出现展示了强化学习在提升大语言模型推理能力方面的实际应用成果。

强化学习基础

奖惩机制：强化学习通过对模型特定行为或目标达成情况给予奖励或惩罚，以此引导模型行为。
与其他学习方式对比：与监督学习和无监督学习不同，它不直接告知模型应输出什么。监督学习需将模型输出与已知真实情况对比，无监督学习旨在发现数据中的模式，而强化学习让模型从随机行为开始，通过获得奖励来探索并发现期望行为。
应用场景：因其特性，强化学习在训练用于游戏或机器人控制的机器学习模型方面备受青睐。在游戏中，模型可通过不断尝试不同策略，根据奖励反馈优化行为；在机器人控制领域，可通过强化学习让机器人学会在复杂环境中完成任务。

强化学习在提升大语言模型思维链方面的工作原理

改进目标：旨在改进大语言模型生成的思维链（CoT），使模型能针对数学、编程、科学等有已知解法的问题生成正确答案。
与传统训练区别：传统大语言模型训练逐词生成输出并逐个接收反馈，而此方法奖励模型生成能导向准确结论的一系列推理步骤。即使这需要在提示与回复间生成众多中间标记，如规划大纲、检查结论或反思方法，且无需对具体推理步骤进行明确训练。例如，在解决数学问题时，模型可能会生成一系列中间推理过程，通过强化学习得到奖励，即使这些推理步骤在训练数据中未明确给出。

具体模型案例

DeepSeek - R1系列
- 训练成果：DeepSeek团队发现，仅靠强化学习微调（预训练后），DeepSeek - R1 - Zero就能学习到如二次检查答案的解题策略。
- 出现问题及解决方法：该模型出现如输出中混合不同语言的奇怪行为。团队通过在强化学习前，用少量长思维链示例进行监督微调，在DeepSeek - R1中解决此问题。
Kimi k1.5
- 训练过程：团队在强化学习前用长思维链对模型微调，使其能设计自己的解题策略。但生成的长回复虽准确，成本较高。
- 优化措施及效果：于是进行第二轮强化学习鼓励生成简短回复。在AIME 2024基准测试中，回复平均标记数减少约20%；在MATH - 500测试中，平均输出标记数减少约10%。
OpenAI的GPT - 4：虽披露信息有限，但团队成员表明使用强化学习改进模型思维链。