Contents
- Introduction
- Method
- Experiments
- References
Introduction
- 作者提出 Reinforced Fine-Tuning (ReFT) 进行在线强化学习,帮助模型输出正确的推理步骤,总体感觉在线学习的思路和 STaR 非常相似,就是把 SFT 换成了 PPO…
Method
- Warm-up. 在 CoT 数据集上 SFT 使得模型能输出中间推理步骤
- Reinforcement Learning. 使用 PPO 做 online self-learning. 给定数据集中的样本,模型采样输出中间推理步骤和推理结果,如果推理正确 (和 GT label 比较),则该样本 reward 为 1,反之为 0;对于答案是数值的问题,如果答案错误但能从回答中抽取出数值回答,则 reward 设为 0.1 来缓解 sparse reward;上述过程不断迭代进行在线学习
Experiments
- ReFT Outperforms SFT. Online-Self-Training 就是把 PPO 优化换成 SFT,下表说明 PPO 优化的效果要明显好于 SFT
- Reward Hacking for MathQA. 作者发现 MathQA 数据集上存在 Reward Hacking 现象,如下所示,虽然推理过程出错但模型由于输出的答案根本不在四个选项里,所以靠蒙选到了正确的结果,这导致在训练的时候该条数据 reward 被标为 1,进而严重影响模型精度;对此作者对 MathQA 使用 longer warm-up steps 来缓解该现象,但这里归根结底还是因为没有去评估每个推理步的正确性导致 Reward Hacking
比较有意思的是,作者去掉多选选项之后重新做 ReFT,发现能有效缓解 Reward Hacking (Q. 不过作者这里不用多选之后相当于少了先验信息,因此模型精度也掉了不少,如果用去掉多选选项后的 ReFT 模型重新做多选题会得到比直接在多选题上 ReFT 更好的结果吗?)
References
- Luong, Trung Quoc, et al. “Reft: Reasoning with reinforced fine-tuning.” arXiv preprint arXiv:2401.08967 (2024).
- code: https://github.com/lqtrung1998/mwp_ReFT