[ACL 2024] ReFT: Reasoning with REinforced Fine-Tuning

Introduction

作者提出 Reinforced Fine-Tuning (ReFT) 进行在线强化学习，帮助模型输出正确的推理步骤，总体感觉在线学习的思路和 STaR 非常相似，就是把 SFT 换成了 PPO…

Warm-up. 在 CoT 数据集上 SFT 使得模型能输出中间推理步骤
Reinforcement Learning. 使用 PPO 做 online self-learning. 给定数据集中的样本，模型采样输出中间推理步骤和推理结果，如果推理正确 (和 GT label 比较)，则该样本 reward 为 1，反之为 0；对于答案是数值的问题，如果答案错误但能从回答中抽取出数值回答，则 reward 设为 0.1 来缓解 sparse reward；上述过程不断迭代进行在线学习

ReFT Outperforms SFT. Online-Self-Training 就是把 PPO 优化换成 SFT，下表说明 PPO 优化的效果要明显好于 SFT
Reward Hacking for MathQA. 作者发现 MathQA 数据集上存在 Reward Hacking 现象，如下所示，虽然推理过程出错但模型由于输出的答案根本不在四个选项里，所以靠蒙选到了正确的结果，这导致在训练的时候该条数据 reward 被标为 1，进而严重影响模型精度；对此作者对 MathQA 使用 longer warm-up steps 来缓解该现象，但这里归根结底还是因为没有去评估每个推理步的正确性导致 Reward Hacking
比较有意思的是，作者去掉多选选项之后重新做 ReFT，发现能有效缓解 Reward Hacking (Q. 不过作者这里不用多选之后相当于少了先验信息，因此模型精度也掉了不少，如果用去掉多选选项后的 ReFT 模型重新做多选题会得到比直接在多选题上 ReFT 更好的结果吗？)

Luong, Trung Quoc, et al. “Reft: Reasoning with reinforced fine-tuning.” arXiv preprint arXiv:2401.08967 (2024).
code: https://github.com/lqtrung1998/mwp_ReFT

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/63489.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！