自我激励学习提升语言模型的推理能力

随着人工智能技术的快速发展，语言模型（LMs）在各种下游任务中展现出了卓越的能力。特别是在少样本（few-shot）和零样本（zero-shot）学习环境中，通过吸收特定任务的指令和示例，这些模型已经引起了广泛关注。然而，要提升模型的推理能力，大规模高质量的训练数据是不可或缺的。由于注释成本高昂，包含推理步骤的高质量数据集相对稀缺。为了解决这一问题，本文提出了一种自我激励学习框架，旨在通过自动化地生成现有数据集上的推理步骤，激发模型自身的潜力。

方法

自我激励学习框架是一种创新的方法，它通过激发模型自身的潜力，在现有数据集上自动生成推理过程。这种方法的核心在于利用模型产生的内在偏好——即能够产生正确答案的推理过程应当优于那些导致错误答案的推理过程。自我激励学习框架通过三个主要步骤实现：推理过程生成、推理收集和模型训练。

在推理过程生成阶段，框架采用了Few-shot-CoT技术来生成推理过程。具体来说，对于每个给定的任务，模型会根据问题和提供的答案（无论是正确还是错误）生成一系列的推理步骤。这些推理步骤随后被用来生成最终的答案。通过这种方式，模型能够学习如何基于不同的答案生成相应的推理过程。

生成推理过程和最终答案的提示模板。表格中有两个部分，一个是使用问题和给定答案生成推理过程，另一个是使用问题和生成的推理过程生成最终答案

表格提供了一个示例，展示了如何使用正确答案和错误答案生成更好的和更差的推理过程。表格中给出了一个问题和两个不同的答案，以及基于这些答案生成的推理过程

接下来，在推理收集阶段，生成的推理过程会根据其质量进行筛选。这一过程涉及到评估给定答案和最终答案与正确答案之间的一致性。如果两者都正确，则相应的推理过程被归类为高质量；如果都错误，则被归类为低质量。此外，还会根据推理内容、标签引用和数值准确性等标准进行进一步的筛选，以确保推理过程的相关性和准确性。

在模型训练阶段，筛选出的高质量推理过程被用来训练监督式微调模型（SFT Model）。该模型通过最小化语言建模损失来优化其参数。同时，使用不同质量的推理过程来训练奖励模型（RM），该模型能够评估生成的推理过程的质量。通过结合SFT Model和RM，模型利用PPO算法进行强化学习，进一步提升其生成高质量推理过程的能力。

自我激励学习框架的优势在于它减少了对外部大型模型或手动注释的依赖，通过模型自身的学习和优化，提高了推理能力。这种方法不仅提高了模型在复杂推理任务上的性能，而且具有很好的通用性和可扩展性。通过这种方式，即使是较小的模型也能够通过自我生成的高质量推理过程来提升其解决问题的能力。

实验

研究者们选择了8个数据集来评估自我激励学习框架，这些数据集覆盖了三类复杂的推理任务：数学问题求解、常识推理和策略推理。这些数据集包括了单步方程求解（SingleEq）、加减法问题（AddSub）、多步算术问题（MultiArith）、SVAMP、GSM8K、日期理解（Date Understanding）、常识问答（CommonSenseQA）和策略问答（StrategyQA）。这些任务和数据集的多样性确保了实验结果的广泛适用性和说服力。