思维链
除了常见的连接词如 “and” 和 “so” 之外。还出现了"wait", Alternatively" 等特殊的关键词,"像 “wait” (表示反思)和 “Alternatively”(表示探索不同路径) 这样的关键词是模型能够进行反思和自我纠正的重要指标
迭代式问题解决
:模型首先定义函数,然后逐步探索相关表达式,将复杂方程分解为更简单的组成部分,反映了一种结构化和有条理的方法。关键思维指标
:使用 “Therefore” 表示结论,“Alternatively” - 探索不同路径,“Wait” 表示反思,以及 “Let me compute” 过渡到计算,突出了模型的推理阶段。递归和反思方法
:模型经常重新评估和验证中间结果,使用递归结构确保一致性,这在严谨的数学推理中很典型。假设探索
:模型测试不同的假设,随着获得更多信息而调整其方法,展示了推理过程中的灵活性结论和验证
:最后,模型解方程并验证结果,强调在完成之前验证结论的重要性。
PRM (过程奖励模型)
验证大模型结果的好坏,一般有两种不同的验证器:结果奖励模型 ORM 和过程奖励模型 PRM
。
ORM 目标函数
对于 ORM,给定一个数学问题和其解,ORM( Q*S=R)为分配一个单一实数值,已表明 是否正确。ORM 通常使用交叉熵损失进行训练:
##
PRM 目标函数
PRM 训练数据
目前开源的主要是 OpenAI 2023 年基于 MATH 构建的样本 PRM800K,包含了 800K 个步骤级别的正确性标签,这些标签针对的是 MATH 数据集中问题的解决方案。另外一份数据是北京大学开源的数据集 Math-Shepherd,包含了 400k 个步骤级别的正确性标签,这些标签针对的是 MATH 和 GSM8K 数据集中问题的解决方案。需要强调的是,PRM800K 都是人工标注的,而 MATH-Shepherd 是机器标注的。
数据格式
{'question': 'Three pencils and a jumbo eraser cost $\\$1.24$. Five pencils and a jumbo eraser cost $\\$1.82$. No prices include tax. In cents, what is the cost of a pencil?','process': "Let's call the price of a pencil p and the price of a jumbo eraser e. Then we can write two equations. \n\n\n\n\n The first equation is $3p+e=124$. \n\n\n\n\n To solve this system, let's subtract the first equation from the second equation. This will eliminate e. \n\n\n\n\n $5p+e-3p-e=1.82-1.24$. \n\n\n\n\n This simplifies to $2p=0.58$. So $p=0.29$. \n\n\n\n\n We could also solve this system by substitution. \n\n\n\n\n",'label': ['+', '-', '+', '+', '+', '+']
}