长思维PRM

思维链

在这里插入图片描述
除了常见的连接词如 “and” 和 “so” 之外。还出现了"wait", Alternatively" 等特殊的关键词，"像 “wait” (表示反思)和 “Alternatively”(表示探索不同路径) 这样的关键词是模型能够进行反思和自我纠正的重要指标

迭代式问题解决：模型首先定义函数，然后逐步探索相关表达式，将复杂方程分解为更简单的组成部分，反映了一种结构化和有条理的方法。
关键思维指标：使用 “Therefore” 表示结论，“Alternatively” - 探索不同路径，“Wait” 表示反思，以及 “Let me compute” 过渡到计算，突出了模型的推理阶段。
递归和反思方法：模型经常重新评估和验证中间结果，使用递归结构确保一致性，这在严谨的数学推理中很典型。
假设探索：模型测试不同的假设，随着获得更多信息而调整其方法，展示了推理过程中的灵活性
结论和验证：最后，模型解方程并验证结果，强调在完成之前验证结论的重要性。

PRM (过程奖励模型)

验证大模型结果的好坏，一般有两种不同的验证器：结果奖励模型 ORM 和过程奖励模型 PRM。

ORM 目标函数

对于 ORM，给定一个数学问题和其解，ORM（ Q*S=R）为分配一个单一实数值，已表明是否正确。ORM 通常使用交叉熵损失进行训练：
在这里插入图片描述 ##

PRM 目标函数

在这里插入图片描述
PRM 训练数据
目前开源的主要是 OpenAI 2023 年基于 MATH 构建的样本 PRM800K，包含了 800K 个步骤级别的正确性标签，这些标签针对的是 MATH 数据集中问题的解决方案。另外一份数据是北京大学开源的数据集 Math-Shepherd，包含了 400k 个步骤级别的正确性标签，这些标签针对的是 MATH 和 GSM8K 数据集中问题的解决方案。需要强调的是，PRM800K 都是人工标注的，而 MATH-Shepherd 是机器标注的。

数据格式
{'question': 'Three pencils and a jumbo eraser cost $\\$1.24$. Five pencils and a jumbo eraser cost $\\$1.82$. No prices include tax. In cents, what is the cost of a pencil?','process': "Let's call the price of a pencil p and the price of a jumbo eraser e. Then we can write two equations. \n\n\n\n\n The first equation is $3p+e=124$. \n\n\n\n\n To solve this system, let's subtract the first equation from the second equation. This will eliminate e. \n\n\n\n\n $5p+e-3p-e=1.82-1.24$. \n\n\n\n\n This simplifies to $2p=0.58$. So $p=0.29$. \n\n\n\n\n We could also solve this system by substitution. \n\n\n\n\n",'label': ['+', '-', '+', '+', '+', '+']
}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/58165.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！