长思维PRM

思维链

在这里插入图片描述
除了常见的连接词如 “and” 和 “so” 之外。还出现了"wait", Alternatively" 等特殊的关键词,"像 “wait” (表示反思)和 “Alternatively”(表示探索不同路径) 这样的关键词是模型能够进行反思和自我纠正的重要指标

  • 迭代式问题解决:模型首先定义函数,然后逐步探索相关表达式,将复杂方程分解为更简单的组成部分,反映了一种结构化和有条理的方法。
  • 关键思维指标:使用 “Therefore” 表示结论,“Alternatively” - 探索不同路径,“Wait” 表示反思,以及 “Let me compute” 过渡到计算,突出了模型的推理阶段。
  • 递归和反思方法:模型经常重新评估和验证中间结果,使用递归结构确保一致性,这在严谨的数学推理中很典型。
  • 假设探索:模型测试不同的假设,随着获得更多信息而调整其方法,展示了推理过程中的灵活性
  • 结论和验证:最后,模型解方程并验证结果,强调在完成之前验证结论的重要性。

PRM (过程奖励模型)

验证大模型结果的好坏,一般有两种不同的验证器:结果奖励模型 ORM 和过程奖励模型 PRM

ORM 目标函数

对于 ORM,给定一个数学问题和其解,ORM( Q*S=R)为分配一个单一实数值,已表明 是否正确。ORM 通常使用交叉熵损失进行训练:
在这里插入图片描述## 在这里插入图片描述

PRM 目标函数

在这里插入图片描述
PRM 训练数据
目前开源的主要是 OpenAI 2023 年基于 MATH 构建的样本 PRM800K,包含了 800K 个步骤级别的正确性标签,这些标签针对的是 MATH 数据集中问题的解决方案。另外一份数据是北京大学开源的数据集 Math-Shepherd,包含了 400k 个步骤级别的正确性标签,这些标签针对的是 MATH 和 GSM8K 数据集中问题的解决方案。需要强调的是,PRM800K 都是人工标注的,而 MATH-Shepherd 是机器标注的。

数据格式
{'question': 'Three pencils and a jumbo eraser cost $\\$1.24$. Five pencils and a jumbo eraser cost $\\$1.82$. No prices include tax. In cents, what is the cost of a pencil?','process': "Let's call the price of a pencil p and the price of a jumbo eraser e. Then we can write two equations. \n\n\n\n\n The first equation is $3p+e=124$. \n\n\n\n\n To solve this system, let's subtract the first equation from the second equation. This will eliminate e. \n\n\n\n\n $5p+e-3p-e=1.82-1.24$. \n\n\n\n\n This simplifies to $2p=0.58$. So $p=0.29$. \n\n\n\n\n We could also solve this system by substitution. \n\n\n\n\n",'label': ['+', '-', '+', '+', '+', '+']
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/58165.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【PLC编程】GX Works报未能正常执行RUN中写入解决办法

在PLC编程中按F4转换时报未正常执行RUN中写入,可能是程序不一致。 选择工具->选项 选择RUN中写入。去除转换(编译)中执行RUN中写入 点击确定后,就不会再报此问题。F4转换也能正常转换了。

Java Lock CountDownLatch 总结

前言 相关系列 《Java & Lock & 目录》(持续更新)《Java & Lock & CountDownLatch & 源码》(学习过程/多有漏误/仅作参考/不再更新)《Java & Lock & CountDownLatch & 总结》(学习总…

IE快捷方式加载特定主页

一、某插件安装后,桌面会增加一个首页为特定网站的IE快捷方式(不对原有的IE做任何改动),同时,会把快速启动栏中的IE快捷方式改为特定网站。 解决方案如下: 方法一:直接把桌面新增加的IE快捷方式…

Selenium4自动化测试常用函数总结,各种场景操作实战

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 seleninum作为自动化测试的工具,自然是提供了很多自动化操作的函数,下面列举下比较常用的函数,更多可见官方文档:…

网络安全的重要性及实践指南

网络安全的重要性及实践指南 前言 随着信息技术的快速发展,网络安全问题日益突出。无论是个人用户还是企业组织,网络安全都成为了必须重视的问题。本文将深入探讨网络安全的重要性、常见威胁、以及如何有效地保护网络安全。 一、网络安全的重要性 1.…

通过SSL加密服务器流量

要实现通过SSL对客户端和服务器之间的流量进行加密,我们可以选择Stunnel这个开源软件,这个软件实现了客户端和服务器端之间的流量通过TLS进行加密传输。 例如我们现在有一台服务器,在其上安装了代理服务,我们想对连接这个代理服务…

docker常用命令整理

文章目录 docker 常用操作命令一、镜像类操作1.构建镜像2.从容器创建镜像3.查看镜像列表4.删除镜像5. 从远程镜像仓库拉取镜像6. 将镜像推送到镜像仓库中7. 将镜像导出8. 导入镜像9. 登录镜像仓库 二、容器相关操作1. 运行容器2. 进入容器3. 查看容器的运行状态4. 查看容器的日…

QT SSDP 局域网检测支持扫描通信

一. 什么是SSDP? 简单服务发现协议(SSDP,Simple Service Discovery Protocol)是一种应用层协议,简单服务发现协议是在HTTPU和HTTPMU的基础上实现的协议。简单服务发现协议(SSDP)提供了在局域网里面发现设备的机制。客户端可以通过使用SSDP,根据自己的需要,在局域网查找特…

C++20新特性探索:概念(Concepts)与范围库(Ranges)

随着C++标准的不断演进,每一次新版本的发布都带来了诸多令人瞩目的新特性。C++20,作为近年来的一次重大更新,不仅巩固了C++在高性能计算、系统编程等领域的地位,还通过引入一系列创新特性,进一步提升了C++的可用性和表达力。本文将深入探讨C++20中的两大亮点——概念(Con…

丝氨酸/苏氨酸激酶(STKs):前列腺癌治疗的新兴靶点

引言 前列腺癌(PCa)是男性癌症相关死亡的第五大原因,全球约有140万患者,2020年超37.5万死亡病例。 靶向治疗是潜力巨大的领域,PARP、PSMA、STEAP1、DLL3等是前列腺癌治疗的明星靶点。 除此之外,还有哪些…

深度学习之降维和聚类

1 降维和聚类 1.1 图解为什么会产生维数灾难 ​ 假如数据集包含10张照片,照片中包含三角形和圆两种形状。现在来设计一个分类器进行训练,让这个分类器对其他的照片进行正确分类(假设三角形和圆的总数是无限大),简单的…

SMT(表面贴装技术)

一、什么是SMT SMT,即表面贴装技术(Surface Mounted Technology),是一种将元器件直接安装到印刷电路板(PCB)表面的制造方法。这种技术极大地提高了电子产品的密度和性能,是现代电子制造中的关键…

基于逻辑回归进行THUCNews文本分类

项目背景 基于逻辑回归(Logistic Regression)进行THUCNews文本分类的项目背景通常包括以下几个方面: 1. 数据集背景 THUCNews数据集:THUCNews(Tsinghua News Corpus)是由清华大学自然语言处理与社会人文计算实验室整理的新闻文本数据集。该数据集包含约84万篇新闻文档,…

Linux常用命令 yum 命令介绍

目录 yum 语法 yum常用命令 常见命令举例 1. 列出所有可更新的软件清单命令:yum check-update 2. 更新所有软件命令:yum update 3. 仅安装指定的软件命令:yum install 4. 仅更新指定的软件命令:yum update 5. 列出所有可…

安装pygod

了解pygod。 It is recommended to use pip for installation. Please make sure the latest version is installed, as PyGOD is updated frequently: pip install pygod # normal install pip install --upgrade pygod # or update if needed如果pip不是最新的&…

国外白帽故事 | 通过OSINT入侵了1000多辆特斯拉

我撰写这篇文章的目的是为了提高特斯拉车主的安全意识,值得注意的是,这并不是特斯拉车辆或其基础设施的漏洞。 在这篇文章中,我将分享我是如何通过OSINT技术入侵特斯拉汽车的,以及我向特斯拉报告后得到的回应,最后我也…

力扣249题详解:移位字符串分组的多种解法与模拟面试

在本篇文章中,我们将详细解读力扣第249题“移位字符串分组”。通过学习本篇文章,读者将掌握如何将一组字符串按照移位相同的特性进行分组,并了解相关的复杂度分析和模拟面试问答。每种方法都将配以详细的解释,以便于理解。 问题描…

[NewStar 2024] week4

Crypto 欧拉欧拉 这题给了很诡异的素数生成方式。p和q异或后基本是一串1&#xff0c;这个差是-3 flag bflag{*********} m bytes_to_long(flag)def get_prime(bits):while True:p getPrime(bits)x (1 << bits) - 1 ^ pfor i in range(-10, 11):if isPrime(x i):r…

logdata-anomaly-miner:一款安全日志解析与异常检测工具

关于logdata-anomaly-miner logdata-anomaly-miner是一款安全日志解析与异常检测工具&#xff0c;该工具旨在以有限的资源和尽可能低的权限运行分析&#xff0c;以使其适合生产服务器使用。 为了确保 logdata-anomaly-miner的正常运行&#xff0c;推荐安装了python > 3.6的…

【Vue】word / excel / ppt / pdf / 视频(mp4,mov) 预览

文件预览 Vue3一. word二. excel三. ppt四. pdf4.1 vue-pdf-embed4.2 iframe 五. 视频六&#xff1a;扩展——kkFileView Vue3 一. word 安装&#xff1a;npm install docx-preview父页面 <template><div><DocPreviewv-if"filePath.includes(docx)"…