OpenAI o1团队突破性论文:『过程推理』中数学推理能力大幅提升,从正确中学习的新方法

原创 超

近年来,大型语言模型(LLMs)在复杂的多步推理任务中取得了令人瞩目的进展。这些模型能够生成逐步的思维链,解决从小学数学到高等微积分的各种问题。然而,即使是最先进的模型也常常陷入逻辑陷阱,产生看似合理但实际错误的推理步骤。这种"幻觉"现象在需要精确推理的数学领域尤其成问题,因为单一的逻辑错误就可能导致整个解答偏离正轨。

为了应对这一挑战,OpenAI的研究团队提出了一种创新方法,从"正确"中学习,而不是传统上关注错误。这种方法被称为"过程监督",重点关注推理过程中的每一个正确步骤,而不仅仅是最终结果。通过这种方式,AI模型能够更好地理解和复制人类认可的推理过程,从而显著提高其数学问题解决能力。

这项突破性研究不仅大幅提升了AI在数学推理方面的表现,还为解决更广泛的AI对齐问题提供了新的思路。研究团队发现,相比传统的仅关注结果的方法,这种新方法能够产生更可靠、更易解释的AI推理过程,同时在效率和准确性方面都取得了显著进展。

图片

论文链接:https://arxiv.org/abs/2305.20050

01 核心方法

结果监督 vs 过程监督:革新AI训练方法

研究团队提出了两种截然不同的AI训练方法:结果监督(ORM)和过程监督(PRM)。结果监督仅关注最终答案的正确性,而过程监督则评估解题过程中的每一步。


其中,过程监督的训练目标是通过最大化每个步骤的概率来预测每个步骤的正确性:

图片

其中,x是输入序列,y是输出序列。


在结果监督中,模型只能从最终结果中学习。相比之下,过程监督为AI提供了更精确、更丰富的反馈,使其能够理解问题解决的整个过程。这种方法不仅提高了模型的准确性,还增强了其推理能力的可解释性。

PRM800K:构建大规模数据集的里程碑

为了支持这项研究,团队构建了一个名为PRM800K的庞大数据集。这个数据集包含了80万个人工标注的推理步骤,涵盖了75,000个解决方案和12,000个数学问题。这是迄今为止最大规模的数学推理过程监督数据集之一。

PRM800K的构建过程极为严谨。人类标注者对每个推理步骤进行评估,标记其是否正确、合理或存在模糊性。

实验设置:大规模vs小规模

研究团队采用了两种实验设置来全面评估他们的方法:

1. 大规模实验:使用基于GPT-4的模型,旨在推动最先进技术的发展。这些实验展示了在拥有丰富计算资源时,过程监督能够达到的极限性能。

2. 小规模实验:使用计算能力较小的模型(比GPT-4小约200倍),目的是进行更直接的比较和消融研究。这些实验帮助研究人员isolate不同因素的影响,如数据集大小和监督类型。

这种双管齐下的方法不仅发挥了技术的极限潜力,还提供了在资源受限情况下的实用洞察。

主动学习策略:提高数据效率的关键

为了最大化人工标注的价值,研究团队实施了创新的主动学习策略。他们训练了一个较小的选择器模型(PRMselector),用于识别最有价值的样本进行标注。

具体来说,对于每个问题,他们生成1000个样本解决方案,然后选择:

  • 80%最具欺骗性的错误答案样本

  • 20%最具说服力的样本(无论正确与否)

具体来说,主动学习策略在过程监督中的应用主要是通过一个大模型(PRMlarge)来选择最有价值的模型生成样本进行人工标注。具体步骤如下:首先,使用PRMlarge对每个问题生成多个样本,并选择最有说服力的错误答案样本;然后,对这些样本进行人工标注。

这种策略确保了数据集既包含了具有挑战性的错误案例,又保持了一定的多样性。结果表明,这种主动学习方法将数据效率提高了约2.6倍,大大减少了获取高质量训练数据所需的人力成本。

通过这些创新方法,研究团队不仅提出了一种新的AI训练范式,还为未来的大规模语言模型研究铺平了道路。这些方法的组合为提高AI系统的推理能力和可靠性开辟了新的可能性。

02 实验结果

过程监督显著优于结果监督

研究表明,过程监督训练的奖励模型(PRM)在各方面都优于结果监督训练的模型(ORM)。在大规模实验中,PRM在所有测试规模下都实现了更高的性能,而且随着搜索范围的扩大,优势愈发明显。

具体来说,当从 1860 个候选解决方案中进行选择时:

  • PRM 正确率达到了令人瞩目的 78.2%

  • ORM 正确率约为 72.4%

  • 多数投票基线正确率约为 69.6%

图片

这些数据清楚地表明,过程监督方法能够更有效地识别和奖励正确的推理步骤,从而产生更可靠的 AI 系统。

主动学习大幅提升数据效率

研究团队发现,通过巧妙运用主动学习策略,可以显著提高数据收集的效率。他们的方法主要包括:
1. 使用初步训练的选择器模型(PRMselector)挑选最具挑战性的样本
2. 重点关注"令人信服的错误答案",即看似正确但实际包含错误的解决方案

这种方法使得数据效率提高了约 2.6 倍。换句话说,使用主动学习策略,只需要不到一半的标注数据就能达到相同的模型性能。这一发现对于降低高质量数据收集的成本和难度具有重要意义。

在 MATH 数据集上的出色表现

研究团队在极具挑战性的 MATH 数据集上评估了他们的模型。这个数据集包含了从高中到大学水平的数学问题,涵盖了代数、几何、微积分等多个领域。
在 MATH 测试集的代表性子集上,基于过程监督的 PRM 模型惊人地解决了 78.2% 的问题。这一成绩不仅大幅超越了基于结果监督的模型,也远远超过了此前的最佳记录。

对未见过的 STEM 问题展现出色的泛化能力

为了测试模型的真实世界应用能力,研究团队还在一系列最新的STEM(科学、技术、工程和数学)考试问题上进行了评估。这些问题来自AP微积分、AP 化学、AP 物理和 AMC10/12 等考试,都是模型在训练过程中从未接触过的。

结果令人振奋:

  • 在 AP 微积分问题上,PRM 正确率高达 86.7%在 AP 化学问题上,PRM 正确率达到 80.0%

  • 在 AP 物理问题上,PRM 正确率为 86.7%

  • 在较为困难的 AMC10/12 问题上,PRM 仍然实现了 53.2% 的正确率

这些结果不仅显著优于结果监督模型和多数投票基线,更重要的是,它们证明了基于过程监督训练的AI系统具有强大的泛化能力,能够有效应对全新的、未经训练的问题类型。
这些实验结果清楚地表明,过程监督方法在提升AI系统的数学推理能力方面具有巨大潜力。它不仅能够提高模型在已知问题上的表现,更能够帮助AI系统更好地应对现实世界中的各种挑战。这一突破性进展为 AI 在教育、科研等领域的应用开辟了新的可能性。


03 结论和未来展望

本研究不仅在技术上取得了突破性进展,更为AI安全和对齐问题提供了新的思路。总结一下这项研究的主要贡献及其潜在影响:


过程监督的显著优势


研究团队通过大规模实验证明,过程监督方法在训练AI数学推理能力方面显著优于传统的结果监督方法。具体来说:

1.性能提升:使用过程监督训练的模型在MATH测试集上的表现远超基于结果监督的模型和多数投票基线。
2.数据效率:通过主动学习策略,过程监督方法的数据效率提高了约2.6倍,大大降低了人类标注的成本。
3.泛化能力:在未曾见过的STEM考试问题上,过程监督模型同样表现出色,证明了其良好的泛化能力。

对AI对齐的潜在影响

这项研究不仅仅是技术上的进步,更为AI安全和对齐问题带来了新的启示:

1.可解释性提升:过程监督鼓励模型遵循人类认可的推理过程,提高了AI决策的可解释性。
2.安全性增强:通过直接奖励对齐的思维链,而非仅依赖结果,过程监督本质上更安全。
3."负"对齐税:有趣的是,过程监督不仅没有降低模型性能,反而带来了性能提升,这可能会促进更安全的AI方法在实践中的广泛采用。

这项研究不仅推动了AI数学能力的进步,更为构建安全、可靠的AI系统提供了新的思路。随着研究的深入和技术的完善,我们有理由期待AI系统在复杂推理任务中发挥越来越重要的作用,同时保持与人类价值观的紧密对齐。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880153.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1.3 计算机网络的分类

欢迎大家订阅【计算机网络】学习专栏,开启你的计算机网络学习之旅! 文章目录 前言一、按分布范围分类二、按传输技术分类三、按拓扑结构分类四、按使用者分类五、按传输介质分类 前言 计算机网络根据不同的标准可以被分为多种类型,本章从分布…

QT----基于QML的计时器

赶上了实习的末班车,现在在做QML开发,第一天的学习成果,一个计时器.逻辑挺简单的,纯QML实现,代码在仓库QT-Timer 学习使用c的listmodel 学习使用了如何用c的listmodel来存储数据. 新建一个TImeListModel类继承自QAbstractListModel class TimeListModel : public QAbstrac…

STM32CUBEIDE FreeRTOS操作教程(五):mutex互斥信号量

STM32CUBEIDE FreeRTOS操作教程(五):mutex互斥信号量 STM32CUBE开发环境集成了STM32 HAL库进行FreeRTOS配置和开发的组件,不需要用户自己进行FreeRTOS的移植。这里介绍最简化的用户操作类应用教程。以STM32F401RCT6开发板为例&am…

蓝牙技术|详谈蓝牙信道探测技术,可实现厘米级精准定位

2024年9月5日,蓝牙技术联盟发布蓝牙6.0核心规范。相比此前各版本,蓝牙核心规范6.0版的主要创新和新功能包括:支持蓝牙信道探测、同步适配层增强、LL扩展功能和 帧空间更新。 蓝牙信道探测 市场上已经有不少高精度定位技术了,像 …

ToF传感器更新

我们最近改进了 ToF 解码管道(固件)和 ToF 工厂校准,该校准已应用于我们最新的带有 ToF 相机的OAK-D-SR-PoE 1. 点云 这是直接来自摄像机的原始点云(没有应用任何后处理过滤器)。 2. ToF 精度 (ToF 深度误差…

界面控件Telerik UI for WinForms 2024 Q3概览 - 支持合并单元格等

Telerik UI for WinForms拥有适用Windows Forms的110多个令人惊叹的UI控件。所有的UI for WinForms控件都具有完整的主题支持,可以轻松地帮助开发人员在桌面和平板电脑应用程序提供一致美观的下一代用户体验。 本文将介绍界面组件Telerik UI for WinForms在今年第一…

3d可视化图片:通过原图和深度图实现

1、depthy 在线体验demo: https://depthy.stamina.pl/#/ 也可以docker安装上面服务: docker run --rm -t -i -p 9000:9000 ndahlquist/depthy http://localhost:90001)首先传原图 2)再传对应深度图 3)效果 </ifra

Linux ubuntu debian系统安装UFW防火墙图形化工具GUFW

GUFW是UFW的图形化前端&#xff0c;可以通过以下命令安装&#xff1a; sudo apt install gufw安装成功后&#xff0c;可以通过应用程序菜单启动GUFW&#xff0c;在图形界面中&#xff0c;可以方便地添加、修改和删除规则&#xff0c;查看状态和日志。

分布式系统的概念与设计模式

概念 定义&#xff1a;分布式系统是指将数据和计算任务分散到多个独立的计算机上&#xff0c;这些计算机通过网络进行通信和协作&#xff0c;共同对外提供服务。分布式系统不仅提高了系统的可靠性和可扩展性&#xff0c;还增强了系统的并发处理能力和数据管理能力。 特点&…

【操作系统强化】王道强化一轮笔记

第一章 计算机系统概述 考点1 操作系统的概念、特征和功能 1. 2. 考点2 内核态与用户态 1. 2.用户态和内核态之间的切换本质上就是应用程序和操作系统对CPU控制器的切换 考点3 中断和异常 1. 2. 考点4 系统调用 1. 2. 3.C 考点5 操作系统引导 1. 2. ①磁盘的物理格式化&…

React-Native 中使用 react-native-image-crop-picker 在华为手机上不能正常使用拍照功能

背景: React-Native 0.66 中使用 react-native-image-crop-picker 在安卓 华为手机上不能正常使用拍照功能, 其他品牌正常 代码如下: import ImagePicker from react-native-image-crop-picker;ImagePicker.openCamera(photoOptions).then(image > {callback(image);}) …

库仑定律-库仑力-两个电荷之间静电力的计算公式

图中&#xff1a; q1&#xff0c;q2 为两个电荷r 为电荷间的距离 r ^ 1 , 2 \widehat{r}_{1,2} r 1,2​ 为从 q1 指向 q2 的单位向量 F ⃗ 1 , 2 \vec{F}_{1,2} F 1,2​ 为 q1 施加到 q2 上的静电力 公式&#xff1a; F ⃗ 1 , 2 q 1 q 2 K r 2 r ^ 1 , 2 \vec{F}_{1,2} \f…

七种修复错误:由于找不到msvcr110.dll 无法继续执行的方法

当你在运行某些程序时遇到“找不到msvcr110.dll”的错误提示&#xff0c;这通常意味着你的系统缺少了Microsoft Visual C 2012 Redistributable包中的一个重要文件。这个DLL文件是Microsoft Visual C Redistributable的一部分&#xff0c;用于支持许多使用Visual C编写的软件和…

Tornado 是一个 Python 异步网络库和 web 框架

Tornado 是一个 Python 异步网络库和 web 框架&#xff0c;它最初由 FriendFeed 开发&#xff0c;后来被 Facebook 收购并开源。Tornado 因其非阻塞的 I/O 操作和优秀的性能而广受欢迎&#xff0c;特别是在需要处理大量并发连接的应用中。Tornado 的底层实现主要依赖于 Python …

【软件测试】如何设计测试用例? 设计测试用例常用的方法.

目录 一.什么是测试用例?二.总体设计测试用例的万能公式.2.1 功能性能界面兼容易用安全2.2 弱网测试2.3 安装卸载测试. 三. 常用设计具体测试用例的方法3.1 等价类3.2 边界值3.3 正交法3.3.1 正交表3.3.2 如何设计正交表,并根据正交表编写测试用例 3.4 判定表法3.4.1 根据判定…

《Nginx核心技术》第18章:基于主从模式搭建Nginx+Keepalived双机热备环境

作者&#xff1a;冰河 星球&#xff1a;http://m6z.cn/6aeFbs 博客&#xff1a;https://binghe.gitcode.host 文章汇总&#xff1a;https://binghe.gitcode.host/md/all/all.html 星球项目地址&#xff1a;https://binghe.gitcode.host/md/zsxq/introduce.html 沉淀&#xff0c…

光子架与电子架 -- 光子架与电子架

电子架 指插放交叉板、OTU单板、支/线路板、保护类单板的子架。 在通用型平台子架和平台子架中如果仅插放OTU单板&#xff08;非中继模式&#xff09;视为电子架。光电混合的子架视为电子架。 电子架主要实现将客户侧信号转换成标准波长的光信号&#xff0c;供光子架调度。 光子…

p18 docker镜像原理之联合文件系统,p19 docker镜像分层的理解

镜像是什么 镜像其实就是一种轻量级的&#xff0c;可执行的一种软件包&#xff0c;用来打包基于环境开发的软件&#xff0c;里面可以包括代码&#xff0c;环境&#xff0c;数据库&#xff0c;配置文件等信息 如何得到镜像&#xff1f; 可以从镜像仓库下载比方说dockerhub 比…

jenkins分布式构建

Jenkins分布式构建是一种将构建任务分散到多个机器上的方法&#xff0c;以提高构建效率和并行处理能力 1. 架构 主节点&#xff08;Master&#xff09;&#xff1a;负责管理构建任务、调度和监控所有从节点。从节点&#xff08;Slave&#xff09;&#xff1a;实际执行构建任务…

JavaEE: 深入探索TCP网络编程的奇妙世界(六)

文章目录 TCP核心机制TCP核心机制九: 面向字节流TCP核心机制十: 异常处理 小小的补充(URG 和 PSH)~TCP小结TCP/UDP 对比用UDP实现可靠传输(经典面试题) 结尾 TCP核心机制 上一篇文章JavaEE: 深入探索TCP网络编程的奇妙世界(五) 书接上文~ TCP核心机制九: 面向字节流 TCP是面…