OpenAI o1团队突破性论文:『过程推理』中数学推理能力大幅提升,从正确中学习的新方法

原创 超

近年来,大型语言模型(LLMs)在复杂的多步推理任务中取得了令人瞩目的进展。这些模型能够生成逐步的思维链,解决从小学数学到高等微积分的各种问题。然而,即使是最先进的模型也常常陷入逻辑陷阱,产生看似合理但实际错误的推理步骤。这种"幻觉"现象在需要精确推理的数学领域尤其成问题,因为单一的逻辑错误就可能导致整个解答偏离正轨。

为了应对这一挑战,OpenAI的研究团队提出了一种创新方法,从"正确"中学习,而不是传统上关注错误。这种方法被称为"过程监督",重点关注推理过程中的每一个正确步骤,而不仅仅是最终结果。通过这种方式,AI模型能够更好地理解和复制人类认可的推理过程,从而显著提高其数学问题解决能力。

这项突破性研究不仅大幅提升了AI在数学推理方面的表现,还为解决更广泛的AI对齐问题提供了新的思路。研究团队发现,相比传统的仅关注结果的方法,这种新方法能够产生更可靠、更易解释的AI推理过程,同时在效率和准确性方面都取得了显著进展。

图片

论文链接:https://arxiv.org/abs/2305.20050

01 核心方法

结果监督 vs 过程监督:革新AI训练方法

研究团队提出了两种截然不同的AI训练方法:结果监督(ORM)和过程监督(PRM)。结果监督仅关注最终答案的正确性,而过程监督则评估解题过程中的每一步。


其中,过程监督的训练目标是通过最大化每个步骤的概率来预测每个步骤的正确性:

图片

其中,x是输入序列,y是输出序列。


在结果监督中,模型只能从最终结果中学习。相比之下,过程监督为AI提供了更精确、更丰富的反馈,使其能够理解问题解决的整个过程。这种方法不仅提高了模型的准确性,还增强了其推理能力的可解释性。

PRM800K:构建大规模数据集的里程碑

为了支持这项研究,团队构建了一个名为PRM800K的庞大数据集。这个数据集包含了80万个人工标注的推理步骤,涵盖了75,000个解决方案和12,000个数学问题。这是迄今为止最大规模的数学推理过程监督数据集之一。

PRM800K的构建过程极为严谨。人类标注者对每个推理步骤进行评估,标记其是否正确、合理或存在模糊性。

实验设置:大规模vs小规模

研究团队采用了两种实验设置来全面评估他们的方法:

1. 大规模实验:使用基于GPT-4的模型,旨在推动最先进技术的发展。这些实验展示了在拥有丰富计算资源时,过程监督能够达到的极限性能。

2. 小规模实验:使用计算能力较小的模型(比GPT-4小约200倍),目的是进行更直接的比较和消融研究。这些实验帮助研究人员isolate不同因素的影响,如数据集大小和监督类型。

这种双管齐下的方法不仅发挥了技术的极限潜力,还提供了在资源受限情况下的实用洞察。

主动学习策略:提高数据效率的关键

为了最大化人工标注的价值,研究团队实施了创新的主动学习策略。他们训练了一个较小的选择器模型(PRMselector),用于识别最有价值的样本进行标注。

具体来说,对于每个问题,他们生成1000个样本解决方案,然后选择:

  • 80%最具欺骗性的错误答案样本

  • 20%最具说服力的样本(无论正确与否)

具体来说,主动学习策略在过程监督中的应用主要是通过一个大模型(PRMlarge)来选择最有价值的模型生成样本进行人工标注。具体步骤如下:首先,使用PRMlarge对每个问题生成多个样本,并选择最有说服力的错误答案样本;然后,对这些样本进行人工标注。

这种策略确保了数据集既包含了具有挑战性的错误案例,又保持了一定的多样性。结果表明,这种主动学习方法将数据效率提高了约2.6倍,大大减少了获取高质量训练数据所需的人力成本。

通过这些创新方法,研究团队不仅提出了一种新的AI训练范式,还为未来的大规模语言模型研究铺平了道路。这些方法的组合为提高AI系统的推理能力和可靠性开辟了新的可能性。

02 实验结果

过程监督显著优于结果监督

研究表明,过程监督训练的奖励模型(PRM)在各方面都优于结果监督训练的模型(ORM)。在大规模实验中,PRM在所有测试规模下都实现了更高的性能,而且随着搜索范围的扩大,优势愈发明显。

具体来说,当从 1860 个候选解决方案中进行选择时:

  • PRM 正确率达到了令人瞩目的 78.2%

  • ORM 正确率约为 72.4%

  • 多数投票基线正确率约为 69.6%

图片

这些数据清楚地表明,过程监督方法能够更有效地识别和奖励正确的推理步骤,从而产生更可靠的 AI 系统。

主动学习大幅提升数据效率

研究团队发现,通过巧妙运用主动学习策略,可以显著提高数据收集的效率。他们的方法主要包括:
1. 使用初步训练的选择器模型(PRMselector)挑选最具挑战性的样本
2. 重点关注"令人信服的错误答案",即看似正确但实际包含错误的解决方案

这种方法使得数据效率提高了约 2.6 倍。换句话说,使用主动学习策略,只需要不到一半的标注数据就能达到相同的模型性能。这一发现对于降低高质量数据收集的成本和难度具有重要意义。

在 MATH 数据集上的出色表现

研究团队在极具挑战性的 MATH 数据集上评估了他们的模型。这个数据集包含了从高中到大学水平的数学问题,涵盖了代数、几何、微积分等多个领域。
在 MATH 测试集的代表性子集上,基于过程监督的 PRM 模型惊人地解决了 78.2% 的问题。这一成绩不仅大幅超越了基于结果监督的模型,也远远超过了此前的最佳记录。

对未见过的 STEM 问题展现出色的泛化能力

为了测试模型的真实世界应用能力,研究团队还在一系列最新的STEM(科学、技术、工程和数学)考试问题上进行了评估。这些问题来自AP微积分、AP 化学、AP 物理和 AMC10/12 等考试,都是模型在训练过程中从未接触过的。

结果令人振奋:

  • 在 AP 微积分问题上,PRM 正确率高达 86.7%在 AP 化学问题上,PRM 正确率达到 80.0%

  • 在 AP 物理问题上,PRM 正确率为 86.7%

  • 在较为困难的 AMC10/12 问题上,PRM 仍然实现了 53.2% 的正确率

这些结果不仅显著优于结果监督模型和多数投票基线,更重要的是,它们证明了基于过程监督训练的AI系统具有强大的泛化能力,能够有效应对全新的、未经训练的问题类型。
这些实验结果清楚地表明,过程监督方法在提升AI系统的数学推理能力方面具有巨大潜力。它不仅能够提高模型在已知问题上的表现,更能够帮助AI系统更好地应对现实世界中的各种挑战。这一突破性进展为 AI 在教育、科研等领域的应用开辟了新的可能性。


03 结论和未来展望

本研究不仅在技术上取得了突破性进展,更为AI安全和对齐问题提供了新的思路。总结一下这项研究的主要贡献及其潜在影响:


过程监督的显著优势


研究团队通过大规模实验证明,过程监督方法在训练AI数学推理能力方面显著优于传统的结果监督方法。具体来说:

1.性能提升:使用过程监督训练的模型在MATH测试集上的表现远超基于结果监督的模型和多数投票基线。
2.数据效率:通过主动学习策略,过程监督方法的数据效率提高了约2.6倍,大大降低了人类标注的成本。
3.泛化能力:在未曾见过的STEM考试问题上,过程监督模型同样表现出色,证明了其良好的泛化能力。

对AI对齐的潜在影响

这项研究不仅仅是技术上的进步,更为AI安全和对齐问题带来了新的启示:

1.可解释性提升:过程监督鼓励模型遵循人类认可的推理过程,提高了AI决策的可解释性。
2.安全性增强:通过直接奖励对齐的思维链,而非仅依赖结果,过程监督本质上更安全。
3."负"对齐税:有趣的是,过程监督不仅没有降低模型性能,反而带来了性能提升,这可能会促进更安全的AI方法在实践中的广泛采用。

这项研究不仅推动了AI数学能力的进步,更为构建安全、可靠的AI系统提供了新的思路。随着研究的深入和技术的完善,我们有理由期待AI系统在复杂推理任务中发挥越来越重要的作用,同时保持与人类价值观的紧密对齐。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880153.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

只装了WPS,DOC文档无法打开

只装了WPS,DOC文档无法打开 打开WPS --> 全局设置 --> 设置 --> 文件格式关联 --> 与office 2007兼容 也可以选择office 2003 或 office 2010 兼容 dox文件的默认打开方式也变为WPS

1.3 计算机网络的分类

欢迎大家订阅【计算机网络】学习专栏,开启你的计算机网络学习之旅! 文章目录 前言一、按分布范围分类二、按传输技术分类三、按拓扑结构分类四、按使用者分类五、按传输介质分类 前言 计算机网络根据不同的标准可以被分为多种类型,本章从分布…

iostat 命令:系统状态监控

一、命令简介 ​iostat ​命令用于报告系统中 CPU、磁盘、tty 设备和 CPU 利用率统计信息。 ‍ 需安装 sysstat ​软件包,该软件包提供了一组工具,包括 iostat​、sar​、mpstat ​等,用于系统性能监控和报告。 ‍ 二、命令参数 iostat…

STM32 MPU加速效果测试

测试代码&#xff1a; static volatile uint32_t cnt;cnt 0;uint64_t time time_spent({while (cnt < 1000000){cnt;}});log_info("test time spent: %llu us\r\n", time); 结果&#xff1a; //未开启Cache fmc_ram test: uint32_t spent time: 955963 us uin…

STM32之串口通信

什么是串口 串行通信接口&#xff1a;指按位发送和接收的接口&#xff0c;如RS232/422/485 RS232电平和COMS/TTL电平对比 RS232电平&#xff1a;逻辑1&#xff1a;-15V ~ -3V 逻辑0:3V ~ 15V CMOS电平: 逻辑1&#xff1a;3.3V 逻辑0&#xff1a;0V &#xff08;STM32使用&am…

服务注册中心对比及使用场景分析

目录 引言服务注册中心简介注册中心对比 1. Consul 1.1 介绍1.2 特性1.3 使用场景1.4 AP vs CP 2. Nacos 2.1 介绍2.2 特性2.3 使用场景2.4 AP vs CP 3. ZooKeeper 3.1 介绍3.2 特性3.3 使用场景3.4 AP vs CP 对比表格选择建议总结 引言 随着微服务架构的普及&#xff0c;服…

QT----基于QML的计时器

赶上了实习的末班车,现在在做QML开发,第一天的学习成果,一个计时器.逻辑挺简单的,纯QML实现,代码在仓库QT-Timer 学习使用c的listmodel 学习使用了如何用c的listmodel来存储数据. 新建一个TImeListModel类继承自QAbstractListModel class TimeListModel : public QAbstrac…

前端大屏自适应方案

一般后台管理页面&#xff0c;需要自适应的也就是大屏这一个&#xff0c;其他的尺寸我感觉用第三方框架继承好的就挺合适的&#xff0c;当然自适应方案也可以同步到所有页面&#xff0c;但我感觉除了 to c 的项目&#xff0c;不太需要所有页面自适应&#xff0c;毕竟都是查看和…

STM32CUBEIDE FreeRTOS操作教程(五):mutex互斥信号量

STM32CUBEIDE FreeRTOS操作教程&#xff08;五&#xff09;&#xff1a;mutex互斥信号量 STM32CUBE开发环境集成了STM32 HAL库进行FreeRTOS配置和开发的组件&#xff0c;不需要用户自己进行FreeRTOS的移植。这里介绍最简化的用户操作类应用教程。以STM32F401RCT6开发板为例&am…

通过http地址下载文件

1.HttpWebResponse方法 public void GetPostContent(string url, string localSavePath) {try{ServicePointManager.SecurityProtocol SecurityProtocolType.Tls12;HttpWebRequest myRequest (HttpWebRequest)WebRequest.Create(url);myRequest.Method "GET";myR…

蓝牙技术|详谈蓝牙信道探测技术,可实现厘米级精准定位

2024年9月5日&#xff0c;蓝牙技术联盟发布蓝牙6.0核心规范。相比此前各版本&#xff0c;蓝牙核心规范6.0版的主要创新和新功能包括&#xff1a;支持蓝牙信道探测、同步适配层增强、LL扩展功能和 帧空间更新。 蓝牙信道探测 市场上已经有不少高精度定位技术了&#xff0c;像 …

ToF传感器更新

我们最近改进了 ToF 解码管道&#xff08;固件&#xff09;和 ToF 工厂校准&#xff0c;该校准已应用于我们最新的带有 ToF 相机的OAK-D-SR-PoE 1. 点云 这是直接来自摄像机的原始点云&#xff08;没有应用任何后处理过滤器&#xff09;。 2. ToF 精度 &#xff08;ToF 深度误差…

界面控件Telerik UI for WinForms 2024 Q3概览 - 支持合并单元格等

Telerik UI for WinForms拥有适用Windows Forms的110多个令人惊叹的UI控件。所有的UI for WinForms控件都具有完整的主题支持&#xff0c;可以轻松地帮助开发人员在桌面和平板电脑应用程序提供一致美观的下一代用户体验。 本文将介绍界面组件Telerik UI for WinForms在今年第一…

PostgreSQL 模式

PostgreSQL 模式 介绍 PostgreSQL 是一种功能强大的开源对象关系数据库管理系统&#xff08;ORDBMS&#xff09;&#xff0c;它以其可靠性、健壮性和支持高级功能而闻名。在 PostgreSQL 中&#xff0c;模式&#xff08;schema&#xff09;是一个重要的概念&#xff0c;它用于…

3d可视化图片:通过原图和深度图实现

1、depthy 在线体验demo: https://depthy.stamina.pl/#/ 也可以docker安装上面服务: docker run --rm -t -i -p 9000:9000 ndahlquist/depthy http://localhost:90001)首先传原图 2)再传对应深度图 3)效果 </ifra

Linux ubuntu debian系统安装UFW防火墙图形化工具GUFW

GUFW是UFW的图形化前端&#xff0c;可以通过以下命令安装&#xff1a; sudo apt install gufw安装成功后&#xff0c;可以通过应用程序菜单启动GUFW&#xff0c;在图形界面中&#xff0c;可以方便地添加、修改和删除规则&#xff0c;查看状态和日志。

如何在Windows上安装Docker

在 Windows 上使用 Docker 有两种主要方式&#xff1a;通过 Docker Desktop 安装并使用 WSL 2 作为后端&#xff0c;或者直接在 WSL 2 中安装 Docker。这里推荐手残党直接用图形界面安装到WSL 2的后端&#xff1a; 一、启用Hyper-V和容器特性 1. 右键Windows点击应用和功能 …

【ppt2svg svg2png/jpg】ppt转图片解决方案

ppt处理工具 pptx 免费&#xff0c;功能有限&#xff0c;会有一些问题aspose 收费&#xff0c;功能丰富&#xff0c;有水印spire 收费&#xff0c;功能丰富&#xff0c;有水印基于js/vue的方案 任务&#xff1a;PPT转图片 为了跳过水印&#xff0c;有几种间接的方案 方案一 …

分布式系统的概念与设计模式

概念 定义&#xff1a;分布式系统是指将数据和计算任务分散到多个独立的计算机上&#xff0c;这些计算机通过网络进行通信和协作&#xff0c;共同对外提供服务。分布式系统不仅提高了系统的可靠性和可扩展性&#xff0c;还增强了系统的并发处理能力和数据管理能力。 特点&…

【操作系统强化】王道强化一轮笔记

第一章 计算机系统概述 考点1 操作系统的概念、特征和功能 1. 2. 考点2 内核态与用户态 1. 2.用户态和内核态之间的切换本质上就是应用程序和操作系统对CPU控制器的切换 考点3 中断和异常 1. 2. 考点4 系统调用 1. 2. 3.C 考点5 操作系统引导 1. 2. ①磁盘的物理格式化&…