介绍GPT-o1:一系列解决困难问题( science, coding, and math )的推理模型

openai o1介绍

  • 一、官方技术报告要点剖析
    • 实验1 benchmark分析
    • 实验2:和phd比赛
    • 技术细节:Chain of Thought的使用
    • 人类偏好评估Human preference evaluation
    • satety
    • 技术细节:隐藏思维链为监控模型提供了机会:)
    • openai的几点conclusion
  • 二、官方介绍剖析 Introducing OpenAI o1-preview
    • o1的安全性分析
    • o1时如何工作的
    • o1可以为谁服务?
    • OpenAI o1-mini 什么时候选用?
    • 下一步的升级计划

一、官方技术报告要点剖析

https://openai.com/index/learning-to-reason-with-llms/
技术报告核心内容解读
报告日期:September 12, 2024

实验1 benchmark分析

On the 2024 AIME exams, GPT-4o only solved on average 12% (1.8/15) of problems. o1 averaged 74% (11.1/15) with a single sample per problem, 83% (12.5/15) with consensus among 64 samples, and 93% (13.9/15) when re-ranking 1000 samples with a learned scoring function. A score of 13.9 places it among the top 500 students nationally and above the cutoff for the USA Mathematical Olympiad.
在这里插入图片描述

结果分析:

1.	GPT-4o 是基础版本的 GPT-4 模型。在这次考试中,它只能解答 12% 的问题,也就是平均每场考试 15 道题中仅能解答 1.8 道题。
2.	o1 版本 是经过进一步优化的 GPT-4 模型:•	单次采样(即每道题只运行一次模型)时,能解答 74% 的问题,平均解答 11.1 道题。•	如果对每道题进行 64 次采样(即多次运行模型并选择共识答案),它的正确率提升至 83%,平均解答 12.5 道题。•	如果对每道题进行 1000 次采样,并且使用学习得出的评分函数进行重新排序,它的正确率进一步提升至 93%,平均解答 13.9 道题。
3.	取得 13.9 分的表现使得这个模型达到了全美前 500 名学生的水平,并且超过了参加美国数学奥林匹克竞赛(USA Mathematical Olympiad, USAMO)的资格线。

实验2:和phd比赛

We also evaluated o1 on GPQA diamond, a difficult intelligence benchmark which tests for expertise in chemistry, physics and biology. In order to compare models to humans, we recruited experts with PhDs to answer GPQA-diamond questions.

这里有一个问题,就是,所招募的专家测试结果是找的各个专业的phd做完整的测试,然后取精确率的平均值作为对比数值,还是请他们分别做自己所属专业的部分试题,然后将结果汇总作为专家结果。

技术细节:Chain of Thought的使用

Similar to how a human may think for a long time before responding to a difficult question, o1 uses a chain of thought when attempting to solve a problem.
Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses. It learns to recognize and correct its mistakes. It learns to break down tricky steps into simpler ones. It learns to try a different approach when the current one isn’t working. This process dramatically improves the model’s ability to reason. To illustrate this leap forward, we showcase the chain of thought from o1-preview on several difficult problems below.

  • Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses.
    1.通过强化学习,o1学会磨练其思维链并完善其使用的策略
  • It learns to recognize and correct its mistakes.
    2.o1学会了识别和纠正错误。
  • It learns to break down tricky steps into simpler ones.
    3.o1学会了将棘手的步骤分解成简单的步骤。
  • It learns to try a different approach when the current one isn’t working.
    4.当前方法无效时,它学会尝试不同的方法。 在实例当中,会发现

这一过程极大地提高了模型的推理能力。为了说明这一飞跃,报告中还展示了 o1-preview 在几个难题上的思维链。(详情见报告)

人类偏好评估Human preference evaluation

In this evaluation, human trainers were shown anonymized responses to a prompt from o1-preview and GPT-4o, and voted for which response they preferred.
在这项评估当中,人类培训师被展示了o1-preview和GPT-4o对于一个提示词的匿名回复,然后投票选出他们喜欢的回复。在数据分析、编码和数学等推理繁重的类别中,o1预览比gpt-4o更受欢迎。 然而,o1预览在某些自然语言任务中并不受欢迎,这表明它并不适合所有用例。
在这里插入图片描述

satety

We believe that using a chain of thought offers significant advances for safety and alignment because (1) it enables us to observe the model thinking in a legible way, and (2) the model reasoning about safety rules is more robust to out-of-distribution scenarios.
我们认为,使用思维链可以在安全性和一致性方面取得重大进展,因为(1)它使我们能够以清晰的方式观察模型思维,(2)关于安全规则的模型推理对分布外的场景更稳健。

技术细节:隐藏思维链为监控模型提供了机会:)

the hidden chain of thought allows us to “read the mind” of the model and understand its thought process.
例如,在未来,我们可能希望监控思维链,寻找操纵用户的迹象。
然而,为了实现这一点,模型必须能够以不变的形式自由表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思想链上。我们也不想让用户直接看到不一致的思维链。
因此,在权衡了用户体验、竞争优势和追求思维链监控的选择等多个因素后, we have decided not to show the raw chains of thought to users.

我们承认这一决定有缺点。我们努力通过教模型从答案中的思维链中再现任何有用的想法来部分弥补这一点。

注意,为了让模型保持市场优势,对于思维连的具体过程,openai选择了隐藏,并通过让模型从*真实思维链*和*答案response*中再现思维链中有用的想法的方式来弥补隐藏思维链带来的问题 因此,对于思维链的具体技术细节,无从得知。

openai的几点conclusion

1.o1显著推进了AI reasoning的最新工作
2.我们相信o1会解锁AI在科学、编程、数学等相关领域的新应用案例。
3.openai对于开发者会如何使用o1保持激动和期待。

二、官方介绍剖析 Introducing OpenAI o1-preview

o1的安全性分析

系统卡片:https://openai.com/index/openai-o1-system-card/
我们使用公共和内部评估来衡量不允许的内容、人口统计公平性、幻觉倾向和危险能力等风险。
基于这些评估,我们在模型和系统级别实施了保护措施,如块列表和安全分类器,以有效降低o1的上述这些风险。
部署是安全的,因为它不会实现现有资源之外的任何事情,网络安全和模型自治的风险水平为“低”,化学、生物、放射性和劝导的风险等级为“中”
完整的system card系统介绍pdf

A new series of reasoning models for solving hard problems. Available now.
20240912:https://openai.com/index/introducing-openai-o1-preview/
Update on September 17, 2024: Rate limits are now 50 queries per week for o1-preview and 50 queries per day for o1-mini.

o1时如何工作的

Through training, they learn to refine their thinking process, try different strategies, and recognize their mistakes. (定义思考过层、尝试不同的策略、识别其中的错误)
实验细节见技术报告部分。

o1可以为谁服务?

These enhanced reasoning capabilities may be particularly useful if you’re tackling complex problems in science, coding, math, and similar fields.
o1 can be used by healthcare researchers to annotate cell sequencing data, by physicists to generate complicated mathematical formulas needed for quantum optics, and by developers in all fields to build and execute multi-step workflows.
1.医疗保健研究人员用来注释细胞测序数据,
2.被物理学家用来生成量子光学所需的复杂数学公式,
3。被所有领域的开发人员用来构建和执行多步骤工作流程。

OpenAI o1-mini 什么时候选用?

1.更便宜 2.更快 3.coding更有效 4.针对于哪些需要推理但是并不需要太多世界知识的应用。

o1-mini未来计划提供给免费用户进行尝试。

下一步的升级计划

1.增加浏览、文件和图像多模态的上传以及其他功能;使他们对每个人都更有用。
2.除了新的OpenAI o1系列之外,我们还计划继续开发和发布GPT系列中的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880639.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

cpu路、核、线程、主频、缓存

路:主板插口实际插入的 CPU 个数,也可以理解为主板上支持的CPU的数量。每个CPU插槽可以插入一个物理处理器芯片。例如,一台服务器可能有2路或4路插槽,这意味着它最多可以安装2个或4个物理处理器。 核:单块 CPU 上面能…

Docker安装与应用

前言 Docker 是一个开源的应用容器引擎,基于 Go 语言开发。Docker 可以让开发者打包他们的应用以及依赖包到一个轻 量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互 之间…

Spring Cloud 工程搭建服务注册_服务发现

文章目录 Spring Cloud 工程搭建服务拆分示例数据库工程搭建构建父子工程创建父工程创建子项目完成两个接口 远程调用实现添加ProductInfo字段定义RestTemplate修改OrderService 服务注册/服务发现 - Eureka注册中心CAP理论常见的注册中心ZookeeperEurekaNacos Eureka 介绍搭建…

SSM框架VUE电影售票管理系统开发mysql数据库redis设计java编程计算机网页源码maven项目

一、源码特点 smm VUE电影售票管理系统是一套完善的完整信息管理类型系统,结合SSM框架和VUE、redis完成本系统,对理解vue java编程开发语言有帮助系统采用ssm框架(MVC模式开发),系 统具有完整的源代码和数据库&#…

vue echarts tooltip动态绑定模板,并且处理vue事件绑定

先上代码: tooltip: {// 这里是车辆iconshow: true,// trigger: "item",// backgroundColor: "transparent",appendToBody: true,textStyle: {color: "#ffffff" //设置文字颜色},formatter: (params) > {const TruckTooltip Vue.…

【SOP】Windows下安装Neo4j流程

Neo4j简介 Neo4j 是一个基于图形结构的 NoSQL 数据库,专门用于存储和管理图数据。与传统的关系型数据库不同,Neo4j 使用 图(graph)的形式来表示数据,其中数据点(称为 节点)通过 边(…

遥感图像语义分割数据集制作(使用ArcGIS Pro)

0. 引言 图像分割就是把图像空间按照一定的要求分成一些“有意义”的区域的技术叫图像分割。一幅图像通常是由代表物体的图案与背景组成,简称物体与背景。若想从一幅图像中“提取”物体,可以设法用专门的方法标出属于该物体的点,如把物体上的…

WebSocket实现在线聊天室

项目实现源码: 前端源码 后端源码 1.常见的消息推送方式 1.1 轮询 1.1.1 轮询的概念 客户端以固定的事件间隔(例如每秒或几分钟)向服务器发送HTTP请求,服务器收到请求后,处理请求并返回数据给客户端 轮询具体实现htt…

计算机毕业设计之:宠物服务APP的设计与实现(源码+文档+讲解)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

如何把PDF样本册转换为网址链接

​随着互联网的普及,将纸质或PDF格式的样本册转化为网址链接,以便于在线浏览和分享,变得越来越重要。本文将为您详细讲解如何将PDF样本册转换为网址链接,让您轻松实现线上展示和分享。 一、了解PDF样本册与网址链接 1. PDF样本册…

游戏账号系统小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,卖家管理,游戏类别管理,游戏账号管理,站内联系管理,交易订单管理,帐号退货管理 微信端账号功能包括:系统首…

多输入多输出预测 | NGO-BP北方苍鹰算法优化BP神经网络多输入多输出预测(Matlab)

多输入多输出预测 | NGO-BP北方苍鹰算法优化BP神经网络多输入多输出预测(Matlab) 目录 多输入多输出预测 | NGO-BP北方苍鹰算法优化BP神经网络多输入多输出预测(Matlab)预测效果基本介绍程序设计往期精彩参考资料 预测效果 基本介…

数据结构:树的定义及其性质

树的定义 树是一种重要的非线性数据结构,树作为一种逻辑结构,同时也是一种分层结构。具有以下两个特点: 1.树的根结点没有前驱,除根结点意外的节点只有一个前驱 2.树中所有结点都可以有0个或多个后继 树结构在多个领域都有广泛…

GDB 调试

1. wsl 环境下搭建gdb: 1.1安装环境: #安装gcc编译器 (x86 linux) $ sudo apt install gcc #检查安装版本,看是否成功 $ gcc -v #安装gdb编译器 (x86 linux) $ sudo apt install gdb #检查安装是否成功 $ gdb 1.2 编写自己的程序&…

刷题学习日记 (1) - SWPUCTF

写这篇文章主要是想看看自己一个下午能干啥,不想老是浪费时间了,所以刷多少题我就会写多少题解,使用nss随机刷题,但是今天下午不知道为啥一刷都是SWPUCTF的。 [SWPUCTF 2021 新生赛]gift_F12 控制台ctrlf搜索flag即可&#xff0…

处理not in gzip format异常

1、为什么会触发这个异常? 当我们使用GZIPInputStream的read方法进行读取数据时,它会自动处理gzip格式的压缩数据,将它解析成原始的二进制数据。但是,如果你没有将原始数据进行gzip压缩后传入GZIPInputStream流,进行r…

车载诊断技术:汽车健康的守护者

一、车载诊断技术的发展历程 从最初简单的硬件设备到如今智能化、网络化的系统,车载诊断技术不断演进,为汽车安全和性能提供保障。 早期的汽车诊断检测技术处于比较原始的状态,主要依靠操作经验和主观评价。随着汽车工业的发展,车载诊断技术也经历了不同的阶段。20 世纪初…

视频融合共享平台LntonAIServer视频智能分析抖动检测算法和过亮过暗检测算法

LntonAIServer作为一款智能视频监控平台,集成了多种先进的视频质量诊断功能,其中包括抖动检测和过暗检测算法。这些算法对于提升视频监控系统的稳定性和图像质量具有重要意义。 以下是对抖动检测算法和过暗检测算法的应用场景及优势的详细介绍。 一、L…

数据分析:线性回归计算嵌套的组间差异

文章目录 介绍加载依赖包导入数据数据预处理数据概览线性回归画图森林图的特点:森林图的作用:总结系统信息介绍 在统计学中,嵌套的组间差异分析是一种评估不同组别间差异的方法,尤其适用于层级结构或分组数据。通过线性回归模型,我们可以计算出各个变量对于因变量的影响,…