【LLM】OpenAI 的DAY12汇总和o3介绍

note

  • o3 体现出的编程和数学能力,不仅达到了 AGI 的门槛,甚至摸到了 ASI(超级人工智能)的边。

Day 1:o1完全版,开场即巅峰

12天发布会的开场即是“炸场级”更新——o1完全版。相比此前的预览版本,o1实现了质的飞跃。

在国际数学奥林匹克预选赛题目(AIME 2024)和编程能力测试(Codeforces)中,o1的表现分别提升了50%,复杂问题处理的错误率下降了34%。此外,多模态识别的加入,让o1的应用场景成倍增长。新增的功能使其能够处理图像和文本的综合任务,例如医生分析医学影像或设计师获取创意建议。o1的实用性大幅提升,但代价也不低。o1的高性能也伴随着高价格:只有200美元的Pro版订阅用户才能享受无限使用,而普通用户仅限每日20次。

Day 2:o1-mini强化微调,专业领域精准打击

第二天的更新聚焦于o1-mini模型的强化微调。这项技术通过强化学习方向的调整,使模型的推理能力得到显著提升。

尤其在医疗、法律等复杂领域,仅需“几十个例子”甚至12个例子,就能完成有效的微调。数据显示,强化后的o1-mini模型在测试中的通过率比传统微调模型提升24%,相比未强化版本更是高出82%。

Day 3:Sora,姗姗来迟的遗憾

等待了10个月后,Sora终于亮相。这款生成视频的工具支持最长20秒、分辨率达1080p的视频生成,并配备了创新的故事板功能。

用户可以通过时间轴设计场景卡片,串联多个提示词,系统自动生成过渡效果。此外,Remix、Blend和Loop三项工具提供了更灵活的编辑能力。然而,Sora的模型能力并未升级,导致生成效果频频翻车:运动逻辑混乱、物理效果缺失,甚至出现“鬼影”。尽管OpenAI为其配备了专业工具以及故事板功能,但模型本身的能力不足严重拖了后腿。更让人不满的是,Plus用户每月仅能使用50次,Pro用户也只能在“慢速”模式下享受无限使用。

Day 4:Canvas,AI多功能工作台

Canvas的发布,是OpenAI尝试从聊天机器人向生产力工具转型的标志。Canvas是OpenAI首次尝试打造AI版Google Docs的产品。

它将智能写作、代码协作和AI智能体集成到一个工作台中:

  • 智能写作:提供实时编辑建议,优化文本质量。
  • 代码协作:内置WebAssembly Python模拟器,实现无延迟的编程体验,并具备理解代码意图的能力。
  • AI智能体:用户可定制化AI助手,完成从撰写邮件到管理任务的操作。
    Canvas的三大功能无缝集成,构成了一个多功能的创作工作室。然而,单独对比功能,其文本编辑不如Claude的Artifacts,编程便利性也逊色于Cursor。

Day 5 & Day 11:与苹果深度合作

在第五天和第十一天,OpenAI宣布了与苹果的合作成果。这次整合主要体现在三个方面:

  • 与Siri协同:Siri可将复杂任务移交给ChatGPT处理。
  • 写作工具增强:支持从零开始撰写文档、细化和总结内容。
  • 视觉智能:通过iPhone 16的相机控制功能,用户可以深入了解拍摄对象。

此外,第十一天的更新还赋予ChatGPT更多Mac工具的调用权限。这次合作,不仅巩固了OpenAI的行业地位,也显示出苹果对AI领域的更高依赖。

Day 6:视频通话功能,“HER”成真

视频通话功能让用户可以通过镜头与GPT实时互动。这一功能虽然早在5月的演示中亮相,但此次正式上线仍让人兴奋。它不仅拓展了AI的交互方式,还让人联想到电影《HER》中与AI深度连接的场景。

Day 7-10:小更新,凑数之作

这几天的更新显得较为平淡。从Projects项目功能到ChatGPT搜索升级,再到o1图像输入和4o高级语音API开放,这几天的更新被评价为“可有可无”。

  • Projects项目功能:集中管理项目文件和对话。
  • ChatGPT搜索升级:支持对话内搜索和多模态输出。
  • o1图像输入与4o高级语音API:功能开放,但无重大创新。

尽管如此,集中对话文件管理和多模态搜索等功能,仍有一定实用价值。

Day 12:GPT-o3,终极王炸

在最后一天,OpenAI用GPT-o3的发布引爆全场。

  • 相较于o1,o3在多个领域实现了跨越式进步:
  • Codeforces评分:2727,全球排名175,超过99%人类程序员。
  • 博士级科学问题(GPQA):87.7%,远超人类平均水平。
  • ARC-AGI基准测试:87.5%,展现了新型任务适应能力的飞跃。

尤其是ARC-AGI测试得分,从GPT-3的0%到GPT-4o的5%,再到o3的87.5%。
在这里插入图片描述
尽管o3的高算力成本暂时限制了普及,但它证明了Scaling Law依然有效,并将AI的发展推向新的高峰。

OpenAI o3:

  1. o3在Codeforces编程竞技中击败了99.9%的程序员,在168076名程序员中排名175名。甚至o3的作者都打不过o3。

  2. o3在编程解决真实世界需求方面也比o1有明显提升,在SWE-Bench软件开发测试中,之前发布的o1-preview是41.3%,o3是71.7%,也就是70%的真实世界需求,o3可以直接做对,并通过单元测试。也就意味着只有剩下30%的工作需要人类程序员去编码完成了,而这部分工作AI也可以帮助人类程序员大大提升效率。

  3. 在AIME 2024数学测试中做对了96.7%,相当于在美国数学奥林匹克竞赛上只答错了一道题。

  4. 在博士级别科学问题测试的GPQA Diamond中超过o1 10个百分点,而o1已经基本上是人类博士生的平均水平。

  5. 图形逻辑推理的ARC-AGI,o3经过微调后,达到87.5%,超过人类平均水平(85%)。

RFT:SFT只知道最优答案,RFT看到过多条路径,按照打分优化得分最高的那条路径生成的概率。可以简单理解为传统的PPO需要依赖训练好的奖励模型,而RFT这里甚至可以用专家规则来代替奖励模型打分。但前提是需要o1这种能生成搜索解空间的CoT大模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/65438.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能工厂的设计软件 应用场景的一个例子:为AI聊天工具添加一个知识系统 之2

前情提要 这一次我们暂时抛开前面对“智能工厂的软件设计”的考虑--其软件智能 产品就是 应用程序。直接将这些思维方式和方法论 运用在其具体应用场景中。本文是其中的一个应用场景。 今天用了 一个新的AI助手工具来交流。下面是就这一应用场景和“天意ChatGPT”&#xff08…

高斯核函数(深入浅出)

目录 定义及数学形式主要特点应用示例小结 高斯核函数(Gaussian Kernel),又称径向基核(Radial Basis Function Kernel,RBF Kernel),是机器学习与模式识别中最常用的核函数之一。它通过在高维空间…

MaixBit k210学习记录

开发背景:Window系统主机,在主机上安装了虚拟机(VirtualBoxUbuntu23.04) 目标实现:在虚拟机(Ubuntu)中,实现对Maix bit(k210)开发板的开发 虚拟机的安装参考…

WordPress TutorLMS插件 SQL注入漏洞复现(CVE-2024-10400)(附脚本)

0x01 产品描述: ‌Tutor LMS‌是一个功能强大的

ExpDemo-JavaFX打造属于你自己的图形化漏洞利用工具

声明!本文章所有的工具分享仅仅只是供大家学习交流为主,切勿用于非法用途,如有任何触犯法律的行为,均与本人及团队无关!!! 目录标题 前言编写属于你的图像化漏洞利用工具项目结构编写EXP部署 部…

串口通信标准RS232、RS422、RS485有什么区别和不同

目录 第一个区别:硬件管脚接口定义不同: 第二个区别、工作方式不同 第三个区别、通信方式不同 第四个区别,逻辑特性不同 第五个区别、抗干扰性、传输距离和传输速率也不同 RS-232与RS-485对比 RS-422与RS-485对比 今天给大家分享的是&…

python中的列表及操作

1、列表类型的定义 列表是序列类型的一种扩展,创建后可以随意被修改 使用方括号[]或list()创建,元素间用逗号,分隔 列表中各元素类型可以不同,无长度限制 定义示例: ls [88, cat, dog]2、列表的操作函数和方法 函…

银河麒麟操作系统安装达梦数据库(超详细)

目录 引言1. 前期准备1.1 安装麒麟系统1.2 下载达梦数据库安装包(DM8)1.3 上传安装包到麒麟系统1.4 挂载安装包(iso)文件1.5 配置安装用户和组1.6 创建安装路径及修改权限1.7 设置临时安装目录 2. 安装达梦数据库(DM8&…

Linux-frp_0.61.1内网穿透的配置和使用

下载frp frp官网 https://gofrp.org/zh-cn/docs/setup/ frp安装包下载地址 https://github.com/fatedier/frp/releases?page1 下载之后在服务器上 解压 tar -zxvf frp_0.61.1_linux_amd64.tar.gztar:一个用于压缩和解压缩的工具。-z:表示使用 gzi…

【操作系统】如何创建一个守护进程

守护进程(Daemon)是一类在后台运行的特殊进程,它们通常不与任何终端或用户直接交互,而是执行特定的系统任务或等待系统或网络事件的发生。守护进程是操作系统中不可或缺的一部分,它们负责执行各种后台任务,…

Unity开发AR之Vuforia-MultiTarget笔记

前言 在增强现实(AR)技术蓬勃发展的今天,越来越多的开发者开始探索如何将AR应用于各种场景中。Vuforia作为一个领先的AR开发平台,为开发者提供了强大的工具和功能,使得创建AR体验变得更加简单和直观。本文将为您介绍Vuforia的基本概念、特点,以及如何配置和使用MultiTar…

python|利用ffmpeg按顺序合并指定目录内的ts文件

前言: 有的时候我们利用爬虫爬取到的ts文件很多,但ts文件只是视频片段,并且这些视频片段是需要按照一定的顺序合并的,通常ts文件合并输出格式为mp4格式 因此,本文介绍利用python,调用ffmpeg来批量的按自己…

【Python】 基于Python实现日志聚合与分析工具:利用Logstash与Fluentd构建高效分布式日志系统

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 在分布式系统中,日志数据的生成速度和数量呈指数级增长,传统的日志管理方式已无法满足现代企业对实时性、可扩展性和高效性的需求。本文深…

04.HTTPS的实现原理-HTTPS的混合加密流程

04.HTTPS的实现原理-HTTPS的混合加密流程 简介1. 非对称加密与对称加密2. 非对称加密的工作流程3. 对称加密的工作流程4. HTTPS的加密流程总结 简介 主要讲述了HTTPS的加密流程,包括非对称加密和对称加密两个阶段。首先,客户端向服务器发送请求&#xf…

【从零开始入门unity游戏开发之——C#篇34】C#匿名函数(delegate )和Lambda表达式

文章目录 一、匿名函数(delegate )1、什么是匿名函数?2、匿名函数的基本语法2.1 语法2.2 **没有参数的匿名函数:**2.3 **有参数的匿名函数:**2.4 **有返回值的匿名函数:** 3、匿名函数的使用示例3.1 作为参…

IDEA开发Java应用的初始化设置

一、插件安装 如下图所示: 1、Alibaba Java Coding Guidelines 2.1.1 阿里开发者规范,可以帮忙本地自动扫描出不符合开发者规范的代码,甚至是代码漏洞提示。 右击项目,选择《编码规约扫描》,可以进行本地代码规范扫…

vue2/3,Spring Boot以及生产环境跨域解决方案

vue2和vue3跨域解决方案 Vue 2 (基于 Webpack) 的跨域解决方案 1. 创建或编辑 vue.config.js 文件 Vue CLI为Webpack项目提供了简单的代理配置方式。你可以通过创建或编辑项目的根目录下的 vue.config.js 文件来设置开发服务器的代理规则: // vue.config.js mod…

java相关学习文档或网站整理

1. mybatis MyBatis 3 | Introduction – mybatis 中文版: MyBatis 3 | 简介 – mybatis github版: Releases mybatis/mybatis-3 2. maven仓库 https://mvnrepository.com/

代码模拟打字机(python)

回车符\r打印稿纸,time.sleep模拟停顿效果,一顿一顿的打字机效果就此呈现。 (笔记模板由python脚本于2024年12月27日 19:34:37创建,本篇笔记适合有基础编程能力的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:https://www.…

让 AMD GPU 在大语言模型推理中崭露头角:机遇与挑战

在当今科技飞速发展的时代,大语言模型(LLM)的兴起彻底改变了人工智能领域的格局。从智能客服到文本生成,从知识问答到代码编写辅助,大语言模型的应用无处不在,深刻影响着我们的生活和工作。然而&#xff0c…