【Open AI】GPT-4o深夜发布:视觉、听觉跨越式升级

北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。

本文内容来自OpenAI网站对GPT-4o的详细介绍

我们宣布推出GPT-4o,这是我们的新型旗舰模型,可以在音频、视觉和文本之间进行实时推理。

GPT-4o(“o”代表“omni”)是实现更为自然人机交互的重要一步——它接受文本、音频、图像和视频任意组合的输入,并生成文本、音频和图像输出的任意组合。它可以在短至232毫秒内对音频输入做出响应,平均响应时间为320毫秒,这与人类在对话中的响应时间相似(新窗口中打开)。它在英语文本和代码方面与GPT-4 Turbo性能相匹配,在非英语文本方面有显著提升,同时在API中速度更快,成本降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。

在GPT-4o之前,您可以使用语音模式与ChatGPT进行对话,GPT-3.5和GPT-4的平均延迟分别为2.8秒和5.4秒。为了实现这一点,语音模式由三个单独的模型组成:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着,智能的主要来源GPT-4会丢失大量信息——它无法直接观察到语调、多个说话者或背景噪音,也无法输出笑声、歌声或表达情感。

通过GPT-4o,我们训练了一个单一的跨文本、视觉和音频的端到端新模型,这意味着所有的输入和输出都由同一个神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型,我们仍在探索该模型能够做什么以及其局限性。

根据传统基准测试的结果,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新的高标准。

改进推理能力 - GPT-4o在0次推理链MMLU(常识性问题)上创下了88.7%的新高分。所有这些评估都是通过我们新的简单评估库收集的。此外,在传统的5次无推理链MMLU上,GPT-4o创下了87.2%的新高分。(注:Llama3 400b仍在训练中)

音频ASR(自动语音识别)性能 - GPT-4o在所有语言上的语音识别性能都显著优于Whisper-v3,尤其是对于资源较少的语言。

音频翻译性能——GPT-4o在语音翻译方面树立了新的技术标杆,并在MLS基准测试中表现优于Whisper-v3。

M3Exam——M3Exam基准测试既是一项多语言评估,也是一项视觉评估,它包括来自其他国家标准化测试中的多项选择题,这些题目有时会包含图表和图示。GPT-4o在这个基准测试上的所有语言表现都优于GPT-4。(我们省略了斯瓦希里语和爪哇语的视觉结果,因为这些语言的视觉问题只有5个或更少。

视觉理解评估——GPT-4o在视觉感知基准测试中取得了最先进的性能。所有的视觉评估都是0次推理,其中MMMU、MathVista和ChartQA为0次推理链。

语言标记化
选择这20种语言是为了代表新标记器在不同语系中的压缩性

模型的安全性和局限性

GPT-4o在设计时就内置了跨模态的安全性,通过筛选训练数据和训练后精炼模型行为等技术来实现。我们还创建了新的安全系统,为语音输出提供保护。

我们根据我们的准备框架和自愿承诺对GPT-4o进行了评估。我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o在这些类别中的任何一个都没有超过中等风险。这一评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们测试了模型的安全缓解前和安全缓解后的版本,使用自定义的微调和提示,以更好地发挥模型的能力。

GPT-4o还经过了70多名外部专家的广泛外部红队测试,这些专家来自社会心理学、偏见和公平性以及虚假信息等领域,以识别新增模态引入或放大的风险。我们利用这些经验来建立我们的安全干预措施,以提高与GPT-4o交互的安全性。我们将继续缓解新发现的风险。

我们认识到,GPT-4o的音频模态带来了各种新的风险。今天,我们公开发布了文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、训练后的可用性和发布其他模态所必需的安全性。例如,在发布时,音频输出将仅限于一组预设的声音,并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享更多关于GPT-4o全模态的详细信息。

通过我们对模型的测试和迭代,我们观察到了模型所有模态中存在的几个局限性,其中一些如下所示。

我们非常希望收到反馈,以帮助识别GPT-4 Turbo仍然优于GPT-4o的任务,这样我们可以继续改进模型。

模型可用性

GPT-4o是我们在深度学习领域推动边界的最新一步,这次是在实际可用性的方向上。在过去两年中,我们花费了大量精力改进堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供一个GPT-4级别的模型。GPT-4o的功能将迭代推出(从今天起扩大红队访问权限)。

GPT-4o的文本和图像功能今天开始在ChatGPT中推出。我们在免费层中提供GPT-4o,并为Plus用户提供高达5倍的信息限制。在未来几周内,我们将在ChatGPT Plus中以alpha版本推出带有GPT-4o的新版语音模式。

开发人员现在还可以通过API作为文本和视觉模型访问GPT-4o。与GPT-4 Turbo相比,GPT-4o的速度快2倍,价格低一半,并且速率限制高5倍。我们计划在未来几周内通过API向一小群可信赖的合作伙伴推出对GPT-4o新的音频和视频功能的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/13238.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能|深度学习——YOLOV8结构图

YoloV8相对于YoloV5的改进点: Replace the C3 module with the C2f module.Replace the first 6x6 Conv with 3x3 Conv in the Backbone.Delete two Convs (No.10 and No.14 in the YOLOv5 config).Replace the first 1x1 Conv with 3x3 Conv in the Bottleneck.Use…

【图神经网络——消息传递】

消息传递机制 画图先:导包:画图: 实现消息传递:例子一:例子二: 画图先: 导包: import networkx as nx import matplotlib.pyplot as plt import torch from torch_geometric.nn im…

Linux操作系统最著名的两大系列Red Hat和Debian

Linux操作系统可以根据其背后的项目或社区分为不同的系列,其中最著名的两大系列是Red Hat系列和Debian系列。 1.著名的两大系列是Red Hat和Debian Red Hat系列: Red Hat Enterprise Linux (RHEL):这是Red Hat公司推出的企业级操作系统&#…

【LAMMPS学习】十、LAMMPS辅助工具(1)

10. 辅助工具 LAMMPS 被设计为用于执行分子动力学计算的计算内核。设置和分析模拟通常需要额外的预处理和后处理步骤。此类工具的列表可以在 LAMMPS 网页上的以下链接中找到: 前/后处理 外部 LAMMPS 软件包和工具 Pizza.py 工具包 Pizza.py 的最后一个链接是桑迪…

CTFshow misc

第一题1 打开图片直接就是flag 第二题0 放入010发现文件头有png 更换后缀 获得flag 第三题1 下载之后发现是bpg后缀 用在线工具转换为png获得flag 第四题 0 把六个文件后缀都改为png即可获得flag

Visual Studio Code 扩展程序Text Edits

需求 比如把Scarzombie_Monster全部转换为大写或者小写 安装 Text Edits 直接搜索安装即可 使用 假如要把Scarzombie_Monster全部转为大写,选中右键选中 To Upper Case或者直接快捷键shiftAltU即可

DHCP动态主机配置协议

DHCP概述 DHCP是什么 DHCP:Dynamic Host Configuration Protocol:动态主机配置协议DHCP是一种集中对用户IP地址进行动态管理和配置的技术 DHCP作用: 作用:实现IP地址的动态分配和集中管理优势:避免手工配置IP地址&…

微信小程序的自定义组件

一、创建自定义组件 (1)定义: 把页面重复的代码部分封装成为一个自定义组件,以便在不同的页面中重复使用,有助于代码的维护。 (2)组成: 自定义组件的组成:json文件&a…

Elasticsearch 搜索引擎实现对文档内容进行快速检索(保姆级教程)

本文主要讲解ES如何从提取文档中提取内容(word、pdf、txt、excel等文件类型),实现快速检索文档内容实现。 特别说明一下,为什么用7.10.0版本,因为在项目中除了精确匹配的要求,也会有模糊查询(关…

Android 异常开机半屏重启代码分析

Android 的稳定性是 Android 性能的一个重要指标,它也是 App 质量构建体系中最基本和最关键的一环;如果应用经常崩溃,或者关键功能不可用,那显然会对我们的留存产生重大影响所以为了保障应用的稳定性,我们首先应该树立…

Zynq UltraScale+ RFSoC 配置存储器器件

Zynq UltraScale RFSoC 配置存储器器件 下表所示闪存器件支持通过 Vivado 软件对 Zynq UltraScale RFSoC 器件执行擦除、空白检查、编程和验证等配置操 作。 本附录中的表格所列赛灵思系列非易失性存储器将不断保持更新 , 并支持通过 Vivado 软件对其中所列…

【C语言】6.C语言VS实用调试技巧(2)

文章目录 6.调试举例17.调试举例28.调试举例3&#xff1a;数组9.编程常⻅错误归类9.1 编译型错误9.2 链接型错误9.3 运⾏时错误 – 6.调试举例1 求 1!2!3!4!…10! 的和。 int main() {int n 0;int i 0;int ret 1;int sum 0;for (n 1; n < 3; n) {for (i 1; i < …

knife4j案例

1.导入 <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId> </dependency>2.在配置类中加入 knife4j 相关配置并设置静态资源映射&#xff08;否则接口文档页面无法访问&#xff…

就这?轻轻松松在RK356X Android11适配ML307R Cat.1模组

开源鸿蒙硬件方案领跑者 触觉智能 Industio 本文基于IDO-SXB3568主板&#xff0c;介绍Android11平台上适配中移物联ML307R Cat.1 4G模组的方法。该方法适用于触觉所有RK356X的主板。 IDO-SXB3568是触觉智能推出的RK3568行业主板&#xff0c;预计6月上旬正式上架售卖。该行业主…

鸿蒙OS开发:【一次开发,多端部署】(应用UX设计原则)

应用UX设计原则 设计原则 当为多种不同的设备开发应用时&#xff0c;有如下设计原则&#xff1a; 差异性 充分了解所要支持的设备&#xff0c;包括屏幕尺寸、交互方式、使用场景、用户人群等&#xff0c;对设备的特性进行针对性的设计。 一致性 除了要考虑每个设备的特性…

54.指针

目录 一.什么是指针&#xff1f; 二&#xff0e;定义一个指针变量 三&#xff0e;指针变量类型 四&#xff0e;取地址运算符& 五.取值运算符* 六.视频教程 一.什么是指针&#xff1f; 口语中的指针一般指指针变量&#xff0c;指针变量存放的是一个地址。普通变量存放…

电脑缺失api-ms-win-crt-runtime-l1-1-0.dll文件的几种修复方法

当您在使用电脑过程中遇到程序启动失败&#xff0c;提示缺少“api-ms-win-crt-runtime-l1-1-0.dll”文件时&#xff0c;不必过于焦虑&#xff0c;此问题通常与Windows系统的Visual C Redistributable组件未正确安装或损坏有关。小编将介绍5种修复电脑缺失api-ms-win-crt-runtim…

计算机毕业设计 | vue+springboot电影票售卖 影院售票商城 电影管理系统(附源码+论文)

1&#xff0c;项目背景 目的&#xff1a;本课题主要目标是设计并能够实现一个基于web网页的电影院购票选座系统&#xff0c;整个网站项目使用了B/S架构&#xff0c;基于vue和SpringBoot框架下开发&#xff1b;管理员通过后台管理系统实现管理影院信息&#xff0c;电影信息&…

[OpenGL] 点光源阴影(万向阴影贴图)

本章节源码 点击此处 文档持续更新 一 为什么采用点透视投影 透视投影: 由于点光源是一个点向四周发散的光线,所以这将导致点光源会以不同的角度到达场景中的不同表面&#xff0c;造成近大远小的效果,所以要采用透视投影矩阵来处理点光源的阴影,透视投影能够正确反映这种随着…

华为正式放弃高通芯片 | 百能云芯

5月15日&#xff0c;据外媒最新报道&#xff0c;高通公司正式确认&#xff0c;华为已无需依赖其处理器供应。 在出口许可被正式吊销前&#xff0c;高通的首席财务官已公开表示&#xff0c;预计明年与华为之间的芯片销售将为零&#xff0c;因为华为决定不再从高通购买4G芯片。 报…