【Open AI】GPT-4o深夜发布:视觉、听觉跨越式升级

北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。

本文内容来自OpenAI网站对GPT-4o的详细介绍

我们宣布推出GPT-4o,这是我们的新型旗舰模型,可以在音频、视觉和文本之间进行实时推理。

GPT-4o(“o”代表“omni”)是实现更为自然人机交互的重要一步——它接受文本、音频、图像和视频任意组合的输入,并生成文本、音频和图像输出的任意组合。它可以在短至232毫秒内对音频输入做出响应,平均响应时间为320毫秒,这与人类在对话中的响应时间相似(新窗口中打开)。它在英语文本和代码方面与GPT-4 Turbo性能相匹配,在非英语文本方面有显著提升,同时在API中速度更快,成本降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。

在GPT-4o之前,您可以使用语音模式与ChatGPT进行对话,GPT-3.5和GPT-4的平均延迟分别为2.8秒和5.4秒。为了实现这一点,语音模式由三个单独的模型组成:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着,智能的主要来源GPT-4会丢失大量信息——它无法直接观察到语调、多个说话者或背景噪音,也无法输出笑声、歌声或表达情感。

通过GPT-4o,我们训练了一个单一的跨文本、视觉和音频的端到端新模型,这意味着所有的输入和输出都由同一个神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型,我们仍在探索该模型能够做什么以及其局限性。

根据传统基准测试的结果,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新的高标准。

改进推理能力 - GPT-4o在0次推理链MMLU(常识性问题)上创下了88.7%的新高分。所有这些评估都是通过我们新的简单评估库收集的。此外,在传统的5次无推理链MMLU上,GPT-4o创下了87.2%的新高分。(注:Llama3 400b仍在训练中)

音频ASR(自动语音识别)性能 - GPT-4o在所有语言上的语音识别性能都显著优于Whisper-v3,尤其是对于资源较少的语言。

音频翻译性能——GPT-4o在语音翻译方面树立了新的技术标杆,并在MLS基准测试中表现优于Whisper-v3。

M3Exam——M3Exam基准测试既是一项多语言评估,也是一项视觉评估,它包括来自其他国家标准化测试中的多项选择题,这些题目有时会包含图表和图示。GPT-4o在这个基准测试上的所有语言表现都优于GPT-4。(我们省略了斯瓦希里语和爪哇语的视觉结果,因为这些语言的视觉问题只有5个或更少。

视觉理解评估——GPT-4o在视觉感知基准测试中取得了最先进的性能。所有的视觉评估都是0次推理,其中MMMU、MathVista和ChartQA为0次推理链。

语言标记化
选择这20种语言是为了代表新标记器在不同语系中的压缩性

模型的安全性和局限性

GPT-4o在设计时就内置了跨模态的安全性,通过筛选训练数据和训练后精炼模型行为等技术来实现。我们还创建了新的安全系统,为语音输出提供保护。

我们根据我们的准备框架和自愿承诺对GPT-4o进行了评估。我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o在这些类别中的任何一个都没有超过中等风险。这一评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们测试了模型的安全缓解前和安全缓解后的版本,使用自定义的微调和提示,以更好地发挥模型的能力。

GPT-4o还经过了70多名外部专家的广泛外部红队测试,这些专家来自社会心理学、偏见和公平性以及虚假信息等领域,以识别新增模态引入或放大的风险。我们利用这些经验来建立我们的安全干预措施,以提高与GPT-4o交互的安全性。我们将继续缓解新发现的风险。

我们认识到,GPT-4o的音频模态带来了各种新的风险。今天,我们公开发布了文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、训练后的可用性和发布其他模态所必需的安全性。例如,在发布时,音频输出将仅限于一组预设的声音,并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享更多关于GPT-4o全模态的详细信息。

通过我们对模型的测试和迭代,我们观察到了模型所有模态中存在的几个局限性,其中一些如下所示。

我们非常希望收到反馈,以帮助识别GPT-4 Turbo仍然优于GPT-4o的任务,这样我们可以继续改进模型。

模型可用性

GPT-4o是我们在深度学习领域推动边界的最新一步,这次是在实际可用性的方向上。在过去两年中,我们花费了大量精力改进堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供一个GPT-4级别的模型。GPT-4o的功能将迭代推出(从今天起扩大红队访问权限)。

GPT-4o的文本和图像功能今天开始在ChatGPT中推出。我们在免费层中提供GPT-4o,并为Plus用户提供高达5倍的信息限制。在未来几周内,我们将在ChatGPT Plus中以alpha版本推出带有GPT-4o的新版语音模式。

开发人员现在还可以通过API作为文本和视觉模型访问GPT-4o。与GPT-4 Turbo相比,GPT-4o的速度快2倍,价格低一半,并且速率限制高5倍。我们计划在未来几周内通过API向一小群可信赖的合作伙伴推出对GPT-4o新的音频和视频功能的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/13238.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据面试 --- 六

1、Flink中的三种时间,哪一个性能会比较好 在Flink中主要分成三种时间: 事件时间(Event Time)注入时间(Process Time)、摄入时间(Ingestion Time) 事件时间指的是事件产生的时间…

课时126:awk实践_进阶知识_内置函数1

1.2.5 内置函数1 学习目标 这一节,我们从 基础知识、简单实践、小结 三个方面来学习。 基础知识 简介 在awk内部预制了一些函数,借助于这些函数,我们可以实现相关场景的快速操作。这些内置函数的常见类型有:数值类内置函数int…

人工智能|深度学习——YOLOV8结构图

YoloV8相对于YoloV5的改进点: Replace the C3 module with the C2f module.Replace the first 6x6 Conv with 3x3 Conv in the Backbone.Delete two Convs (No.10 and No.14 in the YOLOv5 config).Replace the first 1x1 Conv with 3x3 Conv in the Bottleneck.Use…

【图神经网络——消息传递】

消息传递机制 画图先:导包:画图: 实现消息传递:例子一:例子二: 画图先: 导包: import networkx as nx import matplotlib.pyplot as plt import torch from torch_geometric.nn im…

Linux操作系统最著名的两大系列Red Hat和Debian

Linux操作系统可以根据其背后的项目或社区分为不同的系列,其中最著名的两大系列是Red Hat系列和Debian系列。 1.著名的两大系列是Red Hat和Debian Red Hat系列: Red Hat Enterprise Linux (RHEL):这是Red Hat公司推出的企业级操作系统&#…

【LAMMPS学习】十、LAMMPS辅助工具(1)

10. 辅助工具 LAMMPS 被设计为用于执行分子动力学计算的计算内核。设置和分析模拟通常需要额外的预处理和后处理步骤。此类工具的列表可以在 LAMMPS 网页上的以下链接中找到: 前/后处理 外部 LAMMPS 软件包和工具 Pizza.py 工具包 Pizza.py 的最后一个链接是桑迪…

CTFshow misc

第一题1 打开图片直接就是flag 第二题0 放入010发现文件头有png 更换后缀 获得flag 第三题1 下载之后发现是bpg后缀 用在线工具转换为png获得flag 第四题 0 把六个文件后缀都改为png即可获得flag

Visual Studio Code 扩展程序Text Edits

需求 比如把Scarzombie_Monster全部转换为大写或者小写 安装 Text Edits 直接搜索安装即可 使用 假如要把Scarzombie_Monster全部转为大写,选中右键选中 To Upper Case或者直接快捷键shiftAltU即可

使用yolov8 训练coco 和自己的关键点识别数据集的参考

使用yolov8 训练关键点配置理解 1. coco-pose.yaml 修改关键参数kpt_shape: [17, 3]flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]2. yolov8n-pose.yaml 修改kpt_shape3. 编写 train文件4.一个封装的推理代码1. coco-pose.yaml 修改关键参数 kpt_sha…

DHCP动态主机配置协议

DHCP概述 DHCP是什么 DHCP:Dynamic Host Configuration Protocol:动态主机配置协议DHCP是一种集中对用户IP地址进行动态管理和配置的技术 DHCP作用: 作用:实现IP地址的动态分配和集中管理优势:避免手工配置IP地址&…

linux编译gdb

下载 我下载了8.3 Index of /gnu/gdb 编译 make cleanmake diskclean./configure \--without-x \--disable-werrormake make install

微信小程序的自定义组件

一、创建自定义组件 (1)定义: 把页面重复的代码部分封装成为一个自定义组件,以便在不同的页面中重复使用,有助于代码的维护。 (2)组成: 自定义组件的组成:json文件&a…

.gitignore文件使用指南

.gitignore文件使用指南 .gitignore 文件的作用 忽略不需要的文件:避免将不必要的文件(如编译生成的文件、临时文件、日志文件等)提交到代码仓库。保护敏感信息:防止本地配置文件(如数据库配置文件、API 密钥等&…

阅读笔记——《代码整洁之道》ch2

引言 clean-code ch2阅读笔记 有意义的命名 名副其实 选择体现本意的名称能让人更容易理解和修改代码。 避免误导 怎么能知道该调用哪个函数呢? getActiveAccount(); getActiveAccounts(); getActiveAccountInfo();moneyAmount与money没区别,customerInfo与customer没区别。…

代码随想录-算法训练营day39【动态规划02:不同路径】

代码随想录-035期-算法训练营【博客笔记汇总表】-CSDN博客 第九章 动态规划part02● 62.不同路径 ● 63. 不同路径 II 今天开始逐渐有 dp的感觉了,题目不多,就两个 不同路径,可以好好研究一下详细布置 62.不同路径 本题大家掌握动态规划的方…

Elasticsearch 搜索引擎实现对文档内容进行快速检索(保姆级教程)

本文主要讲解ES如何从提取文档中提取内容(word、pdf、txt、excel等文件类型),实现快速检索文档内容实现。 特别说明一下,为什么用7.10.0版本,因为在项目中除了精确匹配的要求,也会有模糊查询(关…

Android 异常开机半屏重启代码分析

Android 的稳定性是 Android 性能的一个重要指标,它也是 App 质量构建体系中最基本和最关键的一环;如果应用经常崩溃,或者关键功能不可用,那显然会对我们的留存产生重大影响所以为了保障应用的稳定性,我们首先应该树立…

在vue3+typescript中使用d3 version 7注意的地方

前几天在做一个前端项目,需要在一个vue3typescript的项目中使用d3 上次做vue2d3v5的项目已经很多年了,这次不仅是vue3,用的typescript,而且d3也升级到v7了,有很多东西不一样了。 这里记录一下,避免日后忘…

go-Expect-实验

实验脚本程序 test.sh read -p "Would you like to rejoin it to the cluster? [y/N]:" v echo if [ "$v" "y" ];thenecho "$(date %s)shark A" >> ./test.log fi read -p "Would you like to rejoin it to the cluste…

JDK14和JDK1.14相同吗?

关于Java开发工具包(JDK)的命名,我们可以从Java版本的发展历史来详细解析其命名规则。 在Java的早期版本中,JDK的版本号使用了“1.x”的格式,其中“x”是版本号,如JDK 1.0、JDK 1.1、JDK 1.2等。然而&…