Hello, GPT-4o!

7dac2487e2f77074314b3d3ebb1ddd4f.png

2024年5月13日,OpenAI 在官网正式发布了最新的旗舰模型 GPT-4o

它是一个 多模态模型,可以实时推理音频、视频和文本。

fb2c743979fd859ff54bf9e5ebb785a1.png

* 发布会完整版视频回顾:https://www.youtube.com/watch?v=DQacCB9tDaw

9a139518ea99f2de2fa61eb49051482b.png

GPT-4o(“o”代表“omni”,意为“全能”)是迈向更自然的人机交互的一大进步——它能够接受任意组合的文本、音频和图像作为输入,并输出各种组合的文本、音频和图像。

它能够在232毫秒内对音频输入作出响应,平均响应时间为320毫秒,与人类在对话中的响应时间相近

在英文和代码方面,它与GPT-4 Turbo的性能相当,而在非英文语言的文本方面有着显著的提升。

此外,它在API方面不仅更快,而且成本降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面表现尤为出色。

56c65982515f2beee17a4695214a6e76.png

* GPT-4o发布会前的预热视频

在这个发布会前的预热视频中,OpenAI的员工拿着手机拍摄周围的场景,GPT-4o非常快就提供了对周围环境的描述。接着员工让GPT-4o猜测今天要做什么,它说可能会与OpenAI有关,例如举办发布会之类的。

当员工提到这个发布会与“你”有关时,GPT-4o的回答让人有些惊讶,它竟然表现出人类般的 惊讶 停顿,这是 以往任何语音助手都没有的技术特征

曾于2013年获得奥斯卡最佳原创剧本的电影《Her》中,就展现了一场人与AI的爱恨纠葛,而11年后的今天,无所不能的“Her”已经由GPT-4o变成了现实,从今天起我们每个人都能拥有一个“Her”!

addcb585cfd31f6384eccebfe3111855.png

01

GPT-4o功能展示

* 以下为部分功能展示,之后我们将在视频号上公布GPT-4o的功能展示合辑,欢迎大家关注!

值得一提的是,在第四个展示案例中,家长要求GPT-4o 不要直接告诉答案,而是像名师一般,“授之于鱼,不如授之于渔”并逐步 引导学生自我思维并最终学会解题思路 的方式。

02

GPT-4o功能评估

在传统基准测试中,GPT-4o 在文本、推理和编码智能方面实现了与 GPT-4 Turbo 相当的性能,同时在多语言、音频和视觉能力方面设立了新的高水平标杆。

1、文本性能

9fa92f7465df3874a62f11ac1da46daf.png

提升的文本推理能力:GPT-4o在MMLU上取得了 88.7% 的新高分,超过了包括Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0、Llama3 400b等目前市面上著名大模型。

2、音频ASR性能

8e226dcef07ae0840ee0c7ba47c6e1f8.png

音频ASR性能:GPT-4o 在所有语言上显著提高了与Whisper-v3的语音识别性能,特别是对于资源较少的语言。

3、音频翻译性能

a6b1d91ddb3fda4680451b24d73871c9.png

音频翻译性能:GPT-4o 在语音翻译方面取得了新的 最先进水平,并在MLS基准上优于Whisper-v3。

4、视觉理解评估

750d7cf203f3892675f4f68c9839061c.png

视觉理解评估:GPT-4o 在视觉感知基准测试上取得了 最先进的性能

aed3d762513b2f8d167971f2e892e538.png

目前,GPT-4o 的文本和图像功能已经对ChatGPT开放,不久后,OpenAI将在ChatGPT Plus中推出GPT-4o的语音模式的新Alpha版本。让我们期待更强大的语音助手出现吧。

--- End ---

7203c0763d4eaa38e2c17b44054db5f8.gif

欢迎关注微软 智汇AI 官方账号

一手资讯抢先了解

e45f46f6b93b5364234578a8c2e2b9ba.png

喜欢就点击一下 在看 吧~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/13184.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高效协同,智慧绘制:革新型流程图工具全解析

流程图,作为一种直观展示工作过程和系统运作的工具,在现代办公和项目管理中发挥着不可或缺的作用。 其优势在于能够清晰、直观地呈现复杂的过程和关系,帮助人们快速理解并掌握关键信息。同时,流程图也广泛应用于各种场景&#xf…

【Python】图像批量合成视频,并以文件夹名称命名合成的视频

一个文件夹中有多个子文件夹,子文件夹中有多张图像。如何把批量把子文件夹中的图像合成视频,视频名称是子文件夹的名称,生成的视频保存到指定文件夹,效果记录。 代码 import os import cv2def create_video_from_images(image_f…

leetcode刷题(6):二叉树的使用

文章目录 104. 二叉树的最大深度解题思路c 实现 94. 二叉树的中序遍历解题思路c 实现 101. 对称二叉树解题思路c 实现 96. 不同的二叉搜索树解题思路c 实现 102. 二叉树的层序遍历解题思路c 实现 104. 二叉树的最大深度 题目: 给定一个二叉树 root ,返回其最大深度…

ALV 图标显示

前言 在ABAP ALV中,使用fieldcat来定义列表中每个字段的显示属性,包括图标(Icon)的显示。图标可以在ALV列表中为特定列的行或标题添加图形元素,以增强视觉提示或传达附加信息。 ICON查询 图标的名称用事务码”ICON“进…

智能BI(后端)-- 系统异步化

文章目录 系统问题分析什么是异步化?业务流程分析标准异步化的业务流程系统业务流程 线程池为什么需要线程池?线程池两种实现方式线程池的参数线程池的开发 项目异步化改造 系统问题分析 问题场景:调用的服务能力有限,或者接口的…

【文档理解】TextMonkey:一种OCR-Free的用于文档理解的多模态大模型

背景 传统的信息提取,通常是从文本中提取信息,相关技术也比较成熟。然而对于复杂领域,例如图片,文档等形式的数据,想要提取出高质量的、可信的数据难度就比较大了,这种任务也常称为:视觉文档理…

CTF网络安全大赛web题目:just_sqli

这道题目是bugku的web题目 题目的 描  述: KosenCTF{} 原文链接&#xff1a; CTF网络安全大赛web题目&#xff1a;just_sqli - 红客网-网络安全与渗透技术 题目Web源代码&#xff1a; <?php$user NULL; $is_admin 0;if (isset($_GET["source"])) {highlig…

齐护K210系列教程(二十七)_语音识别

语音识别 1.烧录固件和模型2.语音识别程序2.1训练并识别2.2使用本地文件语音识别 3.课程资源联系我们 1.烧录固件和模型 注&#xff1a;本应用只适用于有麦克风功能的型号&#xff1a;AIstart_pro、AIstart_掌机、AIstart_Mini, 其它型号不支持&#xff01; 机器码生成以及模…

linux中远程服务器上传输文件的10个sftp命令示例

目录 1. 如何连接到 SFTP 2. 帮助 3.检查当前工作目录 4. 使用 sftp 列出文件 远程 本地 5. 使用 sftp 上传文件 6. 使用 sftp 上传多个文件 7. 使用 sftp 下载文件 8. 在 sftp 中切换目录 远程 本地 9. 使用 sftp 创建目录 10. 使用 sftp 删除目录 11. 退出 sf…

(001)apidoc 的安装

安装 1.确定 node 和 npm 的匹配版本 node -vv10.14.1# 切换node 版本 nvm list nvm use 20.12.22.安装 apidoc。 npm install -g apidoc3.生成文档&#xff1a; apidoc -i ../ -o document/ -f ".java$"-i &#xff1a;指定扫描路径。-o&#xff1a;输出目录。…

【Linux:环境变量】

环境变量一般是指在操作系统中用来指定操作系统环境的一些参数 常见的环境变量&#xff1a; PATH 指定可执行程序的搜索路径 系统级的文件&#xff1a;/etc/bashrc 用户级文件&#xff1a;~/.bashrc ~/.bash_profile HOME 指定用户的主要工作目录&#xff08;当前用…

kettle从入门到精通 第六十一课 ETL之kettle 任务调度器,轻松使用xxl-job调用kettle中的job和trans

想真正学习或者提升自己的ETL领域知识的朋友欢迎进群&#xff0c;一起学习&#xff0c;共同进步。若二维码失效&#xff0c;公众号后台加我微信入群&#xff0c;备注kettle。 1、大家都知道kettle设计的job流程文件有个缺点&#xff1a;只能设置简单的定时任务&#xff0c;无法…

数据库-索引(高级篇)

文章目录 索引概念&#xff1f;索引演示&#xff1f;索引的优劣&#xff1f;为什么使用索引就快&#xff1f;本篇小结 更多相关内容可查看 索引概念&#xff1f; 索引&#xff08;index&#xff09;是帮助MySQL高效获取数据的数据结构(有序)。在数据之外&#xff0c;数据库系统…

语法分析-文法

如果对于一部文法中&#xff0c;存在至少一个句子有两个或者两个以上的语法树则该文法是二义性的。 我们可以以上面的例子进行解释&#xff0c;对于第棵个语法树&#xff0c;我们可以看到是先进行了加法运算再进行的乘法运算&#xff0c;因为需要先把EE作为整体运算完后再成为E…

上海亚商投顾:沪指低开低走 两市成交额跌破8000亿

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。 一.市场情绪 市场全天震荡走低&#xff0c;三大股指尾盘均跌近1%。地产股逆势走强&#xff0c;光大嘉宝、天地源、云南城投…

幻兽帕鲁Palworld服务器手动+docker部署方法+备份迁移

目录 帕鲁部署官方文档帕鲁手动安装法手动安装steamcmd通过steamcmd安装帕鲁后端 docker容器一键部署幻兽帕鲁绿联云NAS机器部署幻兽帕鲁客户端连接附录1&#xff1a;PalServer.sh的启动项附录2&#xff1a;配置文件游戏存档保存和迁移 关于阿里云计算巢 帕鲁部署官方文档 htt…

​学者观察 | 从区块链应用创新看长安链发展——CCF区块链专委会荣誉主任斯雪明

导语 2024年1月27日&#xff0c;斯雪明教授在长安链发布三周年庆暨生态年会上发表演讲&#xff0c;认为在区块链发展过程中&#xff0c;不仅需要技术创新&#xff0c;同时需要有价值、有特色、有示范意义的应用创新。斯雪明教授介绍了国内区块链技术与应用发展的现状、趋势与挑…

【数据结构】排序(直接插入排序,希尔排序)

目录 一、排序的概念 二、常见的排序算法 三、插入排序 1.直接插入排序 1.直接插入排序实现 2.直接插入排序特性及复杂度 2.希尔排序 1.排序思路 2.希尔排序实现 3.希尔排序的特性及复杂度 一、排序的概念 排序&#xff1a;所谓排序&#xff0c;就是使一串记录&#x…

python手写数字识别(PaddlePaddle框架、MNIST数据集)

python手写数字识别&#xff08;PaddlePaddle框架、MNIST数据集&#xff09; import paddle import paddle.nn.functional as F from paddle.vision.transforms import Compose, Normalizetransform Compose([Normalize(mean[127.5],std[127.5],data_formatCHW)]) # 使用tran…

[Java基础揉碎]多线程基础

多线程基础 什么是程序, 进程 什么是线程 什么是单线程,多线程 并发, 并行的概念 单核cpu来回切换, 造成貌似同时执行多个任务, 就是并发; 在我们的电脑中可能同时存在并发和并行; 怎么查看自己电脑的cpu有几核 1.资源监视器查看 2.此电脑图标右键管理- 设备管理器- 处理器…