免费!GPT-4o发布,实时语音视频丝滑交互

We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.

5月14日凌晨,OpenAI召开了春季发布会,发布会上公布了新一代旗舰型生成式人工智能大模型【GPT-4o】,并表示该模型对所有免费用户开放,意味着广大用户将能够通过ChatGPT平台直接体验到OpenAI的最新技术成果,享受前所未有的智能交互体验。

一、三项革新

历次OpenAI发布会都堪称AI界“春晚”,一经开启即刻引爆。本次发布会的主持人是OpenAI 首席技术官(CTO)Muri Murati ,其在一开始便表明今天的发布会共三件事:

  1. 让先进的AI工具能够免费提供给所有用户,以后OpenAI的产品将以免费为最优先
  2. 发布ChatGPT的桌面版本及更新的UI界面
  3. 推出旗舰级生成式人工智能大模型——GPT-4o

我们通常所了解的大模型更新命名都是以【X.X】的形式,然而本次OpenAI创新性的提出一个新的理念,GPT-4o,这个“o”在OpenAI的官网中给出了解答,“o”代表“omni”,在拉丁语中表示“全能的、全知的”,意味着本次GPT-4o是一次全方位的升级。

它能够接受文本、音频和图像的任意组合作为输入,并且能够生成文本、音频和图像的任意组合作为输出。GPT-4o对音频输入的响应速度极快,最短仅需232毫秒,平均响应时间为320毫秒,这与人类在对话中的自然反应时间相似。在英文文本和代码处理上,GPT-4o与GPT-4 Turbo的性能相当,同时在非英文文本处理上取得了显著进步。此外,GPT-4o在API调用速度上更快,成本也降低了50%。特别值得一提的是,GPT-4o在视觉和音频理解方面相比现有模型有显著提升。

Muri Murati的介绍中,GPT-4o 模型的发布是对现有技术的一次重大飞跃,首次将 GPT-4 级别的智能普及到所有用户,包括免费用户。

据其所说,目前全世界有超过一亿位用户使用ChatGPT来创造、工作和学习。然而到目前为止,仅有付费用户能够体验到这些先进的功能。但是升级后的4.0有足够的能力将这些功能提供给每一位用户。GPT-4o 的文本和图像功能今天开始免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。

除此之外,GPT-4o是一个多模态大模型,它代表了OpenAI在文本、视觉和音频领域端到端训练新模型的一次重大进展。这一创新意味着所有类型的输入和输出——无论是文本、音频还是图像——都由同一个先进的神经网络统一处理。GPT-4o能够接收任意组合的文本、音频和图像作为输入,并据此生成任意组合的文本、音频和图像作为输出,从而实现更加灵活和高效的交互体验。

二、现场演示

在发布会现场,OpenAI的工程师Mark Chen为我们演示了几个主要的能力。其中重点则是实时语音对话功能。

Mark Chen表示:“我正在进行现场演示,但我感到有点紧张。你能帮我稍微平静一下神经吗?”

ChatGPT说:“深呼吸,记住你是个专家”

好的,Mark Chen深呼吸

ChatGPT立马表示:“慢点!你不是个吸尘器”

在现场演示中可以看出,用户现在可以随时与模型互动,无需等待,且可通过按钮即时操作。模型提供实时反馈,避免了以往对话中的延迟。此外,它还能感知用户情绪,如在用户紧张时提醒冷静,并能以多样的情感风格生成声音,展现出宽广的动态表现力。

关于语音交流,OpenAI的官网还发布了1个5分钟的详细演示视频,感兴趣的可以自行前往观看那。

官网链接:Hello GPT-4o | OpenAI

此外,另一位工程师Barrett Zoph现场为我们演示了GPT-4o的视觉功能,使用者可以用视频与其进行互动。

Barrett和GPT打了个招呼后说:“需要你帮忙解决一道数学题,我在纸上写一个方程”

GPT回答:“当然可以”

Barrett:“我希望你能帮助我度过难关。但重要的是,不要告诉我解决方案,只需在途中帮助给我提示”

【此时,Barrett打开了与GPT的视频,同时书写题目】

Barrett:“我写的是什么方程?”

GPT马上做出回应:“好的,我看到你写下了3x+1=4”

Barrett:“那么第一步应该采取什么步骤来尝试解决问题?”

GPT:"第一步是获取一边是X,另一边是常量的所有项。那你认为我们应该怎么做?加1?“

在GPT的指导中,Barrett一步步写下了该题目的解题步骤。

接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。

输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。

"此代码获取特定位置和时间段的每日天气数据,使用滚动平均值平滑温度数据,在生成的图表上注释重要的天气事件,然后显示全年平均、最低和最高温度的图表。"

甚至在发布会的最后,Muri Murati选取了现场观众给出的演示建议,为大家演示实时翻译功能以及根据照片来判断情绪等等。

Barrett:“我要给你看一张我的自拍照,然后我想让你试着看看我根据自己的外表感受到了什么情绪”

Barrett打开视频功能,将自己的表情给GPT看】

GPT:“看起来你感到非常开心和愉快,带着灿烂的微笑,甚至可能有点兴奋“

当然直播演示中大家与GPT的对话并非如此的简洁,实际上还包括了很多与GPT进行幽默互动的环节。GPT展现出的活力和及时反馈非常吸引人,推荐大家观看直播回放 https://www.youtube.com/watch?v=DQacCB9tDaw&t=3s

三、GPT-4o模型评估

相比于以往ChatGPT新版本发布后给出的研究论文和技术报告,本次OpenAI并未放出任何研究报告,而是转为在官网中放出了本次的升级以及模型评估对比。按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。

  • 文本评估

GPT-4o在0-shot COT MMLU测试中以88.7%的准确率刷新了常识性问题解答的新高。这些评估结果都是利用我们新开发的简易评估库获得的。同时,在传统的5次训练(5-shot)无COT的MMLU测试中,GPT-4o也以87.2%的准确率创下了新记录。

  • 音频翻译性能

在音频翻译性能上,GPT-4o 在语音翻译方面创下了新的领先地位,并在 MLS 基准测试中优于 Whisper-v3。同时也超越了另一位竞争对手谷歌旗下的Gemini。

  • 视觉理解评估

在视觉理解上,也实现对Gemini 1.0 Ultra与对家Claude Opus的超越

四 、说在最后

毫无疑问本次OpenAI给出的信息量无疑是爆炸式的,无论是GPT-4o所展现出的全新的可能性,还是OpenAI决定对免费用户开放更多的功能,其带给大众的震撼都是真实可见的。

就像OpenAI首席执行在发布会前所发布的信息一样,电影《她》成为了一种“纪录片”,我们对AI的想象正在逐渐成为现实。

各位感兴趣的小伙伴们,现在打开ChatGPT已经可以登录使用GPT-4o,大家可以自行前往体验。

当然,最后我们也可以再期待一手北京时间5月15日凌晨,谷歌将召开I/O大会。届时是否会带来全新的变革,我们也可以拭目以待。

参考资料:

  1. https://OpenAI.com/index/hello-GPT-4o/
  2. https://www.youtube.com/watch?v=DQacCB9tDaw&t=3s

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/25717.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JDBC简介以及快速入门

这些都是JDBC提供的API 简介 每一个数据库的底层细节都不一样 不可能用一套代码操作所有数据库 我们通过JDBC可以操作所有的数据库 JDBC是一套接口 我们自己定义了实现类 定义实现类 然后就能用Java操作自己的数据库了 MySQL对于JDBC的实现类 就是驱动 快速入门 创建新的项…

vscode copilot git commit 生成效果太差,用其他模型替换

问题 众所周知,copilot git commit 就像在随机生成 git commit 这种较为复杂的内容还是交给大模型做比较合适 方法 刚好,gitlens 最近开发了 AI commit的功能,其提供配置url api可以实现自定义模型 gitlens 只有3种模型可用&#xff1a…

【Python】在【数据挖掘】与【机器学习】中的应用:从基础到【AI大模型】

目录 💗一、Python在数据挖掘中的应用💕 💖1.1 数据预处理💞 💖1.2 特征工程💕 💗二、Python在机器学习中的应用💕 💖2.1 监督学习💞 💖2.2…

树二叉树

树 ​ 树是 n(n≥0)个结点的有限集。当 n 0时,称为空树。在任意一颗非空树中应满足: (1)有且仅有一个特定的称为根的结点。 (2)当 n > 1时,其余结点可分为 m&…

基于小波的多元信号降噪-基于马氏距离和EDF统计(MATLAB R2018a)

马氏距离是度量学习中一种常用的距离指标,通常被用作评定数据样本间的相似度,可以应对高维线性分布数据中各维度间非独立同分布的问题,计算方法如下。 (1)计算样本向量的平均值。 (2)计算样本向…

Golang的协程调度器GMP

目录 GMP 含义 设计策略 全局队列 P的本地队列 GMP模型以及场景过程 场景一 场景2 场景三 场景四 场景五 场景六 GMP 含义 协程调度器,它包含了运行协程的资源,如果线程想运行协程,必须先获取P,P中还包含了可运行的G…

零基础直接上手java跨平台桌面程序,使用javafx(二)可视化开发Scene Builder

我们只做实用的东西,不学习任何理论,如果你想学习理论,请去买几大本书,慢慢学去。 NetBeans有可视化工具,但是IntelliJ IDEA对于javafx,默认是没有可视化工具的。习惯用vs的朋友觉得,写界面还要是有一个布局…

永久免费的iPhone,iPad,Mac,iWatch锁屏,桌面壁纸样机生成器NO.105

使用这个壁纸样机生成器,生成iPhone,iPad,Mac,iWatch锁屏,桌面壁纸,展示你的壁纸作品,一眼就看出壁纸好不好看,适不适合 资源来源于网络,免费分享仅供学习和测试使用&am…

归并排序的递归与非递归实现

递归实现 归并排序有点类似于二叉树的后序遍历,是一种基于分治思想的排序算法。具体过程如下: 但要注意,在归并时要额外开辟一个与原数组同等大小的空间用来存储每次归并排序后的值,然后再拷贝到原数组中。 代码实现&#xff1a…

【十大排序算法】归并排序

归并排序,如同秋日落叶,分散而细碎, 然而风吹叶动,自然而有序, 彼此相遇,轻轻合拢, 最终成就,秩序之谧。 文章目录 一、归并排序二、发展历史三、处理流程四、算法实现五、算法特性…

树莓派4B_OpenCv学习笔记5:读取窗口鼠标状态坐标_TrackBar滑动条控件的使用

今日继续学习树莓派4B 4G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: Opencv 版本是4.5.1: 今日学习:读取窗口鼠标状态坐标_TrackBar滑动条控件的使…

redis 05 复制 ,哨兵

01.redis的复制功能,使用命令slaveof 2. 2.1 2.2 3. 3.1 3.1.1 3.1.2 3.1.3 4 4.1 4.2 例子 5.1 这里是从客户端发出的指令 5.2 套接字就是socket 这里是和redis事件相关的知识 5.3 ping一下

idea编码问题:需要 <标识符> 非法的类型 、需要为 class、interface 或 enum 问题解决

目录 问题现象 问题解决 问题现象 今天在idea 使用中遇到的一个编码的问题就是&#xff0c;出现了这个&#xff1a; Error:(357, 28) java: /home/luya...........anageService.java:357: 需要 <标识符> Error:(357, 41) java: /home/luya............anageService.ja…

Cinema 4D 2024 软件安装教程、附安装包下载

Cinema 4D 2024 Cinema 4D&#xff08;C4D&#xff09;是一款由Maxon开发的三维建模、动画和渲染软件&#xff0c;广泛用于电影制作、广告、游戏开发、视觉效果等领域。Cinema 4D允许用户创建复杂的三维模型&#xff0c;包括角色、场景、物体等。它提供了多种建模工具&#x…

Channels无法使用ASGI问题

Django Channels是一个基于Django的扩展, 用于处理WebSockets, 长轮询和触发器事件等实时应用程序. 它允许Django处理异步请求, 并提供了与其他WebSockets库集成的功能.当我们在Django Channels中使用ASGI_APPLICATION设置时, 我们可以指定一个新的ASGI应用程序来处理ASGI请求.…

数据库期末设计——图书管理系统

目录 1.前置软件以及开发环境&#xff1a; 2.开发过程讲解 代码环节&#xff1a; 数据库代码 1.BookDao.java 2.BookTypeDao.java 3.UserDao.java 4.Book.java 5.BookType.java 6.User.java 7.DbUtil.java 8.Stringutil.java 9.BookAddInterFrm.java 10.BookMan…

freertos中的链表1 - 链表的数据结构

1.概述 freertos中链表的实现在 list.c 和 list.h。旨在通过学习freertos中的链表的数据结构&#xff0c;对freertos中的链表实现有一个整体的认识。freertos使用了三个数据结构来描述链表&#xff0c;分别是&#xff1a;List_t&#xff0c; MiniListItem_t&#xff0c;ListIt…

产品创新:驱动企业增长的核心动力

在当今快速变化的市场环境中&#xff0c;产品创新已成为企业生存和发展的关键。产品创新不仅涉及全新产品或服务的开发&#xff0c;也包括对现有产品或服务的持续改进和优化。本文将深入探讨产品创新的定义、重要性以及如何通过创新驱动企业增长&#xff0c;并结合实际案例进行…

Java核心: JarIndex的使用

在讲解Java类加载器的时候&#xff0c;我们发现URLClassLoader加载类或资源时通过访问ClassPath下的每一个路径&#xff0c;来确定类是否存在的&#xff0c;假设我们执行的命令是这样的 java -classpath D:\DiveInSpring\target\classes;C:\lib\spring-expression.jar;C:\lib\…

Robust Tiny Object Detection in Aerial Images amidst Label Noise

文章目录 AbstractIntroductionRelated WorkMethodsClass-aware Label CorrectionUpdateFilteringTrend-guided Learning StrategyTrend-guided Label ReweightingRecurrent Box RegenerationExperimentpaper Abstract 精确检测遥感图像中的小目标非常困难,因为这类目标视觉信…