免费!GPT-4o发布,实时语音视频丝滑交互

We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.

5月14日凌晨,OpenAI召开了春季发布会,发布会上公布了新一代旗舰型生成式人工智能大模型【GPT-4o】,并表示该模型对所有免费用户开放,意味着广大用户将能够通过ChatGPT平台直接体验到OpenAI的最新技术成果,享受前所未有的智能交互体验。

一、三项革新

历次OpenAI发布会都堪称AI界“春晚”,一经开启即刻引爆。本次发布会的主持人是OpenAI 首席技术官(CTO)Muri Murati ,其在一开始便表明今天的发布会共三件事:

  1. 让先进的AI工具能够免费提供给所有用户,以后OpenAI的产品将以免费为最优先
  2. 发布ChatGPT的桌面版本及更新的UI界面
  3. 推出旗舰级生成式人工智能大模型——GPT-4o

我们通常所了解的大模型更新命名都是以【X.X】的形式,然而本次OpenAI创新性的提出一个新的理念,GPT-4o,这个“o”在OpenAI的官网中给出了解答,“o”代表“omni”,在拉丁语中表示“全能的、全知的”,意味着本次GPT-4o是一次全方位的升级。

它能够接受文本、音频和图像的任意组合作为输入,并且能够生成文本、音频和图像的任意组合作为输出。GPT-4o对音频输入的响应速度极快,最短仅需232毫秒,平均响应时间为320毫秒,这与人类在对话中的自然反应时间相似。在英文文本和代码处理上,GPT-4o与GPT-4 Turbo的性能相当,同时在非英文文本处理上取得了显著进步。此外,GPT-4o在API调用速度上更快,成本也降低了50%。特别值得一提的是,GPT-4o在视觉和音频理解方面相比现有模型有显著提升。

Muri Murati的介绍中,GPT-4o 模型的发布是对现有技术的一次重大飞跃,首次将 GPT-4 级别的智能普及到所有用户,包括免费用户。

据其所说,目前全世界有超过一亿位用户使用ChatGPT来创造、工作和学习。然而到目前为止,仅有付费用户能够体验到这些先进的功能。但是升级后的4.0有足够的能力将这些功能提供给每一位用户。GPT-4o 的文本和图像功能今天开始免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。

除此之外,GPT-4o是一个多模态大模型,它代表了OpenAI在文本、视觉和音频领域端到端训练新模型的一次重大进展。这一创新意味着所有类型的输入和输出——无论是文本、音频还是图像——都由同一个先进的神经网络统一处理。GPT-4o能够接收任意组合的文本、音频和图像作为输入,并据此生成任意组合的文本、音频和图像作为输出,从而实现更加灵活和高效的交互体验。

二、现场演示

在发布会现场,OpenAI的工程师Mark Chen为我们演示了几个主要的能力。其中重点则是实时语音对话功能。

Mark Chen表示:“我正在进行现场演示,但我感到有点紧张。你能帮我稍微平静一下神经吗?”

ChatGPT说:“深呼吸,记住你是个专家”

好的,Mark Chen深呼吸

ChatGPT立马表示:“慢点!你不是个吸尘器”

在现场演示中可以看出,用户现在可以随时与模型互动,无需等待,且可通过按钮即时操作。模型提供实时反馈,避免了以往对话中的延迟。此外,它还能感知用户情绪,如在用户紧张时提醒冷静,并能以多样的情感风格生成声音,展现出宽广的动态表现力。

关于语音交流,OpenAI的官网还发布了1个5分钟的详细演示视频,感兴趣的可以自行前往观看那。

官网链接:Hello GPT-4o | OpenAI

此外,另一位工程师Barrett Zoph现场为我们演示了GPT-4o的视觉功能,使用者可以用视频与其进行互动。

Barrett和GPT打了个招呼后说:“需要你帮忙解决一道数学题,我在纸上写一个方程”

GPT回答:“当然可以”

Barrett:“我希望你能帮助我度过难关。但重要的是,不要告诉我解决方案,只需在途中帮助给我提示”

【此时,Barrett打开了与GPT的视频,同时书写题目】

Barrett:“我写的是什么方程?”

GPT马上做出回应:“好的,我看到你写下了3x+1=4”

Barrett:“那么第一步应该采取什么步骤来尝试解决问题?”

GPT:"第一步是获取一边是X,另一边是常量的所有项。那你认为我们应该怎么做?加1?“

在GPT的指导中,Barrett一步步写下了该题目的解题步骤。

接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。

输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。

"此代码获取特定位置和时间段的每日天气数据,使用滚动平均值平滑温度数据,在生成的图表上注释重要的天气事件,然后显示全年平均、最低和最高温度的图表。"

甚至在发布会的最后,Muri Murati选取了现场观众给出的演示建议,为大家演示实时翻译功能以及根据照片来判断情绪等等。

Barrett:“我要给你看一张我的自拍照,然后我想让你试着看看我根据自己的外表感受到了什么情绪”

Barrett打开视频功能,将自己的表情给GPT看】

GPT:“看起来你感到非常开心和愉快,带着灿烂的微笑,甚至可能有点兴奋“

当然直播演示中大家与GPT的对话并非如此的简洁,实际上还包括了很多与GPT进行幽默互动的环节。GPT展现出的活力和及时反馈非常吸引人,推荐大家观看直播回放 https://www.youtube.com/watch?v=DQacCB9tDaw&t=3s

三、GPT-4o模型评估

相比于以往ChatGPT新版本发布后给出的研究论文和技术报告,本次OpenAI并未放出任何研究报告,而是转为在官网中放出了本次的升级以及模型评估对比。按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。

  • 文本评估

GPT-4o在0-shot COT MMLU测试中以88.7%的准确率刷新了常识性问题解答的新高。这些评估结果都是利用我们新开发的简易评估库获得的。同时,在传统的5次训练(5-shot)无COT的MMLU测试中,GPT-4o也以87.2%的准确率创下了新记录。

  • 音频翻译性能

在音频翻译性能上,GPT-4o 在语音翻译方面创下了新的领先地位,并在 MLS 基准测试中优于 Whisper-v3。同时也超越了另一位竞争对手谷歌旗下的Gemini。

  • 视觉理解评估

在视觉理解上,也实现对Gemini 1.0 Ultra与对家Claude Opus的超越

四 、说在最后

毫无疑问本次OpenAI给出的信息量无疑是爆炸式的,无论是GPT-4o所展现出的全新的可能性,还是OpenAI决定对免费用户开放更多的功能,其带给大众的震撼都是真实可见的。

就像OpenAI首席执行在发布会前所发布的信息一样,电影《她》成为了一种“纪录片”,我们对AI的想象正在逐渐成为现实。

各位感兴趣的小伙伴们,现在打开ChatGPT已经可以登录使用GPT-4o,大家可以自行前往体验。

当然,最后我们也可以再期待一手北京时间5月15日凌晨,谷歌将召开I/O大会。届时是否会带来全新的变革,我们也可以拭目以待。

参考资料:

  1. https://OpenAI.com/index/hello-GPT-4o/
  2. https://www.youtube.com/watch?v=DQacCB9tDaw&t=3s

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/25717.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JDBC简介以及快速入门

这些都是JDBC提供的API 简介 每一个数据库的底层细节都不一样 不可能用一套代码操作所有数据库 我们通过JDBC可以操作所有的数据库 JDBC是一套接口 我们自己定义了实现类 定义实现类 然后就能用Java操作自己的数据库了 MySQL对于JDBC的实现类 就是驱动 快速入门 创建新的项…

MySQL-函数/约束

MySQL-函数 distinct-去重 //放在select后 1、字符串函数 SELECT 函数(参数) CONCAT(S1,S2,S3...)-字符串拼接,拼接成一个字符串。 LOWER(str)-将字符串str全部转换为小写。 UPPER(str)-将字符串str全部转换为大写。 LPAD(str,n,pad)-左填充,用字…

vscode copilot git commit 生成效果太差,用其他模型替换

问题 众所周知,copilot git commit 就像在随机生成 git commit 这种较为复杂的内容还是交给大模型做比较合适 方法 刚好,gitlens 最近开发了 AI commit的功能,其提供配置url api可以实现自定义模型 gitlens 只有3种模型可用&#xff1a…

【Python】在【数据挖掘】与【机器学习】中的应用:从基础到【AI大模型】

目录 💗一、Python在数据挖掘中的应用💕 💖1.1 数据预处理💞 💖1.2 特征工程💕 💗二、Python在机器学习中的应用💕 💖2.1 监督学习💞 💖2.2…

树二叉树

树 ​ 树是 n(n≥0)个结点的有限集。当 n 0时,称为空树。在任意一颗非空树中应满足: (1)有且仅有一个特定的称为根的结点。 (2)当 n > 1时,其余结点可分为 m&…

基于小波的多元信号降噪-基于马氏距离和EDF统计(MATLAB R2018a)

马氏距离是度量学习中一种常用的距离指标,通常被用作评定数据样本间的相似度,可以应对高维线性分布数据中各维度间非独立同分布的问题,计算方法如下。 (1)计算样本向量的平均值。 (2)计算样本向…

Golang:malformed module path “xxx“: missing dot in first path element

首先,这个问题往往是在golang中引入自己创建的包时发生的错误。解决方案如下 解决方案1: 检查被引入包下是否存在go.mod,因为你首先要保证你引入的是一个模块,而不只是一个文件夹,类似python包下init.py。因此,一个列子如下&…

Golang的协程调度器GMP

目录 GMP 含义 设计策略 全局队列 P的本地队列 GMP模型以及场景过程 场景一 场景2 场景三 场景四 场景五 场景六 GMP 含义 协程调度器,它包含了运行协程的资源,如果线程想运行协程,必须先获取P,P中还包含了可运行的G…

redis-benchmark 基准测试

我们可以通过 redis 自带工具 redis-benchmark 来对 redis 服务器进行性能测试。 我们可以通过简单的 redis-benchmark 命令直接对本地部署的 redis 进行性能测试,不用输入任何的参数。默认情况下,redis-benchmark 会向 redis 服务器使用 50 个并发连接…

零基础直接上手java跨平台桌面程序,使用javafx(二)可视化开发Scene Builder

我们只做实用的东西,不学习任何理论,如果你想学习理论,请去买几大本书,慢慢学去。 NetBeans有可视化工具,但是IntelliJ IDEA对于javafx,默认是没有可视化工具的。习惯用vs的朋友觉得,写界面还要是有一个布局…

永久免费的iPhone,iPad,Mac,iWatch锁屏,桌面壁纸样机生成器NO.105

使用这个壁纸样机生成器,生成iPhone,iPad,Mac,iWatch锁屏,桌面壁纸,展示你的壁纸作品,一眼就看出壁纸好不好看,适不适合 资源来源于网络,免费分享仅供学习和测试使用&am…

领域驱动设计:异常处理

一、异常的处理 异常处理是领域模型要考虑的一部分,原因在于模型的责任不可能无限大。在遇到自己处理能力之外的情况时,要采用异常机制报告错误,并将处理权转交。异常就是这样一种机制,某种程度上,它可以保证领域模型…

06-服务拆分-服务远程调用

06-服务拆分-服务远程调用 1.根据订单id查询订单功能 需求:根据订单id查询订单的同时,把订单所属的用户信息一起返回 2.远程调用方式分析: 1.注册RestTemplate ​ 在order-service的OrderApplication中注册RestTemplate 代码: @MapperScan("cn.itcast.order.ma…

Python 设计模式(结构型)

文章目录 代理模式场景示例 门面模式场景示例 桥接模式场景示例 适配器模式场景示例 外观模式对比门面模式场景示例 享元模式场景示例 装饰器模式场景示例 组合模式场景示例 代理模式 在Python中,代理模式是一种结构型设计模式,它允许你提供一个代理对象…

grok debugger 正则解析 网络安全设备日志

1、网络设备、安全设备不同品牌、不同型号的设备,日志格式都不一样,那针对这种情况,我们可以使用工具grok debugger进行日志格式解析,具体的网址为: 地址:https://grokdebug.herokuapp.com/ 也可以采用私有化部署&am…

使用Python去除PNG图片背景

要使用Python自动去除PNG图片的背景,你可以使用remove.bg的API,或者使用一些图像处理库如OpenCV和Pillow结合Mask R-CNN等深度学习模型。以下是一个使用Pillow库的简单示例: 安装所需库: pip install pillow numpy使用以下代码去…

归并排序的递归与非递归实现

递归实现 归并排序有点类似于二叉树的后序遍历,是一种基于分治思想的排序算法。具体过程如下: 但要注意,在归并时要额外开辟一个与原数组同等大小的空间用来存储每次归并排序后的值,然后再拷贝到原数组中。 代码实现&#xff1a…

【十大排序算法】归并排序

归并排序,如同秋日落叶,分散而细碎, 然而风吹叶动,自然而有序, 彼此相遇,轻轻合拢, 最终成就,秩序之谧。 文章目录 一、归并排序二、发展历史三、处理流程四、算法实现五、算法特性…

树莓派4B_OpenCv学习笔记5:读取窗口鼠标状态坐标_TrackBar滑动条控件的使用

今日继续学习树莓派4B 4G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: Opencv 版本是4.5.1: 今日学习:读取窗口鼠标状态坐标_TrackBar滑动条控件的使…

自然资源-《乡村振兴用地政策指南(2023年)》解读

自然资源-《乡村振兴用地政策指南(2023年)》解读 近期,自然资源部办公厅印发《乡村振兴用地政策指南(2023年)》(以下简称《指南》)。作为第一部针对乡村振兴用地政策的“工具包”,《…