OpenAI深夜震撼发布最新模型GPT-4o，送上最快速便捷教程

OpenAI深夜震撼发布最新模型GPT-4o，送上最快速便捷教程

news/2025/4/18 2:22:11/文章来源:https://blog.csdn.net/weixin_68336959/article/details/138850467

北京时间5月14日凌晨，有人说OpenAI一夜改变了历史。

在我们的深夜、太平洋时间的上午 10 点，OpenAI 召开春季发布会，公布了最新的GPT-4o模型，o代表Omnimodel（全能模型）。20多分钟的演示直播，展示了远超当前所有语音助手的AI交互体验，与外媒此前透露的消息基本重合。

GPT-4o 不仅在文本处理方面表现出色，还在图像和音频处理能力上实现了显著增强，标志着人机交互进入了一个更为自然和便捷的新时代。

实时语音功能

本次展示聚焦于 ChatGPT 应用的实时对话语音功能，通过现场演示，展示了用户与 AI 之间流畅无阻的交互体验。

通过手机上的应用程序，激活了 GPT-4o 的音频功能，与 AI 进行了实时对话，并体验了其即时响应与情绪感知能力。

它的表现仿佛一个人正坐在旁边，和人类的对话节奏自然、融洽，完全听不出是个AI。

其实多模态语音功能，OpenAI在之前已经可以实现，具体形式如下：

1. 语音识别：音频转文本，通过调用Whisper模型；

2. 模型处理得到回复：通过调用文本模型;

3. 语音合成：文本转音频，调用tts模型。

但这个过程会存在延迟导致无法“沉浸式”体验与AI的对话。

而GPT-4o在响应速度方面，完美解决了延迟问题。GPT-4o的响应音频速度几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒（GPT-4)。

另外，新语音功能的主要区别还包括：用户现在可以直接打断模型，无需等待模型完成发言即可插话，大大提高了对话的自然流畅度。

此外，新模型消除了延迟现象，反应迅速，不再有尴尬的等待时间。更重要的是，它能够感知用户的情绪状态，根据用户的语气和节奏调整交流方式，展现出更人性化的交互体验。

除了以上升级外，GPT-4o还在GPT-4的基础上做了很多升级包括：

极佳的多模态交互能力，包括语音、视频，以及屏幕共享。
可以实时识别和理解人类的表情，文字，以及数学公式。
交互语音感情丰富，可以变换语音语调、风格，还可以模仿，甚至“即兴”唱歌。
超低延时，且可以在对话中实时打断AI，增加信息或开启新话题。
所有ChatGPT用户均可免费使用（有使用上限）。
速度是GPT-4 Turbo的2倍，API成本低50%，速率限制高5倍。

视频互动解方程

另一个环节中，OpenAI另一位研发负责人手写了一个方程，并打开摄像头拍给ChatGPT，让它扮演「在线导师」的角色帮助自己解题，而且只能给提示，不能直接说答案。

接到任务的ChatGPT，甚至开心大叫：「Oops，我好兴奋啊！」

负责人在纸上写下这样一个方程：3x+1=4。然后问ChatGPT自己写的是什么方程，ChatGPT语调自然地回答出来了。

随后，在负责人的要求下，它按步骤一步一步说出了解题步骤。

最让人震惊的是，随着负责人在摄像头中解题，ChatGPT实时地就给出了鼓励和引导。

而且可怕的是，时间上没有丝毫延迟，这边负责人还在计算，ChatGPT就实时给出了评价和反馈。

整个过程完全和真人交流无异！

这个发布会还有很多很精彩的交流过程，在这里就不再详述，有兴趣的伙伴可以自己去观看了解~

总的来说，新发布的GPT-4o不仅提供与GPT-4同等程度的模型能力，推理速度更快，还提供同时理解文本、图像、音频等内容的多模态能力。

可以说GPT-4o，最大特色是它可以将文本、音频、图像任何组合作为多模态输入和输出，并且更快更智能！

沃卡AI已及时更新支持最新的GPT-4o模型，体验方法如下：

方式一：

打开网页www.woka.chat，选择模型“gpt-4o-2024-05-13”即可；

方式二：

通过api调用形式体验，打开https://4.0.wokaai.com，注册生成令牌（key）调用即可！

沃卡API特点：

● 透明：纯官方计价，支持查询用量明细，余额实时掌握。

● 稳定：庞大账号池作为支撑并定期优化扩容；一个key即可稳定快速调用所有模型！

● 方便：所有用到 OpenAI API 的地方都可以无缝替代；

● 快速：持续优化中转服务的线路速度，保证使用体验；不需像调用官方一样特地申请多个账号扩充限制！

● 省心：没有包月，没有会员，没有限时，用多少买多少，永不过期。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/837341.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

美国加州正测试ChatGPT等生成式AI，在4大部门应用

美国加州正测试ChatGPT等生成式AI，在4大部门应用

5月11日，美联社消息，美国加州政府正在测试ChatGPT等生成式AI，应用在税收和收费管理部、交通部、公共卫生部以及卫生与公众服务部4大部门。测试时间6个月，为其提供技术支持的一共有5家公司，分别是OpenAI、Anthropic、…

阅读更多...

成都新增数字产业园，打造生态经济新引擎

成都新增数字产业园，打造生态经济新引擎

成都产业园运营方树莓集团——数字产业生态链建设者。秉持高效、友善、敢为的集团核心文化，有效链接政、产、企、校四个板块，构建了产业生态闭环系统。在成都市区内，已布局了多家数字文创产业园，其中具有代表性的参考国际数字影像…

阅读更多...

Linux 第三十一章

Linux 第三十一章

🐶博主主页：ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列：线性代数，C初学者入门训练，题解C，C的使用文章，「初学」C，linux 🔥座右铭：“不要等到什么都没有了…

阅读更多...

GRFB-UNet：一种新的多尺度注意力网络，用于铺路分割

GRFB-UNet：一种新的多尺度注意力网络，用于铺路分割

不同场景下的带注释的触觉铺装示例： GRFB-UNet网络结构： GRFB模块的结构：铺路在视障人士的旅行中起着至关重要的作用。因此，识别铺装的形状和位置以支持视障人士的移动性是相当有意义的，而视觉分割技术就适合这项任务。为了有效提高触觉铺装分割的精度和鲁棒性，…

阅读更多...

httpsok-v1.11.0支持CDN证书自动部署

httpsok-v1.11.0支持CDN证书自动部署

🔥httpsok-v1.11.0支持CDN证书自动部署介绍 httpsok 是一个便捷的 HTTPS 证书自动续签工具，专为 Nginx 、OpenResty 服务器设计。已服务众多中小企业，稳定、安全、可靠。一行命令，一分钟轻松搞定SSL证书自动续期 v1.11.0 版…

阅读更多...

从“山寨的”MTK芯片发展历程同类芯片比较基础常识如何简单识别mtk机型

从“山寨的”MTK芯片发展历程同类芯片比较基础常识如何简单识别mtk机型

联发科技（MediaTek Inc.简称“联发科” ，联发科起家于CD-ROM芯片，直接将DVD内分别承担视频和数字解码功能的两颗芯片整合到了一颗芯片上，并提供相应的软件方案。并一度占据大陆DVD市场60%的芯片供应量！他将图像处理、M…

阅读更多...

证卡打印机打印头故障的主要原因以及如何预防

证卡打印机打印头故障的主要原因以及如何预防

爱立识打印头故障的主要原因主要包括以下几点： Evolis 打印机清洁卡灰尘或碎屑堆积：长时间不清洁打印机导致灰尘或碎屑在机器内积累，可能会导致打印头划伤或堵塞。使用不洁的卡片：使用不洁的卡片可能会导致灰尘或污垢进入打印机…

阅读更多...

气膜建筑为何能够建在楼顶—轻空间

气膜建筑为何能够建在楼顶—轻空间

近年来，随着体育设施建设的推进和政策支持，越来越多的体育从业者将目光聚焦到了楼顶，希望通过在楼顶加盖气膜馆来充分利用有限的土地资源。那么，为什么气膜建筑能够建在楼顶呢？轻空间将从气膜建筑的结构特点、安全性、…

阅读更多...

Java的VO，BO，PO，DO，DTO

Java的VO，BO，PO，DO，DTO

写在前面本文看下VO，BO，PO，DO，DTO，都是啥！ 1：正文先看一张图，看了图就能知道个大概了： 1.1：PO 全称是persistent object，对应数据的表&am…

阅读更多...

Linux - make与makefile

Linux - make与makefile

文章目录什么是make和makefile如何使用依赖关系和依赖方法伪目标写个程序-进度条换行和回车的区别什么是make和makefile make是一个命令 makefile是一个文件这就是make和makefile的本质 make和 ll , pwd ,su 一样都是命令 makefile和 test ， test.c 一样都是…

阅读更多...

SSL证书能不能同时服务多个二级域名？

SSL证书能不能同时服务多个二级域名？

SSL证书是一种用于加密和保护网站数据传输安全的数字证书，常用于保护网站、应用程序和其他网络服务的安全。在实际使用中，有时候一个网站可能包含多个二级域名，因此网站所有者可能会有疑问：SSL证书能否同时服务多个二级域名&#…

阅读更多...

REACT 在组件之间共享状态

REACT 在组件之间共享状态

有时，您希望两个组件的状态始终一起变化。要做到这一点，请从他们俩身上删除状态，将其移动到他们最近的共同父级，然后通过道具将其传递给他们。这被称为提升状态，这是编写 React 代码时最常见的事情之一。举例提升状态…

阅读更多...

正念冥想训练内容有哪些？流静冥想

正念冥想训练内容有哪些？流静冥想

正念冥想训练内容有哪些？ “我做不到感恩，总觉得满世界都是欠我的。”同学A这样说。看得出来她的无奈、无力以及无头绪感。 “我无法对父母做出感恩的祝福，从他们那里我感受不到爱，感受不到关怀，体验不到感恩。”同学…

阅读更多...

校园电话机对于校园信息化管理非常重要

校园电话机对于校园信息化管理非常重要

任何一部校园电话机都有信息办理渠道，并且发挥着重要的效果，能够满意整个机器的更快速运作。然后使学生能够取得一个更好的运用条件，学生在运用产品的过程中，要经过正确的操作环节才能够发挥产品的优胜功能，然后到达一…

阅读更多...

TCP连接建立与释放连接——＞三次握手和四次挥手

TCP连接建立与释放连接——＞三次握手和四次挥手

1.三次握手的概述我们在学网络的概念时，每当讲到TCP都会听到三次握手和四次挥手，一直以来可能都对这个概念模糊不清，那么什么是三次握手和四次挥手呢？简单的举一个例子，如果我们和朋友打游戏，我们要和朋友…

阅读更多...

【class2】人工智能初步（自然语言处理）

【class2】人工智能初步（自然语言处理）

要实现从评价中提取高频关键词，并判别其正负面性，其实是通过人工智能领域中的一个分支：自然语言处理。在了解自然语言处理之前，我们先来说说，什么是自然语言（Natural Language）？自…

阅读更多...

哔哩哔哩直播通用榜单系统

哔哩哔哩直播通用榜单系统

榜单系统的定位和业务价值榜单遍布B站直播相关业务的各个角落，直播打赏、直播间互动、付费玩法、互动玩法、活动、主播PK、语聊房、人气主播排名、高价值用户排名、增值集卡、up主充电等等，在这众多的业务场景中，我们能看到各种各样的榜单。…

阅读更多...

爬虫应该选择住宅ip代理还是数据中心代理？

爬虫应该选择住宅ip代理还是数据中心代理？

住宅代理住宅代理是互联网服务提供商 (ISP) 提供的 IP 地址，它们是附加到实际物理位置的真实IP地址。住宅代理允许用户通过目标区域内的真实IP地址连接到互联网。数据中心代理数据中心代理是指是使用数据中心拥有并管理IP的代理，IP地址来源于数据中…

阅读更多...

腐烂的橘子BFS

腐烂的橘子BFS

题目： 腐烂的橘子在给定的 m x n 网格 grid 中，每个单元格可以有以下三个值之一： 值 0 代表空单元格； 值 1 代表新鲜橘子； 值 2 代表腐烂的橘子。每分钟，腐烂的橘子周围 4 个方向上相邻的新鲜橘子…

阅读更多...

$使用VSCode撰写Latex文档$

使用VSCode撰写Latex文档

参考资料： 如何使用VSCode编写Latex？ 概要先安装texlive,然后安装VSCode. 我这里步骤是全的，但说的不那么细。只介绍VSCode中的配置方法。 VSCode配置步骤 1. 安装LaTex Workshop插件 2. 配置Latex编译环境将下列配置粘入settings.j…

阅读更多...

最新文章