OpenAI深夜震撼发布最新模型GPT-4o,送上最快速便捷教程

北京时间5月14日凌晨,有人说OpenAI一夜改变了历史。

在我们的深夜、太平洋时间的上午 10 点,OpenAI 召开春季发布会,公布了最新的GPT-4o模型,o代表Omnimodel(全能模型)。20多分钟的演示直播,展示了远超当前所有语音助手的AI交互体验,与外媒此前透露的消息基本重合。

GPT-4o 不仅在文本处理方面表现出色,还在图像和音频处理能力上实现了显著增强,标志着人机交互进入了一个更为自然和便捷的新时代。

实时语音功能

本次展示聚焦于 ChatGPT 应用的实时对话语音功能,通过现场演示,展示了用户与 AI 之间流畅无阻的交互体验。

通过手机上的应用程序,激活了 GPT-4o 的音频功能,与 AI 进行了实时对话,并体验了其即时响应与情绪感知能力。

它的表现仿佛一个人正坐在旁边,和人类的对话节奏自然、融洽,完全听不出是个AI。

其实多模态语音功能,OpenAI在之前已经可以实现,具体形式如下:

1. 语音识别:音频转文本,通过调用Whisper模型;

2. 模型处理得到回复:通过调用文本模型;

3. 语音合成:文本转音频,调用tts模型。

但这个过程会存在延迟导致无法“沉浸式”体验与AI的对话。

而GPT-4o在响应速度方面,完美解决了延迟问题。GPT-4o的响应音频速度几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒(GPT-4)。

另外,新语音功能的主要区别还包括:用户现在可以直接打断模型,无需等待模型完成发言即可插话,大大提高了对话的自然流畅度。

此外,新模型消除了延迟现象,反应迅速,不再有尴尬的等待时间。更重要的是,它能够感知用户的情绪状态,根据用户的语气和节奏调整交流方式,展现出更人性化的交互体验。

除了以上升级外,GPT-4o还在GPT-4的基础上做了很多升级包括:

  • 极佳的多模态交互能力,包括语音、视频,以及屏幕共享。

  • 可以实时识别和理解人类的表情,文字,以及数学公式。

  • 交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。

  • 超低延时,且可以在对话中实时打断AI,增加信息或开启新话题。

  • 所有ChatGPT用户均可免费使用(有使用上限)。

  • 速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。

视频互动解方程

另一个环节中,OpenAI另一位研发负责人手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演「在线导师」的角色帮助自己解题,而且只能给提示,不能直接说答案。

接到任务的ChatGPT,甚至开心大叫:「Oops,我好兴奋啊!」

负责人在纸上写下这样一个方程:3x+1=4。然后问ChatGPT自己写的是什么方程,ChatGPT语调自然地回答出来了。

随后,在负责人的要求下,它按步骤一步一步说出了解题步骤。

最让人震惊的是,随着负责人在摄像头中解题,ChatGPT实时地就给出了鼓励和引导。

而且可怕的是,时间上没有丝毫延迟,这边负责人还在计算,ChatGPT就实时给出了评价和反馈。

整个过程完全和真人交流无异!

这个发布会还有很多很精彩的交流过程,在这里就不再详述,有兴趣的伙伴可以自己去观看了解~

总的来说,新发布的GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度更快,还提供同时理解文本、图像、音频等内容的多模态能力。

可以说GPT-4o,最大特色是它可以将文本、音频、图像任何组合作为多模态输入和输出,并且更快更智能!

沃卡AI已及时更新支持最新的GPT-4o模型,体验方法如下:

方式一:

打开网页www.woka.chat,选择模型“gpt-4o-2024-05-13”即可;

方式二:

通过api调用形式体验,打开https://4.0.wokaai.com,注册生成令牌(key)调用即可!

沃卡API特点:

● 透明:纯官方计价,支持查询用量明细,余额实时掌握。

● 稳定:庞大账号池作为支撑并定期优化扩容;一个key即可稳定快速调用所有模型!

● 方便:所有用到 OpenAI API 的地方都可以无缝替代;

● 快速:持续优化中转服务的线路速度,保证使用体验;不需像调用官方一样特地申请多个账号扩充限制!

● 省心:没有包月,没有会员,没有限时,用多少买多少,永不过期。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/837341.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美国加州正测试ChatGPT等生成式AI,在4大部门应用

5月11日,美联社消息,美国加州政府正在测试ChatGPT等生成式AI,应用在税收和收费管理部、交通部、公共卫生部以及卫生与公众服务部4大部门。 测试时间6个月,为其提供技术支持的一共有5家公司,分别是OpenAI、Anthropic、…

成都新增数字产业园,打造生态经济新引擎

成都产业园运营方树莓集团——数字产业生态链建设者。秉持高效、友善、敢为的集团核心文化,有效链接政、产、企、校四个板块,构建了产业生态闭环系统。在成都市区内,已布局了多家数字文创产业园,其中具有代表性的参考国际数字影像…

Linux 第三十一章

🐶博主主页:ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列:线性代数,C初学者入门训练,题解C,C的使用文章,「初学」C,linux 🔥座右铭:“不要等到什么都没有了…

GRFB-UNet:一种新的多尺度注意力网络,用于铺路分割

不同场景下的带注释的触觉铺装示例: GRFB-UNet网络结构: GRFB模块的结构: 铺路在视障人士的旅行中起着至关重要的作用。因此,识别铺装的形状和位置以支持视障人士的移动性是相当有意义的,而视觉分割技术就适合这项任务。为了有效提高触觉铺装分割的精度和鲁棒性,…

httpsok-v1.11.0支持CDN证书自动部署

🔥httpsok-v1.11.0支持CDN证书自动部署 介绍 httpsok 是一个便捷的 HTTPS 证书自动续签工具,专为 Nginx 、OpenResty 服务器设计。已服务众多中小企业,稳定、安全、可靠。 一行命令,一分钟轻松搞定SSL证书自动续期 v1.11.0 版…

从“山寨的”MTK芯片发展历程 同类芯片比较基础常识 如何简单识别mtk机型

联发科技(MediaTek Inc.简称“联发科” ,联发科起家于CD-ROM芯片,直接将DVD内分别承担视频和数字解码功能的两颗芯片整合到了一颗芯片上,并提供相应的软件方案。并一度占据大陆DVD市场60%的芯片供应量!他将图像处理、M…

证卡打印机打印头故障的主要原因以及如何预防

爱立识打印头故障的主要原因主要包括以下几点: Evolis 打印机清洁卡 灰尘或碎屑堆积:长时间不清洁打印机导致灰尘或碎屑在机器内积累,可能会导致打印头划伤或堵塞。 使用不洁的卡片:使用不洁的卡片可能会导致灰尘或污垢进入打印机…

气膜建筑为何能够建在楼顶—轻空间

近年来,随着体育设施建设的推进和政策支持,越来越多的体育从业者将目光聚焦到了楼顶,希望通过在楼顶加盖气膜馆来充分利用有限的土地资源。那么,为什么气膜建筑能够建在楼顶呢?轻空间将从气膜建筑的结构特点、安全性、…

Java的VO,BO,PO,DO,DTO

写在前面 本文看下VO,BO,PO,DO,DTO,都是啥! 1:正文 先看一张图,看了图就能知道个大概了: 1.1:PO 全称是persistent object,对应数据的表&am…

Linux - make与makefile

文章目录 什么是make和makefile如何使用依赖关系 和 依赖方法伪目标 写个程序-进度条换行和回车的区别 什么是make和makefile make是一个命令 makefile是一个文件 这就是make和makefile的本质 make和 ll , pwd ,su 一样都是命令 makefile和 test , test.c 一样都是…

REACT 在组件之间共享状态

有时,您希望两个组件的状态始终一起变化。要做到这一点,请从他们俩身上删除状态,将其移动到他们最近的共同父级,然后通过道具将其传递给他们。这被称为提升状态,这是编写 React 代码时最常见的事情之一。 举例提升状态…

正念冥想训练内容有哪些?流静冥想

正念冥想训练内容有哪些? “我做不到感恩,总觉得满世界都是欠我的。”同学A这样说。看得出来她的无奈、无力以及无头绪感。 “我无法对父母做出感恩的祝福,从他们那里我感受不到爱,感受不到关怀,体验不到感恩。”同学…

校园电话机对于校园信息化管理非常重要

任何一部校园电话机都有信息办理渠道,并且发挥着重要的效果,能够满意整个机器的更快速运作。然后使学生能够取得一个更好的运用条件,学生在运用产品的过程中,要经过正确的操作环节才能够发挥产品的优胜功能,然后到达一…

TCP连接建立与释放连接——>三次握手和四次挥手

1.三次握手的概述 我们在学网络的概念时,每当讲到TCP都会听到三次握手和四次挥手,一直以来可能都对这个概念模糊不清,那么什么是三次握手和四次挥手呢?简单的举一个例子,如果我们和朋友打游戏,我们要和朋友…

【class2】人工智能初步(自然语言处理)

要实现从评价中提取高频关键词,并判别其正负面性,其实是通过人工智能领域中的一个分支:自然语言处理。 在了解自然语言处理之前,我们先来说说,什么是自然语言(Natural Language)?自…

哔哩哔哩直播通用榜单系统

榜单系统的定位和业务价值 榜单遍布B站直播相关业务的各个角落,直播打赏、直播间互动、付费玩法、互动玩法、活动、主播PK、语聊房、人气主播排名、高价值用户排名、增值集卡、up主充电等等,在这众多的业务场景中,我们能看到各种各样的榜单。…

腐烂的橘子BFS

题目: 腐烂的橘子 在给定的 m x n 网格 grid 中,每个单元格可以有以下三个值之一: 值 0 代表空单元格; 值 1 代表新鲜橘子; 值 2 代表腐烂的橘子。 每分钟,腐烂的橘子 周围 4 个方向上相邻 的新鲜橘子…

使用VSCode撰写Latex文档

参考资料: 如何使用VSCode编写Latex? 概要 先安装texlive,然后安装VSCode. 我这里步骤是全的,但说的不那么细。 只介绍VSCode中的配置方法。 VSCode配置步骤 1. 安装LaTex Workshop插件 2. 配置Latex编译环境 将下列配置粘入settings.j…

TNNLS:Fast Self-Supervised Clustering With Anchor Graph论文阅读

1 Abstract 由于避免了使用通常在现实世界中不足的标记样本,无监督学习被视为在聚类任务中的快速和强大策略。然而,直接从原始数据集进行聚类会导致高计算成本,这限制了其在大规模和高维问题上的应用。最近,基于锚点的理论被提出…

基于uniapp+vue3+ts小程序项目实战之项目初始化

🚀 作者 :“二当家-小D” 🚀 博主简介:⭐前荔枝FM架构师、阿里资深工程师||曾任职于阿里巴巴担任多个项目负责人,8年开发架构经验,精通java,擅长分布式高并发架构,自动化压力测试,微服务容器化k…