北京时间5月14日凌晨,有人说OpenAI一夜改变了历史。
在我们的深夜、太平洋时间的上午 10 点,OpenAI 召开春季发布会,公布了最新的GPT-4o模型,o代表Omnimodel(全能模型)。20多分钟的演示直播,展示了远超当前所有语音助手的AI交互体验,与外媒此前透露的消息基本重合。
GPT-4o 不仅在文本处理方面表现出色,还在图像和音频处理能力上实现了显著增强,标志着人机交互进入了一个更为自然和便捷的新时代。
实时语音功能
本次展示聚焦于 ChatGPT 应用的实时对话语音功能,通过现场演示,展示了用户与 AI 之间流畅无阻的交互体验。
通过手机上的应用程序,激活了 GPT-4o 的音频功能,与 AI 进行了实时对话,并体验了其即时响应与情绪感知能力。
它的表现仿佛一个人正坐在旁边,和人类的对话节奏自然、融洽,完全听不出是个AI。
其实多模态语音功能,OpenAI在之前已经可以实现,具体形式如下:
1. 语音识别:音频转文本,通过调用Whisper模型;
2. 模型处理得到回复:通过调用文本模型;
3. 语音合成:文本转音频,调用tts模型。
但这个过程会存在延迟导致无法“沉浸式”体验与AI的对话。
而GPT-4o在响应速度方面,完美解决了延迟问题。GPT-4o的响应音频速度几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒(GPT-4)。
另外,新语音功能的主要区别还包括:用户现在可以直接打断模型,无需等待模型完成发言即可插话,大大提高了对话的自然流畅度。
此外,新模型消除了延迟现象,反应迅速,不再有尴尬的等待时间。更重要的是,它能够感知用户的情绪状态,根据用户的语气和节奏调整交流方式,展现出更人性化的交互体验。
除了以上升级外,GPT-4o还在GPT-4的基础上做了很多升级包括:
-
极佳的多模态交互能力,包括语音、视频,以及屏幕共享。
-
可以实时识别和理解人类的表情,文字,以及数学公式。
-
交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。
-
超低延时,且可以在对话中实时打断AI,增加信息或开启新话题。
-
所有ChatGPT用户均可免费使用(有使用上限)。
-
速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。
视频互动解方程
另一个环节中,OpenAI另一位研发负责人手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演「在线导师」的角色帮助自己解题,而且只能给提示,不能直接说答案。
接到任务的ChatGPT,甚至开心大叫:「Oops,我好兴奋啊!」
负责人在纸上写下这样一个方程:3x+1=4。然后问ChatGPT自己写的是什么方程,ChatGPT语调自然地回答出来了。
随后,在负责人的要求下,它按步骤一步一步说出了解题步骤。
最让人震惊的是,随着负责人在摄像头中解题,ChatGPT实时地就给出了鼓励和引导。
而且可怕的是,时间上没有丝毫延迟,这边负责人还在计算,ChatGPT就实时给出了评价和反馈。
整个过程完全和真人交流无异!
这个发布会还有很多很精彩的交流过程,在这里就不再详述,有兴趣的伙伴可以自己去观看了解~
总的来说,新发布的GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度更快,还提供同时理解文本、图像、音频等内容的多模态能力。
可以说GPT-4o,最大特色是它可以将文本、音频、图像任何组合作为多模态输入和输出,并且更快更智能!
沃卡AI已及时更新支持最新的GPT-4o模型,体验方法如下:
方式一:
打开网页www.woka.chat,选择模型“gpt-4o-2024-05-13”即可;
方式二:
通过api调用形式体验,打开https://4.0.wokaai.com,注册生成令牌(key)调用即可!
沃卡API特点:
● 透明:纯官方计价,支持查询用量明细,余额实时掌握。
● 稳定:庞大账号池作为支撑并定期优化扩容;一个key即可稳定快速调用所有模型!
● 方便:所有用到 OpenAI API 的地方都可以无缝替代;
● 快速:持续优化中转服务的线路速度,保证使用体验;不需像调用官方一样特地申请多个账号扩充限制!
● 省心:没有包月,没有会员,没有限时,用多少买多少,永不过期。