北京时间5月14日凌晨1点,OpenAI 开启了今年的第一次直播,根据官方消息,这次旨在演示 ChatGPT 和 GPT-4 的升级内容。在早些时候 Sam Altman 在 X 上已经明确,「我们一直在努力开发一些我们认为人们会喜欢的新东西,对我来说感觉就像魔法一样」。这次发布会没有GPT-5,也没有传说中的 AI 搜索引擎,据爆料猜测,可能是同时具备视觉和听觉,并拥有强大推理能力的语音助手。谜底终于揭晓了。OpenAI 发布会主要推出了新的 GPT-4o,速度非常快,语音和视频回应都可以达到实时效果。打通了文本、语音、视频、图片,不需要相互转换,实时回应。听起来,GPT-4o 的语音也太自然了,对答如流,可以唱歌,回应还可以有幽默娇羞这些情绪。而且可以通过摄像头识别人类表情来做出实时回应。实时翻译回应语言等。含“Her”量很高。OpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 表示,GPT-4o 将提供与 GPT-4 同等水平的智能,但在文本、图像以及语音处理方面均取得了进一步提升。“GPT-4o 可以综合利用语音、文本和视觉信息进行推理”,穆拉蒂在 OpenAI 公司总部举行的主题演讲中表示。GPT-4 是 OpenAI 此前的旗舰模型,可以处理由图像和文本混合而成的信息,并能完成诸如从图像中提取文字或描述图像内容等任务,GPT-4o 则在此基础上新增了语音处理能力。GPT-4o 标志着向更自然的人类与计算机交互的转变,它能够处理文本、音频和图像的组合输入,并产生相应的多样化输出。该模型对音频输入的响应速度极快,最短仅需232毫秒,平均响应时间为320毫秒,与人类对话的自然反应时间相仿。在处理英语和编程语言文本方面,GPT-4o 与 GPT-4 Turbo 的表现不相上下,而在非英语文本处理上则有显著提升。此外,GPT-4o 在 API 调用中不仅速度更快,成本也降低了50%,尤其在视觉和音频理解方面表现出色。
模型特性
相较于之前的模型,GPT-4o在语音交互方面实现了显著进步。以往的 ChatGPT 对话模式存在较高的延迟,而 GPT-4o 通过一个统一的模型直接处理所有输入和输出,无需通过多个模型转换,从而减少了信息丢失,提升了交互的直接性和效率。
语言优化
GPT-4o 在语言标记效率上取得了显著进步,以下是20种语言的标记压缩情况示例:
- 古吉拉特语的标记数量减少了4.4倍。
- 泰卢固语和泰米尔语的标记分别减少了3.5倍和3.3倍。
- 马拉地语和北印度语的标记分别减少了2.9倍。
- 乌尔都语、阿拉伯语、波斯语、俄语、韩语和越南语的标记减少幅度在1.5倍到2.5倍之间。
- 中文、日语、土耳其语、意大利语、德语、西班牙语、葡萄牙语、法语和英语的标记减少幅度在1.1倍到1.4倍之间。
安全性与限制
GPT-4o 在设计中融入了跨模态安全性,通过过滤训练数据和后训练行为调整等技术来增强模型的安全性。此外,GPT-4o 经过了广泛的安全评估和红队测试,以识别和减轻新模态可能引入的风险。
何时开放?
GPT-4o 将在接下来的几周时间里陆续开放。就在明天,2024年Google I/O 即将举行,Google 会发布什么呢?敬请期待!