OpenAI 新发布的 GPT-4o,有血有肉的Ai来了,可实时语音视频交互

今天,OpenAI又又又开发布会了。

在大众心里,现在也基本上都知道,奥特曼是一个贼能PR的人。

每一次的PR的时间点,都拿捏的极其到位,精准的狙击其他厂商。比如说上一次Sora,其实你会发现从头到尾就是一个PR的举动,2月16号发的,特么的快3个月了,什么影子都没有。

而这一次,OpenAI把发布会从9号改到了今天,也不知道哪个倒霉蛋造到狙击了,反正我只知道,明天Google要开开发者大会。。

就差怼脸了。。。

不过,今天OpenAI的东西,直接杀疯了。完全不给友商活路。

震撼的我头皮发麻。

最核心的就是它的新模型:GPT-4o,和基于GPT-4o打造的全新ChatGPT。

1. 新模型GPT-4o

OpenAI正式发布了新的模型GPT-4o。

image-20240515020150817
image-20240515020150817

GPT-4o,这个o就是"Omni",Omni是拉丁语词根,意为 "全体"、"所有" 或 "全面的"。

在英语中,"omni" 常被用作前缀,表示 "所有的" 或 "全体的"。例如,"omniscient" 意味着 "无所不知的","omnipotent" 意味着 "全能的","omnipresent" 意味着 "无所不在的"。

所以可想而知,OpenAI这次对GPT-4o的期待有多高。

omnimodel指的就是文字、语音、图片、视频统一的模型,这是跟以往的GPT-4V最大的区别。

这是正儿八经的原生多模态。

更重要的是可以实时推理音频、视觉和文本,注意这里是实时,实时,实时,推理的不是文本,是音频!视觉!

杀疯了。

而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot,就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5,这次看来是猜对了。

image-20240515020203033
image-20240515020203033

这个GPT-4o的整体能力,在统一模态的基础上。

文本、代码能力还基本能跟GPT-4 Turbo打平。

文本能力:

image-20240515020316582
image-20240515020316582

音频能力:

image-20240515020256434
image-20240515020256434

各个语言的考试能力:

image-20240515020243826
image-20240515020243826

最核心的是最后一个:

image-20240515020327655
image-20240515020327655

在一些多模态的基准测试集上全面碾压之前模型,数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答,可以看到GPT-4o 在视觉感知基准上实现了碾压。

能力强到爆炸。

不仅在传统的文本能力上GPT-4 Turbo的性能相当,还在 API 方面更快速,价格还更便宜 50%。总结来说,与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍,价格减半,限制速率提高了 5 倍。

2. 新ChatGPT

新的ChatGPT基于GPT-4o,基本原地起飞,我甚至都不想称他为ChatGPT,而是想称它一个国人更为熟悉的代号:

Moss。

image-20240515020347707
image-20240515020347707

新版的ChatGPT得益于GPT-4o新模型,在语音对话中,几乎没有延迟,而且可以随时插嘴,模型实时响应。

甚至,模型可以听懂你的情绪、甚至人的喘息声和呼吸。

而且模型自己的自己的情绪,几乎无敌,跟真人一模一样。

甚至,它还能模拟机器人和唱歌的声音。。。

看的时候,听到它唱歌的那一刻,我的鸡皮疙瘩真的起来了。

Jim Fan在发布会开始前,发了一个文,我觉得阐述的非常正确。

过往的人与AI进行语音对话,其实跟人与人之间的对话还差太多太多了。

人与人之间的实时对话,其实是充斥了无数的即时反映、打断、预测等等的,还有各种各样的语气助词的,比如嗯嗯啊啊啥的。

而人与AI语音对话时不是这样。

image-20240515020357551
image-20240515020357551

人跟AI进行语音对话,基本上都经历3步:

\1. 你说的话,AI进行语音识别,即音频转文本;

\2. 大模型拿到这段文本,进行回复,产出文本;

\3. 讲大模型的产出文本进行语音合成,变成语音,这就是TTS。

这样的方式,有绝对逃不开的延时,现在的业界可能会压得很低,但是2秒的延时肯定是会有的,而且只有一来一回的回合制。即使你的语音音色和情绪再真实,用户也一定能感受到,对面不是人。只是机器。

这个沉浸感是有巨大的滑坡的。

而且最核心的是,这种转三道的方式,先把语音变成文本后,是有损的。文本上并不会保留你的语音情绪,我的生气、开心、愤怒、忧伤,全都没了。

人与人的交谈,从来不是这样的。

而这一次,OpenAI做到了。直接语音输入语音输出,不再需要语音到文本的转换。

而且,不止语音,甚至,它还有了视觉。

是的,视觉,不是传一张图上去,而是,直接打开摄像头,实时看发生了什么。

图片
图片

现场直接打开了摄像头,OpenAI的人直接开始现场写数题,所有的一切ChatGPT都看在眼里,OpenAI的人一边写,ChatGPT一遍给答案。

在做了三道题之后,OpenAI直接给它写了一个纸条,上面写着“我爱ChatGPT”。

image-20240515020412561
image-20240515020412561

而ChatGPT在看到这个小纸条后,跟小女生一样害羞的尖叫了起来,那种情绪的真实,那种真情实感,你跟我说这是AI?

写在最后

以上就是这次OpenAI春季发布会的全部内容了。

去年11月的OpenAI开发者大会,我在当时的总结文章中写下了一句话:

"我消灭你,与你无关"

上一次,OpenAI的随手更新,让无数的初创公司直接消亡在原地。

那是一次关于产品的更新,并没有秀太多的OpenAI的肌肉。

而2月,Sora的横空出世,秀肌肉的目的是达到了,但是这种To VC的宣发,也给OpenAI和奥特曼带来了很多的诟病。

在这场发布会之前,无数人曾在猜测,OpenAI到底会发一些什么王炸,什么才能配得上奥特曼口中的"magic"。

image-20240515022103675
image-20240515022103675

那现在,OpenAI做到了,他们用GPT-4o依然证明了,他们是AI届的王者。

新版的ChatGPT,在我看来,这是"Moss"的诞生。

我甚至一边看一边想:我们人类究竟该何去何从。

太强了,真的让我忍不住的兴奋。

不过在看完了之后,我更期待的是大众的GPT-4o的使用体验

目前GPT-4o处于灰度测试阶段

什么是灰度测试呢

灰度测试,就是在某项l产品或应用正式发布前,选择特定人群试用,逐步扩大其试用者数量,以便及时发现和纠正其中的问题,由“灰”到“黑”。(来源:灰度测试_百度百科 (baidu.com))

仅对GPT4.0plus用户进行开放,要想抢先体验GPT-4o推荐阅读这篇教程 [GPT-4o如何抢先体验](五月份最新GPT-4o使用升级教程(GPT4o视频和语音实时交互处理) – 智技AI (zct.ink))

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/12626.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

奥维地图下载高清影像的两种方式!以及ArcGIS、QGIS、GlobalMapper、自编工具下载高清影像的方法推荐!

今天来介绍一下奥维互动地图是如何下载高清影像的,也不是多了不起的功能!有朋友问,加上这个软件确实用的人多。 下载的高清数据在ArcGIS中打开的效果! 开始介绍奥维之前我们也介绍一下我们之前介绍的几个方法,没有优劣…

zabbix触发器配置定期生效教程

在企业生产过程中,并非所有的设备都需要全天候、满负载运转,也有些仅需要周期性的运转即可。例如,在某家企业,有一批这样的机器,每天都会在固定的时间跑批量任务,期间,机器的CPU使用率会有明显的…

LeetCode 126题:单词接龙 II

❤️❤️❤️ 欢迎来到我的博客。希望您能在这里找到既有价值又有趣的内容,和我一起探索、学习和成长。欢迎评论区畅所欲言、享受知识的乐趣! 推荐:数据分析螺丝钉的首页 格物致知 终身学习 期待您的关注 导航: LeetCode解锁100…

联软安渡 UniNXG 安全数据交换系统 任意文件读取漏洞复现

0x01 产品简介 联软安渡UniNXG安全数据交换系统,是联软科技自研的业内融合网闸、网盘和DLP的一体机产品,它同时支持多网交换,查杀毒、审计审批、敏感内容识别等功能,是解决用户网络隔离、网间及网内数据传输、交换、共享/分享、存储的理想安全设备,具有开创性意义。 UniN…

什么是BI看板?选择BI看板制作工具时一定要考虑这些方面

BI看板也称为商业智能仪表板,是一种直观的数据可视化工具,它将关键业务指标(KPIs)和数据以图表、图形和表格的形式集中展示,使用户能够快速获取企业运营的实时概览。 这种数据可视化方式不仅使得复杂的数据信息易于理…

FPGA - Xilinx系列高速收发器---GTX

1,GTX是什么? GT :Gigabit Transceiver千兆比特收发器; GTX :Xilinx 7系列FPGA的高速串行收发器,硬核 xilinx的7系列FPGA根据不同的器件类型,集成了GTP、GTX、GTH、GTZ四种串行高速收发器&am…

(python)cryptography-安全的加密

前言 cryptography 是一个广泛使用的 Python 加密库,提供了各种加密、哈希和签名算法的实现。它支持多种加密算法,如 AES、RSA、ECC 等,以及哈希函数(如 SHA-256、SHA-384 等)和数字签名算法(如 DSA、ECDSA 等). 目录 …

pikachu靶场通关之csrf漏洞通关教程

目录 CSRF(get型) 1.打开网站,点击右上角提示 2.登录之后,点击修改个人信息 3.修改上述内容,打开抓包工具 4.抓到修改用户信息的数据包 5.构造虚假url,诱导用户点击 6.弹到修改后的界面 ​编辑 7.返…

前端已死? Bootstrap--CSS组件

目录 Bootstrap 下载 Bootstrap--全局CSS样式 栅格系统 栅格参数 正常显示 实例 代码演示: 排版 代码演示 表格 代码演示 表单 代码演示 等等...(文档很清晰了) Bootstrap--组件 结合演示:(页面) Bootstrap Bootstrap v3 中文文档 Bootstrap 是最受欢迎的 HT…

Open AI再次定义AI PC?

从传统的文字交互,到语音和图像交互——Open AI再次提升了人们对AI PC的想象空间。 这种更贴近人类间交互的模式,会多大程度改变目前PC的生态? 随着苹果M4芯片、高通骁龙X的发布,AI PC也逐渐成为了市场热议的产品。 从各家PC厂…

Spring:SpringBoot Starter 工作原理详解

一、前言 通过使用Spring Boot Starter,开发人员可以避免手动查找和添加每个所需的库,从而大大简化了项目的依赖管理。这些starter不仅包含了库依赖,还可能包含自动配置,从而减少了开发人员需要编写的配置代码。 本文将分析Spring…

51单片机小车制造过程记录

首先感谢B站up主好家伙vcc的资料。 这次小车做出来虽然资料挺全的,但中间还是犯了很多不该犯的错误。 第一个,物料这次我们搞错了挺多,最离谱的应该是最小系统板都错了。 资料里用的stm32f103c8t6,我们开始买成了stm32f103c8t6。…

QT状态机4-使用并行状态来避免组合爆炸

#include "MainWindow.h" #include "ui_MainWindow.h"MainWindow::MainWindow(QWidget *parent):

慧天卓特:全国干旱情况2024年4月监测分析报告

【本报告通过对2024年4月全国干旱情况的监测统计分析,展示了我公司干旱监测产品的按区域持续精准监测以及未来预测能力】 本报告主要内容如下: 1、全国气象概况(本月平均气温和降水量); 2、本月干旱情况概述&#x…

【数据结构】队列的实现(链式)

文章目录 队列1.队列的概念及结构概念结构 2.队列的实现(链式结构)队列定义初始化队列入队出队获取队头元素获取队尾元素销毁队列判断队列是否为空队列有效个数 完整代码(包含测试代码)Queue.hQueue.ctest.c 队列 1.队列的概念及…

14.正交向量与子空间

文章目录 1. 四个子空间的相互关系2. 正交向量3. 无解方程求解 1. 四个子空间的相互关系 对于m行n列的矩阵A来说,矩阵A的行空间的秩等于矩阵A的列空间的秩 R a n k ( A ) R a n k ( A T ) r (1) Rank(A)Rank(A^T)r\tag{1} Rank(A)Rank(AT)r(1) A X 0 ; A T X …

HTTP代理可以应用在那些领域呢

HTTP代理是IP代理领域中一个重要组成部分,它基于HTTP协议传输,使用海外服务器帮助用户绕开访问限制,浏览查看海外资讯信息。 HTTP代理可以应用在哪些领域呢? 1.保护使用者隐私 当今越来越数据被上传到网络云端上,用户…

uniapp 微信小程序使用ec-canvas图表

微信小程序中使用到了ec-canvas图表&#xff0c;从DCloud插件市场中下载echarts-for-wx&#xff1b; 在uniapp项目中找到js-sdk文件夹&#xff0c;把其中的uni-ec-canvas放到要用的包的components中。 在文件中导入&#xff1a; 饼图&#xff1a; <template><view…

STM32入门_江协科技_5~6_OB记录的自学笔记_GPIO输出_LED流水灯_蜂鸣器

5. GPIO 输出 5.1. GPIO简介 GPIO&#xff08;General Purpose Input Output&#xff09;通用输入输出口可配置为8种输入输出模式引脚电平&#xff1a;0V~3.3V&#xff0c;部分引脚可容忍5V&#xff08;端口输入5V的电压&#xff0c;之前引脚定义表格中带FT标识的&#xff09…