OpenAI 新发布的 GPT-4o,有血有肉的Ai来了,可实时语音视频交互

今天,OpenAI又又又开发布会了。

在大众心里,现在也基本上都知道,奥特曼是一个贼能PR的人。

每一次的PR的时间点,都拿捏的极其到位,精准的狙击其他厂商。比如说上一次Sora,其实你会发现从头到尾就是一个PR的举动,2月16号发的,特么的快3个月了,什么影子都没有。

而这一次,OpenAI把发布会从9号改到了今天,也不知道哪个倒霉蛋造到狙击了,反正我只知道,明天Google要开开发者大会。。

就差怼脸了。。。

不过,今天OpenAI的东西,直接杀疯了。完全不给友商活路。

震撼的我头皮发麻。

最核心的就是它的新模型:GPT-4o,和基于GPT-4o打造的全新ChatGPT。

1. 新模型GPT-4o

OpenAI正式发布了新的模型GPT-4o。

image-20240515020150817
image-20240515020150817

GPT-4o,这个o就是"Omni",Omni是拉丁语词根,意为 "全体"、"所有" 或 "全面的"。

在英语中,"omni" 常被用作前缀,表示 "所有的" 或 "全体的"。例如,"omniscient" 意味着 "无所不知的","omnipotent" 意味着 "全能的","omnipresent" 意味着 "无所不在的"。

所以可想而知,OpenAI这次对GPT-4o的期待有多高。

omnimodel指的就是文字、语音、图片、视频统一的模型,这是跟以往的GPT-4V最大的区别。

这是正儿八经的原生多模态。

更重要的是可以实时推理音频、视觉和文本,注意这里是实时,实时,实时,推理的不是文本,是音频!视觉!

杀疯了。

而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot,就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5,这次看来是猜对了。

image-20240515020203033
image-20240515020203033

这个GPT-4o的整体能力,在统一模态的基础上。

文本、代码能力还基本能跟GPT-4 Turbo打平。

文本能力:

image-20240515020316582
image-20240515020316582

音频能力:

image-20240515020256434
image-20240515020256434

各个语言的考试能力:

image-20240515020243826
image-20240515020243826

最核心的是最后一个:

image-20240515020327655
image-20240515020327655

在一些多模态的基准测试集上全面碾压之前模型,数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答,可以看到GPT-4o 在视觉感知基准上实现了碾压。

能力强到爆炸。

不仅在传统的文本能力上GPT-4 Turbo的性能相当,还在 API 方面更快速,价格还更便宜 50%。总结来说,与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍,价格减半,限制速率提高了 5 倍。

2. 新ChatGPT

新的ChatGPT基于GPT-4o,基本原地起飞,我甚至都不想称他为ChatGPT,而是想称它一个国人更为熟悉的代号:

Moss。

image-20240515020347707
image-20240515020347707

新版的ChatGPT得益于GPT-4o新模型,在语音对话中,几乎没有延迟,而且可以随时插嘴,模型实时响应。

甚至,模型可以听懂你的情绪、甚至人的喘息声和呼吸。

而且模型自己的自己的情绪,几乎无敌,跟真人一模一样。

甚至,它还能模拟机器人和唱歌的声音。。。

看的时候,听到它唱歌的那一刻,我的鸡皮疙瘩真的起来了。

Jim Fan在发布会开始前,发了一个文,我觉得阐述的非常正确。

过往的人与AI进行语音对话,其实跟人与人之间的对话还差太多太多了。

人与人之间的实时对话,其实是充斥了无数的即时反映、打断、预测等等的,还有各种各样的语气助词的,比如嗯嗯啊啊啥的。

而人与AI语音对话时不是这样。

image-20240515020357551
image-20240515020357551

人跟AI进行语音对话,基本上都经历3步:

\1. 你说的话,AI进行语音识别,即音频转文本;

\2. 大模型拿到这段文本,进行回复,产出文本;

\3. 讲大模型的产出文本进行语音合成,变成语音,这就是TTS。

这样的方式,有绝对逃不开的延时,现在的业界可能会压得很低,但是2秒的延时肯定是会有的,而且只有一来一回的回合制。即使你的语音音色和情绪再真实,用户也一定能感受到,对面不是人。只是机器。

这个沉浸感是有巨大的滑坡的。

而且最核心的是,这种转三道的方式,先把语音变成文本后,是有损的。文本上并不会保留你的语音情绪,我的生气、开心、愤怒、忧伤,全都没了。

人与人的交谈,从来不是这样的。

而这一次,OpenAI做到了。直接语音输入语音输出,不再需要语音到文本的转换。

而且,不止语音,甚至,它还有了视觉。

是的,视觉,不是传一张图上去,而是,直接打开摄像头,实时看发生了什么。

图片
图片

现场直接打开了摄像头,OpenAI的人直接开始现场写数题,所有的一切ChatGPT都看在眼里,OpenAI的人一边写,ChatGPT一遍给答案。

在做了三道题之后,OpenAI直接给它写了一个纸条,上面写着“我爱ChatGPT”。

image-20240515020412561
image-20240515020412561

而ChatGPT在看到这个小纸条后,跟小女生一样害羞的尖叫了起来,那种情绪的真实,那种真情实感,你跟我说这是AI?

写在最后

以上就是这次OpenAI春季发布会的全部内容了。

去年11月的OpenAI开发者大会,我在当时的总结文章中写下了一句话:

"我消灭你,与你无关"

上一次,OpenAI的随手更新,让无数的初创公司直接消亡在原地。

那是一次关于产品的更新,并没有秀太多的OpenAI的肌肉。

而2月,Sora的横空出世,秀肌肉的目的是达到了,但是这种To VC的宣发,也给OpenAI和奥特曼带来了很多的诟病。

在这场发布会之前,无数人曾在猜测,OpenAI到底会发一些什么王炸,什么才能配得上奥特曼口中的"magic"。

image-20240515022103675
image-20240515022103675

那现在,OpenAI做到了,他们用GPT-4o依然证明了,他们是AI届的王者。

新版的ChatGPT,在我看来,这是"Moss"的诞生。

我甚至一边看一边想:我们人类究竟该何去何从。

太强了,真的让我忍不住的兴奋。

不过在看完了之后,我更期待的是大众的GPT-4o的使用体验

目前GPT-4o处于灰度测试阶段

什么是灰度测试呢

灰度测试,就是在某项l产品或应用正式发布前,选择特定人群试用,逐步扩大其试用者数量,以便及时发现和纠正其中的问题,由“灰”到“黑”。(来源:灰度测试_百度百科 (baidu.com))

仅对GPT4.0plus用户进行开放,要想抢先体验GPT-4o推荐阅读这篇教程 [GPT-4o如何抢先体验](五月份最新GPT-4o使用升级教程(GPT4o视频和语音实时交互处理) – 智技AI (zct.ink))

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/12626.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

奥维地图下载高清影像的两种方式!以及ArcGIS、QGIS、GlobalMapper、自编工具下载高清影像的方法推荐!

今天来介绍一下奥维互动地图是如何下载高清影像的,也不是多了不起的功能!有朋友问,加上这个软件确实用的人多。 下载的高清数据在ArcGIS中打开的效果! 开始介绍奥维之前我们也介绍一下我们之前介绍的几个方法,没有优劣…

zabbix触发器配置定期生效教程

在企业生产过程中,并非所有的设备都需要全天候、满负载运转,也有些仅需要周期性的运转即可。例如,在某家企业,有一批这样的机器,每天都会在固定的时间跑批量任务,期间,机器的CPU使用率会有明显的…

Pytorch学习-利用Dataset类定义自己的数据集

定义自己的数据集类需要继承torch.utils.data中的Dataset类 主要实现两个方法,即__len__和__getitem__ from torch.utils.data import Dataset class VOCDataSet(Dataset):#初始化def __init__(self):pass#返回数的长度def __len__(self):pass#返回样本和标签def …

LeetCode 126题:单词接龙 II

❤️❤️❤️ 欢迎来到我的博客。希望您能在这里找到既有价值又有趣的内容,和我一起探索、学习和成长。欢迎评论区畅所欲言、享受知识的乐趣! 推荐:数据分析螺丝钉的首页 格物致知 终身学习 期待您的关注 导航: LeetCode解锁100…

CMake配置安装gdal3.6.2库

安装GDAL 3.6.2库可以通过使用CMake来完成,尤其是在Windows平台上。这里我将提供一个详细的步骤指南,包括如何配置CMake以及如何使用它来构建和安装GDAL。前提是你已经安装了CMake和相应的编译器(如Visual Studio或GCC)。 ### 步骤…

联软安渡 UniNXG 安全数据交换系统 任意文件读取漏洞复现

0x01 产品简介 联软安渡UniNXG安全数据交换系统,是联软科技自研的业内融合网闸、网盘和DLP的一体机产品,它同时支持多网交换,查杀毒、审计审批、敏感内容识别等功能,是解决用户网络隔离、网间及网内数据传输、交换、共享/分享、存储的理想安全设备,具有开创性意义。 UniN…

什么是BI看板?选择BI看板制作工具时一定要考虑这些方面

BI看板也称为商业智能仪表板,是一种直观的数据可视化工具,它将关键业务指标(KPIs)和数据以图表、图形和表格的形式集中展示,使用户能够快速获取企业运营的实时概览。 这种数据可视化方式不仅使得复杂的数据信息易于理…

Python图嵌入信息潜在表征算法

📜用例 📜Python社群纽带关系谱和图神经 | 📜C和Python通信引文道路社评电商大规模行为图结构数据模型 | 📜角色图嵌入学习 | 📜图全局结构信息学习 | 📜图编码解码半监督学习 | 📜富文本表征学…

FPGA - Xilinx系列高速收发器---GTX

1,GTX是什么? GT :Gigabit Transceiver千兆比特收发器; GTX :Xilinx 7系列FPGA的高速串行收发器,硬核 xilinx的7系列FPGA根据不同的器件类型,集成了GTP、GTX、GTH、GTZ四种串行高速收发器&am…

(python)cryptography-安全的加密

前言 cryptography 是一个广泛使用的 Python 加密库,提供了各种加密、哈希和签名算法的实现。它支持多种加密算法,如 AES、RSA、ECC 等,以及哈希函数(如 SHA-256、SHA-384 等)和数字签名算法(如 DSA、ECDSA 等). 目录 …

pikachu靶场通关之csrf漏洞通关教程

目录 CSRF(get型) 1.打开网站,点击右上角提示 2.登录之后,点击修改个人信息 3.修改上述内容,打开抓包工具 4.抓到修改用户信息的数据包 5.构造虚假url,诱导用户点击 6.弹到修改后的界面 ​编辑 7.返…

前端已死? Bootstrap--CSS组件

目录 Bootstrap 下载 Bootstrap--全局CSS样式 栅格系统 栅格参数 正常显示 实例 代码演示: 排版 代码演示 表格 代码演示 表单 代码演示 等等...(文档很清晰了) Bootstrap--组件 结合演示:(页面) Bootstrap Bootstrap v3 中文文档 Bootstrap 是最受欢迎的 HT…

计算机视觉与深度学习实战:以Python为工具,基于小波的图像压缩技术

一、引言 在数字图像处理领域,图像压缩技术一直是一个热门且重要的话题。随着计算机视觉和深度学习技术的快速发展,图像压缩技术也在不断地进步和创新。本文将探讨如何使用Python这一强大的编程工具,结合深度学习技术和小波变换,实现高效的图像压缩。 二、计算机视觉与深度…

Ubuntu22.04 sudo pip 找不到命令解决方法

解决方法: (1)编辑/etc/sudoers: sudo vim /etc/sudoers 将Defaults env_reset修改为: Defaults !env_reset (2)编辑配置文件~/.bashrc: sudo vim ~/.bashrc 添加: a…

ps学习计划

将学习完成以下功能 1.更换证件照背景色 2.人像换装 3.人像去水印文字 4. P掉其中的一个人 去除无关的人 5.生活照扶正 6.瘦身 美白 去下巴 单眼皮变双眼皮 7.头发变颜色 8.竖图变横图技巧 9.帮小姐姐P裙子 10.人物头发变黑技巧 11.抠印章 一键抠图 12.抠图换背景 …

测试计划和管理:构建高质量软件的关键

目录 测试原则 测试计划 概述 过程 目标 策略 制定计划 范围分析和工作量估计 测试资源要求和进度管理 测试风险的控制 测试报告 测试管理工具 结论 测试是软件开发过程中的关键组成部分,确保了最终产品的质量和可靠性。有效的测试计划和管理对于确保测…

建筑乙级资质换证过程中的质量与安全保障

在建筑乙级资质换证过程中,确保质量与安全保障是至关重要的,它不仅关系到企业的声誉和长期发展,也直接关系到工程项目的成功实施和客户的满意度。以下是在换证过程中加强质量与安全保障的建议: 1. 明确质量与安全管理目标 在换证之…

Unreal Engine 4 简介

Unreal Engine 4(虚幻引擎4)是由Epic Games开发的一款强大而全面的游戏引擎。以下是关于Unreal Engine 4的简介: 开发目的:Unreal Engine 4最初是为了开发第一人称射击游戏而设计的,但随着时间的推移,它已…

Open AI再次定义AI PC?

从传统的文字交互,到语音和图像交互——Open AI再次提升了人们对AI PC的想象空间。 这种更贴近人类间交互的模式,会多大程度改变目前PC的生态? 随着苹果M4芯片、高通骁龙X的发布,AI PC也逐渐成为了市场热议的产品。 从各家PC厂…