GPT-4o,AI实时视频通话丝滑如人类,Plus功能免费可用

不开玩笑,电影《她》真的来了。

OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。

现场直播的效果更是炸裂:

它能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以做到随时打断。

GPT-4o里的“o”是Omni的缩写,也就是**“全能”**的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出

它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致

这还是一份给所有人的大礼,GPT4-o与ChatGPT Plus会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store……

将对所有用户免费开放!

(新语音模式几周内先对Plus用户开放)

在直播现场,CTO Murati穆姐说:这是把GPT-4级别的模型开放出去,其实她还谦虚了。

在场外,研究员William Fedus揭秘,GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一,im-also-a-good-gpt2-chatbot

无论从网友上手体验还是竞技场排位来看,都是高于GPT-4-Turbo级别的模型了,ELO分数一骑绝尘。

而这样的超强模型也将提供API,价格打5折,速度提高一倍,单位时间调用次数足足是原来的5倍!

追直播的网友已经在设想可能的应用,可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。

鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了,有大胆想法的朋友,可以把你们的想法发在评论区了。

总裁Brockman在线演示

知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸,狠狠打脸。

谷歌Gemini发布会需要靠剪辑视频和切换提示词达成的伪实时对话效果,OpenAI现场全都直播演示了。

比如让ChatGPT在语言不通的两个人之间充当翻译机,听到英语就翻译成意大利语,听到意大利语就翻译成英语。

发布会直播之外,总裁哥Brockman还发布了额外的5分钟详细演示。

而且是让两个ChatGPT互相对话,最后还唱起来了,戏剧感直接拉满。

这两个ChatGPT,一个是旧版APP,只知道对话,另一个则是新版网页,具备视觉等新能力。(我们不妨取Old和New的首字母,分别叫TA们小O和小N)

Brockman首先向小O介绍了大致情况,告诉她要和一个拥有视觉能力的AI对话,她表示很酷并欣然接受。

接着,Brockman让她稍作休息,并向小N也介绍情况,还顺带展示了小N的视觉能力。

只见打完招呼后,小N准确地说出了Brockman的衣着打扮和房间环境。而对于要和小O对话这件事,小N也感到很有趣。

接下来就是小O和小N相互对白的时间了,TA们依然是从Brockman的衣着开始聊起,小O不断提出新的问题,小N都一一解答。

接着,他们又谈论了房间的风格、布置和光线,甚至小N还意识到了Brockman正站在上帝视角凝视着TA们。

如果你看了这段视频就会发现,画面中出现了一个女人在Brockman身后做了些恶搞的手势。

这可不是乱入,是Brockman和女人串通好,专门给小N设计的一道“考题”。

就在小O和小N聊的正开心的时候,Brockman选择加入,直接问有没有看到什么不正常的地方。

结果是小N直接识破了Brockman的小伎俩,直接复述出了女人在他身后做小动作的场景,小O听了之后直接感叹原来在这里享受乐趣的不只有我们两个。

Brockman把这句话当成了夸赞,并对小O表示了感谢,还愉快地加入了TA们的对话。

之后是最后也是最精彩的部分,在Brockman的指挥下,小O和小N根据刚才聊天的内容,直接开启了对唱模式。

只过了简单几轮,衔接地就十分密切,而且旋律悠扬,音色也是和真人毫无二致。

最后视频以Brockman唱出的一句Thank you结束,在视频外的推文中他还透露新的语音对话功能将在数周内向Plus用户开放。

端到端训练,一个神经网络搞定语音文本图像

正如奥特曼在发布会前所说,GPT-4o让人感觉像魔法一样,那么它是如何做到的呢?

非常抱歉,这次非但没有论文,连技术报告也不发了,只在官网Blog里有一段简短的说明。

在GPT-4o之前,ChatGPT语音模式由三个独立模型组成,语音转文本→GPT3.5/GPT-4→文本转语音

我们也可以让旧版ChatGPT语音模式自己讲一下具体是怎么个流程。‍‍

这样一来,整个系统的延迟足足有2.8秒(GPT-3.5)和5.4秒(GPT-4),而且丢失了大量的信息,它无法直接感受音调、多个说话者或背景噪音,也无法输出笑声、唱歌声,或表达情感。

GPT-4o则是跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理

在语音翻译任务上,强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。

在视觉理解上,也再次反超Gemini 1.0 Ultra与对家Claude Opus

虽然技术方面这次透露的消息就这么多了,不过也有学者评价。

一个成功的演示相当于1000篇论文。

One More Thing

除了OpenAI带来的精彩内容之外,也别忘了北京时间5月15日凌晨,谷歌将召开I/O大会。

到时量子位将继续第一时间带来最新消息。

另外根据网友推测,GPT-4o这么强,全都免费开放了,这是劝大家不续订ChatGPT Plus了的意思吗?

那肯定不是啊~

鉴于OpenAI春节期间在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把,明天OpenAI还有新活也说不定呢?

直播回放
https://www.youtube.com/watch?v=DQacCB9tDaw

参考链接:
[1]https://openai.com/index/hello-gpt-4o/

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/837615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10G UDP协议栈 IP层设计-(6)IP TX模块

一、模块功能 1、上层数据封装IP报文头部 2、计算首部校验和 二、首部校验和计算方法 在发送方,先把IP数据报首部划分为许多16位字的序列,并把检验和字段置零。用反码算术运算把所有16位字相加后,将得到的和的反码写入检验和字段。接收方收…

C++(week2):C语言中高级

文章目录 (八) 指针0.概念1.指针基础(1)指针的声明(2)指针的两个基本操作①取地址运算符 &②解引用运算符 * (3)野指针①野指针②空指针③指针变量的赋值 vs 指针变量指向对象的赋值 (4)指针的应用①指针作为参数进行传递②指针作为返回值③拓展:栈帧 (5)常量指…

手撸XXL-JOB(一)——定时任务的执行

SpringBoot执行定时任务 对于定时任务的执行,SpringBoot提供了三种创建方式: 1)基于注解(Scheduled) 2)基于接口(SchedulingConfigurer) 3)基于注解设定多线程定时任务 基于Scheduled注解 首…

基于51单片机的冰箱控制系统设计( proteus仿真+程序+设计报告+原理图+讲解视频)

基于51单片机冰箱控制系统设计( proteus仿真程序设计报告原理图讲解视频) 基于51单片机冰箱控制系统设计 1. 主要功能:2. 讲解视频:3. 仿真4. 程序代码5. 设计报告6. 原理图7. 设计资料内容清单&&下载链接资料下载链接: …

【C++】学习笔记——继承_2

文章目录 十二、继承5. 继承与友元6. 继承与静态成员7. 复杂的菱形继承及菱形虚拟继承 未完待续 十二、继承 5. 继承与友元 友元关系不能继承,也就是说父类友元不能访问子类私有和保护成员 。除非子类也设置成友元。 6. 继承与静态成员 父类定义了 static 静态成…

pnpm:无法加载文件 C:\Users\PC\AppData\Roaming\npm\pnpm.ps1,因为在此系统上禁止运行脚本。

使用pnpm命令启动vue时报了个错: 解决起来也简单,右击开始菜单,用管理员身份打开终端。win11的如下图: win10我记得应该是PowerShell(管理员),这样的。 打开之后执行命令: set-…

物联网平台之单体架构

介绍本文主要介绍平台的单体架构,包括各个组件之间的数据流描述以及所做的一些架构选择。在单体架构模式下,所有 ThingsKit 组件都在单个 Java 虚拟机 (JVM) 中启动,并共享相同的操作系统资源。由于 ThingsKit 是用 Java 编写的,因…

dnf手游攻略,新手入坑必备!

一、角色创建策略 在DNF手游中,角色创建是玩家初入游戏的首要步骤。为最大化游戏体验和收益,新手玩家通常建议创建三个角色:一个主账号和两个副账号。 主账号选择 主账号的选择应基于玩家个人的喜好和对职业的熟悉程度。无论选择哪个职业&a…

番外篇 | 手把手教你利用YOLOv8进行热力图可视化 | 针对视频

前言:Hello大家好,我是小哥谈。YOLOv8的热力图可视化可以帮助我们更加直观地了解模型在图像中的检测情况,同时也可以帮助我们进行模型的调试和优化。热力图是一种颜色渐变的图像,不同颜色的区域表示不同程度的关注度或者置信度。在YOLOv8中,可以通过设置阈值来控制热力图的…

电机控制杂谈——“双采样双更新模式”对模型预测控制/PI控制的提升有多大?

1.采样频率与PWM开关频率的关系 一般有以下两种采样模式。 如下图(a)所示,这种方式称之为单采单更模式,即在一个PWM周期内,采样一次,更新一次PWM占空比,在这种情况下,采样频率&…

小红书自动私信获客,打造个人品牌

在当今这个内容为王、社交至上的时代,小红书作为新兴的社交电商平台,凭借其独特的社区氛围和强大的种草能力,成为了众多KOL、商家以及个人品牌打造的首选平台。想要在小红书上脱颖而出,精准引流获客,利用自动私信功能不…

【MyBatis】 MyBatis框架下的高效数据操作:深入理解增删查改(CRUD)

文章目录 1. 环境准备2. 增加数据(Create)3. 查询数据(Retrieve)4. 更新数据(Update)5. 删除数据(Delete)6. 总结 🎉欢迎来到Java学习路线专栏~探索Java中的静态变量与实…

强化训练:day8(求最小公倍数、数组中的最⻓连续⼦序列、字⺟收集)

文章目录 前言1. 最小公倍数1.1 题目描述1.2 解题思路1.3 代码实现 2. 数组中的最⻓连续⼦序列2.1 题目描述2.2 解题思路2.3 代码实现 3. 字母收集3.1 题目描述3.2 解题思路3.3 代码实现 总结 前言 1. 最小公倍数   2. 数组中的最⻓连续⼦序列   3. 字⺟收集 1. 最小公倍数…

JavaEE之线程(5)——Java内存模型、内存可见性、volatile关键字

前言 volatile可以理解成轻量级的 synchronized, 它在多CPU开发中保证了共享变量的“可见性”,可见性我们可以理解成是:当一个线程修改一个共享变量时,另一个线程可以读到这个修改的值。由于它不会引起线程的上下文切换和调度&am…

HTML的使用(中)

文章目录 前言一、HTML表单是什么&#xff1f;二、HTML表单的使用 &#xff08;1&#xff09;<form>...</form>表单标记&#xff08;2&#xff09;<input>表单输入标记总结 前言 在许多网页平台上浏览&#xff0c;大多逃不了登录账号。此时在网页中填写的用户…

Centos 7.9 安装 tigervnc-server

环境&#xff1a;当前使用的 Centos 7.9 的光盘作为的本地源&#xff0c;或使用离线rpm包。 1 检查是否已安装 tigervnc [rootlocalhost /]# rpm -q tigervnc tigervnc-server 未安装软件包 tigervnc tigervnc-server-1.8.0-21.el7.x86_64 如果安装过卸掉 卸载: rpm -e [ro…

MYSQL DBA运维实战 SQL2

1.DML:通过SQL语句中的DML语言来实现数据的操作。 insert实现数据的插入。 update实现数据的更新。delete实现数据的删除。 插入&#xff0c;完全插入insert into 表名 values(值) 非完全插入:insert into 表名(列名&#xff0c;列名) values(值) 更新&#xff0…

RustGUI学习(iced)之小部件(十二):如何使用rule分割线部件来分割UI?

前言 本专栏是学习Rust的GUI库iced的合集,将介绍iced涉及的各个小部件分别介绍,最后会汇总为一个总的程序。 iced是RustGUI中比较强大的一个,目前处于发展中(即版本可能会改变),本专栏基于版本0.12.1. 概述 这是本专栏的第十二篇,主要讲述rule分割线部件的使用,会结合…

【计算机网络】http协议的原理与应用,以及https是如何保证安全传输的

HTTP 超文本传输协议&#xff08;英文&#xff1a;HyperText Transfer Protocol&#xff0c;缩写&#xff1a;HTTP&#xff09;是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础。 HTTP的发展是由蒂姆伯纳斯-李于1989年在欧洲核子研究组织…

React useEffect Hook: 理解和解决组件双重渲染问题

在React中&#xff0c;useEffect可能会在组件的每次渲染后运行&#xff0c;这取决于它的依赖项。如果你发现useEffect运行了两次&#xff0c;并且你正在使用React 18或更高版本的严格模式&#xff08;Strict Mode&#xff09;&#xff0c;这可能是因为在开发模式下&#xff0c;…