26 分钟惊讶世界,GPT-4o 引领未来人机交互

前言

原文链接:OpenAI最新模型——GPT-4o,实时语音视频交互,未来人机交互近在眼前 - Kaiho小站

北京时间 5 月 14 日凌晨,OpenAI 发布新一代模型——GPT-4o,仅在 ChatGPT 面世 17 个月后,OpenAI 再次通过新模型震惊世界,推出了科幻电影般的超级 AI,并且完全免费供大众使用。

划时代的发布会

5月14日凌晨,OpenAI 在首届“春季新品发布会”上隆重推出了新一代旗舰生成模型 GPT-4o、桌面应用程序,并展示了一系列令人惊叹的新功能。连 OpenAI CEO 山姆·奥特曼都不禁感叹:这简直像电影中的情节。

此次发布会由 OpenAI 首席技术官 Mira Murati 主持,她指出 OpenAI 的三大重要理念:

  1. 免费优先:OpenAI 致力于让更多人能够使用其产品。
  2. 桌面应用程序和更新 UI:新版本的桌面应用程序更加简便和自然。
  3. 全新大模型 GPT-4o:GPT-4o 以极其自然的交互方式为每个人提供 GPT-4 级别的智能,包括免费用户。

此次更新后,ChatGPT 可以接收文本、音频和图像的任意组合输入,并实时生成相应的输出。这种全新的交互方式将引领未来主流的交互模式。

如今,ChatGPT 不仅无需注册即可使用,更是推出了桌面程序。OpenAI 的目标是让人们能够随时随地无感使用 ChatGPT,将其无缝集成到工作流程中,真正提升生产力​。

GPT-4o 是一款面向未来的全新大模型,具有文本、语音、图像三种模态的理解力,反应迅速且情感丰富。在发布会上,OpenAI 工程师们展示了 GPT-4o 的主要功能,包括实时语音对话、视觉能力和代码解析能力。

在现场,OpenAI 的工程师Mark Chen 说:「我第一次来直播的发布会,有点紧张。」

ChatGPT 说:「要不你深呼吸一下。」
「好的,我试着深呼吸」

ChatGPT 立即回答说「你这不行,喘得也太大了。」
如果之前有用过 Siri 之类的语音助手的经历,你就会发现极大的区别。

首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。其次,你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。

在视觉能力方面,另一个工程师直接在纸上写下一个方程式,并且让 ChatGPT 不需要直接给答案,而是让它解释要一步步怎么做。看得出来,它在教人做题方面很有潜力,在 AI 教育产业上看来会有很大的冲击。

此外,在发布会上还展示了 GPT-4o 的实时翻译和表情识别能力。这些功能将使用户能够更加自然地与 ChatGPT 互动,真正达到了实时的视频理解。

新一代模型——GPT-4o

GPT-4o,o 即代表 Omnimodel(全能模型)

GPT-4o 是 OpenAI 在集成多模态模型方面的重大突破。该模型在文本、视觉和音频方面的性能大幅提升,响应速度极快,接近人类水平。OpenAI 通过端到端训练,将所有输入和输出统一处理,实现了跨模态的实时推理​。

GPT-4o 在英文文本和代码方面的性能与 GPT-4 Turbo 相当,但在非英文文本方面表现显著提升。同时,它的 API 速度也有所增加,使成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤为出色。

它可以在 232 毫秒内快速响应音频输入,平均响应时间为 320 毫秒,与人类相似。在 GPT-4o 发布之前,使用 ChatGPT 的语音对话功能的用户注意到平均延迟分别为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

这种快速的语音响应是由三个独立模型组成的流程实现的:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 处理文本并生成文本输出,第三个简单模型将文本转换回音频。然而,OpenAI 发现这种方法导致 GPT-4 丢失了大量信息,例如模型无法直接观察到音调、多个说话者、背景噪音,也无法输出笑声、歌唱或情感表达。

相比之下,在 GPT-4o 上,OpenAI 跨文本、视觉和音频领域进行了端到端的训练,意味着所有输入和输出都由同一神经网络处理。这消除了信息丢失,并使模型能够更加细致、丰富地理解上下文,并提供更加多样化和丰富的响应。

此外,GPT-4o 在理解和生成图像方面的能力也远胜于之前,此前很多不可能的任务都变得「易如反掌」。

比如,一首诗可以用手写样式来进行排版:

或者更复杂,具有艺术性的排版:

并且 GPT-4o 还拥有 3D 视觉内容生成的能力:

每周都有超过一亿人在使用 ChatGPT,OpenAI 表示 GPT-4o 的文本和图像功能从 5 月 14 日开始免费在 ChatGPT 中推出,使用限制为 3 小时 16 条,Plus 用户提供高达 5 倍的消息上限

如今,部分账户登录即可看到 GPT-4o 已经可以使用


此外,免费用户还拥有以下几个功能

  • 数据分析并创建图表
  • 图片、文件上传
  • 发现并使用 GPTs 和 GPTs 应用商店

在未来几周内,OpenAI 将在 ChatGPT Plus 中推出 GPT-4o alpha 的新版本语音模式,并通过 API 向一小部分可信赖的合作伙伴提供更多新的音频和视频功能。

尽管经过多次模型测试和迭代,GPT-4o 在所有模态下仍存在一些局限性,但 OpenAI 表示正在努力改进 GPT-4o。

当然,GPT-4o 音频模式的开放肯定会带来各种新的挑战。在安全性方面,OpenAI 已经通过过滤训练数据和对训练后模型行为进行细化等技术来内置跨模态设计的安全性。此外,OpenAI 还创建了新的安全系统,以确保语音输出的安全。

全新桌面应用程序(Mac)

OpenAI 推出了适用于 macOS 的新 ChatGPT 桌面应用程序,面向所有的免费和付费用户。通过简单的键盘快捷键「Option + Space」,用户可以立即向 ChatGPT 提出问题。此外,应用程序还支持用户直接截取屏幕截图,基于截图和 ChatGPT 沟通。

虽然说是 Plus 用户可以使用,不过我自己测试过来 Plus 用户也会报如下错误,应当还是在内测中

畅谈 GPT-4o 的愿景

在发布会结束后,OpenAI CEO 山姆·奥特曼久违地在博客上分享了关于 GPT-4o 工作的一些心路历程:

“在今天的发布会上,我想强调两件事。首先,我们的使命之一是将强大的人工智能工具免费或以优惠的价格提供给大众。我非常自豪地宣布,我们在 ChatGPT 中免费提供世界上最好的模型,没有广告或类似的东西。

当我们创立 OpenAI 时,我们的初衷是创造出人工智能并利用它为世界创造各种利益。现在情况有所变化,似乎我们创造了人工智能,其他人将使用它来创造各种令人惊叹的事物,我们所有人都会从中受益。

当然,作为一家企业,我们也会开发很多收费的服务,这将帮助我们向数十亿人提供免费、优秀的人工智能服务(希望如此)。

其次,新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样,我仍然有点惊讶于它竟然是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的飞跃。

最初的 ChatGPT 展示了语言界面的可能性,而这个新事物(GPT-4o 版本)给人的感觉有本质上的不同——它快速、智能、有趣、自然且能给人带来帮助。

对我来说,与电脑交互从来都不是很自然的事情,事实如此。而当我们添加(可选)个性化、访问个人信息、让 AI 代替人采取行动等功能时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。

最后,我要非常感谢团队为实现这一目标所付出的巨大努力!”

奥特曼还提到,虽然实现全民基本收入(Universal Basic Income)困难重重,但我们可以实现“全民免费计算”(Universal Basic Compute)。未来,每个人都可以免费获得 GPT 的计算资源,可以使用、转售或捐赠。

他解释道:“随着 AI 变得更加先进,并嵌入到我们生活的方方面面,拥有像 GPT-7 这样的大语言模型单元可能比金钱更有价值,你拥有了部分生产力。”

GPT-4o 的发布,或许就是 OpenAI 朝着这个目标迈出的第一步。

“是的,这还只是个开始。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/12960.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

qt的udp通讯

QString mylocalip; const QList interfaces QNetworkInterface::allInterfaces(); foreach(QNetworkInterface ip, interfaces) { if (ip.humanReadableName() QStringLiteral(“以太网”)) { //if (ip.type() QNetworkInterface::Ethernet) { const QList iplist ip.addr…

【EasyX】快速入门——静态图形篇

1.基本说明 EasyX 是针对 C 的图形库,可以帮助 C/C 初学者快速上手图形和游戏编程。 比如,可以基于 EasyX 图形库很快的用几何图形画一个房子,或者一辆移动的小车,可以编写俄罗斯方块、贪吃蛇、黑白棋等小游戏,可以练…

Go 注释生成 api文档

在 Go 语言中,通常会使用 godoc 工具来从注释中生成 API 文档。godoc 是 Go 官方提供的文档生成工具,它可以解析 Go 源代码中的注释,并生成在线的、可交互的文档。 为了使用 godoc 生成 API 文档,你需要遵循一些特定的注释格式。…

使用VMware或VirtualBox安装eNSP Pro并使用CRT连接设备

文章目录 使用Oracle Virtual Box安装eNSP Pro创建虚拟机配置网卡配置带外管理网络 使用VMware Workstation安装eNSP Pro转换文件格式及虚拟磁盘模式配置网卡创建虚拟机配置使用CRT连接管理设备 前一段时间是开放了eNSP Pro的账号权限,但是在写博客时,权…

2024OD机试卷-字符串分割(二) (java\python\c++)

题目:字符串分割(二) 题目描述 给定一个非空字符串S,其被N个‘-’分隔成N+1的子串,给定正整数K,要求除第一个子串外,其余的子串每K个字符组成新的子串,并用‘-’分隔。 对于新组成的每一个子串,如果它含有的小写字母比大写字母多,则将这个子串的所有 大写字母转换为小…

27.哀家要长脑子了!

目录 1.316. 去除重复字母 - 力扣(LeetCode) 2. 1209. 删除字符串中的所有相邻重复项 II - 力扣(LeetCode 哎哟 烦死了 刚刚不小心退出又没保存 又要写一遍 烦死了 最近刷题不得劲啊 感觉这脑子没长一点 1.316. 去除重复字母 - 力扣&am…

(实测验证)【移远EC800M-CN 】GNSS功能打开和关闭关闭步骤验证

引言 本文章使用自研“超小体积TTL转4GGPS集成模块”进行实测验证; 一、打开GNSS功能 步骤一、通过 ATQGPSCFG 配置 GNSS 参数 (1)该命令用于查询和配置 GNSS 不同的设置,包括 NMEA 语句输出端口、NMEA 语句的输出类型等。 1.1…

NSSCTF | [SWPUCTF 2021 新生赛]easyupload2.0

先传一个普通的一句话木马试一试 GIF89a <?php eval($_POST[shell]);?> 可以看到回显&#xff0c;不允许上传php文件。 使用Burpsuite抓包只修改ContentType后发现也不能绕过&#xff0c;说明服务器使用了黑名单后缀限制&#xff0c;那么我们可以使用其他的后缀代替ph…

RPA的实施过程通常包括哪些步骤?

RPA&#xff08;Robotic Process Automation&#xff09;的实施过程通常涉及一系列详细的步骤&#xff0c;旨在确保自动化项目的成功部署和运行。以下是RPA实施过程的一般步骤&#xff1a; ### 1. 需求分析与目标设定 实施RPA的第一步是进行需求分析&#xff0c;明确企业希望通…

电路板维修【四】

【开关电源输出电压偏低不稳&#xff0c;用示波器立马锁定故障范围】&#xff1a;https://www.bilibili.com/video/BV1pf421D73K?vd_source3cc3c07b09206097d0d8b0aefdf07958 可以用示波器查看MOS的输出波形来查看其是否损坏&#xff1a; 电源芯片的供电电压来回跳变&#xf…

嵌入式C语言与人工智能融合开发高级教程:实现手势识别系统

目录 文章主题环境准备人工智能与嵌入式系统基础代码示例&#xff1a;实现手势识别系统应用场景&#xff1a;智能家居与穿戴设备问题解决方案与优化 1. 文章主题 文章主题 本教程将详细介绍如何在STM32嵌入式系统中使用C语言实现手势识别系统&#xff0c;特别是如何在资源受…

基于卷积神经网络CNN,使用二维卷积Conv2D实现MNIST数字识别的四种方法

前言 系列专栏&#xff1a;机器学习&#xff1a;高级应用与实践【项目实战100】【2024】✨︎ 在本专栏中不仅包含一些适合初学者的最新机器学习项目&#xff0c;每个项目都处理一组不同的问题&#xff0c;包括监督和无监督学习、分类、回归和聚类&#xff0c;而且涉及创建深度学…

ROS 2边学边练(48)-- 将URDF与robot_state_publisher一起使用

前言 本篇将完成一个行走的机器人&#xff0c;并以tf2消息的方式实时发布机器人状态&#xff0c;以便我们在Rviz中同步查看。 首先&#xff0c;我们创建描述机器人装配的URDF模型。接下来&#xff0c;我们编写一个节点&#xff0c;用于模拟运动并发布JointState和位姿变换。然后…

C-函数的由浅入深

1.函数的定义 数据类型 函数名 &#xff08;【数据类型 形参名&#xff0c;数据类型 形参名&#xff0c; …】&#xff09; 2.函数的传参 值传递 地址传递 全局变量 3.函数的调用 嵌套调用 递归 4.函数与数组 5.函数与指针 指针函数 函数指针 函数指针数组 函数的定义 #inclu…

醉了,面个功能测试,还问我Python装饰器

Python 装饰器是个强大的工具&#xff0c;可帮你生成整洁、可重用和可维护的代码。某种意义上说&#xff0c;会不会用装饰器是区分新手和老鸟的重要标志。如果你不熟悉装饰器&#xff0c;你可以将它们视为将函数作为输入并在不改变其主要用途的情况下扩展其功能的函数。装饰器可…

dhcp(接口和全局地址池模式)

接口地址池和全局地址池 dhcp应用 1.全部开启dhcp功能 2.ar5 0口接口地址池 1口全局地址池 3.ar6和ar7配置&#xff0c;查看能否自动获取ip 左右不同两个网络&#xff0c;接口和全局地址池的区别 部分截图 ar6 ar7 ar5

(实测验证)【移远EC800M-CN 】TCP 透传

引言 本文章使用自研“超小体积TTL转4GGPS集成模块”进行实测验证&#xff1b; 1、配置移远EC800M-CN TCP 透传 串口助手发送&#xff1a; ATQIOPEN1,0,"TCP","36.137.226.30",39755,0,2 //配置服务器地址和端口号&#xff1b; 4G模组返回…

07-Fortran基础--Fortran指针(Pointer)的使用

07-Fortran基础--Fortran指针Pointer的使用 0 引言1 指针&#xff08;Poionter&#xff09;的有关内容1.1 一般类型指针1.2 数组指针1.3 派生类(type)指针1.4 函数指针 2 可运行code 0 引言 Fortran是一种广泛使用的编程语言&#xff0c;特别适合科学计算和数值分析。Fortran 9…

java代码混淆工具ProGuard混淆插件

java代码混淆工具ProGuard混淆插件 介绍 ProGuard是一个纯java编写的混淆工具&#xff0c;有客户端跟jar包两种使用方式。可以将程序打包为jar&#xff0c;然后用工具进行混淆&#xff0c;也可以在maven中导入ProGuard的插件&#xff0c;对代码进行混淆。 大家都知道 java代…

【华为OD机试-C卷D卷-200分】田忌赛马(C++/Java/Python)

【华为OD机试】-(A卷+B卷+C卷+D卷)-2024真题合集目录 【华为OD机试】-(C卷+D卷)-2024最新真题目录 题目描述 给定两个只包含数字的数组a,b,调整数组 a 里面的数字的顺序,使得尽可能多的a[i] > b[i]。 数组a和b中的数字各不相同。 输出所有可以达到最优结果的a数组的…