OpenAI新模型GPT-4o“炸裂登场” 响应速度堪比真人 关键还免费!

  GPT-4o模型基于来自互联网的大量数据进行训练,更擅长处理文本和音频,并且支持50种语言。更值得一提的是,GPT-4o最快可以在232毫秒的时间内响应音频输入,几乎达到了人类的响应水平。

  GPT-4o有多“炸裂”?核心能力有三

  GPT-4o中的“o”代表“omni”,意为“全能”。OpenAI官网介绍称,GPT-4o向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。

  那GPT-4o到底有多强,有哪些核心能力呢?

能力一:“实时”互动,表达富有情感,视觉功能更强

  OpenAI表示,GPT-4o显著提升了AI聊天机器人ChatGPT的使用体验。虽然ChatGPT长期支持语音模式,可将ChatGPT的文本转为语音,但GPT-4o在此基础上进行了优化,使用户能够像与助手互动一样自然地使用ChatGPT。

  例如,用户现在可以在ChatGPT回答问题时中断它。而且,新模型能够提供“实时”响应,甚至能够捕捉到用户声音中的情感,并以不同的情感风格生成语音,如同真人一般。此外,GPT-4o还增强了ChatGPT的视觉功能。通过照片或屏幕截图,ChatGPT现在可以迅速回答相关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。

  美国科技媒体Quartz报道称,OpenAI新发布的ChatGPT-4o的技术让人印象深刻。OpenAI的演示表明,机器人现在可以与人类进行实时对话,与真人水平几乎没有区别。如果最终版本像OpenAI官方的演示一样,那么OpenAI似乎已经从某种程度上验证AI将在多大程度上改变我们的世界。

  能力二:多语言表现出色,响应速度几乎与真人无异

  GPT-4o的多语言功能得到了增强,在50种不同的语言中表现更佳。在OpenAI的API中,GPT-4o的处理速度是GPT-4(特别是 GPT-4 Turbo)的两倍,价格则是GPT-4 Turbo的一半,同时拥有更高的速率限制。

  OpenAI官网介绍称,GPT-4o最快可以在232毫秒的时间内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo的性能一致,并且在非英语文本方面的性能有了显著提高。

  用户只需发出简单的“嘿,ChatGPT”语音提示,即可获得代理的口语回应。然后,用户可以用口语提交查询,并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。

2024年快速升级ChatGPTPLSU方法,开卡即可升级,支持微信支付宝

  能力三:在推理及音频翻译方面树立新标杆

  据OpenAI研究人员William Fedus透露,GPT-4o实际上就是上周在LMSYS模型竞技场上引起整个AI圈疯狂试用的GPT-2模型的另一版本,并附上了GPT-4o的基准测试评分对比图,相比GPT-4 Turbo提升了超过100个单位。

  推理能力方面,GPT-4o在MMLU、GPQA、MATH、HumanEval等测试基准上均超越GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型,取得最高分。

音频ASR(智能语音识别)性能方面,GPT-4o相比Whisper-v3,在所有语言的语音识别性能上均大幅提高,尤其是资源较少的语言。

音频翻译方面,GPT-4o也树立了新的标杆,在MLS基准测试中优于Whisper-v3以及Meta、谷歌的语音模型。

评价褒贬不一,有网友认为压力给到Siri了

  虽然并未在OpenAI周一的重磅直播演示中现身,但OpenAI的CEO阿尔特曼对这次演示进行了重要的总结。阿尔特曼称,OpenAI在ChatGPT中免费提供了世界上最好的模型,新的语音和视频模式是他用过的最好的计算交互界面,感觉就像电影里的人工只能一样,达到与人类相似的响应速度和表达能力。

  目前,GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可以享受到5倍的调用额度。在接下来的几周内,OpenAI将在ChatGPT Plus中推出Voice Mode新版本,该版本带有GPT-4o。

  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/12739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

点量云流3D应用线上展厅云推流方案分享

展厅是企业对外展示宣传的窗口,不论企业还是政fu单位、博物馆、科技馆,展厅都可以给用户一个更直观的感受。而随着技术的发展,展厅展示的内容也从最初的图文、视频,扩展更多文件类型,比如PPT\PDF文件以及3D应用数字孪生…

【文末附gpt升级方案】腾讯混元文生图大模型开源:中文原生Sora同款DiT架构引领新潮流

在人工智能与计算机视觉技术迅猛发展的今天,腾讯再次引领行业潮流,宣布其旗下的混元文生图大模型全面升级并对外开源。这次开源的模型不仅具备强大的文生图能力,更采用了业内首个中文原生的Sora同款DiT架构,为中文世界的视觉生成领…

uniapp使用地图开发app, renderjs使用方法及注意事项

上次提到uniapp开发地图app时得一些问题,最后提到使用renderjs实现app中使用任何地图(下面将以腾讯地图为例,uniapp中写app时推荐使用得是高德地图,无法使用腾讯地图(renderjs方式除外))。 1、…

泰盈科技IPO终止:客户集中度高,业绩未达目标,高管薪酬较高

近日,上海证券交易所披露的信息显示,泰盈科技集团股份有限公司(下称“泰盈科技”)及其保荐人中金公司撤回上市申请文件。因此,上海证券交易所决定终止对该公司首次公开发行股票并在主板上市的审核。 据贝多财经了解&am…

企智汇项目管理软件有哪些优势?

一款非常好用、高效的软件——企智汇软件有哪些优势呢? 首先,我们来看看它的界面设计。企智汇软件界面简洁直观,用户可以轻松地使用各种功能,不需要学习复杂的操作流程。而且,软件还提供了多种配色方案和主题&#xf…

嵌入式学习72-复习(字符设备驱动框架)

编辑 drivers/char/Kconfig 为了在make menuconfig是能够显示出我们写的驱动程序 make menuconfig 编辑 drivers/char/Makefile 才是真正把编写好的源文件加入到编译中去 make modules cp drivers/char/first_driver.ko ~/nfs/rootfs/

什么是ARP攻击,怎么做好主机安全,受到ARP攻击有哪些解决方案

在数字化日益深入的今天,网络安全问题愈发凸显其重要性。其中,ARP攻击作为一种常见的网络攻击方式之一,往往给企业和个人用户带来不小的困扰。ARP协议是TCP/IP协议族中的一个重要协议,负责把网络层(IP层)的IP地址解析为数据链路层…

Spring Boot集成activiti快速入门Demo

1.什么事activiti? Activiti是一个工作流引擎,可以将业务系统中复杂的业务流程抽取出来,使用专门的建模语言BPMN2.0进行定义,业务流程按照预先定义的流程进行执行,实现了系统的流程流activiti进行管理,减少业务系统由于流程变更进行系统升级改造的工作量,从而提高系…

做抖店的门槛高吗?一个月的时间能入门吗?基础问题解答如下

我是王路飞。 抖店,依旧是普通人做抖音最好的渠道,没有之一,依旧值得我们all in。 这是我对2024年抖音小店的看法和态度, 那么做抖店的门槛高吗?新手用一个月的时间能做到入门吗?投入和回报的数据是多少…

OpenAI 推出革命性新模型 GPT-4o:全能AI的新纪元

GPT-4o 模型的推出预示着人工智能领域的又一次飞跃,它将如何改变我们的世界? 在人工智能的快速发展浪潮中,OpenAI 再次站在了技术革新的前沿。2024年5月14日,OpenAI 宣布了其最新旗舰模型 GPT-4o,这不仅是一个简单的版…

【C++小语法技巧】命名空间和输入输出

在使用C语言编程过程中,C语言的要求之严格,编程过程之繁琐,大同小异的重复性工作,令C之父使用C语言编程时也深受其扰,于是乎C兼容C小语法诞生了 一、命名空间域(解决C语言中命名冲突) 1.定义命…

C语言之旅:文件操作

目录 一什么是文件 1.1程序文件: 1.2数据文件: 1.3文件名 二.文件的打开与关闭 2.1流和标准流 2.2 文件指针 2.3文件的打开与关闭 三.文件的顺序读写 3.1顺序读写函数介绍 fgetc fputc fgets fputs 四.文件的随机读写 4.1 fseek 4.2 ftell…

【案例教程】土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测

查看原文>>>土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测 土地利用/土地覆盖数据是生态、环境和气象等领域众多模型的重要输入参数之一。基于遥感影像解译,可获取历史或当前任何一个区域的土地利用/土地覆盖数据,用于评估区域的生…

I2C总线协议

目录 一、前言 二、概念 三、I2C总线 1、主从结构 2、两线 3、半双工 4、上拉电阻 5、高阻态 四、时序图 1、起止信号 2、数据传输 3、应答信号 五、数据传送 1、传送格式 2、读写数据 六、时钟同步与仲裁 1、时钟同步 2、仲裁 七、时钟拉伸 八、总线速率 一、…

Flutter 依据JSON数据自动生成实体类

json自动化生成工具 点击这里可以跳转 页面是这样的 然后在左边输入你的json数据,它会自动生成对应的实体类 生成的实体类是如下: import package:json_annotation/json_annotation.dart; part merch_region.g.dart;JsonSerializable()class MerchReg…

国网645协议报文解析软件

本文分享一款支持国网DL645-2007规约的报文解析软件, 链接: https://pan.baidu.com/s/1ngbBG-yL8ucRWLDflqzEnQ 提取码: y1de 主界面如下图所示: 本解析软件同时内嵌规约文档,支持一键打开文档,功能如下: 同时支持模…

堆的数组实现

前言 本次博客来讲解一下堆的数组实现,好吧还是会结合图例,让大家理解 堆的定义 什么是堆? 堆是一颗完全二叉树。它的性质是父节点一定大于或者一定小于子节点 每一个结点都要满足这个性质就是堆 堆的特性是堆顶的数据一定是最大或最小…

ROS仿真多点导航

仿真环境启动: 1、启动并进入到相应环境: roscarroscar-virtual-machine:~/artcar_simulation$ 启动gazebo环境: roslaunch artcar_gazebo artcar_gazebo.launch 启动move_base: roslaunch artcar_nav artcar_move_base.launc…

3D数字化技术如何改变汽车行业?

近年来,新能源汽车行业加速发展,新车型密集发布,汽车保有量和车龄的增加,也同时点燃了汽车后市场的增长引擎。对于车企而言,如何全方面优化汽车从研发、生产、售后到营销的各个环节,以便适应快速变化的市场…

使用make_blobs生成数据并使用KNN机器学习算法进行分类和预测以及可视化

生成数据 使用make_blobs生成数据并使用matplotlib进行可视化 完整代码: from sklearn.datasets import make_blobs # KNN 分类器 from sklearn.neighbors import KNeighborsClassifier # 画图工具 import matplotlib.pyplot as plt # 数据集拆分工具 from sklea…