一文带你快速了解GPT-4o!内含免费使用指南!

一、GPT-4o简介

北京时间5月14日,OpenAI举行春季发布会。OpenAI在活动中发布了新旗舰模型“GPT-4o”!据OpenAI首席技术官穆里·穆拉蒂(Muri Murati)介绍,GPT-4o在继承GPT-4强大智能的同时,进一步提升了文本、图像及语音处理能力,为用户带来更加流畅、自然的交互体验,更多详情可点击查看官网。

GPT-4o的“o”代表“omni”,源自拉丁语“omnis”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。GPT-4o是一个多模态大模型,支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出。与现有模型相比,它在视觉和音频理解方面尤其出色。

二、GPT-4o的性能

GPT-4o可以在音频、视觉和文本中进行实时推理,接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合进行输出。它可以最短在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。

文本能力

GPT-4o 在 0 次 COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是用我们的新 简单评估(在新窗口中打开)。此外,在传统的 5 次无 CoT MMLU 上,GPT-4o 创下了 87.2% 的新高。(注:3400b(在新窗口中打开)还在训练)

音频能力

GPT-4o 在语音翻译方面创下了新的领先地位,并在 MLS 基准测试中优于 Whisper-v3。

各种语言的考试能力

M3Exam 基准测试既是多语言评估,也是视觉评估,由来自其他国家标准化考试的多项选择题组成,有时包括数字和图表。GPT-4o 在所有语言的基准测试中都比 GPT-4 强。(我们省略了斯瓦希里语和爪哇语的视力结果,因为这些语言只有 5 个或更少的视力问题。)

视觉理解

GPT-4o 在视觉感知基准测试中实现了最先进的性能。全面碾压之前的模型。所有视觉评估均为 0 次,其中 MMMU、MathVista 和 ChartQA 为 0 次 CoT。

语音交互

GPT-4o 在语音交互方面取得了重大进展。它采用了先进技术,显著提高了响应速度,使得对话更加流畅自然。在最近的发布会上,OpenAI 展示了 GPT-4o 在语音对话中的表现,它能够几乎实时地回答问题,并通过文本转语音技术进行朗读,提供了一种沉浸式的交流体验。此外,GPT-4o 还可以调整说话的语气,从夸张戏剧到冰冷机械,以适应不同的交流场景。令人兴奋的是,GPT-4o 还具备唱歌的功能,增添了更多的趣味性和娱乐性。

三、GPT-4 Turbo 与 GPT-4o

不仅在传统的文本能力上GPT-4 Turbo的性能相当,还在 API 方面更快速,价格还更便宜 50%。总结来说,与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍,价格减半,限制速率提高了 5 倍。截至 2024 年 5 月 13 日,Plus 用户将能够在 GPT-4o 上每 3 小时发送多达 80 条消息,在 GPT-4 上每 3 小时发送多达 40 条消息。我们可能会在高峰时段减少限制,以保持 GPT-4 和 GPT-4o 可供尽可能多的人访问。

GPT-4o 具有相同的高智商,但比 GPT-4 Turbo 更快、更便宜,并且具有更高的速率限制。

具体说来:

  • 定价:GPT-4o 比 GPT-4 Turbo 便宜 50%,输入 5 美元/月,输出代币 15 美元/M)。
  • 速率限制:GPT-4o 的速率限制比 GPT-4 Turbo 高 5 倍——每分钟最多 1000 万个代币。
  • 速度:GPT-4o 的速度是 GPT-2 Turbo 的 4 倍。
  • 视觉:GPT-4o 的视觉能力在与视觉能力相关的评估中表现优于 GPT-4 Turbo。
  • 多语言:GPT-4o 改进了对非英语语言的支持,而不是 GPT-4 Turbo。

GPT-4o 目前的上下文窗口为 128k,知识截止日期为 2023 年 10 月。

四、怎么使用GPT-4o

目前,GPT-4o的文本和图像功能已经开始在ChatGPT中逐步推出,用户可以在ChatGPT平台上免费体验到GPT-4o的相关功能,但免费版有使用次数限制,Plus用户可以享受到5倍的调用额度(升级plus详细教程:升级PLUS)。

在接下来的几周内,OpenAI计划将在ChatGPT Plus中推出Voice Mode新版本,该版本带有GPT-4o。这将作为ChatGPT Plus的一个alpha版本提供给PIus用户。此外,GPT-4o也将通过API提供给开发者,作为文本和视觉模型。开发者可以利用AP来集成GPT-4o到他们自己的应用程序

中,而且GPT-4o在API中相比GPT-4Tubo更快、更便宜,并且有更高的速率限制。

至于GPT-4o的音频和视频功能,OpenAl将在未来的几周和几个月内继续开发技术基础设施、通过训练后提高可用性以及确保安全性,之后才会发布这些功能,并逐步向公众提供。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11984.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电力场景设备漏油检测数据集VOC+YOLO格式338张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):338 标注数量(xml文件个数):338 标注数量(txt文件个数):338 标注类别…

Qt---项目的创建及运行

一、创建第一个Qt程序 1. 点击创建项目后,选择项目路径以及给项目起名称 名称:不能有中文、不能有空格 路径:不能有中文路径 2. 默认创建有窗口类myWidget,基类有三种选择:QWidget、QMainWindow、QDialog 3. m…

#自学习# 记一次py脚本打开浏览器页面

在项目总结中,遇到系统后台利用浏览器拉起一个已知路径页面的需求,趁着机会整理下。实现起来比较简单,浏览器默认谷歌。 一、技术原理 Selenium:Selenium 是一个用于自动化 Web 浏览器的工具,可模拟用户在浏览器中的各…

成都百洲文化传媒有限公司怎么样?靠谱吗?

在数字化浪潮席卷全球的今天,电商行业正以前所未有的速度蓬勃发展。作为这一变革的积极参与者和推动者,成都百洲文化传媒有限公司以其专业的电商服务,正逐渐成为行业内的佼佼者。 一、公司简介 成都百洲文化传媒有限公司自成立以来&#xff…

MyBatis的创建和测试

创建项目点击Spring Initializr然后点击next 点击SQL 选择里面的Mybatis Framework和Mysql Driver 按如下图片创建项目 user表中的数据 #下面这些内容是为了让MyBatis映射 #指定Mybatis的Mapper文件 mybatis.mapper-locationsclasspath:mappers/*xml #指定Mybatis的实体目录 my…

【Java】IDEA自动生成类图和时序图

【Java】IDEA自动生成类图和时序图 idea 的强大之处在于此,它包含了很多小插件,我们不需要再次下载相关插件,只需要在idea中小小的设置一下就可以了,下面是设置方法,我用的是idea2020版本 打开设置File -> Settings->Diagr…

Netty-面试题(中)(五十)

关于零拷贝和堆外内存 Java在将数据发送出去的时候,会先将数据从堆内存拷贝到堆外内存,然后才会将堆外内存再拷贝到内核态,进行消息的收发,代码如下: 所以,我们发现,假如我们在收发报文的时候使用直接内存&…

【Linux】进程信号(2万字)

目录 前言 一、生活角度的信号 1.1、我们来见一见信号: 1.2、模拟一下 kill 指令 二、信号的处理 三、产生信号的5种方法 3.1、kill命令 3.2、键盘可以产生信号 3.3、3种系统调用 3.4、软件条件 3.5、异常 四、比较 core 和 Term 五、键盘信号产生 六…

SSL/TLS协议信息泄露漏洞(CVE-2016-2183)解法

1.运行gpedit.msc,进入本地组策略编辑器。 2. 本地组策略编辑器-->计算机配置-->管理模板-->网络-->SSL配置设置-->启用“SSL密码套件顺序”。 3. 将原有的密码套件值清空,拷入下面的值,保存设置,并重启服务器即…

EmotiVoice 实时语音合成TTS;api接口远程调用

参考:https://github.com/netease-youdao/EmotiVoice 测试整体速度可以 docker安装: 运行容器:默认运行了两个服务,8501 一个streamlit页面,另外8000是一个api接口服务 docker run -dp 8501:8501 -p 8250:8000 syq163/emoti-voice:latest##gpu运行 (gpu运行遇到CUDA er…

ios与android上音频格式的推荐

首先贴一张官方对于ios与android上音频格式的推荐: 这里只给出了推荐格式,一般我们在实际运用中会使用如下方式: 一、IOS与安卓各一套:音乐:都使用MP3 音效:ios用caf Android用ogg 二、使用通用的MP3格式…

【Linux系统编程】第十八弹---进程状态(上)

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、操作系统进程 1.1、进程背景 1.2、进程如何在CPU上运行的? 1.2、进程状态 2、Linux的进程状态 2.1、如何描…

Linux修炼之路之权限

目录 引言 一:Linux中用户的分类 二:在Linux中的权限 1.权限的两种属性 1.人的属性 2.事物属性 -主要以文件属性为主 3.文件权限值的两种表示方式方法 2.更改文件访问者(拥有者,所属组,其他人)权限属性 3.更改文件的拥有…

commvault学习(7):恢复oracle

在实际生产环境中,oracle的恢复方式大部分是异机恢复。 环境: 备份机:windows server2008,ip:192.168.20.56 恢复目标机:windows server2008,ip:192.168.20.55 CS、MA&#xff1…

建立一物一码数字化营销体系,纳宝科技助力五丰黎红在调味品行业再创佳绩!

五丰黎红隶属于华润五丰集团,公司历史可溯源至1979年,前身是汉源花椒油厂,是一家拥有悠久历史的调味品品牌。一直以来,五丰黎红坚持调味品原料、研发、生产、加工一体化的全产业链经营模式,以“质量”为核心&#xff0…

[FlareOn1]Bob Doge

[FlareOn1]Bob Doge Hint:本题解出相应字符串后请用flag{}包裹,形如:flag{123456flare-on.com} 得到的 flag 请包上 flag{} 提交。 密码:malware 没什么思路,原exe文件运行又install了一个challenge1.exe文件 c#写的&#xff…

windows vscode设置扩展和缓存目录

vscode的扩展和缓存占了很大的空间,而且默认在C盘,很烦。。。 修改vscode快捷方式的目标处:"C:\Users\Nv9\AppData\Local\Programs\Microsoft VS Code\Code.exe" --extensions-dir "D:\Program Cache\VScode\extensions"…

基础模型的推理:综述

24年1月论文“A Survey of Reasoning with Foundation Models”,来自香港中文大学、华为、香港大学、上海AI实验室、香港科技大学、大连理工、北京大学、清华大学、合肥工大、中国人民大学、复旦大学和香港科技大学广州分校。 推理是解决复杂问题的关键能力&#x…

网上跳蚤市场|基于SSM+vue的网上跳蚤市场系统的设计与实现(源码+数据库+文档)

网上跳蚤市场系统 目录 基于SSM+vue的网上跳蚤市场系统的设计与实现 一、前言 二、系统设计 三、系统功能设计 1系统功能模块 2后台登录模块 5.2.1管理员功能 5.2.2会员功能 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八…

Linux字符设备驱动设计

Linux字符设备驱动设计 概述 驱动的定义与功能 计算机系统中存在着大量的设备, 操作系统要求能够控制和管理这些硬件, 而驱动就是帮助操作系统完成这个任务。 驱动相当于硬件的接口, 它直接操作、 控制着我们的硬件, 操作系统通…