ChatGPT-4o 有何特别之处?

文章目录

    • 多模态输入,多模态输出
    • 之前的模型和现在模型对比

大家已经知道,OpenAI 在 GPT-4 发布一年多后终于推出了一个新模型。它仍然是 GPT-4 的一个变体,但具有前所未见的多模态功能。

有趣的是,它包括实时视频处理等强大功能,这一关键功能最终可以让我们创建强大的虚拟助手,实时支持我们的日常生活。然而,这样的功能应该很昂贵且缓慢,考虑到该模型速度极快且免费使用(有限免费),这不合情理。

那么,到底发生了什么事呢?

OpenAI 一定已经意识到了一些我们尚未意识到的事情,即我们今天讨论的智能设计决策可以以极低的价格创建出更智能的模型。

那么,这一切有何意义?它对你未来意味着什么?

多模态输入,多模态输出

那么,ChatGPT-4o 有什么特别之处呢?它是有史以来第一个真正的“多模态输入/多模态输出”前沿模型。

但我们这样说到底是什么意思呢?

在真正的多模态模型中,您可以向模型发送音频、文本、图像或视频,模型将根据需求使用文本、图像或音频(还不是视频)进行响应。

但我知道你在想什么:ChatGPT 或 Gemini 的先前版本不是已经处理和生成图像或音频了吗?是的,但有一个需要注意的点是:他们是通过独立的外生组件来实现的

之前的模型和现在模型对比

以前,每当你向大模型发送音频时,都是这样的标准流程:
在这里插入图片描述

输入输出过程:用户发出的语音请求经过自动语音识别(ASR)转为文本(这里用的Whisper),文本经过大语言模型处理生成响应文本,响应文本再经过文本转语音(TTS)模块转换为语音,最终以语音形式返回给用户。

Whisper 是由 OpenAI 开发的一种自动语音识别(ASR)系统。它利用深度学习技术和大规模语音数据进行训练,能够将语音信号转换为文本。Whisper 系统具有高准确性和多语言支持,能够处理各种音质和背景噪声的语音输入。

在此过程中,自然语音中的声调节奏韵律、传达的情感关键停顿都会丢失,因为语音转文本组件Whisper会将音频转录为 LLM 可以处理的文本。

然后,LLM 将生成文本响应并将其发送到另一个组件(即文本到语音模型),该模型将生成最终传达的语音。

自然,由于人类通过语音传达的信息远不止文字,许多重要信息也因此丢失,
而且由于信息必须在不同的组件之间发送,造成的延迟并不理想。

但是在 ChatGPT-4o 中,一切都相似但又完全不同;因为一切都发生在同一个地方。
在这里插入图片描述
乍一看,似乎变化不大。但尽管组件几乎没有变化(vocoder和音频解码器是我们之前展示的文本转语音模型的一部分),但这些组件如何共享信息完全改变了信息丢失的程度

具体来说,LLM 现在看到的是语音的语义表示,而不是原始文本。通俗地说,模型现在不仅能看到“我想杀了你!”这句文字,还能接收到以下信息:

{转译的文字: "我想杀了你!"; 情绪: "高兴";语气: "喜悦";
}

这里虽然使用了 JSON 示例来说明,但语音编码器实际上为 LLM 生成的是一组向量嵌入(Vector Embeddings),除了实际文本之外,它们还捕捉语音的情感、语调、节奏和其他线索。
向量嵌入 是一种将离散的数据(如单词、句子、图像等)映射到连续的低维向量空间的方法。这些向量捕捉了数据的语义关系,使得相似的数据在向量空间中更接近。

因此,LLM 生成的响应更加基于实际情况,除了文字之外,还能捕捉信息中的关键特征。

然后将该响应发送到音频解码器,音频解码器使用它来生成梅尔频谱图(很可能),最后将其发送到声码器以生成音频。

您可以将频谱图视为“查看”声音的一种方式。频谱图 是一种将音频信号的频率成分展示在二维图表上的工具。频谱图显示了音频信号在不同时间点的频率分布及其强度

那么梅尔频谱图是什么?梅尔频谱图 是一种特殊类型的频谱图,它通过 Mel 频率尺度对频率轴进行变换,更符合人耳对声音的感知

顺便说一句,所有这些也适用于图像处理和生成或视频处理,因为它们将所有组件打包成一个单一模型,而不仅仅是音频。

总而言之,ChatGPT-4o 现在可以从文本以外的其他形式捕获信息,包括关键音频、图像或视频提示,以生成更相关的响应。简而言之,它不再关心数据如何进入并适应上下文,而是需要决定必须以何种方式回复。

这个改变有多么重要?

OpenAI 实现的真正多模态向世界传递了一个鲜明的信息:

在不使模型的主干(LLM)本身更加智能的情况下,能够跨多种模态进行推理的模型必然会更加智能,因为该模型不仅具有更多功能,而且还能够在不同数据类型之间传递知识。

人类运用所有感官的能力被认为是智能的关键部分,而人工智能也旨在掌握这种能力。

作为一个很大的好处,它还使模型在推理方面变得更加高效(撇开它们本可以应用的特定效率不谈)。消除组合多个外部组件的通信开销似乎使模型的速度大大加快。

这就是 ChatGPT-4o 的特别之处。

如果你想体验ChatGPT-4o,并且想国内直接访问,可以直接访问 我要超级GPT 51supergpt, 免注册,直接使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/20526.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基础9 探索图形化编程的奥秘:从物联网到工业自动化

办公室内,明媚的阳光透过窗户洒落,为每张办公桌披上了一层金色的光辉。同事们各自忙碌着,键盘敲击声、文件翻页声和低声讨论交织在一起,营造出一种忙碌而有序的氛围。空气中氤氲着淡淡的咖啡香气和纸张的清新味道,令人…

fastjson 泛型转换问题(详解)

系列文章目录 附属文章一:fastjson TypeReference 泛型类型(详解) 文章目录 系列文章目录前言一、代码演示1. 不存在泛型转换2. 存在泛型转换3. 存在泛型集合转换 二、原因分析三、解决方案1. 方案1:重新执行泛型的 json 转换2. …

数据可视化每周挑战——中国高校数据分析

最近要高考了,这里祝大家金榜题名,旗开得胜。 这是数据集,如果有需要的,可以私信我。 import pandas as pd import numpy as np import matplotlib.pyplot as plt from pyecharts.charts import Line from pyecharts.charts impo…

图像处理ASIC设计方法 笔记26 非均匀性校正SOC如何设计

在红外成像技术领域,非均匀性校正是一个至关重要的环节,它直接影响到成像系统的性能和目标检测识别的准确性。非均匀性是指红外焦平面阵列(IRFPA)中各个像元对同一辐射强度的响应不一致的现象,这种不一致性可能是由于制造过程中的缺陷、材料的不均匀性或者像元间的热电特性…

simCSE句子向量表示(1)-使用transformers API

SimCSE SimCSE: Simple Contrastive Learning of Sentence Embeddings. Gao, T., Yao, X., & Chen, D. (2021). SimCSE: Simple Contrastive Learning of Sentence Embeddings. arXiv preprint arXiv:2104.08821. 1、huggingface官网下载模型 官网手动下载:pri…

集合操作进阶:关于移除列表元素的那点事

介绍 日常开发中,难免会对集合中的元素进行移除操作,如果对这方面不熟悉的话,就可能遇到 ConcurrentModificationException,那么,如何优雅地进行元素删除?以及其它方式为什么不行? 数据初始化…

国内类似ChatGPT的大模型应用有哪些?发展情况如何了

第一部分:几个容易混淆的概念 很多人,包括很多粉丝的科技博主,经常把ChatGPT和预训练大模型混为一谈,因此有必要先做一个澄清。预训练大语言模型属于预训练大模型的一类,而ChatGPT、文心一言又是预训练大语言模型的一个…

node基础-持续更新

node基础 1.node模块2.node环境搭建3.fs模块4.ES模块和CommonJS模块4.1 更改后缀名4.2 package.json配置支持es模块4.3 变量别名4.4 CommonJS模块 5.打造自己的脚手架工具5.1创建自定义全局指令5.2 使用commander处理--help参数5.3 处理自定义指令5.4 逻辑代码模块化拆分5.5 命…

iPad里的图片如何导出 iPad的照片如何管理

我们的设备中充满了各种重要的照片和视频,特别是iPad,作为苹果公司的一款强大的平板电脑,它不仅能够捕捉生活中的精彩瞬间,还可以存储和展示我们珍贵的回忆。然而,随着照片数量的不断增加,有效地管理和导出…

对boot项目拆分成cloud项目的笔记

引言:这里我用的是新版本的技术栈 spring-boot-starter-parent >3.2.5 mybatis-spring-boot-starter >3.0.3 mybatis-plus-boot-starter >3.5.5 spring-cloud-dependencies …

JVMの内存泄漏内存溢出案例分析

1、内存溢出 内存溢出指的是程序在申请内存时,没有足够的内存可供分配,导致无法满足程序的内存需求,常见的内存溢出情况包括堆内存溢出(Heap Overflow)和栈溢出(Stack Overflow): …

AI去衣技术中的几何着色:揭秘数字时尚的魔法

在数字化时代,人工智能(AI)正以前所未有的速度改变我们的生活,从智能家居到自动驾驶汽车,再到个性化医疗。然而,AI的影响远不止于此。它正在重塑我们对艺术、设计和时尚的理解。特别是在数字时尚领域&#…

Unity打包Webgl端进行 全屏幕自适应

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一:修改 index.html二:将非移动端设备,canvas元素的宽度和高度会设置为100%。三:修改style.css总结 下载地址&#x…

Solidity学习-投票合约示例

以下的合约有一些复杂,但展示了很多Solidity的语言特性。它实现了一个投票合约。 当然,电子投票的主要问题是如何将投票权分配给正确的人员以及如何防止被操纵。 我们不会在这里解决所有的问题,但至少我们会展示如何进行委托投票,…

《java数据结构》--详解Map和Set

概念 Map和set是一种专门用来进行搜索的容器或者数据结构,其搜索的效率与其具体的实例化子类有关。在之前我们常见的搜索方式一般有两种: 一种是直接遍历,这种方法的时间复杂度为O(N),如果元素比较多的话效率会十分低下另一种是…

Leecode---动态规划---打家劫舍 / 乘积最大子数组

动态规划法: 思路: (1)状态定义:dp[i]代表前i家能偷盗的最大金额 (2)状态初始化:如果只有一家,只能偷这家dp[0]nums[0];如果有两家,因为是连通的&…

看图猜成语微信小程序源码

后台可以自行设置关卡、等级、也可以一键部署, 开通流量主之后实现躺赚,你懂得。 个人号也可以开通,审核一次性必过。 类目选择 教育,源码仅供您参考! 源码下载 https://download.csdn.net/download/huayula/8938579…

【计算机毕业设计】基于SSM+Vue的网上花店系统【源码+lw+部署文档】

目录 目 录 1 绪论 1.1 选题背景 1.2 选题意义 1.3 研究内容 2 系统开发技术 2.1 Java语言 2.2 SSM框架 2.3 MYSQL数据库 2.4 Vue框架 3 系统分析 3.1可行性研究 3.1.1经济可行性 3.1.2时间可行性 3.1.3操作可行性 3.2系统性能分析 3.2.1系统易用性 3.2.2系统健壮性 3.2.3系统…

电脑没电关机,wsl和docker又挂了,附解决过程

如题,开了个会没带笔记本电源,点啊弄关机后docker打不开,我以为是docker坏了,结果docker报错: An unexpected error occurred while executing a WSL command. Either shut down WSL down with wsl --shutdown, and/or…