猫头虎分享:GPT-4o Mini VS GPT-3.5 Turbo 新旧对决,谁能拔得头筹?

GPT-4o Mini VS GPT-3.5 Turbo 🌟 新旧对决,谁能拔得头筹?

我们正在进入廉价语言模型的新时代 🚀

阅读时间:6分钟


摘要:
尽管 GPT-4o 功能强大,但我并不经常使用它。如果我正在寻找一个用于复杂推理任务的强大语言模型,我会在 9/10 次中挑选 Claude 3.5 Sonnet。这是因为它的性能略好一些,价格也略好一些。


猫头虎是谁?

大家好,我是 猫头虎,别名猫头虎博主,擅长的技术领域包括云原生、前端、后端、运维和AI。我的博客主要分享技术教程、bug解决思路、开发工具教程、前沿科技资讯、产品评测图文、产品使用体验图文、产品优点推广文稿、产品横测对比文稿,以及线下技术沙龙活动参会体验文稿。内容涵盖云服务产品评测、AI产品横测对比、开发板性能测试和技术报告评测等。

目前,我活跃在CSDN、51CTO、腾讯云开发者社区、阿里云开发者社区、知乎、微信公众号、视频号、抖音、B站和小红书等平台,全网拥有超过30万的粉丝,统一IP名称为 猫头虎 或者 猫头虎博主。希望通过我的分享,帮助大家更好地了解和使用各类技术产品。

原创作者 ✍️

  • 博主猫头虎
    • 全网搜索关键词猫头虎
    • 作者微信号Libin9iOak
    • 作者公众号猫头虎技术团队
    • 更新日期2024年6月16日
    • 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能!

专栏链接 🔗

  • 精选专栏
    • 《面试题大全》 — 面试准备的宝典!
    • 《IDEA开发秘籍》 — 提升你的IDEA技能!
    • 《100天精通鸿蒙》 — 从Web/安卓到鸿蒙大师!
    • 《100天精通Golang(基础入门篇)》 — 踏入Go语言世界的第一步!
    • 《100天精通Go语言(精品VIP版)》 — 踏入Go语言世界的第二步!

领域矩阵 🌐

  • 猫头虎技术领域矩阵
    • 猫头虎技术矩阵
    • 新矩阵备用链接

加入猫头虎的技术圈,一起探索编程世界的无限可能! 🚀

文章目录

  • GPT-4o Mini VS GPT-3.5 Turbo 🌟 新旧对决,谁能拔得头筹?
    • 我们正在进入廉价语言模型的新时代 🚀
    • 猫头虎是谁?
    • 原创作者 ✍️
    • 专栏链接 🔗
    • 领域矩阵 🌐
    • 加入猫头虎的技术圈,一起探索编程世界的无限可能! 🚀
    • GPT-4 Mini 与 GPT-3.5 Turbo 的并排比较 🔍
      • 生成语法有效的 SQL 查询 🗃️
        • GPT-3.5 Turbo
        • GPT-4o-迷你
      • 生成语法有效的嵌套 JSON 对象 🗂️
        • GPT-3.5 Turbo
        • GPT-4o-迷你
    • 讨论 📝
    • QA 环节 ❓
      • 为什么 GPT-4o-mini 的性能比 GPT-3.5 Turbo 更好?
      • GPT-4o-mini 的价格是否真的比 GPT-3.5 Turbo 更便宜?
      • 哪些情况下仍然推荐使用 GPT-3.5 Turbo?
    • 参考资料 📚
    • 表格总结本文核心知识点 📝
    • 结论 🏁
    • 未来展望 🌟
    • 温馨提示 💡
      • 联系与版权声明 📩

在这里插入图片描述

引言:
Anthropic 正在用自己的方式击败 OpenAI。然而,今天之后,可能就不再是这样了。今天,OpenAI 发布了 GPT-4o mini。与 GPT-4 系列的其他产品不同,OpenAI 制作 GPT-4o-mini 是为了与 Claude Haiku 等较小的模型竞争。 在文章中 他们声称,它是同等规模下最好的语言模型之一,而且价格便宜 60% 以上。玩了几个小时后,我完全同意。

GPT-4 Mini 与 GPT-3.5 Turbo 的并排比较 🔍

为了看看 GPT-4 mini 是否真的比其前身更好,我将运行两个相对复杂的推理任务。

生成语法有效的 SQL 查询 🗃️

我的第一个任务是查看模型是否可以生成有效的 SQL 查询。我想做一个需要一点推理的查询,包括连接和分组。以下是输入:

本周哪些市值超过 4000 亿美元且营收超过 100 亿美元的股票成交量变化最大?

GPT-3.5 Turbo

对于 GPT-3.5 Turbo,该模型无法生成语法有效的 BigQuery 查询。

聊天室针对此复杂查询抛出了错误

聊天室针对此复杂查询抛出了错误

已经有自动重试逻辑。此错误消息表明 SQL 查询在每个实例中都是错误的。到目前为止看起来不太好。

GPT-4o-迷你

我使用 GPT-4o-mini 重复了测试,几乎立即得到了以下结果:

聊天返回了与查询相对应的股票列表

聊天返回了与查询相对应的股票列表

经过人工检查,结果看起来是准确的!在这个实验中,GPT-4o 显然是赢家!

生成语法有效的嵌套 JSON 对象 🗂️

在下一个实验中,我们将看看我们能否从这份公司列表中生成语法有效的 JSON 对象。如果我们可以执行后续的其他操作(例如回溯测试),我们就会知道投资组合生成正确。

GPT-3.5 Turbo

在这次实验中,GPT-3.5 Turbo模型再次抛出了错误。

GPT-3.5 再次失败了

GPT-3.5 再次失败了

但是,查看日志后,似乎不是因为任务的复杂性而失败。模型脱离了上下文。这将在下面进一步讨论。

GPT-4o-迷你

我用 GPT-4o 重复了同样的实验。

GPT-4o-mini 生成了一个看似有效的投资组合

GPT-4o-mini 生成了一个看似有效的投资组合

看起来成功了!该模型解释了投资组合中使用的 10 只股票,并生成了一个对象。然而,为了测试该投资组合是否真的有效,我决定进行回测。

GPT-4o-mini 似乎生成了一个有效的回测配置

GPT-4o-mini 似乎生成了一个有效的回测配置

生成回测配置也适用于 GPT-4o-mini!现在,让我们看看结果。

GPT-4-mini 的回测结果

GPT-4-mini 的回测结果

我们看到 GPT-4-mini 以优异的成绩通过了测试!回测成功了,对于像这样复杂的任务,对于 GPT-3.5 来说,这相当具有挑战性。欢呼!

讨论 📝

从这些结果来看,无论价格如何,GPT-4o-mini 似乎无疑是更好的选择。出于好奇,我决定在官方 API 页面上对该模型进行并排比较。

img

img

[GPT-4o mini 与 GPT-3.5 Turbo 的比较](https://openai.com/api/pricing/)

我已经知道 GPT-4o 便宜了 60% 以上。我不知道的是上下文窗口急剧扩大,现在有 128K 上下文,和 GPT-4 一样大!这就是为什么它成功生成了投资组合,而 GPT-3.5(其上下文窗口为 16k)失败了。

结合多模式和多语言,GPT-3.5 Turbo 似乎不再具有有效的用例!而且,我坚信这一点,所以我完全从 NexusTrade 应用程序中弃用了 GPT-3.5 Turbo!

QA 环节 ❓

为什么 GPT-4o-mini 的性能比 GPT-3.5 Turbo 更好?

主要原因在于 GPT-4o-mini 的上下文窗口更大,能够处理更多的信息和更复杂的任务。此外,GPT-4o-mini 在多模式和多语言支持方面也表现更出色。

GPT-4o-mini 的价格是否真的比 GPT-3.5 Turbo 更便宜?

是的,根据官方数据,GPT-4o-mini 比 GPT-3.5 Turbo 便宜了 60% 以上。

哪些情况下仍然推荐使用 GPT-3.5 Turbo?

在需要处理较小上下文窗口的简单任务时,GPT-3.5 Turbo 仍然是一个不错的选择。

参考资料 📚

  1. OpenAI 发布 GPT-4o mini
  2. GPT-4o mini 与 GPT-3.5 Turbo 的 API 比较

表格总结本文核心知识点 📝

模型上下文窗口价格多模式支持多语言支持性能
GPT-4o-mini128K便宜 60%优秀
GPT-3.5 Turbo16K-中等

结论 🏁

在本文中,我对 GPT-3.5 Turbo 和 GPT-4o mini 进行了并排比较。我发现在两个相对复杂的推理任务(生成有效的 SQL 和生成有效的 JSON)中,GPT-4o mini 的表现明显更好。GPT-4o mini 也比 GPT-3.5 Turbo 便宜得多,上下文窗口也大得多。出于这些原因,它无疑是更好的模型。OpenAI 的这一进步是令人惊喜的消息!

未来展望 🌟

随着 GPT-4o mini 的发布,AI 模型的价格将继续下降,功能将不断提升。Anthropic 和 Meta 的竞争将更加激烈,未来我们可能会看到更多突破性的模型发布。

温馨提示 💡

如果对本文有任何疑问,欢迎点击下方名片,了解更多详细信息!


👉 更多信息:有任何疑问或者需要进一步探讨的内容,欢迎点击下方文末名片获取更多信息。我是猫头虎博主,期待与您的交流! 🦉💬
在这里插入图片描述

联系与版权声明 📩

  • 联系方式
    • 微信: Libin9iOak
    • 公众号: 猫头虎技术团队
  • 版权声明
    本文为原创文章,版权归作者所有。未经许可,禁止转载。更多内容请访问猫头虎的博客首页。

点击✨⬇️下方名片⬇️✨,加入猫头虎领域社群矩阵。一起探索科技的未来,共同成长。🚀

🔗 猫头虎社群 | 🔗 Go语言VIP专栏 | 🔗 GitHub 代码仓库 | 🔗 Go生态洞察专栏
✨ 猫头虎精品博文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/49949.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Hec-Ras】案例1:韩国Seung-gi stream稳定流/非稳定流模拟

Hec-Ras案例1:韩国Seung-gi stream 研究区域:Seung-gi stream(韩国)研究数据降水数据(Rainfall data) 步骤1:创建工程文件/打开已有工程文件步骤2:参数调整步骤2.1:数据导…

mysql 数据库空间统计sql

mysql 数据库空间统计 文章目录 mysql 数据库空间统计说明一、数据库存储代码二、查询某个数据库的所有表的 代码总结 说明 INFORMATION_SCHEMA Table Reference 表参考 information_schema是‌MySQL中的一个特殊数据库,它存储了关于所有其他数据库的元数据信息。…

D4.前缀和、差分

前缀和 一维前缀和(区间) 这样的好处是,可以以O(1)的时间复杂度来计算。而不是遍历O(n)。当读入数据非常大(>1000000)的时候,建议使用scanf()来读取数据,会比cin >> 快很多。在全局开…

享元模式(结构型)

目录 一、前言 二、享元模式 三、总结 一、前言 享元模式(Flyweight Pattern)是一种结构型设计模式,用于减少大量细粒度对象的内存占用。它通过共享尽可能多的相同数据来节约内存空间。 享元模式由以下角色组成: Flyweight&…

「JavaEE」Spring MVC:基本操作1

🎇个人主页:Ice_Sugar_7 🎇所属专栏:JavaEE 🎇欢迎点赞收藏加关注哦! 简介 Spring Web MVC 是⼀个 Web 框架,简称为 Spring MVC MVC 是 Model View Controller 的缩写,它是软件工程…

vscode回退不显示了,不方便操作

一、后退前进按钮 顶部显示&#xff0c;方便调试 <—— ——> 文件-> 首选项 -> 设置->commandcenter->勾选 Window: Title Bar Style->custom 将native —>custom

力扣每日一题1186. 删除一次得到子数组最大和【动态规划】

本题的核心在于对于每个元素&#xff0c;我们分别考虑保留和删除两种状态&#xff0c;并根据前面的状态转移来更新当前状态。最后&#xff0c;遍历所有元素&#xff0c;找到最大和即可。 状态定义 dp[i][0] 表示以第 i 个元素结尾且未删除元素的子数组的最大和。dp[i][1] 表示…

Qemu virtio-blk 后端驱动开发 - PureFlash对接

本文以PureFlash为例&#xff0c;介绍了如何将一个新的存储类型对接到qemu虚拟化平台下&#xff0c;为虚机提供存储能力。 关于virtio-blk以及其工作原理这里就不介绍了&#xff0c;网上有很多分析的文章。总之就是如果我们想给虚机提供一种新的存储类型&#xff08;不同于标准…

【日常记录】【JS】对一个数组,按照某个字段的值,进行分组

文章目录 1. 前言2. lodash 的分组3. Object.groupBy()参考链接 1. 前言 在开发中&#xff0c;经常会遇到一组数据&#xff0c;要按照某个字段进行分组&#xff0c;这个时候会有很多种方法&#xff0c;可以使用 forEach、reduce、等其他方法 reduce 方法 function groupBy(arr…

LLama 405B 技术报告解读

LLama 405B 技术报告解读 果然传的消息都是真的&#xff0c;meta在24号凌晨发布了llama 3的405B版本&#xff0c;这次还是做一个技术报告解读。 值得一提的是&#xff0c;在技术报告的开头&#xff0c;meta特意强调了一个 Managing complexity&#xff0c;大意是管控复杂度。…

主题公园- 海豹主题式风格餐厅设计【AIGC应用】

业务背景&#xff1a;海洋馆针对细分客群增设一个打卡主题点位&#xff0c;以海豹主题式餐厅为打卡卖点&#xff0c;效果参见海豹主题式风格。 AIGC概念图制作平台&#xff1a;&#xff08;可灵&#xff09; https://klingai.kuaishou.com/ 关键词&#xff1a; 海豹主题餐厅…

Blender插入关键帧的位置报错

在操作过程中&#xff0c;有时候是误操作或者是做动画选择了活动插帧集&#xff0c;导致按i键插入关键帧一直报提示&#xff1a;插入关键帧的帧位置或者是其他的报错弹窗。 1、解决方法是&#xff1a;在时间线的抠像(插帧)选项里&#xff0c;将活动插帧集给清空 2、若是骨骼动画…

Ubuntu 修改源地址

注意事项&#xff1a;版本说明&#xff01;&#xff01;&#xff01; Ubuntu24.04的源地址配置文件发生改变。 不再使用以前的 sources.list 文件&#xff0c;该文件内容变成了一行注释&#xff1a; # Ubuntu sources have moved to /etc/apt/sources.list.d/ubuntu.sources…

操作系统面试知识点总结2

#来自ウルトラマンメビウス&#xff08;梦比优斯&#xff09; 1 进程与线程 1.1 进程的概念和特征 更好地描述和控制程序并发执行&#xff0c;实现操作系统的并发性和共享性。 进程控制块&#xff08;PCB&#xff09;&#xff1a;更好的描述进程的基本情况和运行状态&#xff…

Eclipse 搭建 C/C++ 开发环境以及eclipse的使用

一、下载、安装 MinGW 1、下载: 下载地址&#xff1a;MinGW - Minimalist GNU for Windows - Browse Files at SourceForge.net 点击“Download Latest Version”即可 下载完成后&#xff0c;得到一个名为 mingw-get-setup.exe 的安装文件。双击运行&#xff0c;安装即可。 …

大数据、区块链与人工智能

大数据、区块链与人工智能&#xff1a;技术融合与未来展望 摘要 本文旨在探讨大数据、区块链和人工智能这三个技术领域的基本概念、发展历程、应用场景及其相互之间的融合。文章首先分别介绍这三个技术的定义和特点&#xff0c;然后分析它们在不同行业中的实际应用&#xff0…

Llama 3.1发布,性能媲美最强闭源大模型

美国太平洋时间 7 月 23 日&#xff0c;Meta 公司发布了其最新的 AI 模型 Llama 3.1&#xff0c;这是一个里程碑时刻。Llama 3.1 的发布让我们看到了开源 LLM 有与闭源 LLM 一较高下的能力。 Meta 表示&#xff0c;“到目前为止&#xff0c;开源 LLM 在功能和性能方面大多落后于…

C++高性能通信:了解Iceoryx与零拷贝技术的实现与应用

文章目录 0. 引言1. Iceoryx使用到的零拷贝技术1.1 零拷贝技术概述1.2 零拷贝的优势1.3 Iceoryx零拷贝的实现1.4 信息轮询与信号触发 2. Iceoryx的核心概念3. Iceoryx使用示例3.1 发布者程序3.2 订阅者程序3.3 编译和运行3.4 压力测试脚本 4. 参考文章 0. 引言 Iceoryx是一个开…

星环科技携手东华软件推出一表通报送联合解决方案

随着国家金融监督管理总局“一表通”试点工作的持续推进&#xff0c;星环科技携手东华软件推出了基于星环科技分布式分析型数据库ArgoDB和大数据基础平台TDH的一表通报送联合解决方案&#xff0c;并已在多地实施落地中得到充分验证。 星环科技与东华软件作为战略合作伙伴&…

深度学习复盘与论文复现E

文章目录 一、项目复现的问题及其解决方案1、 Cannot find DGL C graphbolt library2、 “is“ with a literal. Did you mean ““?”3、运行SEG、SPG查看GATNet的网络结构4、关于LI-FPN项目找不到数据粒度不匹配问题5、关于LI-FPN项目num_samples为空6、解决路径问题7、 !ss…