猫头虎分享：GPT-4o Mini VS GPT-3.5 Turbo 新旧对决，谁能拔得头筹？

GPT-4o Mini VS GPT-3.5 Turbo 🌟 新旧对决，谁能拔得头筹？

我们正在进入廉价语言模型的新时代 🚀

阅读时间：6分钟

摘要：
尽管 GPT-4o 功能强大，但我并不经常使用它。如果我正在寻找一个用于复杂推理任务的强大语言模型，我会在 9/10 次中挑选 Claude 3.5 Sonnet。这是因为它的性能略好一些，价格也略好一些。

猫头虎是谁？

大家好，我是猫头虎，别名猫头虎博主，擅长的技术领域包括云原生、前端、后端、运维和AI。我的博客主要分享技术教程、bug解决思路、开发工具教程、前沿科技资讯、产品评测图文、产品使用体验图文、产品优点推广文稿、产品横测对比文稿，以及线下技术沙龙活动参会体验文稿。内容涵盖云服务产品评测、AI产品横测对比、开发板性能测试和技术报告评测等。

目前，我活跃在CSDN、51CTO、腾讯云开发者社区、阿里云开发者社区、知乎、微信公众号、视频号、抖音、B站和小红书等平台，全网拥有超过30万的粉丝，统一IP名称为猫头虎或者猫头虎博主。希望通过我的分享，帮助大家更好地了解和使用各类技术产品。

原创作者 ✍️

博主：猫头虎
- 全网搜索关键词：猫头虎
- 作者微信号：Libin9iOak
- 作者公众号：猫头虎技术团队
- 更新日期：2024年6月16日
- 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能！

专栏链接 🔗

精选专栏：
- 《面试题大全》 — 面试准备的宝典！
- 《IDEA开发秘籍》 — 提升你的IDEA技能！
- 《100天精通鸿蒙》 — 从Web/安卓到鸿蒙大师！
- 《100天精通Golang（基础入门篇）》 — 踏入Go语言世界的第一步！
- 《100天精通Go语言（精品VIP版）》 — 踏入Go语言世界的第二步！

领域矩阵 🌐

猫头虎技术领域矩阵：
- 猫头虎技术矩阵
- 新矩阵备用链接

加入猫头虎的技术圈，一起探索编程世界的无限可能！ 🚀

文章目录

GPT-4o Mini VS GPT-3.5 Turbo 🌟 新旧对决，谁能拔得头筹？
- 我们正在进入廉价语言模型的新时代 🚀
- 猫头虎是谁？
- 原创作者 ✍️
- 专栏链接 🔗
- 领域矩阵 🌐
- 加入猫头虎的技术圈，一起探索编程世界的无限可能！ 🚀
- GPT-4 Mini 与 GPT-3.5 Turbo 的并排比较 🔍
- - 生成语法有效的 SQL 查询 🗃️
  - - GPT-3.5 Turbo
    - GPT-4o-迷你
  - 生成语法有效的嵌套 JSON 对象 🗂️
  - - GPT-3.5 Turbo
    - GPT-4o-迷你
- 讨论 📝
- QA 环节 ❓
- - 为什么 GPT-4o-mini 的性能比 GPT-3.5 Turbo 更好？
  - GPT-4o-mini 的价格是否真的比 GPT-3.5 Turbo 更便宜？
  - 哪些情况下仍然推荐使用 GPT-3.5 Turbo？
- 参考资料 📚
- 表格总结本文核心知识点 📝
- 结论 🏁
- 未来展望 🌟
- 温馨提示 💡
- - 联系与版权声明 📩

在这里插入图片描述

引言：
Anthropic 正在用自己的方式击败 OpenAI。然而，今天之后，可能就不再是这样了。今天，OpenAI 发布了 GPT-4o mini。与 GPT-4 系列的其他产品不同，OpenAI 制作 GPT-4o-mini 是为了与 Claude Haiku 等较小的模型竞争。在文章中他们声称，它是同等规模下最好的语言模型之一，而且价格便宜 60% 以上。玩了几个小时后，我完全同意。

GPT-4 Mini 与 GPT-3.5 Turbo 的并排比较 🔍

为了看看 GPT-4 mini 是否真的比其前身更好，我将运行两个相对复杂的推理任务。

生成语法有效的 SQL 查询 🗃️

我的第一个任务是查看模型是否可以生成有效的 SQL 查询。我想做一个需要一点推理的查询，包括连接和分组。以下是输入：

本周哪些市值超过 4000 亿美元且营收超过 100 亿美元的股票成交量变化最大？

GPT-3.5 Turbo

对于 GPT-3.5 Turbo，该模型无法生成语法有效的 BigQuery 查询。

聊天室针对此复杂查询抛出了错误

聊天室针对此复杂查询抛出了错误

已经有自动重试逻辑。此错误消息表明 SQL 查询在每个实例中都是错误的。到目前为止看起来不太好。

GPT-4o-迷你

我使用 GPT-4o-mini 重复了测试，几乎立即得到了以下结果：

聊天返回了与查询相对应的股票列表

聊天返回了与查询相对应的股票列表

经过人工检查，结果看起来是准确的！在这个实验中，GPT-4o 显然是赢家！

生成语法有效的嵌套 JSON 对象 🗂️

在下一个实验中，我们将看看我们能否从这份公司列表中生成语法有效的 JSON 对象。如果我们可以执行后续的其他操作（例如回溯测试），我们就会知道投资组合生成正确。

GPT-3.5 Turbo

在这次实验中，GPT-3.5 Turbo模型再次抛出了错误。

GPT-3.5 再次失败了

GPT-3.5 再次失败了

但是，查看日志后，似乎不是因为任务的复杂性而失败。模型脱离了上下文。这将在下面进一步讨论。

GPT-4o-迷你

我用 GPT-4o 重复了同样的实验。

GPT-4o-mini 生成了一个看似有效的投资组合

GPT-4o-mini 生成了一个看似有效的投资组合

看起来成功了！该模型解释了投资组合中使用的 10 只股票，并生成了一个对象。然而，为了测试该投资组合是否真的有效，我决定进行回测。

GPT-4o-mini 似乎生成了一个有效的回测配置

GPT-4o-mini 似乎生成了一个有效的回测配置

生成回测配置也适用于 GPT-4o-mini！现在，让我们看看结果。

GPT-4-mini 的回测结果

GPT-4-mini 的回测结果

我们看到 GPT-4-mini 以优异的成绩通过了测试！回测成功了，对于像这样复杂的任务，对于 GPT-3.5 来说，这相当具有挑战性。欢呼！

讨论 📝

从这些结果来看，无论价格如何，GPT-4o-mini 似乎无疑是更好的选择。出于好奇，我决定在官方 API 页面上对该模型进行并排比较。

[GPT-4o mini 与 GPT-3.5 Turbo 的比较](https://openai.com/api/pricing/)

我已经知道 GPT-4o 便宜了 60% 以上。我不知道的是上下文窗口急剧扩大，现在有 128K 上下文，和 GPT-4 一样大！这就是为什么它成功生成了投资组合，而 GPT-3.5（其上下文窗口为 16k）失败了。

结合多模式和多语言，GPT-3.5 Turbo 似乎不再具有有效的用例！而且，我坚信这一点，所以我完全从 NexusTrade 应用程序中弃用了 GPT-3.5 Turbo！

QA 环节 ❓

为什么 GPT-4o-mini 的性能比 GPT-3.5 Turbo 更好？

主要原因在于 GPT-4o-mini 的上下文窗口更大，能够处理更多的信息和更复杂的任务。此外，GPT-4o-mini 在多模式和多语言支持方面也表现更出色。

GPT-4o-mini 的价格是否真的比 GPT-3.5 Turbo 更便宜？

是的，根据官方数据，GPT-4o-mini 比 GPT-3.5 Turbo 便宜了 60% 以上。

哪些情况下仍然推荐使用 GPT-3.5 Turbo？

在需要处理较小上下文窗口的简单任务时，GPT-3.5 Turbo 仍然是一个不错的选择。

参考资料 📚

OpenAI 发布 GPT-4o mini
GPT-4o mini 与 GPT-3.5 Turbo 的 API 比较

表格总结本文核心知识点 📝

模型	上下文窗口	价格	多模式支持	多语言支持	性能
GPT-4o-mini	128K	便宜 60%	是	是	优秀
GPT-3.5 Turbo	16K	-	否	否	中等

结论 🏁

在本文中，我对 GPT-3.5 Turbo 和 GPT-4o mini 进行了并排比较。我发现在两个相对复杂的推理任务（生成有效的 SQL 和生成有效的 JSON）中，GPT-4o mini 的表现明显更好。GPT-4o mini 也比 GPT-3.5 Turbo 便宜得多，上下文窗口也大得多。出于这些原因，它无疑是更好的模型。OpenAI 的这一进步是令人惊喜的消息！