大模型“聚会”：国内卷价格，国外卷能力

[

GPT-4o和谷歌Gemini不断宣传现阶段AI能力大幅度提高，那么这两家，谁的大模型能力更强呢？这篇文章里，作者就展开了多维度的测试和体验，想了解的同学，可以来看一下。

在中美AI大模型的竞争上，正衍生出两种不同的路径。

继北京时间5月14日凌晨OpenAI春季发布会上，OpenAI推出兼具听、看、说能力的GPT-4o后。北京时间5月15日凌晨谷歌I/O开发者大会上，谷歌CEO桑达尔·皮查伊发布数十款Google和AI 结合产品，堪称“全家桶”级别，全面围剿Open AI。

其中包括支持200万token长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash，对标Sora的Veo，开源模型Gemma 2，支持生成式搜索的AI Overviews、第六代TPU等。

整场开发者大会最大的看点为，谷歌推出的AI语音助手——Astra，它能够通过摄像头识别物体、代码和各种东西。现场演示视频中，用户要求Astra在看到发出声音的东西时告诉她，助手回答说，它可以看到一个发出声音的扬声器。对于一闪而过的苹果，Astra居然也能够准确回答出在眼镜旁边。

除Astra外，谷歌还推出基于Gemini的多款通用AI Agent子系列产品。如音频的NotebookLM、音乐的Music AI Sandbox、视频的Veo、图像的Imagen 3，直接对标OpenAI发布的GPT-4o、Dall-E和Sora。

和谷歌、OpenAI围绕技术之争不同的是，国内大模型或将迎来价格战时代。在5月15日字节举办2024春季火山引擎Force原动力大会上，字节推出3款AI产品，包括AI生图产品 PicPic、AI 教育产品河马爱学、AI 剧情互动产品猫箱。

除这三款产品外，字节面向TOC端的产品还包括定位AI教育的Gauth，定位AI对话的豆包和CiCi；定位AI工具的小悟空ChitChop；定位Al Bot创建平台的Coze和扣子；定位AI互动剧情的BagelBel等。

但字节率先启动行业价格战，火山引擎总裁谭待表示，豆包大模型将开启付费商业化，且定价远低于行业价格。以豆包通用模pro-32k版为例，模型推理输入价格仅为0.0008元/千Tokens。市面上同规格模型的定价一般为0.12元/千Tokens，是豆包模型价格的150倍。

字节本轮降价后，后续国内其他大模型厂商或将跟随。但降价能否帮助国内大模型厂商带来更多新增用户和付费用户，仍值得商榷。

做了8年产品经理后，我是这么看产品经理的我个人是从非常初级的产品经理做起，再到负责一个大产品的项目管理，现在有幸跳出了日常基础的工作更多的去看产品的PMF，product strategy…查看详情 >

GPT-4o和谷歌Gemini不断宣传现阶段AI能力大幅度提高，两家谁的大模型能力更强呢？基于此，我们也对GPT-4o和Gemini展开了多维度的测试。

01 文本输出：Gemini和GPT-4o愈发接近，部分能力已赶超

因GPT-4o和Gemini均属于世界TOP级的大模型，在测试两家大模型的文本输出能力上，我们直接将难度升级。

为什么很多国家仍以油车为主？你觉得影响新能源汽车海外渗透率提高的因素有哪些？我们将这一问题同时给到GPT-4o和Gemini，二者均指出充电基础设施建设、购置成本、技术进步、政策支持、消费者文化习惯是很多国家仍以燃油车为主的原因。

但相较于GPT-4o，Gemini不仅识别到我们提问的是两个问题，且均给出答案，也回答出GPT-4o没有指出的车企方面、宣传教育方面的问题。也就是说，Gemini的回答可能更为完整。

图源：基于Gemini和GPT-4o生成内容整理 DoNews制图

我们继续追问要求两个大模型同时给我们撰写一份10000字全球新能源汽车报告，并要求报告中需要包括行业价格战、电池技术、未来发展方向、产业趋势。

但此时两个大模型的表现已经出现明显差异，GPT-4o给我们生成七大章节的框架，每个框架下也要对应的小框架。但就是不输出我们要求的内容，这或许和当前GPT-4o在长文本能力上的欠佳有关。

图源：GPT-4o官网

Gemini虽给我们具体的文本内容，但全文1679字和我们要求的万字报告差距较大。内容被大幅度压缩后，整个内容质量也相对欠佳。

如在提到新能源汽车产业趋势发展上，Gemini给出的内容为产业链整合、跨界合作、国际化竞争，每条内容仅有一句话进行概括。换言之，在真正涉及行业专业性问题上，Gemini和GPT-4o均存在不同程度的短板。

图源：Gemini官网

当我们将难度继续提高后，询问为什么今年以来全球大宗商品价格持续上涨？这种涨幅带来的影响有哪些？未来价格是否会回落？在首问中GPT-4o和Gemini给出的答案有所相同，均指出和供应链、地缘冲突、全球经济等因素有关。且在未来价格走势预测中，两者给到的答案也基本相同。

但在涨幅所带来的影响上，Gemini给出的答案可能更为完整。尤其是在金融、企业利润、社会等方面的影响，GPT-4o并未指出。

图源：基于Gemini和GPT-4o生成内容整理 DoNews制图

在文本内容快速分析上，我们让两款大模型同时给我们分析安克创新2024年Q1财报中存在的风险点，GPT-4o生成的风险点包括现金流减少、高额的销售费用和管理费用、财务费用大幅度波动、公允价值带来损失这四点。

图源：GPT-4o官网

但Gemini给出的内容却包括营收增速放缓、经营活动大幅度下降、销售费用和管理费用大幅度增加、存货跌价损失增加、汇兑大幅度增加、对政府补助依赖这六点。这也不能看出，Gemini的回答更为完整。

图源：Gemini官网

而当我们要求两款大模型同时以如何帮助失恋的人走出阴影，写一篇2000字的文章。要求文章有观点，并且文章内需要配上对应的图片和音频，Gemini的表现可以说完全吊打GPT-4o。

在文章开头，Gemini直接放入一曲舒缓的音乐，且这个音乐也支持播放。每个细分章节下，Gemini直接从网站上检索到和内容相关的图片，实现OpenAI提到的文本、音频、图像的任意组合。

图源：Gemini官网

对比之下，GPT-4o给到的内容就有些逊色。除文章开始处能看到图片外，其余正文处均未看到任何和内容相关的图片，且全文中也看不到音频。

图源：GPT-4o官网

整体测试下来后我们发现，谷歌在生成式AI领域尤其在文本能力输出上已经从“落后”到追赶，甚至内容质量上、内容组合等能力上已经超过GPT-4o。

02 对比之下，Gemini综合能力不容忽视

在测试过程中，我们发现Gemini不仅支持文本内容提问，且也支持语音提问。但因国内网络受限，暂无法对语音功能进行测试，也无法判断这是否为谷歌发布会上提到的Astra。相较于谷歌的快速，GPT-4o目前仍是支持单一的文本内容提问。

图源：Gemini官网

图源：GPT-4o官网

深耕搜索行业多年的谷歌，让目前的Gemini也能实现AI检索。且这种检测不仅包括图文网页也包括视频。当我们要求Gemini以汽车安全为核心，生产一个20-30S的视频时，Gemini先是给出了我们具体的视频脚本。

当我们继续追问你能我们直接生成视频吗？Gemini的回答有些超过我们的预期，直接给到我们几个YouTube的相关链接。且这些链接居然也无须跳转YouTube上观看，在Gemini大模型内也能实现自动播放。

图源：Gemini官网

对比之下，GPT-4o虽也能根据我们的要求输出对应的视频脚本，但却并不具备Gemini的这些功能。

图源：GPT-4o官网

值得注意的是，Gemini和GPT-4o目前均不支持音频、视频内容识别，且Gemini目前也不支持图片生成功能。支持图片生成功能的GPT-4o，目前也存在部分问题。

如当我们要求GPT-4o输出一张同时包含中国传统神话故事中四大神兽的照片时，图片内容虽出现四大神兽，但除青龙稍微符合神话故事原型外，其他三大神兽均和神话故事中的原型相差极大，这可能也和OpenAI团队对中国传统神话故事学习能力欠佳的有关。

图源：GPT-4o官网

但在图片的识别能力上，Gemini正以图片识别为基础场景，衍生出更多场景服务。我们选取网络平台常见的面条图片，Gemini在识别出这张图片为鸡蛋面后，又给到我们鸡蛋面、中国面条等关键词方便我们二次检索。更重要的是，Gemini还直接推荐各种鸡蛋面的做法。

图源：Gemini官网

对比之下，GPT-4o在识别出图片内容为拌面下，仅是简单地对拌面进行介绍，并未展开过多叙述。

图源：GPT-4o官网

当我们将识图能力难度升级后，在网络平台上选取常见的竹林照片，并询问Gemini图片的拍摄地点时，Gemini给出包括日本京都岚山竹林、日本京都嵯峨野竹林、日本冲绳八重山竹林、中国四川毛竹林、中国安吉竹林、南美或东南亚等地点，并指出竹林的重要性。

图源：Gemini官网

GPT-4o仅指出，这样的景色在中国、日本等东亚国家极其常见。如日本的京都岚山竹林和中国的安吉竹海都是著名的竹林景区。不仅地点相对Gemini较少，还反问到你知道具体的拍摄地点吗？

图源：GPT-4o官网

在测试逻辑推理上，我们选取2023年全国卷数学高考真题中难度较大的压轴题时，GPT-4o给出的答案可以用失望来形容。

图源：2023年全国卷数学真题

如在全国高考卷第20题的两问中，GPT-4o仅是简单地给出不完整的解题步骤，没有输出任何一个准确答案。

图源：GPT-4o官网

第21题的三问中，GPT-4o不仅将三小问变成两小问，且前两问求概率的问题上，本应为具体数字的答案，在GPT-4o这里却是带有变量N的不确定答案。

但Gemini的表现同样欠佳，如在第20题首问的求通项公式中，Gemini虽给出两种解法，但两种解法给出的答案完全不同。换言之，Gemini有可能仅是简单地抓取国内网站的相关链接，并未对信息内容和准确度进行二次审核。

图源：Gemini官网

整体来看，目前Gemini在很多方面的综合能力，以及产品上线速度方面比GPT-4o更加能打。且在价格方面，谷歌的Gemini 1.5 Flash 的价格定为每100万个token 35 美分，比GPT-4o的每100万个token 5 美元的价格低很多。产品组合性能表现不输GPT-4o叠加低价，谷歌或许正在放出王炸。

但按照OpenAl在大模型上积累的强大技术能力来看，谷歌在某些方面稍微领先的优势能保持多久，仍有待商榷。谷歌和OpenAI在AI大模型技术上的持续博弈下，可能会将美国AI大模型的技术能力推向新高度。