OpenAI 最近推出了 GPT-4o,OpenAI有一次火爆了,其图像、音频、视频的处理能力非常强。
最令人印象深刻的是,它支持用户与 ChatGPT 实时互动,并且能够处理对话中断。
而且,OpenAI 免费开放了 GPT-4o API 的访问权限。
在本文中,我将分析比较 GPT-4o、GPT 4 和谷歌的 Gemini 和 Unicorn 模型在英文数据集上的分类能力。看看这些模型中哪个最强?
GPT-4o 的新特性是什么?
GPT-4o最大特性是能更好地无缝理解和处理文本、音频和视频。
OpenAI 的重点似乎转向了将 GPT-4 级别的智能开放给大众,使即使是免费用户也能访问 GPT-4 级别的AI大模型。
OpenAI 还宣布 GPT-4o 在超过 50 种语言上都提高了质量和速度,承诺提供更具包容性和全球可访问性的 AI 体验,而且价格更便宜。
他们还提到,付费用户将获得比非付费用户多五倍的容量。
此外,他们发布了 ChatGPT 的桌面版本,以便为用户提供跨音频、视觉和文本接口的实时推理。
如何使用 GPT-4o API?
新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API,使其向后兼容且易于使用。
from openai import OpenAIOPENAI_API_KEY = "<your-api-key>"def openai_chat_resolve(response: dict, strip_tokens = None) -> str:if strip_tokens is None:strip_tokens = []if response and response.choices and len(response.choices) > 0:content = response.choices[0].message.content.strip()if content is not None or content != '':if strip_tokens:for token in strip_tokens:content = content.replace(token, '')return contentraise Exception(f'Cannot resolve response: {response}')def openai_chat_request(prompt: str, model_name: str, temperature=0.0):message = {'role': 'user', 'content': prompt}client = OpenAI(api_key=OPENAI_API_KEY)return client.chat.completions.create(model=model_name,messages=[message],temperature=temperature,)response = openai_chat_request(prompt="Hello!", model_name="gpt-4o-2024-05-13")
answer = openai_chat_resolve(response)
print(answer)
GPT-4o 也可以通过 ChatGPT 界面使用:
OpenAI官方评估
OpenAI 官网发布了各种主流大模型,针对已知数据集(如 MMLU 和 HumanEval)的评估分数。
从图表中可以看出,GPT-4o 的性能是这一领域的最先进水平 —— 考虑到这个新模型更便宜、更快,这看起来已经很牛了。
然而,在过去的一年里,我见过多个声称在已知数据集上具有最先进语言性能的模型。
实际上,其中一些模型部分训练(或过度拟合)在这些开放数据集上,导致在排行榜上的分数不切实际。
因此,使用不太知名的数据集独立分析这些模型的性能非常重要 —— 比如我创建的这个 😄
我的评估数据集
我新建了一个主题数据集,我们可以用它来衡量不同大型语言模型(LLMs)的分类性能。
数据集包含 200 个句子,分为 50 个主题,其中一些主题密切相关,旨在使分类任务更具挑战性。
我手动创建并标记了整个数据集的英文版本。
然后我使用 GPT4 (gpt-4–0613) 将数据集翻译成多种语言。
然而,在这次评估中,我们只会评估数据集的英文版本 —— 这意味着结果不应受到使用相同语言模型进行数据集创建和主题预测可能带来的偏见的影响。
测试性能结果
这次我评估了以下模型:
- GPT-4o: gpt-4o-2024-05-13
- GPT-4: gpt-4-0613
- GPT-4-Turbo: gpt-4-turbo-2024-04-09
- Gemini 1.5 Pro: gemini-1.5-pro-preview-0409
- Gemini 1.0: gemini-1.0-pro-002
- Palm 2 Unicorn: text-unicorn@001
给到语言模型的任务是将数据集中的每个句子与正确的主题匹配。
这使我们能够计算每种语言和每个模型的准确率以及错误率。
由于模型大多数情况下都能正确分类,我正在为每个模型绘制错误率。
记住,错误率越低表示模型性能越好。
从图表中我们可以得出,GPT-4o 在所有模型中错误率最低,只有 2 个错误。
我们还可以看到,Palm 2 Unicorn、GPT-4 和 Gemini 1.5 与 GPT-4o 非常接近 —— 展示了它们强大的性能。
有趣的是,GPT-4 Turbo 的性能与 GPT-4–0613 类似。
最后,Gemini 1.0 落后了,这是意料之中的。
多语言
比较 gpt4o 与其他大型语言模型(如 Claude Opus 和 Gemini 1.5)的多语言能力。
gpt-4o-2024-05-13在多语言的处理能力最强,gpt-4-0613垫底。
结论
通过使用独特制作的英文数据集进行的这项分析,揭示了这些先进语言模型的最先进能力。
GPT-4o,OpenAI 的最新产品,在测试模型中错误率最低,这证实了 OpenAI 关于其性能的声明。
AI 社区和用户都必须继续使用不同的数据集进行独立评估,因为这些有助于提供比单一标准化基准测试所建议的更清晰的模型实际效果。
请注意,数据集相当小,结果可能会根据数据集的不同而变化。
来自:medium Lars Wiik