GPT-4o vs. GPT-4 vs. Gemini 1.5 性能评测,谁更胜一筹!

OpenAI 最近推出了 GPT-4o,OpenAI有一次火爆了,其图像、音频、视频的处理能力非常强。

最令人印象深刻的是,它支持用户与 ChatGPT 实时互动,并且能够处理对话中断。

而且,OpenAI 免费开放了 GPT-4o API 的访问权限。

在本文中,我将分析比较 GPT-4o、GPT 4 和谷歌的 Gemini 和 Unicorn 模型在英文数据集上的分类能力。看看这些模型中哪个最强?

GPT-4o 的新特性是什么?

GPT-4o最大特性是能更好地无缝理解和处理文本、音频和视频。

OpenAI 的重点似乎转向了将 GPT-4 级别的智能开放给大众,使即使是免费用户也能访问 GPT-4 级别的AI大模型。

OpenAI 还宣布 GPT-4o 在超过 50 种语言上都提高了质量和速度,承诺提供更具包容性和全球可访问性的 AI 体验,而且价格更便宜。

他们还提到,付费用户将获得比非付费用户多五倍的容量。

此外,他们发布了 ChatGPT 的桌面版本,以便为用户提供跨音频、视觉和文本接口的实时推理。

如何使用 GPT-4o API?

新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API,使其向后兼容且易于使用。

from openai import OpenAIOPENAI_API_KEY = "<your-api-key>"def openai_chat_resolve(response: dict, strip_tokens = None) -> str:if strip_tokens is None:strip_tokens = []if response and response.choices and len(response.choices) > 0:content = response.choices[0].message.content.strip()if content is not None or content != '':if strip_tokens:for token in strip_tokens:content = content.replace(token, '')return contentraise Exception(f'Cannot resolve response: {response}')def openai_chat_request(prompt: str, model_name: str, temperature=0.0):message = {'role': 'user', 'content': prompt}client = OpenAI(api_key=OPENAI_API_KEY)return client.chat.completions.create(model=model_name,messages=[message],temperature=temperature,)response = openai_chat_request(prompt="Hello!", model_name="gpt-4o-2024-05-13")
answer = openai_chat_resolve(response)
print(answer)

GPT-4o 也可以通过 ChatGPT 界面使用:

OpenAI官方评估

OpenAI 官网发布了各种主流大模型,针对已知数据集(如 MMLU 和 HumanEval)的评估分数。


从图表中可以看出,GPT-4o 的性能是这一领域的最先进水平 —— 考虑到这个新模型更便宜、更快,这看起来已经很牛了。

然而,在过去的一年里,我见过多个声称在已知数据集上具有最先进语言性能的模型。

实际上,其中一些模型部分训练(或过度拟合)在这些开放数据集上,导致在排行榜上的分数不切实际。

因此,使用不太知名的数据集独立分析这些模型的性能非常重要 —— 比如我创建的这个 😄

我的评估数据集

我新建了一个主题数据集,我们可以用它来衡量不同大型语言模型(LLMs)的分类性能。

数据集包含 200 个句子,分为 50 个主题,其中一些主题密切相关,旨在使分类任务更具挑战性。

我手动创建并标记了整个数据集的英文版本。

然后我使用 GPT4 (gpt-4–0613) 将数据集翻译成多种语言。

然而,在这次评估中,我们只会评估数据集的英文版本 —— 这意味着结果不应受到使用相同语言模型进行数据集创建和主题预测可能带来的偏见的影响。

测试性能结果

这次我评估了以下模型:

  • GPT-4o: gpt-4o-2024-05-13
  • GPT-4: gpt-4-0613
  • GPT-4-Turbo: gpt-4-turbo-2024-04-09
  • Gemini 1.5 Pro: gemini-1.5-pro-preview-0409
  • Gemini 1.0: gemini-1.0-pro-002
  • Palm 2 Unicorn: text-unicorn@001

给到语言模型的任务是将数据集中的每个句子与正确的主题匹配。

这使我们能够计算每种语言和每个模型的准确率以及错误率。

由于模型大多数情况下都能正确分类,我正在为每个模型绘制错误率。

记住,错误率越低表示模型性能越好。


从图表中我们可以得出,GPT-4o 在所有模型中错误率最低,只有 2 个错误。

我们还可以看到,Palm 2 Unicorn、GPT-4 和 Gemini 1.5 与 GPT-4o 非常接近 —— 展示了它们强大的性能。

有趣的是,GPT-4 Turbo 的性能与 GPT-4–0613 类似。

最后,Gemini 1.0 落后了,这是意料之中的。

多语言

比较 gpt4o 与其他大型语言模型(如 Claude Opus 和 Gemini 1.5)的多语言能力。


gpt-4o-2024-05-13在多语言的处理能力最强,gpt-4-0613垫底。

结论

通过使用独特制作的英文数据集进行的这项分析,揭示了这些先进语言模型的最先进能力。

GPT-4o,OpenAI 的最新产品,在测试模型中错误率最低,这证实了 OpenAI 关于其性能的声明。

AI 社区和用户都必须继续使用不同的数据集进行独立评估,因为这些有助于提供比单一标准化基准测试所建议的更清晰的模型实际效果。

请注意,数据集相当小,结果可能会根据数据集的不同而变化。

来自:medium Lars Wiik

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/20930.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

finebi或者finereport发邮件

我们二次开发中&#xff0c;如果想利用产品自带的发邮件的功能&#xff0c;来发送自己的邮件内容。 首先 决策系统中邮件相关信息要配置好之后&#xff1a; 这里配好了发件人&#xff0c;以及默认发件人后&#xff0c; private void sendEmail(String content,String subject)…

云计算如何助力金融科技企业实现高效运营

一、引言 随着信息技术的飞速发展,云计算作为一种新兴的计算模式,正在逐渐改变着传统金融行业的运营模式。金融科技企业作为金融行业的重要组成部分,面临着日益增长的业务需求和技术挑战。在这一背景下,云计算凭借其弹性扩展、高可用性、低成本等优势,成为金融科技企业实…

163.二叉树:二叉树的最小深度(力扣)

代码解决 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right(nullptr) {}* Tre…

海南省三支一扶报名照上传失败?别忘了这

一、海南三支一扶报名照上传失败的2个原因 1.未按要求使用浏览器&#xff1a;请使用IE浏览器&#xff08;IE8以上版本&#xff09;、Chrome(谷歌浏览器&#xff09;或 Firefox&#xff08;火狐&#xff09;浏览器 来使用本系统&#xff0c;360浏览器等其他浏览器请使用极速模式…

数电课设:电动机转速测量控制电路

电动机转速测量控制电路设计 摘要 本文设计的电动机转速测量控制电路通过数字电路核心实现对电机转速的测量和显示。与市面上基于单片机的电机转速测量相比&#xff0c;该电路无需要注重复杂的软件设计&#xff0c;功耗小&#xff0c;稳定性高&#xff0c;实现了更好的底层封装…

如何组织我的 Python 代码

编写代码更像是一门艺术&#xff0c;而不是一门科学。编写精炼、合乎逻辑且强大的工程解决方案对于解决问题非常重要。然而&#xff0c;似乎存在一个重大挑战&#xff1a;让这些解决方案全面且易读。 本文的重点是如何最好地组织 Python 类&#xff0c;使其既可读又整洁。Pyth…

pdf文件太大如何变小,苹果电脑压缩pdf文件大小工具软件

压缩PDF文件是我们在日常办公和学习中经常会遇到的需求。PDF文件由于其跨平台、保持格式不变的特点&#xff0c;被广泛应用于各种场合。然而&#xff0c;有时候我们收到的PDF文件可能过大&#xff0c;不便于传输和存储&#xff0c;这时候就需要对PDF文件进行压缩。下面&#xf…

针对硅基氮化镓高电子迁移率晶体管(GaN-HEMT)的准物理等效电路模型,包含基板中射频漏电流的温度依赖性

来源&#xff1a;Quasi-Physical Equivalent Circuit Model of RF Leakage Current in Substrate Including Temperature Dependence for GaN-HEMT on Si&#xff08;TMTT 23年&#xff09; 摘要 该文章提出了一种针对硅基氮化镓高电子迁移率晶体管&#xff08;GaN-HEMT&…

【Java数据结构】详解LinkedList与链表(四)

&#x1f512;文章目录&#xff1a; 1.❤️❤️前言~&#x1f973;&#x1f389;&#x1f389;&#x1f389; 2.什么是LinkedList 3.LinkedList的使用 3.1LinkedList的构造方法 3.2LinkedList的其他常用方法介绍 addAll方法 subList方法 LinkedList的常用方法总使…

网络I/O模型

网络I/O模型 同步I/O阻塞I/O非阻塞I/OI/O多路复用select函数接口示例 poll函数接口示例 poll 和 select 的区别epoll原理&#xff1a;示例 Reactor单 Reactor 单进程 / 线程&#xff1b;单 Reactor 多线程 / 进程&#xff1b;多 Reactor 多进程 / 线程&#xff1b; 异步I/O 同步…

【吊打面试官系列】Java高并发篇 - 什么是自旋 ?

大家好&#xff0c;我是锋哥。今天分享关于 【什么是自旋 &#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; 什么是自旋 &#xff1f; 很多 synchronized 里面的代码只是一些很简单的代码&#xff0c;执行时间非常快&#xff0c;此时等待的线程都加锁可能是一种不…

CCIG学术论坛|文档解析技术加速大模型训练与应用

目录 前言一、大模型训练和应用过程的关键环节面临的问题1、数据2、算力3、语料4、训练时间5、模型规模与复杂度6、部署和推理效率7、安全和隐私 二、高精准、高效率的文档解析三、文档解析技术难点四、TextIn文档解析1、算法Pipeline2、文档图像预处理算法效果3、版面分析算法…

关于单链表——数组

1.单链表统计负数个数 要求实现一个函数&#xff0c;返回带头结点的单链表中负整数的个数。 函数接口定义&#xff1a; int NegativeInt(LinkList L); L是带头结点的单链表的头指针&#xff0c;函数NegativeInt返回L中负整数的个数。如果单链表为空&#xff0c;返回0。 其中Lin…

小熊家务帮day5-day7 客户管理模块1 (小程序认证,手机验证码认证,账号密码认证,修改密码,找回密码等)

客户管理模块 1.认证模块1.1 认证方式介绍1.1.1 小程序认证1.1.2 手机验证码登录1.1.3 账号密码认证 1.2 小程序认证1.2.1 小程序申请1.2.2 创建客户后端工程jzo2o-customer1.2.3 开发部署前端1.2.4 小程序认证流程1.2.4.1 customer小程序认证接口设计Controller层Service层调用…

【人工智能】第一部分:ChatGPT的基本概念和技术背景

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

STM32作业实现(八)触摸按键TPAD

目录 STM32作业设计 STM32作业实现(一)串口通信 STM32作业实现(二)串口控制led STM32作业实现(三)串口控制有源蜂鸣器 STM32作业实现(四)光敏传感器 STM32作业实现(五)温湿度传感器dht11 STM32作业实现(六)闪存保存数据 STM32作业实现(七)OLED显示数据 STM32作业实现(八)触摸按…

26 _ 虚拟DOM:虚拟DOM和实际的DOM有何不同?

虚拟DOM是最近非常火的技术&#xff0c;两大著名前端框架React和Vue都使用了虚拟DOM&#xff0c;所以我觉得非常有必要结合浏览器的工作机制对虚拟DOM进行一次分析。当然了&#xff0c;React和Vue框架本身所蕴含的知识点非常多&#xff0c;而且也不是我们专栏的重点&#xff0c…

VBA字典与数组第十五讲:多行多列数组与同列数单行数组间的运算规则

《VBA数组与字典方案》教程&#xff08;10144533&#xff09;是我推出的第三套教程&#xff0c;目前已经是第二版修订了。这套教程定位于中级&#xff0c;字典是VBA的精华&#xff0c;我要求学员必学。7.1.3.9教程和手册掌握后&#xff0c;可以解决大多数工作中遇到的实际问题。…

LabVIEW齿轮调制故障检测系统

LabVIEW齿轮调制故障检测系统 概述 开发了一种基于LabVIEW平台的齿轮调制故障检测系统&#xff0c;实现齿轮在恶劣工作条件下的故障振动信号的实时在线检测。系统利用LabVIEW的强大图形编程能力&#xff0c;结合Hilbert包络解调技术&#xff0c;对齿轮的振动信号进行精确分析…

高考后的赚钱新路径:千行赏金助你开启财富之旅

一、兼职背景与需求 随着高考的落幕&#xff0c;众多学子迎来了人生中的一大转折点。在迈向大学校园的门槛之前&#xff0c;许多学生希望利用这段空闲时间做些兼职&#xff0c;既能够充实自己的暑假生活&#xff0c;又能为家庭减轻经济负担&#xff0c;甚至为自己积累一些宝贵…