AI模型的奥运会:谁将在OlympicArena中夺冠?

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读

a3346b34efcb1abe29c4b3d79b1cf8c1.jpeg

421c551561756c778221ffe291f23387.jpeg

引言:AI模型的奥林匹克级评测

评估和比较不同AI模型的性能始终是一个核心话题。随着技术的不断进步,这些模型在处理复杂任务的能力上有了显著的提升。为了更精确地衡量这些先进模型的能力,Huang等人在2024年引入了一个全新的、类似奥林匹克的多学科、多模态评测平台——OlympicArena。这一平台设计了包括11,163个双语问题,涵盖文本和图像交错的模态,跨越七个常见学科和62个国际奥林匹克竞赛,严格检查数据泄露问题,旨在推动AI在认知推理方面的极限。

在这一背景下,本文将探讨最新发布的AI模型——包括“Claude-3.5-Sonnet (Anthropic, 2024a)”、“Gemini-1.5-Pro (Reid et al., 2024)”和“GPT-4o”——在OlympicArena上的表现。通过引入奥林匹克奖牌榜的方式,我们不仅比较了这些模型在不同学科的表现,还通过细粒度的分析揭示了它们在不同类型的逻辑和视觉推理能力上的优势和不足。

这种全面而深入的评测方法为研究人员和开发者提供了一个清晰且具有竞争性的框架,帮助他们更好地理解不同模型的强项和弱点。通过这样的奥林匹克级评测,我们可以更准确地识别出在各个学术领域中表现最为出色的AI模型,从而推动人工智能技术在更广泛领域的应用和发展。

OlympicArena基准介绍

OlympicArena是由Huang等人在2024年提出的一个全新的、具有挑战性的人工智能评测基准。这一基准测试旨在通过模拟奥林匹克级别的多学科、多模态竞赛环境,推动人工智能在认知推理能力上的极限。OlympicArena包含了11,163个双语问题,这些问题涵盖了文本只读和文本-图像交错的模态,覆盖了七个常见学科和62个国际奥林匹克竞赛项目。

1. 数据集的设计与挑战

OlympicArena的设计严格检查了数据泄露问题,确保了测试的公正性和有效性。这个基准测试不仅要求模型在多种类型的问题上表现出高水平的理解和推理能力,还要求模型能够处理复杂的、多模态的输入信息。

2. 测试的设置

在OlympicArena的测试设置中,使用了测试数据集的分割(test split),并且没有公开答案,以防止数据泄露。所有的评估都可以通过规则匹配来执行,不需要基于模型的评估。此外,为了保持问题的原始结构,测试时直接使用文本输入,不使用图像标题作为图像的文本表达。

3. 竞争者和评估方法

OlympicArena评估了多种开源和专有的大型多模态模型(LMMs)和大型语言模型(LLMs)。这些模型包括但不限于OpenAI的GPT系列、Anthropic的Claude系列以及其他一些团队开发的模型。评估方法包括精确度评估非编程任务和无偏pass@k评估编程任务。

4. 奖牌表和细粒度分析

OlympicArena还创新性地引入了奥林匹克奖牌表(OlympicArena Medal Table),这是一种类似于奥运会的奖牌系统,用于评估AI模型在各个学科领域的表现。模型根据在任何给定学科中获得的前三高分获得奖牌。此外,还进行了关于不同学科、不同推理类型、不同语言和不同模态的细粒度分析,以深入理解各模型的能力和局限性。

通过这些详尽的测试和评估,OlympicArena旨在提供一个全面、竞争性的框架,帮助研究人员和开发者更好地理解不同模型的强项和弱点,从而推动人工智能技术的发展和应用。

fc05494f3c1e29e80ddb6410c02740c3.jpeg

模型比较与评估方法

在这个章节中,我们将探讨如何比较和评估不同的人工智能模型。我们将特别关注最近发布的模型:“Claude-3.5- Sonnet (Anthropic, 2024a),” “Gemini-1.5-Pro (Reid et al., 2024),” 和 “GPT-4o”。为了进行全面的性能评估,我们将使用OlympicArena(Huang et al., 2024)提出的奥运会奖牌表方法,这是一种创新的排名机制,专门设计用来评估AI模型在各个学科领域的表现。

1. 评估指标

所有问题都可以使用基于规则的匹配进行评估,因此我们使用准确性作为非编程任务的评估指标,对于编程任务,我们使用无偏的pass@k作为评估指标,其中k = 1,n = 5,c表示通过所有测试用例的正确样本数。

2. OlympicArena奖牌表

OlympicArena奖牌表类似于奥运会中使用的奖牌系统,它是一种专门设计用来评估AI模型在各个学科领域表现的排名机制。该表为在任何给定学科中取得前三名成绩的模型颁发奖牌,从而提供了一个清晰而有竞争力的框架来比较不同的模型。具体来说,我们首先根据金牌数量对AI模型进行排名,如果金牌数量相同,则根据总分进行排名。这提供了一种直观的方式来识别在不同学科领域中的领先模型,使研究人员和开发人员更容易理解不同模型的优点和缺点。

3. 细粒度评估

我们根据不同的学科、模态、语言以及不同类型的逻辑和视觉推理能力进行细粒度评估。

4. 结果和分析

我们发现,新发布的Claude-3.5-Sonnet非常强大,其表现几乎与GPT-4o相当。同时,新发布的Gemini-1.5-Pro也展示出了相当的实力,超过了GPT-4V。此外,根据OlympicArena奖牌表,我们可以观察到GPT-4o, Claude-3.5-Sonnet, 和Gemini-1.5-Pro是排名前三的模型。

5. 细粒度分析

我们对各个模型在不同学科、推理类型、语言类型和模态下的表现进行了细粒度分析。例如,GPT-4o在传统的演绎和归纳推理任务,特别是数学和计算机科学方面,表现出优越的能力,超过了Claude-3.5-Sonnet 5%以上的数学和3%的计算机科学。另一方面,Claude-3.5-Sonnet在物理、化学和生物学等科目中表现出色,尤其是在生物学方面,它超过了GPT-4o 3%。

这些观察结果表明,即使是目前最强大的模型,在文本任务上的准确性也高于多模态任务。虽然差距不大,但这表明模型在利用多模态信息处理复杂推理问题方面还有很大的改进空间。

细粒度分析

在本章节中,我们将深入探讨最新的AI模型在多个维度上的性能表现,包括学科细分、推理类型、视觉推理能力、语言类型以及模态分析。通过这一细粒度分析,我们旨在揭示不同模型在处理复杂问题时的优势和局限性。

1. 学科细分

在学科细分方面,我们比较了GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-Pro三个模型在数学、计算机科学、物理、化学和生物学等领域的表现。GPT-4o在数学和计算机科学领域展现出了卓越的能力,尤其是在数学领域,其性能超过了Claude-3.5-Sonnet超过5%,在计算机科学领域也超过了3%。相反,Claude-3.5-Sonnet在物理、化学和生物学等领域表现更为出色,特别是在生物学领域,它超过了GPT-4o 3%的表现。

2. 推理类型

在推理类型方面,GPT系列模型在传统的数学推理和编程能力方面表现突出,这表明GPT模型经过了严格的训练,以处理需要强大演绎推理和算法思维的任务。而在需要知识与推理结合的学科,如物理、化学和生物学方面,Claude-3.5-Sonnet和Gemini-1.5-Pro展现出了竞争性或更优的性能。

3. 视觉推理能力

在视觉推理能力方面,Claude-3.5-Sonnet在模式识别和图表解读方面领先于GPT-4o,显示出其在识别模式和解释图表方面的强大能力。两个模型在符号解释方面表现相当,表明它们在理解和处理符号信息方面具有可比的能力。然而,GPT-4o在空间推理和比较可视化方面的表现优于Claude-3.5-Sonnet,展示了其在理解空间关系和比较视觉数据方面的优势。

4. 语言类型

在语言类型方面,尽管模型主要训练在英语数据上,但包括一些中文数据并具有跨语言泛化能力。中文问题的难度比英语问题更具挑战性,尤其是在物理和化学等学科中,中文奥林匹克问题更为困难。然而,一些在中国开发或在支持中文的基础模型上进行微调的模型在中文场景中的表现优于英文场景。

5. 模态分析

在模态分析方面,GPT-4o在文本和多模态任务中均表现优异,特别是在文本任务中表现更为突出。这表明,尽管目前最强大的模型在处理复杂推理问题时能够利用多模态信息,但在文本任务中的准确性更高,表明在提高模型利用多模态信息的能力方面仍有很大的改进空间。

通过这一细粒度分析,我们不仅能够更深入地理解不同AI模型在各个领域的性能,还能够揭示它们在处理复杂问题时的优势和局限性。这为未来模型的开发和优化提供了宝贵的见解。

b5910d7334fb5f1aeaa03cb528f50a02.jpeg

模型性能的主要发现与讨论

在本章节中,我们将详细讨论最新的AI模型在OlympicArena基准测试中的表现。我们将重点关注最新发布的模型:“Claude-3.5- Sonnet (Anthropic, 2024a),” “Gemini-1.5-Pro (Reid et al., 2024),” 和 “GPT-4o。” 我们将使用奥运会奖牌表的方法来对AI模型进行排名,这种方法基于模型在各个学科中的综合表现。

1. 总体表现

根据实验结果,新发布的Claude-3.5-Sonnet表现强大,几乎与GPT-4o相当。同时,新发布的Gemini-1.5-Pro也展示了相当的实力,超过了GPT-4V。根据OlympicArena奖牌表(见表1),如果一个模型在任何学科中取得前三名的成绩,它就会获得一枚奖牌。我们可以观察到GPT-4o,Claude-3.5-Sonnet,和Gemini-1.5-Pro是排名前三的模型。

11719f26ab6650a09241e3208cce04ec.jpeg

2. 针对学科的细粒度分析

虽然GPT-4o和Claude-3.5-Sonnet在各学科的总体表现相似,但每个模型都有其特定的优势。GPT-4o在传统的演绎和归纳推理任务中表现出优越的能力,特别是在数学和计算机科学方面,超过Claude-3.5-Sonnet超过5%和3%。另一方面,Claude-3.5-Sonnet在物理,化学和生物学等科目中表现出色,特别是在生物学方面,它超过了GPT-4o 3%。

3. 针对推理类型的细粒度分析

OpenAI的GPT系列在传统的数学推理和编码能力方面表现出色。这种在这两个学科的优越表现表明,GPT模型已经经过严格的训练,以处理需要强大的演绎推理和算法思维的任务。相反,当涉及到需要知识与推理的整合的学科,如物理,化学和生物学,其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro表现出有竞争力或优越的表现。

38f753da1ffb8c48b3a46696c506fc15.jpeg

4. 针对语言类型的细粒度分析

我们发现,这些强大的模型在英语问题上的表现仍然优于中文问题,并且在多模态能力方面还有很大的改进空间。然而,我们也发现,一些在中国开发或在支持中文的基础模型上进行微调的模型在中文场景中的表现优于英文场景。这表明,优化模型以适应中文数据,以及全球更多的语言,仍然需要大量的关注。

edf8bf27af9c94483e079bc4d2355294.jpeg

5. 针对模态的细粒度分析

如表6所示,GPT-4o在文本只读和多模态任务中都优于Claude-3.5-Sonnet,特别是在文本只读问题中表现出色。这些观察结果表明,即使是目前最强大的模型,也在文本只读任务中比多模态任务中的准确率更高。虽然差距不大,但这表明模型在利用多模态信息处理复杂推理问题方面还有很大的改进空间。

通过理解这些细微差别,不仅有助于开发更专业和多功能的模型,还强调了持续评估和改进模型架构的重要性,以更好地满足不同学术和专业领域的多样化需求。

6f8160b2f6979528e8bcc105d730f16f.jpeg

论文地址:https://arxiv.org/pdf/2406.16772
 代码:https://github.com/GAIR-NLP/OlympicArena

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/863772.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3学习笔记<->创建第一个vue项目(2)

新建一个项目目录 找一个盘新建一个目录,我这里在D盘创建一个vuedemo目录作为项目存放的目录。使用idea打开目录。   单击ieda底部的按钮“Terminal”,打开命令行窗口,如果命令行窗口当前目录不是“vuedemo”,就切换到“vuedem…

qt文件如何打包成一个独立的exe文件

QT官方给我们安装好了打包软件,就在你QT安装的位置 把这个在cmd打开C:\Qt\6.7.1\mingw_64\bin\windeployqt6.exe(或复制地址) 然后把要打包项目的exe复制到新的空文件夹,再复制他的地址 按回车后生成新文件 再下载打包软件&#…

东方航空逆向

声明(lianxi a15018601872) 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! …

【AIGC】AnimateAnyone:AI赋予静态照片生命力的魔法

摘要: 在人工智能技术的不断进步中,AnimateAnyone项目以其创新性和易用性脱颖而出,成为GitHub上备受瞩目的AI项目之一。由阿里巴巴智能计算研究院开发的这一技术,允许用户通过提供一张静态照片,快速生成动态角色。本文…

Linux实用命令练习

目录 一、常用命令 二、系统命令 三、用户和组 四、权限 五、文件相关命令 六、查找 七、正则表达式 八、输入输出重定向 九、进程控制 十、其他命令 1、远程文件复制:scp 2、locate查找 3、which命令 4、设置或显示环境变量:export 5、修…

YOLO-V1

一、YOLO-V1整体思想与网络架构 1.1 YOLO算法整体思路解读 YOLO-V1: 经典的one-stage方法 把检测问题转化成回归问题,一个CNN就搞定了! 可以对视频进行实时检测,应用领域非常广! 核心思想: 1、预测一张图像中有哪些物…

11_电子设计教程基础篇(磁性元件)

文章目录 前言一、电感1、原理2、种类1、制作工艺2、用途 3、参数1、测试条件2、电感量L3、品质因素Q4、直流电阻(DCR)5、额定电流6、谐振频率SRF(Self Resonant Frequency)7、磁芯损耗 4、应用与选型 二、共模电感1、原理2、参数…

《昇思25天学习打卡营第15天 | 昇思MindSpore基于MindSpore的红酒分类实验》

15天 本节学了通过MindSpore的完成红酒分类。 1.K近邻算法(K-Nearest-Neighbor, KNN)是一种用于分类和回归的非参数统计方法,是机器学习最基础的算法之一。 1.1分类问题 1.2回归问题 1.3距离的定义 2.数据处理 2.1 数据准备 2.2 数据读取与处…

动画重定向——当给一个人物模型用别人物的动画时,会遇到人物与动画不匹配问题,怎么解决呢?

每日一句:实践出真知,试错方确信 目录 最开始我想的原因! 分析一下动画相关参数 Animator组件参数详解: 人物模型的导入设置参数: Skinned Mesh Renderer组件详解: Skinned Mesh Renderer工作原理 设置Skinned …

AI大模型的崛起:第四次工业革命的前奏?

在当今这个信息爆炸的时代,人工智能(AI)大模型的崛起引起了广泛的关注和讨论。有人将其视为第四次工业革命的前奏,然而,这真的可能吗?本文将探讨这一问题,并对中国AI大模型的发展进行简要分析。…

MyBatis第一节

目录 1. 简介2. 配置3. doing3.1 创建一个表3.2 打开IDEA,创建一个maven项目3.3 导入依赖的jar包3.4 创建entity3.5 编写mapper映射文件(编写SQL)3.6 编写主配置文件3.7 编写接口3.8 测试 参考链接 1. 简介 它是一款半自动的ORM持久层框架,具有较高的SQ…

Qt:4.信号和槽

目录 1.信号源、信号和槽: 2.Qt类的继承关系: 3.自定义槽函数: 4.第一种信号和槽的连接的方法: 5.第二种信号和槽的连接的方法: 6.自定义信号: 7.发射信号: 8.信号和槽的传参:…

神经网络在机器学习中的应用:手写数字识别

机器学习是人工智能的一个分支,它使计算机能够从数据中学习并做出决策或预测。神经网络作为机器学习的核心算法之一,因其强大的非线性拟合能力而广泛应用于各种领域,包括图像识别、自然语言处理和游戏等。本文将介绍如何使用神经网络对MNIST数…

《昇思25天学习打卡营第17天 | 昇思MindSporeCycleGAN图像风格迁移互换》

17天 本节学习了CycleGAN图像风格迁移互换。 CycleGAN即循环对抗生成网络,该模型实现了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。该模型一个重要应用领域是域迁移,可以通俗地理解为图像风格迁移。其实在 CycleGAN 之前&a…

WP黑格导航主题BlackCandy

BlackCandy-V2.0全新升级!首推专题区(推荐分类)更多自定义颜色!选择自己喜欢的色系,焕然一新的UI设计,更加扁平和现代化! WP黑格导航主题BlackCandy

计算机科学基础简单介绍(1—6)

计算机影响了我们生活的方方面面,在我们这个时代完全渗透了我们的生活。 最早是算盘、星盘、时钟、尺卡等古老的计算工具,后来出现了进步计算机,类似与汽车里程表的一种机械工具,但是他也是手工制品。经过历史的演变与发展&#x…

gbase 8c分布式升级步骤

GBase 8c 多模多态企业级分布式数据库具备高性能、高可用、弹性伸缩、高安全性等特性,可以部署在物理机、虚拟机、容器、私有云和公有云,为关键行业核心系统、互联网业务系统和政企业务系统提供安全、稳定、可靠的数据存储和管理服务。GBase 8c支持行存、…

大数据之路 读书笔记 Day2

大数据之路 读书笔记 Day2 日志采集——浏览器的页面采集 一、分类 #mermaid-svg-8c9sRexRDdSB9pWA {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-8c9sRexRDdSB9pWA .error-icon{fill:#552222;}#mermaid-svg-8c9…

【python爬虫实战】爬取豆瓣top250(网站有反爬虫机制肿么办)

关于请求头headers: 值得注意的是,与上一篇 :​​​​​​【python爬虫实战】爬取书店网站的 书名&价格(注释详解)-CSDN博客 爬取书名不同,这次爬取豆瓣网站必须使用“请求头headers”,不然将没有输…

js使用异步方法(promise)返回回调参数内的值,

需求分析 使用回调方式的异步方法时,需要返回异步操作的结果,这个时候就不能直接在回调函数内返回值,因为回调函数需要等待异步操作结束才执行,而同步调用返回值时,异步操作没有结束,回调函数就没有执行完成…