上交举办“大模型奥林匹克竞赛”,GPT-4o仅得39分

大模型的奥林匹克竞赛来了!

最近,上交构建了一个全面、极具挑战性的奥赛级别的基准——OlympicArena,从来自62个不同奥林匹克竞赛中筛选出11,163个问题,涵盖数学、物理、化学、生物、地理、天文学和计算机科学等七个学科,细分为34个专业领域。除了8类逻辑推理任务外,还有5类视觉推理能力,分为13种答案类型(如表达式、区间)。

论文标题:
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

论文链接
https://arxiv.org/pdf/2406.12753

奥林匹克竞赛,作为选拔拔尖青少年人才的竞赛,其难度与挑战性不言而喻。在奥赛中获得优异成绩的同学可以获得保送名牌大学和参加自主招生考试的资格。

那么大模型在奥赛中的表现如何呢?

作者提供了一套全面的资源来支持AI研究,包括基准数据集、开源标注平台、详细的评估工具和带有自动提交功能的排行榜:

https://github.com/GAIR-NLP/OlympicArena

数据提取与标注

该基准的数据来源于各种竞赛的URL,支持以PDF格式公开下载。作者使用Mathpix4工具将PDF文档转换为Markdown格式,以便与模型的输入要求兼容。对于计算机科学的编程问题,还额外收集了相应的测试用例。然后聘请了约30名具有科学和工程背景的学生进行标注。并开发了一个多模态数据标注界面:

https://github.com/GAIR-NLP/OlympicArena/tree/main/annotation

最终基准统计情况如下表所示:

作者使用GPT-4V作为标注器对问题进行难度分类,分为知识回忆、概念应用和认知推理三级,并与相关基准对比,该基准第三级难度(认知推理)的问题占大多数,而其他基准相对较少。

在简单了解了该基准的规模,我们进入正题,看一看大模型在奥赛上的表现吧!

GPT-4o的整体准确率仅为39.97%

目前最强大模型GPT-4o的整体准确率仅为39.97%,而其他开源模型更是只有20%左右。

在不同学科的任务中,数学和物理仍然是最具有挑战性的两个学科。另外计算机编程竞赛的难度同样不容忽视,部分开源模型的准确率甚至为0,反映出当前模型在复杂算法设计上的不足。

大模型在逻辑推理和视觉推理上表现各不相同

为了进行更好的细粒度分析,作者从逻辑和视觉两个角度对认知推理能力进行了分类。逻辑推理能力包括: 演绎推理(DED)、归纳推理(IND)、假设推理(ABD)、类比推理(ANA)、因果推理(CAE)、批判性思维(CT)、分解推理(DEC)和定量推理(QUA)。视觉推理能力包括模式识别(PR)、空间推(SPA)、图表推理(DIA)、符号解释(SYB)和比较可视化(COM)。

从图中来看,几乎所有模型在各类逻辑推理能力上展现相似的表现趋势——即在归纳和因果推理方面表现出色,能准确识别信息中的因果关系;但在演绎和分解推理上则稍显不足,这主要由于奥赛级别问题的多样性和复杂性,非常需要分解问题的能力,而这也是大模型的短板。

对视觉推理,模型在模式识别和可视化比较上表现良好,但在处理空间和几何推理以及理解抽象符号的任务时则面临挑战。

大多数LMMs无法熟练利用视觉信息

如下图a所示,只有少数LMM(如GPT-4o和Qwen-VL-Chat)在有图像输入时相对于其文本版有显著提升。许多LMM在处理图像输入时并未表现出增强效果,甚至不升反降。

可能有以下原因:

  1. LMM在处理文本和图像时可能过度关注文本,忽略了图像信息。

  2. 某些LMM在通过文本模型训练视觉能力时,可能丧失部分固有的语言能力(如推理能力)。

  3. 鉴于问题中复杂的文本与图像交错格式,部分模型难以有效处理和理解嵌入在文本中的图像位置信息。

大模型虽不能得出正确答案,但能正确执行部分中间步骤。

为了深入研究推理步骤的正确性, 确保对模型认知能力的严格评估, 作者还进行了过程级评估。从OlympicArena中随机选取96个有参考解法的问题。我们使用GPT-4将参考解(即黄金解法)和模型生成的解法转换为结构化的逐步解答格式。然后将这些解法提供给GPT-4V,对每个步骤的正确性打分,范围从0到1。

从下图b中,可以看到过程级评估与答案级评估通常高度一致。这说明当模型产生正确答案时,推理过程的质量大多较高。

另外过程层面的准确性通常高于答案层面。即使面对非常复杂的问题,模型也能正确执行部分中间步骤。 因此,模型在认知推理方面可能有大量未开发的潜力。

此外,作者对错误步骤的位置进行了统计分析,如下图。结果显示,错误容易出现在后期。这表明随着推理的深入,模型更容易出错,因此需要在处理逻辑推理的长链上进行改进。

错误分析:推理错误比例最高

为了具体评估模型的表现,作者从GPT-4V的回答中随机选取错误回答,让人类分析并标注这些错误的原因。

推理错误(包括逻辑和视觉上的)比例最高,该基准有效地突显了当前模型在认知推理能力上的不足。

此外,相当一部分错误源于知识匮乏,表明当前模型仍然缺乏专家级的领域知识以及利用这些知识进行推理的能力。另一种类型的错误源于理解偏差,这可能是由于模型对上下文理解有误,或是整合复杂语言结构和多模态信息时遇到了困难。

数据泄露检测

随着预训练数据集规模的扩大,有必要检测基准数据是否已经泄露。

作者引入了N-gram预测准确率这一实例级泄漏检测指标。该指标为每个实例均匀采样多个起始点,预测每个起始点的下一个n-gram,并检查所有预测的n-gram,如果都正确,则表明模型可能已经遇到了这个实例,该实例已经被泄露。

从统计数据来看,尽管数量相对较少,但一些模型确实可能已经看过了基准实例。

既然数据已经被泄露了,那么模型能否正确回答这些实例?有趣的是,能回答正确的非常少。

这些结果表明,该基准数据泄漏风险极低,且对模型来说具有足够的挑战性。

结论

本文提出了一个用于评估大模型在奥赛级别问题上的认知推理能力的基准——OlympicArena。目前最强大的模型GPT-4o在运用认知推理解决复杂问题时都表现不佳,大模型在复杂推理和多模态整合方面仍存在局限性。该基准有望推动大模型向超级智能迈进!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/39283.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[22] Opencv_CUDA应用之 使用背景相减法进行对象跟踪

Opencv_CUDA应用之 使用背景相减法进行对象跟踪 背景相减法是在一系列视频帧中将前景对象从背景中分离出来的过程,它广泛应用于对象检测和跟踪应用中去除背景 背景相减法分四步进行:图像预处理 -> 背景建模 -> 检测前景 -> 数据验证 预处理去除…

博客搬家前台申请功能下线通知

尊敬的用户们: 您好! 感谢您一直以来对我们博客平台的关注与支持。为了更好地优化我们的服务质量和用户体验,经过慎重考虑,我们决定将于近期对博客搬家前台申请功能进行下线处理。在此,我们向广大用户表示诚挚的歉意…

仿论坛项目--第一部分相关习题

1.关于IOC注解,说法正确的是 A.autowired用于注入bean,该注解只能写在成员变量的前面 B.Qualifier用于声明bean的名称,该注解只能引用bean的自定义名称 C.Bean用于装配第三方的Bean,不能装配自定义的bean D.Configuration用于声明配置类&…

AD9026芯片开发实录6-example code

官方发布的软件包中,带了一份example code,用于向客户展示API的调用方法以及基于官方的验证版ADRV902X最简单的bring up的流程。 该 example 位于软件包的路径下:“\Adi.Adrv9025.Api\src\c_src\app\example\”。 代码组成: initd…

JavaScript 实用技巧

1. 使用 const 和 let 替代 var 在 ES6 之前,我们通常使用 var 声明变量。但如今,推荐使用 const 和 let,因为它们具有块级作用域,可以避免很多潜在的问题。 const PI 3.14; // 常量,无法重新赋值 let age 25; // …

边界框在目标检测中的作用与应用

目标检测是计算机视觉领域的核心任务之一,旨在从图像或视频中识别和定位感兴趣的目标。边界框(Bounding Box)是目标检测中常用的一种表示方法,用于确定目标在图像中的确切位置。本文将详细探讨边界框的概念、它在目标检测中的角色…

使用ElementUI组件库

引入ElementUI组件库 1.安装插件 npm i element-ui -S 2.引入组件库 import ElementUI from element-ui; 3.引入全部样式 import element-ui/lib/theme-chalk/index.css; 4.使用 Vue.use(ElementUI); 5.在官网寻找所需样式 饿了么组件官网 我这里以button为例 6.在组件中使用…

Redis中设置验证码

限制一分钟内最多发送5次,且每次有效时间是5分钟! String 发送验证码(phoneNumber) {key "shortMsg:limit:" phoneNumber;// 设置过期时间为 1 分钟(60 秒)// 使⽤ NX,只在不存在 key 时才能设置成功bool…

【QT】常用控件|widget|QPushButton|RadioButton|核心属性

目录 ​编辑 概念 信号与槽机制 控件的多样性和定制性 核心属性 enabled geometry ​编辑 windowTiltle windowIcon toolTip styleSheet PushButton RadioButton 概念 QT 控件是构成图形用户界面(GUI)的基础组件,它们是实现与…

tensorflow和numpy的版本

查看cuda版本 dpkg -l | grep cuda i libcudart11.0:amd64 11.5.117~11.5.1-1ubuntu1 amd64 NVIDIA CUDA Runtime Library ii nvidia-cuda-dev:amd64 11.5.1-1ubuntu1 …

搜维尔科技:数据手套为什么要选择SenseGlove

了解 SenseGlove SenseGlove 是一支由电子工程师、触觉研究人员和计算机视觉专家、XR 开发人员、UX 设计师和产品创新者组成的科幻爱好者团队,他们拥有丰富人类能力和赋予 Metaverse 意义的技能和热情。 推进触觉技术是我们实现这一目标的方式。 公司及产品背景 S…

【C++知识点总结全系列 (02)】:C++中的语句、运算符和表达式详细总结

文章目录 1、语句(1)简单语句A.空语句B.复合语句 (2)条件语句(3)迭代语句A.常规for循环B.范围for循环C.while和do...while (4)跳转语句A.break语句B.continue语句C.goto语句 (5)异常处理语句A.标准异常B.throw抛出异常 (6)try语句 2、运算符(1)算术运算符(2)关系运算符(3)逻辑运…

Cybervadis认证是什么?

Cybervadis认证是一种全面且深入的网络安全评估和认证服务,旨在帮助组织提高其网络安全实践的成熟度,并有效应对不断变化的网络威胁和攻击。以下是关于Cybervadis认证的一些关键信息: 认证目的: 评估和验证组织在网络安全方面的能…

Andrej Karpathy提出未来计算机2.0构想: 完全由神经网络驱动!网友炸锅了

昨天凌晨,知名人工智能专家、OpenAI的联合创始人Andrej Karpathy提出了一个革命性的未来计算机的构想:完全由神经网络驱动的计算机,不再依赖传统的软件代码。 嗯,这是什么意思?全部原生LLM硬件设备的意思吗&#xff1f…

HarmonyOS开发实战:UDP通讯示例规范

1. UDP简介 UDP协议是传输层协议的一种,它不需要建立连接,是不可靠、无序的,相对于TCP协议报文更简单,在特定场景下有更高的数据传输效率,在现代的网络通讯中有广泛的应用,以最新的HTTP/3为例,…

ESP32-Web-Server编程-建立多个 web server

ESP32-Web-Server编程-建立多个 web server 概述 当一个 web server 处理的请求过多、或者有长时间占用此 web server 的使用场景时,一个 web server 就不够用了。 这种情况下,我们可以在一个设备上建立两个或多个 web server 来满足更复杂的需求。 单个设备上建立多个 w…

Redis如何实现主从复制

Redis主从复制包括全量复制和增量复制。主是主服务器,从是从服务器,主服务器(master )的数据如果更新了也会同步到从服务器(slave),一个主服务器可以搭配很多个从服务器,主服务器负责写入,从服务器只能读取…

vmware虚拟机安装openEuler

一、openEuler简介 openEuler是一款开源操作系统。当前openEuler内核源于Linux,支持鲲鹏及其它多种处理器,能够充分释放计算芯片的潜能,是由全球开源贡献者构建的高效、稳定、安全的开源操作系统,适用于数据库、大数据、云计算、…

EEPROM内部原理

A2, A1, A0是EEPROM的地址引脚,用于设置设备地址。它们的作用如下: 设备寻址: 这三个引脚允许在I2C总线上唯一地标识EEPROM芯片。通过不同的连接方式(接高、接低或悬空),可以为同一类型的EEPROM芯片设置不同…

1uH电感SK6615电流1.5A频率2MHz输入5.5V同步降压转换器

SK6615C 1.5A 2MHz 5.5V同步降压转换器 SK6615 SOT23-5封装和丝印LA 描述 该SK6615C是一款高效、DC-DC降压型开关稳压器,能够提供高达1.5A的输出电流。该器件的工作输入电压范围为 2.6V 至 5.5V,输出电压范围为 0.6V 至 VIN。工作频率为2MHz&#xff0c…