最强 OpenAI o1 逻辑推理正确率仅 50%!清华、智谱推出「大模型逻辑推理新基准」

9.11 和 9.9 哪个大?

这一连人类幼儿园儿童都能回答的问题,曾经(至今)难倒了众多大语言模型(LLM)。

在这里插入图片描述

然而,要想达到通用人工智能(AGI)的水平,LLM 不仅要完成“比大小”这种简单的逻辑推理,还需要完成难度更高的推理,比如“对复杂规则的理解与执行以及多步骤规划”,这是 LLM 智能体(agent)和决策系统的核心能力。

因此,如何有效评估 LLM 作为基于规则的执行者和规划者角色,至关重要。但是,目前学界和业界少有这方面的研究。

来自清华大学和智谱的研究团队推出了一项新的基准测试——LogicGame,旨在全面评估 LLM 在规则理解、执行和规划方面的能力。先看评测结果:

图片

图|LogicGame 的评测结果和样例展示。上图为各种模型在执行和规划类别中的表现;下图(左、右)分别为两个执行和规划类别案例研究。

除了看到 o1-preview、o-mini 的遥遥领先,我们也看到超过一半的模型得分不到 10%,如上图红色区域所示。

这一评测结果揭示了一个不容忽视的事实:大多数 LLM 在基于规则的逻辑推理上都存在着明显的缺陷。

相关研究论文以“LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models”为题,已发表在预印本网站 arXiv 上。

图片

论文链接:

https://arxiv.org/abs/2408.15778

与传统基准测试不同,LogicGame 包含一系列多样化的游戏,每个游戏都有一套初始状态规则,这要求模型不仅能够理解这些预定义的规则,还可以应用它们来解决问题。而且,LogicGame 还同时考虑了最终结果和中间步骤,从而对模型性能进行全面的评估。

研究结果显示,通过设定不同难度的游戏场景,LogicGame 能够精确地衡量模型在规则理解和多步骤执行及规划任务上的表现。

LogicGame:“四级”难度游戏场景

遵循规则与推理的结合是完成许多现实世界任务的关键。然而,现有基准测试常常无法充分捕捉这一点。

为了填补这一空白,研究团队通过广泛的研究和众包开发了一套新颖的问题集。他们发现这些任务与某些游戏机制相似,因为现实世界的任务通常与游戏有着共同特征,比如需要遵循特定的规则,进而进行决策。因此,他们采用了游戏化的方法,从而能够对模型遵循规则的推理能力进行细致的评估。

其中,LogicGame 的数据构建,包含以下四个部分:

设计规则推理问题,灵感来自现实世界场景。由于现实世界任务往往具有游戏特征,例如需要遵循特定规则和做出决策,因此 LogicGame 采用了游戏化方法来评估模型的规则遵循和推理能力。

开发输出约束,确保模型输出符合标准格式。为了方便精确评估和简化匹配步骤,模型响应被要求遵循结构化的 JSON 输出格式。对于单步问题(Level 0),模型只需要输出最终答案,评估仅基于答案的正确性。对于涉及多步骤或更复杂推理的问题(Level 1、2、3 和某些 Level 0 问题),既要评估答案,也要评估步骤。

实现不同难度级别,并包含示例问题。有四个难度级别,评估模型推理能力的范围,从简单的规则应用到复杂的推理链。难度梯度由相关规则的复杂程度和得出解决方案所需的推理步骤数量决定。

为了确保公平性和更广泛的适用性,LogicGame 包含了中文和英文版本基准。

如下图,每个模型都会收到一组特定于给定问题的规则作为输入 prompt,以及一个相应的问题和一个 JSON 格式的输出约束,包括答案和步骤。

图片

图|LogicGame 中分类和评测方法的说明。分类中插图用紫色突出显示涉及数学的类别。

LogicGame 的评测方法使用自动化方法,不仅要评估答案的正确性,还要评估得出答案的步骤的正确性,具体包括评估模型的答案准确率(A-Acc)、步骤准确率(P-Acc)和答案步骤准确率(AP-Acc)。

每个问题答案的评分是通过比较模型的响应和参考答案来确定的。同样,根据 JSON 格式约束的定义,每个问题步骤的评分也是通过评估模型步骤与参考步骤的一致程度来实现的。

A-Acc:该指标用于评估所有给定问题答案的正确性,为每个答案提供二进制评估(0/1),从而表明其是否正确。

P-Acc:该指标评估步骤的正确性,根据所提供步骤与预期步骤之间的字符级相似度来衡量匹配百分比。在极少数情况下,如果 0 级问题是单步推理,其中没有提供步骤可供评判,则在评分时步骤准确性与答案准确性视为一致同等对待。

AP-Acc:该综合指标评估答案和步骤的整体准确性。其计算方法是使用逻辑 AND 运算将答案准确性和步骤准确性结合起来,得出一个总分。

这一评测方法确保模型遵循规则进行推理,并全面评估模型的推理能力。

表现如何?OpenAI o1 遥遥领先

如下图,不论在中英文版本中,在执行类别的最高难度 Level 3 下,o1-preview、o1-mini 在 14 个被评测模型中的得分遥遥领先,国内模型的得分未能破 10,甚至出现了多个 0 分;在规划类别的最高难度 Level 3 下,OpenAI o1 的领先优势亦是如此。

图片

图|14 个模型在 LogicGame 中文版本上的 AP-Acc% 指标性能。

图片

图|14 个模型在 LogicGame 英文版本上的 AP-Acc% 指标性能。

在执行类别中,随着 shot 数目的增加,模型的准确性有了显著提高。具体来说,更强大的模型(如 GPT-4o)在从 0-shot 转换到 1-shot 和 2-shot 时,AP-Acc 分数会有更大的提升,表明它们能够更好地利用额外的上下文信息来提高执行精度。

图片

图|LogicGame 中文版本在执行和规划类别上的少样本差异。

我们还观察到,在执行任务中,添加示例通常会提高模型在执行任务中的表现,尤其是在简单任务(Level 0)中。

图片

图|LogicGame 中文版本在不同难度级别上的 shot 差异设置与上图类似。

然而,1-shot 和 2-shot 设置对模型在不同难度级别上的影响有所不同。模型在 Level 0 中从示例中受益最大,但随着难度级别的提高,示例的影响会逐渐减弱。

在规划任务中,添加示例对模型在规划任务中的表现影响更为复杂。一些模型在从 0-shot 转换到 1-shot 或 2-shot 设置时,表现会下降,这表明额外的上下文信息可能会引入噪声,干扰模型对关键信息的理解。总体而言,1-shot 对模型的影响最明显,但随着难度级别的增加,其影响会逐渐减弱,而 2-shot 则更加不稳定,没有明显的规律。

在一项案例研究中,LLM 在黑白棋(Reversi)游戏中的表现几乎“惨不忍睹”,除了 OpenAI o1,其他模型的得分几乎为(接近于)0,这同样表明 LLM 在处理复杂规则和进行多步推理方面依然困难。

图片

图|表现最差的五个类别的 AP-Acc% 平均得分。热图中显示了每个类别的 AP-ACC% 平均得分,模型在执行和规划场景中的表现都很差,特别是在“Reversi”中,许多模型的得分接近零。

图片

图|一个带有模型输出的 Reversi 游戏示例,包括答案和步骤。

研究团队对这一失败表现进行了分析,认为有以下三点原因:

细节处理不足:例如,Claud 3.5 Sonnet 模型无法正确处理细节(如放置部分棋子或翻转部分棋子),这表明它们对规则的理解不够深入。

执行/规划规则理解不足:模型无法正确执行或规划游戏中的操作,这表明它们对游戏机制(如翻转机制)的理解存在缺陷。

过度更改:llama-3-8b-chat 模型对棋盘状态进行了过度更改,这表明它们对游戏规则的理解存在明显的偏差。

LLM 的推理能力仍有待提高

在这篇论文中,研究团队为评估 LLM 基于规则的推理能力,提出了一种新颖的基准 LogicGame,这一基准包含多个难度级别,重点评估模型对规则的理解、基于这些规则的执行以及规划能力。

同时,他们还开发了评估结果和推理过程的方法,确保模型忠实地遵循给定的规则,而不仅仅是猜测答案。

广泛的实验表明,目前的大模型在基于规则的推理任务中仍然表现出明显的不足。

对此,研究团队认为,LLM 的推理能力仍有待提高,尤其是在理解复杂规则、进行多步推理以及学习和应用新规则方面。

为使 LLM 能够更好地理解和执行规则,它们的推理能力还需要进一步改进,比如通过更有效的训练方法或引入新的推理机制。

此外,为了更全面地评估 LLM 的推理能力,需要开发更有效的评估方法。例如,通过引入更复杂的规则和更困难的推理任务。

一起来 battle!

想要证明你的大模型逻辑推理能力有多强?不妨参与 LogicGame 评测,与国内外众多大模型一起来 battle。

研究团队在 GitHub 上维护了一个 Leaderboard,分别展示模型在 LogicGame 中英文版和中文版的表现,其按照 AP-Acc% 进行排名,主要评估指标包括:

AP-Acc%(答案和步骤正确率)

A-Acc%(答案正确率)

P-Acc%(步骤正确率)

IFError%(指令遵循错误率)

JSError%(Json格式输出错误率)

图片

图|14 个大模型在中文版 LogicGame 上的表现

图片

图|14 个大模型在英文版 LogicGame 上的表现

那么,如何获取你的模型在 LogicGame 中英文版和中文版的表现呢?

研究团队在 GitHub 上存放了用于展示的 dev 数据,并提供了 Codabench(一个专门用于模型评测的平台,能够提供高效、公正且统一的评估环境)提交时所需的输入数据。你可以下载 zh_all 和 en_all 文件(分别代表中文版和英文版的数据全集),将其输入你的模型以获取模型回复,并将此回复作为 Codabench 提交时的输入数据,即可获得评测结果反馈。

图片

访问以下链接了解详情:

Leaderboard 链接:

https://github.com/Hypatiaalegra/LogicGame-Data

Codabench 提交链接:

https://www.codabench.org/competitions/4140/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/881854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

居民小区的有序充电策略及解决方案

0引言 全球经济增长导致化石能源过度消耗,加剧环境污染。电动汽车因其环保优势迅速崛起,预计到2030年中国电动汽车保有量将达到6000万辆。这有助于减少化石能源依赖,推广绿色出行,但也对电网稳定性构成挑战。因此,研究…

2.1 HTML5 - Canvas标签

文章目录 引言Canvas标签概述定义实例:创建画布 理解Canvas坐标系概述实例:获取Canvas坐标 获取Canvas环境上下文概述实例:获取Canvas上下文设置渐变色效果 结语 引言 大家好,今天我们要一起探索HTML5中一个非常有趣且强大的特性…

001 Hadoop安装、Spring整合测试

Hadoop安装、整合测试 文章目录 Hadoop安装、整合测试1.简介1.优点2.组成 2.安装1.安装jdk(如已安装可跳过)2.安装hadoop1.安装2. 修改配置文件core-site.xml3. 修改配置文件hdfs-site.xml4.启动hadoop5.启动yarn6.执行jps查看7.相关端口及配置位置8.访问…

Python数学难题:科拉兹猜想(又称为 3x+1 猜想、角谷猜想、哈塞猜想、冰雹猜想、乌拉姆猜想或叙拉古猜想)

Python数学难题:科拉兹猜想(又称为 3x1 猜想、角谷猜想、哈塞猜想、冰雹猜想、乌拉姆猜想或叙拉古猜想) 科拉兹猜想,又称为 3x1 猜想、角谷猜想、哈塞猜想、冰雹猜想、乌拉姆猜想或叙拉古猜想,是一个与自然数相关的猜…

查找占用特定端口程序,并杀死

windows 在 Windows 上查找和结束占用特定端口(如 9003)的程序,你可以使用以下步骤: 步骤 1:找到占用端口的进程 ID (PID) 打开命令提示符(按 Win R,输入 cmd,然后按回车&#x…

技术框架官方写法

知识背景: 在做汇报工作或者撰写简历的时候需要用到,希望对大家有帮助 总体介绍: Java: 始终保持 "Java" 的"J"大写,因为这是Oracle Corporation注册的商标。Spring Framework: 通常称其为 "Spring&q…

【React】事件绑定的方式

1. 内联函数绑定 这是最简单直接的方式&#xff0c;即在 JSX 语法中直接传递一个内联函数。这种方式每次渲染时都会创建新的函数实例&#xff0c;可能会导致不必要的性能开销。 class MyComponent extends React.Component {render() {return (<button onClick{() > th…

python中不变的数据类型有哪些

在Python中&#xff0c;不可变&#xff08;immutable&#xff09;数据类型是指一旦创建了这些类型的对象后&#xff0c;就不能改变其值。Python中的不可变数据类型包括以下几种&#xff1a; 数字 (int, float, complex): 这些类型的数值一旦创建就不能更改。例如&#xff0c;如…

速盾:高防服务器防火墙的特性是什么?

高防服务器防火墙是一种专业的网络安全设备&#xff0c;用于保护服务器免受各种网络攻击的侵害。它具有许多特性&#xff0c;以确保服务器的安全性和可靠性。 第一个特性是入侵检测系统&#xff08;IDS&#xff09;。高防服务器防火墙可以监视服务器上的网络流量&#xff0c;并…

使用Python实现深度学习模型:智能产品设计与开发

在智能产品设计与开发领域,深度学习模型的应用越来越广泛。本文将介绍如何使用Python构建一个简单的深度学习模型,并将其应用于智能产品的设计与开发。为了使内容尽可能通俗易懂,我们将以图像分类为例,详细讲解每一步骤。 1. 深度学习基础 深度学习是一种基于人工神经网络…

Spring Boot中使用MyBatis-Plus和MyBatis拦截器来实现对带有特定注解的字段进行AES加密。

1. 添加依赖 首先&#xff0c;在pom.xml文件中添加必要的依赖项&#xff1a; xml 深色版本 <dependencies> <!-- Spring Boot Starter Web --> <dependency> <groupId>org.springframework.boot</groupId> <artifac…

三级等保对postgresql的安全要求配置

密码策略 select * from pg_user select * from pg_settings; show password_encryption; show shared_preload_libraries; alter username postgres valid until 2024-05-11;日志审计 select name,setting from pg_settings where namelogging_collector or namelog_line_pr…

无人机航拍视频帧处理与图像拼接算法

无人机航拍视频帧处理与图像拼接算法 1. 视频帧截取与缩放 在图像预处理阶段,算法首先逐帧地从视频中提取出各个帧。 对于每一帧图像,算法会执行缩放操作,以确保所有帧都具有一致的尺寸,便于后续处理。 2. 图像配准 在图像配准阶段,算法采用SIFT(尺度不变特征变换)算…

Flutter 与 React Native - 详细深入对比分析(2024 年)

超长内容预警&#xff0c;建议收藏后阅。 Flutter 和 React Native 是跨平台应用程序开发的两个领先工具。了解它们的差异以及各自的最佳用例。 什么是Flutter&#xff1f; Flutter 是 Google 于 2018 年发布的用户界面 (UI) 软件开发套件。Flutter 可让您为多种平台和操作系统…

基于ffmpeg实现多路rtsp拉流解码为yuv420p

一&#xff1a;前言 FFmpeg 是一个非常强大的多媒体框架&#xff0c;它可以用来处理视频和音频数据。它包括了命令行工具 ffmpeg、ffplay、ffprobe 等&#xff0c;以及一套可以用来开发多媒体应用的库&#xff08;libavcodec、libavformat、libavutil、libswscale 等&#xff0…

在线深度学习:爱奇艺效果广告分钟级模型优化

01# 背景 在效果广告投放场景中&#xff0c;媒体侧需要准确衡量每次请求的价值&#xff0c;模型预估值在广告竞价中扮演着核心角色。模型预估精度的提升&#xff0c;是改善媒体侧变现效率、提升广告收益的核心技术驱动力。 此前&#xff0c;爱奇艺效果广告预估模型为小时级模型…

10.15学习

1.程序开发的步骤 定义程序的目标→设计程序→编写代码&#xff08;需要选择语言&#xff0c;一种语言对应一种编译器&#xff09;→编译→运行程序→测试和调试程序→维护和修改程序 2.ANSI/ISO C标准 1989年ANSI批准通过&#xff0c;1990年ISO批准通过&#xff0c;因此被称…

构建流媒体管道:利用 Docker 部署 Nginx-RTMP 从 FFmpeg RTMP 推流到 HLS 播放的完整流程

最近要实现一个类似导播台的功能&#xff0c;于是我先用 FFmpeg 实现一个参考对照的 Demo&#xff0c;我将其整理为一篇文章&#xff0c;方便后续大家或者和自己参考&#xff01; 1、软件工具介绍 本次部署相关软件 / 工具如下&#xff1a; FFmpeg&#xff1a;全称是 Fast Fo…

软件确认测试内容和方法分享,CMA、CNAS第三方软件检测机构推荐

在现代软件开发中&#xff0c;软件确认测试扮演着至关重要的角色。它不仅帮助开发团队识别系统中的缺陷&#xff0c;还确保软件产品符合用户需求和期望。 软件确认测试旨在验证软件系统的性能和功能是否符合设计规格和用户需求。它通常在软件开发的后期进行&#xff0c;以确保…

火语言RPA流程组件介绍--浏览器上传文件

&#x1f6a9;【组件功能】&#xff1a;在浏览器内自动点击上传功能按钮&#xff0c;选择本地文件完成文件网页上传 配置预览 配置说明 目标元素 支持T或# 通过捕获网页元素或填写css,xpath获取网页元素作为操作目标 上传文件路径 支持T或# 默认FLOW输入项 需要上传的文件…