GPT-4并非世界模型,LeCun双手赞同!ACL力证LLM无法模拟真实世界



一直以来,支持LLM的观点之一是模型可以集成海量事实知识,作为通往「世界模拟器」的基础。虽然也有不少反对意见,但缺乏实证依据。

那么,LLM能否作为世界模拟器?

最近,亚利桑那大学、微软、霍普金斯大学等机构联合发布了一篇论文,从实证角度否定了这一观点。


最新研究已被ACL 2024顶会接收。

论文地址:https://arxiv.org/pdf/2406.06485

GitHub地址:https://github.com/cognitiveailab/GPT-simulator

研究发现,GPT-4在模拟基于常识任务的状态变化时,比如烧开水,准确度仅有60%。



升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

论文认为,尽管GPT-4表现惊艳,但如果没有进一步创新,它不能成为可靠的世界模型。

为了量化LLM的规划能力,作者提出了一个全新的基准测试——bytesized32-state-prediction,并在上面运行了GPT-4模型。

基准测试的代码和数据已在GitHub上开源,帮助未来研究继续探查LLM的能力优缺点。

一向对自回归语言模型无感的LeCun也转发了这篇论文。


尽管如此,只凭一篇论文难以平息LLM界的重大分歧。

模拟世界对于AI学习和理解世界至关重要。

以往,多数情况下,可用模拟的广度和深度受到现实的限制,因为需要人类专家耗费数周甚至数月的时间做大量工作。

而现在,大模型提供了一种替代方法,通过预训练数据集中大量知识,获得对世界的深刻理解。

但是,它们准备好直接用作模拟器了吗?对此,研究团队在「文本游戏」这一领域检验了这一问题。

一般来说,在世界建模和模拟的背景下,应用LLM有两种方式:一是神经符号化方法,二是直接模拟。

论文中,作者们首次对LLM直接模拟虚拟环境的能力进行了量化分析。

他们利用JSON模式的结构化表示作为脚手架,不仅提高了模拟精度,还可以直接探查LLM在不同领域的能力。

结果发现,GPT-4普遍无法捕捉与智能体行为无直接关联的「状态转移」(state transition)。

01 研究方法

在文本环境中,智能体通过自然语言完成特定目标。研究人员将文本的虚拟环境形式化,建模为一种部分可观测马尔可夫决策过程(POMDP),包含7个元组:S, A, T, O, R, C, D。

  • S表示状态空间
  • A表示行动空间
  • T:S×A→S表示状态转移函数
  • O表示观测函数
  • R:S×A→R表示奖励函数
  • C表示用自然语言描述目标和动作语义的「上下文信息」
  • D:S×A→{0,1}表示二元指示函数,用0或1标记智能体是否完成任务

上下文C为模型提供了除环境外的额外信息,比如行动规则、物体属性、打分规则和状态转换规则等。

研究人员提出了一个预测任务,称为LLM-as-a-Simulator(LLM-Sim),作为定量评估大模型作为可靠模拟器的能力的方法。LLM-Sim任务定义为实现一个函数,将给定的上下文、状态和动作映射到后续的状态、奖励和任务完成状态。

每个状态转移用如下的九元组表示:

实际上,整个状态转换模拟器F,应该考虑两种类型的状态转移:行为驱动和环境驱动的转移。

例如,行为驱动的状态转移是在执行「打开水槽」动作后,水槽被打开。而环境驱动的转移是,当水槽打开时,水将填满槽中的杯子。

此外,LLM的预测模式也分为两种:预测下一步的完整状态,或者预测两个时刻之间的状态差。

为了更好地理解LLM对于每种状态转移的建模能力,研究人员进一步将模拟器函数F分解为三种类型:

02 评估结果

建模了LLM的决策过程后,作者用文本构建了一个虚拟人物场景。Bytesized32-SP基准测试的数据来源于公开的Bytesized32语料库,其中有32个人类编写的文字游戏。留出一个游戏作为gold label后,测试集总共涉及31个游戏场景,7.6万多个状态转换。

LLM根据上下文和前一个状态进行单步预测,给出下一步时的物体属性、任务进展等信息。规则方面,研究人员提出了三种设定:由游戏作者撰写、由LLM自动生成,或者根本不提供规则。设定好虚拟环境和任务规则后,作者运行GPT-4进行预测,得到了如下结果。

为了严谨起见,作者根据状态转移前后预测结果是否变化,分成static和dynamic两类分开统计。如果前后两个状态中,结果并没有发生变化,LLM也会更容易预测。不出意料,static一栏的准确率基本都高于dynamic。

对于「静态」转移,模型在预测状态差时表现更好。「动态转移」则相反,在完整状态预测中得分更高。作者猜测,这可能是由于预测状态差时需要减少潜在的格式错误,这会为任务输出带来额外的复杂性。

还可以看到,预测动作驱动的状态转移的准确率往往高于环境驱动类。在dynamic栏,前者预测最高分有77.1,而后者最高只有49.7。

此外,游戏规则的制定会很大程度上影响LLM的表现。如果不提供游戏规则,LLM预测的性能会显著下降,但规则由人类制定或LLM自动生成并不会显著影响准确率。相比之下,规则制定对游戏进度预测的影响更加明显。相比人类规则,LLM生成规则时,GPT-4的预测有超过10个百分点的提升。

对于规划任务中的单步预测模型,每一步的模拟误差都会累积并向后传播,单步的低性能会很大程度上影响全局表现。因此,LLM较低的准确率说明了它并不能成为可靠的「文本世界模拟器」。

此外,人类准确率的波动幅度基本不大,说明任务设定比较简单、直接,适合人类的思维模式。GPT-4这种较差的性能表现给我们提供了一个宝贵的机会,可以更具体地剖析LLM究竟在哪方面出现了能力缺陷。

论文作者将LLM的预测结果拆开仔细分析,发现在二元布尔值属性上(is开头的属性),模型通常可以做得很好。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:


更强大Mamba-2正式发布啦!!!



黎曼猜想取得重大进展!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/28389.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

飞腾银河麒麟V10安装Todesk

下载安装包 下载地址 https://www.todesk.com/linux.html 安装 yum makecache yum install libappindicator-gtk3-devel.aarch64 rpm -ivh 下载的安装包文件后台启动 service todeskd start修改配置 编辑 /opt/todesk/config/config.ini 移除自动更新临时密码 passupda…

代码随想录算法训练营第七天| 454.四数相加II |383. 赎金信 |15. 三数之和 |18. 四数之和

454.四数相加II 文档讲解:代码随想录 视频讲解:学透哈希表,map使用有技巧!LeetCode:454.四数相加II_哔哩哔哩_bilibili 1. 暴力算法。 2. 先两个循环将和放到map中,再两个循环求和查询map,计算…

英伟达发布Nemotron-4 340B通用模型:专为生成合成数据设计的突破性AI

引言 2023年6月14日,英伟达发布了Nemotron-4 340B通用模型,专为生成训练大语言模型的合成数据而设计。这一模型可能彻底改变训练大模型时合成数据的生成方式,标志着AI行业的一个重要里程碑。本文将详细介绍Nemotron-4 340B的各个方面&#x…

java enum 详解

前言 提示:使用enum 作为常量引发的一些思考和总结: 提示:以下是本篇文章正文内容,下面案例可供参考 一、enum (枚举)是什么? enum 的本质其实也是class,和普通的类一样,它继承自java.lang抽象类Enum,而抽…

Vue43-单文件组件

一、脚手架的作用 单文件组件:xxx.vue,浏览器不能直接运行!!! 脚手架去调用webpack等第三方工具。 二、vue文件的命名规则 建议用下面的两种方式。(首字母大写!!!&#x…

CDN简介

CDN 的基本概念 CDN(Content Delivery Network),即内容分发网络。 CDN是一种分布式网络架构:它由分布在不同地理位置的服务器组成网络,这些服务器协同工作以提供内容服务。 内容分发的核心目标 确保用户能够快速、可…

?和??的用法 ---Javascript

当你在JavaScript中看到问号(?)和双问号(??)时,它们通常是用于条件处理和空值合并的操作符。 问号 ?: 在JavaScript中,问号? 可以用于条件运算符(ternary operator&#xff0…

鸿蒙解决JSON字段名和对象属性名之间的对应关系

HarmonyOS 中使用三方包 class-transformer 来进行解决。 class-transformer 是一个在 JavaScript 和 TypeScript 中用于对象和类之间进行转换的库。它特别有用在处理从 API 返回的 JSON 数据和将其转换为类的实例时,或者在序列化类的实例为 JSON 字符串时。 clas…

Window上ubuntu子系统编译Android

Window上ubuntu子系统编译Android 1、编译环境2、WSL2编译报错2.1 You are building on a machine with 11.6GB of RAM2.2 Case-insensitive filesystems not supported3. android模拟器调试 1、编译环境 AOSP : Android源码下载安装java:sudo apt-get install ope…

Spring @AliasFor用法

同注解内属性互为alias AliasFor的两端必须对称使用,如下name和value互为alias且两端的类型、默认值必须相同,在实际使用时仅赋值一个属性即可,若同时设置多个属性则要求值必须都相同通过Spring AnnotationUtils工具解析注解支持AliasFor,直…

黄仁勋勉励Caltech毕业生:勇于开拓“零十亿”潜力市场,孕育未来科技领袖

Nvidia的创始人兼首席执行官黄仁勋在加州理工学院(Caltech)2024届毕业生的毕业典礼上发表主题演讲时,鼓励毕业生们勇于探索“零十亿市场”——即目前价值不大,但未来潜力巨大的新兴市场。他分享了Nvidia早期如何在遭遇市场挫折后&…

Matlab自学笔记三十一:结构数组的创建、索引和预分配内存

1.概念 结构(structure array)是一种具有容器特性的数据类型,它使用称为字段的数据容器对相关数据进行分组,每个字段可以包含任何类型或大小的数据,所有元素都具有相同数量的字段和相同的字段名称。(与元胞…

Java锁之舞:性能分析与优化之路

目录 一、同步锁性能分析 (一)性能验证说明 1. 使用同步锁的代码示例 2. 不使用同步锁的代码示例 3. 结果与讨论 (二)案例初步优化分析说明 1. 使用AtomicInteger原子类尝试优化分析 2. 对AtomicInteger原子类进一步优化 …

机器学习面试-常见题目

文章目录 一、框架问题1. 监督学习和无监督学习有什么不同?2. 什么是深度学习,它与机器学习算法之间有什么联系?3. 如何评估机器学习模型的有效性?4. 如何确保模型没有过拟合?5. 什么是核技巧,有什么用处&a…

事件传播机制 与 责任链模式

1、基本概念 责任链模式(Chain of Responsibility Pattern)是一种行为型设计模式,将请求沿着处理链传递,直到有一个对象能够处理为止。 2、实现的模块有: Handler(处理者):定义一个…

码蹄集部分题目(2024OJ赛19期;贪心集训)

1🐋🐋水温调节(黄金;贪心) 时间限制:1秒 占用内存:128M 🐟题目思路 贪心思路:先将两只水龙头的流速开到最大,温度高了,就把热水的流速降低一个…

Java:缓存行和伪共享

在Java中,缓存行(Cache Line)和伪共享(False Sharing)是与多线程访问共享数据相关的两个重要概念。以下是关于这两个概念的详细解释: 缓存行(Cache Line) 定义:缓存行是…

3.2. 马氏链-马氏链的构造及马氏性(1)

马氏链的构造及马氏性 1. 马氏链的构造本节首先构造马氏链, 即构造活动概率空间: 在序列空间中构造 P x , P μ P_x,P_\mu Px

新人学习笔记之(注释和关键字)

一、注释 1.什么是注释 (1)注释是在程序指定位置添加的说明性信息 (2)简单理解,就是对代码的一种解释 2.注释的分类 (1)单行注释 格式:// 注释信息 (2)多行注释 格式:/*注释信息*/ 3.注释的使用 (1)主要作用:增加代码的阅读性 4.注…

4_机械臂坐标系简介

一、坐标系的标准命名 为了规范起见,有必要给机器人和工作空间专门命名和确定专门的“标准”坐标系。 图3-27为一种典型的工况,机器人抓持某种工具,并把工具末端移动到操作者指定的位置。图3-27所示的5个坐标系就是需要命名的坐标系。这五个坐…