2024年1月18日Arxiv最热NLP大模型论文:Large Language Models Are Neurosymbolic Reasoners

大语言模型化身符号逻辑大师,AAAI 2024见证文本游戏新纪元

引言:文本游戏中的符号推理挑战

在人工智能的众多应用场景中,符号推理能力的重要性不言而喻。符号推理涉及对符号和逻辑规则的理解与应用,这对于处理现实世界中的符号性质问题至关重要。本文探讨了大型语言模型(LLMs)在符号推理中的潜在应用,特别是在文本游戏这一具有挑战性的领域。文本游戏是测试自然语言能力的重要基准,尤其是在数学、地图阅读、排序以及应用常识等符号任务中。我们提出了一种设计用于应对符号挑战并实现游戏目标的LLM代理。通过初始化LLM代理并告知其角色,代理接收来自文本游戏的观察结果和一组有效动作,以及特定的符号模块。有了这些输入,LLM代理选择一个动作并与游戏环境互动。我们的实验结果表明,我们的方法显著提高了LLM作为自动化符号推理代理的能力,在涉及符号任务的文本游戏中,我们的LLM代理的平均表现达到了88%。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

论文标题、机构、论文链接

论文标题:

Large Language Models Are Neurosymbolic Reasoners

机构:

University of Liverpool, United Kingdom; Eindhoven University of Technology, Netherlands; University of Technology Sydney, Australia; University College London, United Kingdom

论文链接:
https://arxiv.org/pdf/2401.09334.pdf

大语言模型(LLMs)作为符号推理器的潜力探索

1. 文本游戏作为自然语言能力的重要基准

文本游戏已成为评估自然语言处理能力的重要基准,尤其是在需要数学、地图阅读、排序和应用常识等符号任务的文本世界中。这些游戏要求代理(agent)使用语言来解释各种情境并做出决策。文本游戏的复杂性源于对语言理解、常识、管理具有组合复杂性的动作空间以及长期记忆和规划的重要性。例如,代理可能需要解决数学问题的同时收集特定数量的水果,所需数量即为数学问题的答案。

2. 符号模块在文本游戏中的关键作用

在复杂的文本游戏中,使用符号模块或外部工具进行算术、导航、排序和知识库查找对于语言代理尤为关键。这些符号模块在游戏中的作用不可或缺,例如,当代理面对数学问题时,可以利用计算器这样的外部工具来解决问题。符号模块在其功能上非常熟练,使用这些工具本身就被视为一个动作。

LLM智能体的设计与初始化

1. 角色初始化与任务描述

我们提出了一个LLM代理,它被设计为在零样本(zero-shot)方式下,通过外部符号模块来执行文本游戏中的符号任务。在游戏开始时,我们通过初始化提示来告知LLM代理其角色,并提供任务描述和一系列有效动作。这些动作对于与文本游戏环境互动或调用符号模块是必要的。代理被指示从有效动作集中选择动作,例如阅读地图、获取特定位置的路径和回忆任务。此外,代理被建议利用外部符号模块,并在任务执行过程中避免不必要的动作。

2. 有效动作集的构建与提示机制

在每个时间步骤,我们通过当前观察、库存状态、有效动作集和问题提示LLM代理。库存状态描述了代理在环境中获得的物品,例如在数学任务中可能包括一个数学问题,在MapReader任务中可能包括一张地图。LLM代理的任务是从有效动作集中选择一个动作以继续任务。值得注意的是,LLM代理不允许拒绝或提供任何超出规定响应的文本。我们还限制了符号模块提供的有效动作数量。

此外,开发适当的提示以根据表3中提供的信息有效限制代理的动作至关重要。代理无法仅通过与环境的互动来获取知识并推断出规则。在所有任务中,通常有一个特定的事件顺序,即首先获取对象,然后将其放置在指定位置。这种策略是为了防止在获取对象之前就将其放置的情况发生,这在给定的上下文中将被视为不可接受。

符号模块的应用与作用

1. 计算模块、排序模块、知识库模块和导航模块

在文本游戏中,符号模块是提升大型语言模型(LLMs)推理能力的关键工具。这些模块包括计算模块、排序模块、知识库模块和导航模块,它们各自针对特定的符号任务而设计。例如,计算模块能够执行基本的数学运算,排序模块能够根据数量对物品进行排序,知识库模块能够查询与常识相关的信息,而导航模块则能够提供地理位置信息和路径规划。

在一个具体的游戏场景中,LLM智能体可能需要解决一个数学问题,并根据答案收集特定数量的水果。在这种情况下,智能体可以利用计算模块来解决数学问题,并据此决定接下来的动作。这些符号模块不仅提供了游戏状态的当前观察结果,还允许智能体通过选择适当的动作与游戏环境或符号模块进行交互。

2. 符号模块与LLM智能体的交互流程

LLM智能体与符号模块的交互流程涉及多个阶段。首先,智能体通过角色初始化提示得知其角色和任务描述,并了解可采取的动作及其限制。在接收到来自文本游戏环境的观察结果后,智能体需要利用其符号推理能力从有效动作列表中选择一个动作。如果所选动作涉及符号模块,则该模块将提供下一个观察结果;否则,文本游戏环境将提供后续的观察结果。

智能体在每个时间步骤都会收到当前的游戏状态信息,包括玩家的观察结果、库存状态、有效动作集合以及奖励。智能体必须从有效动作集合中选择一个动作来继续任务,并且不允许拒绝或提供超出预定响应的文本。此外,通过限制智能体的动作,可以有效地引导其根据提供的信息进行合理的动作选择。

实验设置与评估框架

1. 文本游戏环境与任务描述

实验中使用的文本游戏环境可以被形式化为部分可观察的马尔可夫决策过程(POMDPs)。游戏包括四种不同的符号任务:算术、地图阅读、排序和文本世界常识(TWC)。每个任务都配备了相应的符号模块,以帮助智能体成功完成任务。

2. 使用GPT-3.5-turbo的LLM智能体

在实验中,我们使用了GPT-3.5-turbo作为LLM智能体,它可以与游戏环境和符号模块进行交互。智能体的任务描述和符号模块的调用示例在文中提供。评估包括四种涉及符号任务的文本游戏,每个任务都分为“训练”、“开发”和“测试”集合。所有评估都在“测试”集上进行。

评估指标基于两个因素:游戏结束时获得的平均分数,以及单个游戏中所采取的平均步骤数。实验结果表明,LLM智能体在执行符号推理任务方面表现出色,平均性能达到88%。此外,与其他基线模型相比,LLM智能体在使用符号模块时表现出更好的平均准确率。

实验结果与分析

1. LLM智能体与基线模型的性能比较

在我们的实验中,LLM智能体与两个基线模型——深度强化相关网络(DRRN)和基于T5的行为克隆变换器(Behavior Cloned Transformer)进行了比较。DRRN模型基于Q学习的概念,选择预期Q值最高的候选动作作为下一步动作,而行为克隆变换器采用模仿学习方法,将强化学习视为序列到序列的问题,预测基于一系列先前观察到的动作序列的后续动作。

实验结果显示,当LLM智能体结合符号模块使用时,其平均性能优于其他基线方法。尽管与具有符号模块的行为克隆变换器相比,LLM智能体的性能略低,但它在与游戏环境交互方面表现出了相似的能力。此外,与行为克隆变换器模型不同,LLM智能体不需要大量专家数据的广泛训练,因此节省了大量的训练资源。

2. 约束提示对性能的影响

我们进一步探讨了约束提示对LLM智能体性能的影响。通过对比使用和不使用约束提示的模型性能,我们发现当LLM智能体使用表3中概述的约束提示时,其在所有任务中的性能都有所提高。此外,与游戏环境交互所需的平均步数也有所减少。这表明我们的约束提示在这些任务中是有效的。实验结果还显示,使用GPT-4的LLM智能体在“测试”集上的表现也得到了验证。

讨论:LLM智能体的推理能力与外部模块的整合

我们的研究结果表明,通过整合外部符号模块,LLM智能体能够提高平均准确率,并超越其他基线。这种能力是通过利用训练数据中存在的底层模式来实现的。与依赖符号思维或显式规则不同,这种方法通过识别模式和关联来获取知识,这些模式和关联来自于它在训练阶段接触的大量文本语料库,如GPT-3.5和GPT-4所示。尽管LLM智能体能够连接到特定任务的符号模块,但它仍然存在不确定性,并且容易犯错。

我们的研究证明了LLM在复杂的基于文本的游戏中涉及符号任务的有效应用。通过使用提示方法,我们指导LLM智能体在这些游戏中有效地与符号模块交互。我们的方法利用LLM显示出比其他基准更优越的性能,突出了LLM在提高基于文本游戏训练程序方面的潜力。因此,可以认为大型语言模型可以被视为具有执行符号推理的重要潜力的神经符号推理器。

未来的工作需要将模型的应用扩展到更复杂的领域,超越简单的基于文本的游戏。为了应对多样化场景的复杂性,整合更复杂的符号模块将是必要的,从而促进更有效的问题解决方法。

结论与未来展望

1. LLM在文本游戏中的应用与挑战

在本文中,我们探讨了大型语言模型(LLM)在文本游戏中作为符号推理者的潜力。通过实验,我们的LLM代理在执行包含符号任务的文本游戏中表现出色,平均性能达到了88%。这些游戏被形式化定义为部分可观察的马尔可夫决策过程(POMDPs),其中代理必须处理符号模块生成的有效动作集,以及游戏环境本身的动作集。LLM代理通过提示机制,结合外部符号模块,有效地选择并执行动作,展现了其作为神经符号推理者的潜力。

尽管LLM在文本游戏中的应用取得了一定的成功,但仍存在挑战。例如,LLM代理在与符号模块的交互中仍然表现出不确定性,并可能犯错。此外,代理在理解游戏环境的底层规则方面也存在困难,需要通过精心设计的提示来引导其行动。这些挑战表明,尽管LLM在符号推理任务中具有潜力,但要实现更高的准确性和可靠性,仍需进一步的研究和开发。

2. 提高LLM智能体性能的可能途径

为了提高LLM智能体在文本游戏中的性能,我们可以探索以下几个可能的途径:

  • 增强提示策略:通过进一步优化提示策略,可以更有效地引导LLM代理进行符号推理。例如,在排序任务中,提前提供关键信息可以帮助代理更准确地执行任务。
  • 改进符号模块:集成更复杂的符号模块可以帮助LLM代理处理更多样化的场景,从而提高其解决问题的能力。
  • 扩展应用领域:将LLM代理的应用扩展到更复杂的领域,如超越简单的文本游戏,可以推动模型在更广泛的任务中的应用。
  • 自我反馈与迭代改进:允许LLM代理通过自我反馈和迭代改进来细化其生成的文本,可能会提高其决策质量。
  • 利用更先进的LLM版本:随着LLM技术的不断进步,使用更新版本的LLM(如GPT-4)可能会带来性能上的提升。

未来的研究应当考虑这些途径,以克服当前的限制,并进一步提高LLM在文本游戏中的性能。通过这些努力,我们可以期待LLM在符号推理任务中发挥更大的作用,为人工智能领域带来更多的可能性。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/631776.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何实现无公网ip远程访问内网本地BUG管理服务【内网穿透】

文章目录 前言1. 本地安装配置BUG管理系统2. 内网穿透2.1 安装cpolar内网穿透2.2 创建隧道映射本地服务3. 测试公网远程访问4. 配置固定二级子域名4.1 保留一个二级子域名5.1 配置二级子域名6. 使用固定二级子域名远程 前言 BUG管理软件,作为软件测试工程师的必备工具之一。在…

精通Discord营销:多账号注册与管理,高效打造矩阵

Discord虽然是一个海外小众平台,但在Z世代群体来说却非常受欢迎。通常在游戏行业、年轻化的电商特定品类、软件等业务中,Discord的社群营销可以起到非常卓越的效果。但是,您必须学会管理不同的帐户,以构成矩阵打造社区&#xff0c…

更适合3D项目的UI、事件交互!纯国产数字孪生引擎持续升级中!!!

UI和事件交互是3D可视化项目中最常见的模块,主要用于信息添加、展示,用来确保按照用户需求呈现内容并完成交互。 平时工作在进行UI和交互设计时,经常出现以下问题:UI过于复杂导致3D项目内交互效率低下,或者是结合3D项目…

简单了解【多智能体强化学习(MARL)】

我们的现实生活中有着许多多智能体共同决策的场景,比如多机械臂协同,多个无人机或多个机器人完成某共同目标。下面介绍单智能体强化学习的进化,多智能体强化学习。 含义 多智能体系统中包含 m 个智能体,智能体共享环境&#xff…

【vsan数据恢复】vsan逻辑架构出现故障的数据恢复案例

VSAN数据恢复环境: 一套有三台服务器节点的VSAN超融合基础架构,每台服务器节点上配置2块SSD硬盘和4块机械硬盘。 每个服务器节点上配置有两个磁盘组,每个磁盘组使用1个SSD硬盘作为缓存盘,2个机械硬盘作为容量盘。三台服务器节点上…

c/c++的指针函数与函数指针

函数 定义: 函数是数学中的一个概念,它是定义在某个数集上的一个特殊的映射关系。函数将输入值(或自变量)映射到输出值(或因变量)。函数的输入和输出可以是任何类型的数据,如数字、字符串、数组…

ArcGIS Pro 如何新建布局

你是否已经习惯了在ArcGIS中数据视图和布局视图之间来回切换,到了ArcGIS Pro中却找不到二者之间切换的按钮,即使新建布局后却发现地图怎么却是一片空白。 这一切的一切都是因为ArcGIS Pro的功能框架完全不同,这里为大家介绍一下在ArcGIS Pro…

java中比好用的工具

分享java中比较好用的工具 Objects工具类1.toString 未完待续 这里介绍的版本主要是jdk8,工作中遇到的比较好用的,在此记录分享。后续会更新 Objects工具类 1.toString 介绍 主要解决一些判断是否null值,来做值的判断区分,比如常…

前端react入门day04-useEffect与Hook函数

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 useEffect 的使用 useEffect 的概念理解 useEffect 依赖项参数说明 useEffect — 清除副作用 自定义Ho…

【Python 千题 —— 基础篇】元组的不可修改性

题目描述 题目描述 元组具有不可修改性。现在有一个元组 (1, 2, 3, 5, 6),请尝试将该元组的第一个元素值修改为 0,然后使用 try-except 代码块执行修改该元组元素值的代码部分,如果产生 TypeError,则输出“The tuple cannot be modified”;否则,则输出修改后的元组。 …

CTF - Web 干货

目录 1、php反序列化之pop链构造 2、常见php伪协议的使用 (1)php://filter (2)php://input 3、文件上传常规操作 (1) 前端绕过 (2) 修改文件类型 (3) 配合.user.ini 或.htaccess解析 (4) 爆破可解析后缀 (5) 针对Windows…

Baichuan2百川模型部署的bug汇总

1.4bit的量化版本最好不要在Windows系统中运行,大概原因报错原因是bitsandbytes不支持window,bitsandbytes-windows目前仅支持8bit量化。 2. 报错原因是机器没有足够的内存和显存,offload_folder设置一个文件夹来保存那些离线加载到硬盘的权…

【DC-DC】APS54085降压恒流 高辉度调光降压恒流芯片

产品描述 APS54085 是一款 PWM 工作模式,高效率、 外围简单、内置功率 MOS 管,适用于 5-100V 输入的高精度降压 LED 恒流驱动芯片。最大电流 2.0A。 APS54085 可实现线性调光和 PWM 调光, 线性调光有效电压范围 0.52-2.55V. PWM 调光频率范围 100…

Git的rebase命令说明

Git的rebase命令是一个非常强大的工具,用于修改提交历史。它的主要目的是将一系列的提交从一个分支转移到另一个分支,通常用于保持一个清洁和线性的提交历史。以下是关于rebase的更详细的解释: 基本概念 变基的目的:rebase的主要…

React Native实现QQ等级皇冠太阳星星的展示-代码示例

代码 function LevelGetImages(level: number) {let res []const marks [{ mod: 20, image: Images.setting.level_king },{ mod: 15, image: Images.setting.level_queen },{ mod: 10, image: Images.setting.level_moon },{ mod: 5, image: Images.setting.level_star },…

C语言整型常量的存储形式是怎样的?

一、问题 整型常量的存储形式是怎样的?-8 在内存中的存储形式是怎样的? 二、解答 1、整型常量在计算机中的存储形式主要取决于其类型和编译器实现。 (1) 整型常量 • 整型常量(如int类型)在计算机内存中…

如何白嫖GPU---kaggle训练自己的模型

首先需要在kaggle用手机号注册,就可以获得每周30小时的免费GPU啦 接下来讲讲,如何将自己本地的文件放入到kaggle上进行训练 在Kaggle项目中创建一个新的Notebook或脚本文件(例如,.ipynb 或 .py),作为你的主…

metinfo_6.0.0 任意文件读取漏洞复现

漏洞点为/include/thumb.php 一测:/include/thumb.php?dir..././http/..././config/config_db.php 二测:/include/thumb.php?dir.....///http/.....///config/config_db.php 三测:/include/thumb.php?dirhttp/.....///.....///config/conf…

面试的那些事儿

先从面试来说 假如你是网申,你的简历必然会经过HR的筛选,一张简历HR可能也就花费10秒钟看一下,然后HR 就会决定你这一关是Fail还是Pass。 假如你是内推,如果你的简历没有什么优势的话,就算是内推你的人再用心&#x…

geopandas 笔记:plot 的scheme

transbigdata 笔记:官方文档案例1(出租车GPS数据处理)-CSDN博客 3.3.1 节的内容的拓展,这里主要是比较各个scheme的效果 主代码为:修改的就是第二行scheme的内容 plt.figure(1,(16, 6), dpi300) schemebox_plot #图…