Table as Thought论文精读

标题:Table as Thought: Exploring Structured Thoughts in LLM Reasoning

作者:Zhenjie Sun, Naihao Deng, Haofei Yu, Jiaxuan You

单位:University of Illinois Urbana-Champaign, University of Michigan

摘要:

llm的推理能力可以通过某些 组织其思维过程的方法 得到提升。比如cot,这种方法采用顺序结构来一步一步引导推理过程。「Q:什么是cot A:chain of thought链式思维提示,不是让模型直接给答案 而是引导模型一步一步思考」然而,目前方法主要专注于组织思维的顺序,每一步内部的结构还缺乏深入研究。因此我们提出了table as thought,受认知神经科学的启发。该方法将推理过程组织在一个表格结构中,每一行表示一个连续的思考步骤,每一列用于记录关键的限制条件和上下文信息。推理过程会迭代填充表格,直到自我验证机制能保证完整性和正确性。实验表明,tat相比于无结构的思维方式,在规划任务和数学推理方面表现优异。

引言:

近期研究表明,在推理过程中引入结构化设计,可以有效提升llm的推理能力。比如cot用线性链式结构,以逐步的方式组织文本推理过程。在此基础上,后续研究发现,引入更复杂的结构化组织方式可以进一步提升推理表现。但这些方法只是在 不同思维步骤之间的连接层面(即跨思维层 inter-thought level) 做了结构化,每一步内部的内容(即思维内部层thought level)仍然是非结构化的。

这引出了一个关键问题:如果在每一个具体思维步骤的内部引入结构,能否进一步提升llm的推理能力?

为解决这个问题,我们从人类思维的认知神经科学理论中找灵感。神经科学家发现,人类的思维方式是结构化的,大脑的结构有助于人类进行有顺序、以目标为导向的推理。中间讲了一堆神经科学的进展,然后说,基于这些研究启发,我们提出一个探索方向:是否可以将类似的人类结构化表示方式引入llm中,以增强其推理和规划能力?

在本研究中,我们采用了一种简单但有效的结构化形式——表格结构(tabular schema)来模拟人类思维过程中的结构化特性。在我们的方法中,表格的结构就像防御一个框架,用来组织和导航知识。受到神经科学中 神经元逐步激活特定模式这一过程的启发,我们将这一过程建模为按顺序填写表格的每一行,并根据预定义的结构跨列移动「原文是we model these processes as the sequential population of rows in a table, moving across columns according to a predefined schema.其中的population是填充的意思」一张表可以封装一个或多个结构化的思维过程,为组织和连接思维步骤及其相关信息提供一个连贯的容器。表格不仅可以表示为 达成特定目标的逐步过程,也可以作为planning tasks的robust框架。此外,使用表格作为结构化表示还能使我们设计出确保组织性和数据完整性的schema,从而更高效地验证与分析推理过程。

本论文的贡献如下:

1. 提出table as thought,首个尝试将结构化表示直接整合到llm推理过程的研究和实践。

2. 我们在需要规划和数学推理的任务中,验证了table as thought的优势,突出它在需要顺序性和目标导向思维的任务中 提升表现的潜力。

3.对tat进行了详细全面的分析,阐述了其功能和优势,并对结构化和非结构化思维的表述的效果进行了比较分析。

相关工作:

 llm推理中的structures:cot、tot(tree of thoughts)、自一致性方法(self-consistency通过采样多条思维路径并选择最一致的一条来增强推理的可靠性)

表格在llm推理中的表示方式:tables在llm中历来在处理结构化数据的任务中很重要。比如知识检索(knowledge retrieval)、基于结构化数据的问答(question answering over structured data)、表格推理任务(tabular reasoning)。在这些任务中,表格只作为理解和操作的输入。cot不仅把表格作为输入,还把表格作为推理过程的中间表达形式,在这个框架中,模型每一步推理都更新一次表格,就像在表格中思考,形成了动态的推理链条。本文将表格作为一种通用的结构化思维框架,用于组织模型内部的思维过程,哪怕任务一开始根本没有任何表格数据。

table as thought:

我们在此提出了tat的框架设计,该框架通过使用表格作为结构化的思维表示,为llm引入了一种全新的推理方式。在tat中,表格被作为一个容器,用来表示一个或多个结构化的思维过程,这些表格被称为reasoning tables,它们封装了思维内容,整个推理过程是透明的。一个reasoning table T是通过一个original table schema S定义的,而这个S是由llm根据某个查询Q定义的,「这句话在说,“我们要先告诉模型:表格怎么组织”;Schema(结构)S 指的是表的列,比如:

| Step | Goal | Context | Action | Justification |

而这个 schema 是模型根据当前问题 Q 自己定义的。也就是说,模型自己决定“我这道题要用哪几列来推理”。」接下来模型会基于结构S生成结构化思维Structured thoughts Θ ,其中每一个思维步骤对应表格中的一行。随后模型根据这些结构化思维 Θ 来逐步填充和更新推理表格 T。

Schema development module(结构设计模块):结构设计模块能够动态调整表格结构,以适应不同任务中的各种查询。对于约束规划类任务,我们会在设计表格结构之前,先引导llm明确列出任务中的约束条件。这样可以确保在推理过程中,无论是显示约束还是隐含约束,都能被充分考虑。对于数学推理任务,我们会定制表格结构,以反应推理步骤中的逻辑发展过程,从而能够系统地组织关键信息。 表格中的表头(列名)被设计为表示该任务中关键的推理步骤与重要信息项。这些表头像锚点一页,用于组织和验证推理过程中的中间结果与输出。

例如,考虑一个旅行计划类的查询“我打算独自旅行,预算大约是1100美元”在这种情况下,关键约束是总花费不超过1400美元。为解决这个约束,schema中必须包含一个列名为cost的列,类型为Number,以确保在推理中捕捉并验证与预算相关的信息。对于数学题,要解题必须跟踪各种变量,那么就需要设计对应的列来记录计算,这样推理过程就可以逐步展开并便于校验。

reasoning verification module(推理验证模块):之所以引入这个模块,是因为实验发现,当前的llm有时无法完整地生成结构化的推理过程来解决问题。用一个自动检查器来看有没有遗漏信息(完整性)、推理逻辑是否合理(正确性)。对于约束类推理任务,这个模块会确保推理过程中已经包含并满足schema中定义的所有必要约束条件。一般来说约束检查是由llm自己通过 反思性推理 对生成的表格进行的,且约束条件是显示列出以便于验证。由于tat的思维是结构化的,因此可以引入一种额外机制:自动检查约束auto-check。这是一种由系统执行的外部验证机制,用于确保满足约束。

table construction module(表格构建模块):根据schema和推理验证模块的反馈,迭代地生成结构化思维内容并构建推理表格。在构建过程中,模块会动态添加新思维步骤,修改已有内容或删除不符合schema或问题要求的条目。迭代终止的两种情况 1. 推理验证模块确认表格已经完整且正确 2. 达到最大迭代次数(我们所有实验中设为10次)

实验:

在所有任务中,我们采用了原始的评估方法,以确保结果具有一致性和可比性。

约束规划任务:这类任务的目标是生成满足显示和隐式约束条件的计划。我们在两个数据集上评估了我们的方法:1. TravelPlanner(高复杂度)(由于该任务需要特别长的上下文,会导致大量token消耗,因此我们仅使用了 GPT-4-o-mini 进行实验。)2. Calendar Scheduling (from NaturalPlan)(低复杂度)

数学推理任务:我们使用 GSM-8K (小学数学)和 MATH500(高级数学) 两个数据集,来评估 LLMs 在结构化数学推理任务中的表现。这些题目对模型构成挑战,因为需要进行符号操作和深入的数学理解

模型选择:tat框架中的schema设计与表格构建模块,要求llm能生成负责的结构化输出,并严格符合指定的schema格式。这种能力可以通过 OpenAI 提供的 Structured Outputs Mode(结构化输出模式) 原生支持,使得生成结果可以精准对齐到预定义的 schema 要求。因此,我们的所有实验都在 OpenAI 的 GPT-4-o-mini 与 GPT-4-o-2024-08-06 两个模型上进行。将该方法推广到具有类似能力的开源模型,是我们未来研究的方向之一。

text thought baselines文本思维类的对比方法:1. direct prompting直接提示,不要求中间的推理步骤 2. cot prompting链式思维提示 3. text as thought文本即思维,与table as thought唯一区别是,它使用的是非结构化的文本表示思维过程。以文本为媒介进行推理,并在此基础上扩展了cot方法,通过反思机制迭代更新推理过程。

variations of table as thought(tat的两种变体)。这两个变体分别是:带自动约束检查的 Table as Thought:通过增加约束自动验证机制,使 schema 设计更加复杂;使用预设 schema 的 Table as Thought:通过提供固定的表格结构,简化了任务难度。

 

结果:

三个任务:日程安排 旅行规划 数学推理

 

 

 

分析: 

Schema Design 对推理路径的影响:探究 不同表格结构(schema)设计 对推理过程粒度和模型性能的影响,特别是在 Calendar Scheduling(日程安排) 任务中。

LLM 在复杂规划任务中的 schema 设计能力有限

 

 

 

结论:

本文提出了一种新型推理框架:Table as Thought(表格即思维)

创新点在于:在 思维粒度层面(thought level) 引入结构化推理,通过表格(schema)来组织每一步思维;模型不仅负责回答问题,还要:设计表格结构(Schema);根据结构填充结构化的推理内容(Structured Thoughts)。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/75556.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu18 server版花屏问题

新搞了一台dellT150的塔式服务器,装的ubuntu18 server版。 开机后遇到花屏,或者卡在开机界面的问题,和售后技术沟通这个情况是ubuntu自带的显卡驱动包兼容问题。需要做如下设置: 解决: 1.开机,连续按下e…

【MySQL】理解MySQL的双重缓冲机制:Buffer Pool与Redo Log的协同之道

在数据库系统中,内存与磁盘的读写性能差距始终是需要解决的核心问题。当注意到Redo Log和Buffer Pool都采用"先写内存再刷盘"的设计时,一个自然的问题浮现:既然两者都需要维护内存数据并定期持久化,为何需要双重缓冲机制…

PMP考试改革解读:新题型+5A通关秘籍

2024年,项目管理协会(PMI)对PMP考试进行了重大调整,从考试形式、题型分布到知识领域均进行了优化升级。本文结合PMI官方公告与一线教研经验,深度解析改革要点,并提供针对性通关策略,助你高效冲刺…

【Django】教程-10-ajax请求Demo,结合使用

【Django】教程-1-安装创建项目目录结构介绍 【Django】教程-2-前端-目录结构介绍 【Django】教程-3-数据库相关介绍 【Django】教程-4-一个增删改查的Demo 【Django】教程-5-ModelForm增删改查规则校验【正则钩子函数】 【Django】教程-6-搜索框-条件查询前后端 【Django】教程…

RabbitMQ高级特性1

RabbitMQ高级特性1 一.消息确认1.消息确认机制2.手动确认代码肯定确认否定确认1否定确认2Spring中的代码 二.持久性1.交换机持久化2.队列的持久化3.消息的持久化非持久化代码实现三方面都持久化,数据也会丢失 三.发送方确认1.Confirm确认模式2.return返回模式 四.总…

Java网络编程NIO

一、NIO是什么? NIO可以说是比BIO更强大的IO,可以设置非阻塞模式(通过事件的方式监听数据的到来) BIO是基于socket通信,一个线程对应一个socket连接,读取数据要一直等待 NIO是基于channel通信,一个线程管…

【动态规划】二分优化最长上升子序列

最长上升子序列 II 题解 题目传送门:AcWing 896. 最长上升子序列 II 一、题目描述 给定一个长度为 N 的数列,求数值严格单调递增的子序列的长度最长是多少。 输入格式: 第一行包含整数 N第二行包含 N 个整数,表示完整序列 输…

Dify接口api对接,流式接收流式返回(.net)

试了好多种方法除了Console.WriteLine()能打印出来,试了好些方法都不行,不是报错就是打印只有一行,要么就是接收完才返回...下面代码实现调用api接收流式数据,并进行流式返回给前端: using Furion.HttpRemote; using …

19-元素显示模式及浮动(CSS3)

知识目标 掌握标准文档流的解析规则掌握元素的显示模式掌握元素浮动属性语法与使用掌握浮动塌陷解决方法 1. 标准文档流 2. 元素显示模式 元素显示模式就是元素&#xff08;标签&#xff09;以什么方式进行显示&#xff0c;比如<div>独占一行&#xff0c;一行可以放多…

HTML jQuery 项目 PDF 批注插件库在线版 API 示例教程

本文章介绍 HTML && jQuery Web项目中 PDF 批注插件库 ElasticPDF 在线版 API 示例教程&#xff0c;API 包含 ① 导出批注后PDF数据&#xff1b;② 导出纯批注 json 数据&#xff1b;③ 加载旧批注&#xff1b;④ 切换文档&#xff1b;⑤ 切换用户&#xff1b;⑥ 清空批…

CATIA装配体全自动存储解决方案开发实战——基于递归算法的产品结构树批量处理技术

一、功能定位与技术架构 本工具针对CATIA V5装配体文件管理场景&#xff0c;实现了一套全自动递归存储系统&#xff0c;主要功能包括&#xff1a; ​智能路径选择&#xff1a;通过Tkinter目录对话框实现可视化路径选择​产品结构递归解析&#xff1a;深度优先遍历装配体中的子…

C#:接口(interface)

目录 接口的核心是什么&#xff1f; 1. 什么是接口&#xff08;Interface&#xff09;&#xff0c;为什么要用它&#xff1f; 2. 如何定义和使用接口&#xff1f; 3.什么是引用接口&#xff1f; 如何“引用接口”&#xff1f; “引用接口”的关键点 4. 接口与抽象类的区…

基于卷积神经网络CNN实现电力负荷多变量时序预测(PyTorch版)

前言 系列专栏:【深度学习:算法项目实战】✨︎ 涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域,讨论了各种复杂的深度神经网络思想,如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记…

关于inode,dentry结合软链接及硬链接的实验

一、背景 在之前的博客 缺页异常导致的iowait打印出相关文件的绝对路径-CSDN博客 里 2.2.3 一节里&#xff0c;我们讲到了file&#xff0c;fd&#xff0c;inode&#xff0c;dentry&#xff0c;super_block这几个概念&#xff0c;在这篇博客里&#xff0c;我们针对inode和dentr…

游戏引擎学习第201天

仓库:https://gitee.com/mrxiao_com/2d_game_5 回顾之前的内容&#xff0c;并遇到了一次一阶异常&#xff08;First-Chance Exception&#xff09;。 欢迎来到新一期的开发过程&#xff0c;我们目前正在编写调试接口代码。 当前&#xff0c;我们已经在布局系统上进行了一些工…

计算机视觉算法实战——基于YOLOv8的行人流量统计系统

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​ ​​​​​​​​​ ​​ 引言:智能客流分析的市场需求 在零售、交通、安防等领域,准确的行人流量统计对于商业决策、公共安全管理…

Redis是什么?架构是怎么样的?

目录 前言 一,Redis架构 1.1 本地缓存 1.2 远程缓存 二,强大的Redis优点 2.1 支持多种数据类型 2.2 内存过期策略 2.3 内存淘汰策略 2.4 持久化 三,Redis是什么 前言 我是一个程序员,维护了一个商品服务,它的背后直连Mysql数据库,假设商品服务对外每秒需要提供1万次…

蓝桥杯真题——传送阵

原题连接&#xff1a;蓝桥杯2024年第十五届省赛真题-传送阵 - C语言网 知识点&#xff1a;并查集 题目描述 小蓝在环球旅行时来到了一座古代遗迹&#xff0c;里面并排放置了 n 个传送阵&#xff0c;进入第 i 个传送阵会被传送到第 ai 个传送阵前&#xff0c;并且可以随时选择…

彩虹表攻击

1. 引言 密码安全一直是信息安全领域的重要课题。攻击者可以利用**暴力破解(Brute-Force Attack)和字典攻击(Dictionary Attack)等方式尝试破解密码。然而,计算机性能的提升使得这些方法的效率不断提高,其中彩虹表攻击(Rainbow Table Attack)**是一种极具威胁性的密码…

Vue2 监听器 watcher

文章目录 前言监听器的作用&#xff1a;工作流程&#xff1a;基本用法1. 简单监听2. 对象形式配置 使用场景1. 执行异步操作2. 监听路由变化3. 复杂对象/数组变化 关键配置项与计算属性的区别动态添加监听器注意事项 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&a…