标题:Table as Thought: Exploring Structured Thoughts in LLM Reasoning
作者:Zhenjie Sun, Naihao Deng, Haofei Yu, Jiaxuan You
单位:University of Illinois Urbana-Champaign, University of Michigan
摘要:
llm的推理能力可以通过某些 组织其思维过程的方法 得到提升。比如cot,这种方法采用顺序结构来一步一步引导推理过程。「Q:什么是cot A:chain of thought链式思维提示,不是让模型直接给答案 而是引导模型一步一步思考」然而,目前方法主要专注于组织思维的顺序,每一步内部的结构还缺乏深入研究。因此我们提出了table as thought,受认知神经科学的启发。该方法将推理过程组织在一个表格结构中,每一行表示一个连续的思考步骤,每一列用于记录关键的限制条件和上下文信息。推理过程会迭代填充表格,直到自我验证机制能保证完整性和正确性。实验表明,tat相比于无结构的思维方式,在规划任务和数学推理方面表现优异。
引言:
近期研究表明,在推理过程中引入结构化设计,可以有效提升llm的推理能力。比如cot用线性链式结构,以逐步的方式组织文本推理过程。在此基础上,后续研究发现,引入更复杂的结构化组织方式可以进一步提升推理表现。但这些方法只是在 不同思维步骤之间的连接层面(即跨思维层 inter-thought level) 做了结构化,每一步内部的内容(即思维内部层thought level)仍然是非结构化的。
这引出了一个关键问题:如果在每一个具体思维步骤的内部引入结构,能否进一步提升llm的推理能力?
为解决这个问题,我们从人类思维的认知神经科学理论中找灵感。神经科学家发现,人类的思维方式是结构化的,大脑的结构有助于人类进行有顺序、以目标为导向的推理。中间讲了一堆神经科学的进展,然后说,基于这些研究启发,我们提出一个探索方向:是否可以将类似的人类结构化表示方式引入llm中,以增强其推理和规划能力?
在本研究中,我们采用了一种简单但有效的结构化形式——表格结构(tabular schema)来模拟人类思维过程中的结构化特性。在我们的方法中,表格的结构就像防御一个框架,用来组织和导航知识。受到神经科学中 神经元逐步激活特定模式这一过程的启发,我们将这一过程建模为按顺序填写表格的每一行,并根据预定义的结构跨列移动「原文是we model these processes as the sequential population of rows in a table, moving across columns according to a predefined schema.其中的population是填充的意思」一张表可以封装一个或多个结构化的思维过程,为组织和连接思维步骤及其相关信息提供一个连贯的容器。表格不仅可以表示为 达成特定目标的逐步过程,也可以作为planning tasks的robust框架。此外,使用表格作为结构化表示还能使我们设计出确保组织性和数据完整性的schema,从而更高效地验证与分析推理过程。
本论文的贡献如下:
1. 提出table as thought,首个尝试将结构化表示直接整合到llm推理过程的研究和实践。
2. 我们在需要规划和数学推理的任务中,验证了table as thought的优势,突出它在需要顺序性和目标导向思维的任务中 提升表现的潜力。
3.对tat进行了详细全面的分析,阐述了其功能和优势,并对结构化和非结构化思维的表述的效果进行了比较分析。
相关工作:
llm推理中的structures:cot、tot(tree of thoughts)、自一致性方法(self-consistency通过采样多条思维路径并选择最一致的一条来增强推理的可靠性)
表格在llm推理中的表示方式:tables在llm中历来在处理结构化数据的任务中很重要。比如知识检索(knowledge retrieval)、基于结构化数据的问答(question answering over structured data)、表格推理任务(tabular reasoning)。在这些任务中,表格只作为理解和操作的输入。cot不仅把表格作为输入,还把表格作为推理过程的中间表达形式,在这个框架中,模型每一步推理都更新一次表格,就像在表格中思考,形成了动态的推理链条。本文将表格作为一种通用的结构化思维框架,用于组织模型内部的思维过程,哪怕任务一开始根本没有任何表格数据。
table as thought:
我们在此提出了tat的框架设计,该框架通过使用表格作为结构化的思维表示,为llm引入了一种全新的推理方式。在tat中,表格被作为一个容器,用来表示一个或多个结构化的思维过程,这些表格被称为reasoning tables,它们封装了思维内容,整个推理过程是透明的。一个reasoning table T是通过一个original table schema S定义的,而这个S是由llm根据某个查询Q定义的,「这句话在说,“我们要先告诉模型:表格怎么组织”;Schema(结构)S 指的是表的列,比如:
| Step | Goal | Context | Action | Justification |
而这个 schema 是模型根据当前问题 Q 自己定义的。也就是说,模型自己决定“我这道题要用哪几列来推理”。」接下来模型会基于结构S生成结构化思维Structured thoughts Θ ,其中每一个思维步骤对应表格中的一行。随后模型根据这些结构化思维 Θ 来逐步填充和更新推理表格 T。
Schema development module(结构设计模块):结构设计模块能够动态调整表格结构,以适应不同任务中的各种查询。对于约束规划类任务,我们会在设计表格结构之前,先引导llm明确列出任务中的约束条件。这样可以确保在推理过程中,无论是显示约束还是隐含约束,都能被充分考虑。对于数学推理任务,我们会定制表格结构,以反应推理步骤中的逻辑发展过程,从而能够系统地组织关键信息。 表格中的表头(列名)被设计为表示该任务中关键的推理步骤与重要信息项。这些表头像锚点一页,用于组织和验证推理过程中的中间结果与输出。
例如,考虑一个旅行计划类的查询“我打算独自旅行,预算大约是1100美元”在这种情况下,关键约束是总花费不超过1400美元。为解决这个约束,schema中必须包含一个列名为cost的列,类型为Number,以确保在推理中捕捉并验证与预算相关的信息。对于数学题,要解题必须跟踪各种变量,那么就需要设计对应的列来记录计算,这样推理过程就可以逐步展开并便于校验。
reasoning verification module(推理验证模块):之所以引入这个模块,是因为实验发现,当前的llm有时无法完整地生成结构化的推理过程来解决问题。用一个自动检查器来看有没有遗漏信息(完整性)、推理逻辑是否合理(正确性)。对于约束类推理任务,这个模块会确保推理过程中已经包含并满足schema中定义的所有必要约束条件。一般来说约束检查是由llm自己通过 反思性推理 对生成的表格进行的,且约束条件是显示列出以便于验证。由于tat的思维是结构化的,因此可以引入一种额外机制:自动检查约束auto-check。这是一种由系统执行的外部验证机制,用于确保满足约束。
table construction module(表格构建模块):根据schema和推理验证模块的反馈,迭代地生成结构化思维内容并构建推理表格。在构建过程中,模块会动态添加新思维步骤,修改已有内容或删除不符合schema或问题要求的条目。迭代终止的两种情况 1. 推理验证模块确认表格已经完整且正确 2. 达到最大迭代次数(我们所有实验中设为10次)
实验:
在所有任务中,我们采用了原始的评估方法,以确保结果具有一致性和可比性。
约束规划任务:这类任务的目标是生成满足显示和隐式约束条件的计划。我们在两个数据集上评估了我们的方法:1. TravelPlanner(高复杂度)(由于该任务需要特别长的上下文,会导致大量token消耗,因此我们仅使用了 GPT-4-o-mini 进行实验。)2. Calendar Scheduling (from NaturalPlan)(低复杂度)
数学推理任务:我们使用 GSM-8K (小学数学)和 MATH500(高级数学) 两个数据集,来评估 LLMs 在结构化数学推理任务中的表现。这些题目对模型构成挑战,因为需要进行符号操作和深入的数学理解
模型选择:tat框架中的schema设计与表格构建模块,要求llm能生成负责的结构化输出,并严格符合指定的schema格式。这种能力可以通过 OpenAI 提供的 Structured Outputs Mode(结构化输出模式) 原生支持,使得生成结果可以精准对齐到预定义的 schema 要求。因此,我们的所有实验都在 OpenAI 的 GPT-4-o-mini 与 GPT-4-o-2024-08-06 两个模型上进行。将该方法推广到具有类似能力的开源模型,是我们未来研究的方向之一。
text thought baselines文本思维类的对比方法:1. direct prompting直接提示,不要求中间的推理步骤 2. cot prompting链式思维提示 3. text as thought文本即思维,与table as thought唯一区别是,它使用的是非结构化的文本表示思维过程。以文本为媒介进行推理,并在此基础上扩展了cot方法,通过反思机制迭代更新推理过程。
variations of table as thought(tat的两种变体)。这两个变体分别是:带自动约束检查的 Table as Thought:通过增加约束自动验证机制,使 schema 设计更加复杂;使用预设 schema 的 Table as Thought:通过提供固定的表格结构,简化了任务难度。
结果:
三个任务:日程安排 旅行规划 数学推理
分析:
Schema Design 对推理路径的影响:探究 不同表格结构(schema)设计 对推理过程粒度和模型性能的影响,特别是在 Calendar Scheduling(日程安排) 任务中。
LLM 在复杂规划任务中的 schema 设计能力有限
结论:
本文提出了一种新型推理框架:Table as Thought(表格即思维);
创新点在于:在 思维粒度层面(thought level) 引入结构化推理,通过表格(schema)来组织每一步思维;模型不仅负责回答问题,还要:设计表格结构(Schema);根据结构填充结构化的推理内容(Structured Thoughts)。