【CMU博士论文】结构化推理增强大语言模型（Part 0）

问题：语言生成和推理领域的快速发展得益于围绕大型语言模型的用户友好库的普及。这些解决方案通常依赖于Seq2Seq范式，将所有问题视为文本到文本的转换。尽管这种方法方便，但在实际部署中存在局限性：处理复杂问题时的脆弱性、缺乏反馈机制以及内在的黑箱性质阻碍了模型的可解释性。

这表明，传统的文本输入-文本输出解决方案可能无法利用对模型利益相关者显而易见的有益结构属性。在模型开发过程中整合结构需要仔细审视问题设置，但通常相对简单的实现可以带来显著的回报——一点结构就可以产生很大作用。

重点：本文提出了通过在语言模型的设计和操作中整合结构化元素来解决这些局限性的方法。

结构：被定义为数据的系统性、层次性或关系性组织和表示，以及在学习和推理过程中引入结构约束。

在训练阶段，提出了训练图辅助问答模型的技术，并发现有助于有效生成序列集的顺序。
在推理阶段，提出了利用代码作为中间表示来整合结构的技术。
在推理后阶段，我们介绍了整合记忆的方法，使模型能够利用反馈而无需额外训练。

作者提出下一代AI系统将把大型语言模型视为强大的内核，在其上构建灵活的推理程序以增强复杂推理。

随着文本生成和推理的用户友好库的广泛普及，许多任务已成功地在seq2seq框架中实现，这不仅扩展到对话生成和摘要生成等自然适合这些范式的任务，还包括传统上与语言模型不相关的任务，如蛋白质序列预测、图生成、程序合成和结构化常识推理。

尽管通常不建议将任务适配到现有工具 [Paszke et al., 2017, Wolf et al., 2019]，但这些库的易用性和可访问性有时会导致忽视使用这些现成解决方案所带来的固有权衡和局限性。

1.1.1 现有大型语言模型设置的局限性

反馈对于根据用户偏好定制模型输出和改善整体用户体验至关重要。然而，目前的Seq2Seq模型并不是为了接收直接反馈而设计的，这使得用户很难影响或指导模型的输出[Kreutzer等人，2018,Jaques等人，2019]。接下来我们将详细阐述这些挑战。

1 提供反馈的能力
提供反馈的能力将实现更具互动性和用户驱动的结果，从而实现更好的定制和改进的整体性能。例如，在对话系统中，在纽约市寻找意大利餐馆的用户可能希望澄清或更正Seq2Seq模型提供的信息。如果模型给出了一个不正确的位置，用户就很难给出反馈并引导模型找到想要的答案。更糟糕的是，如果没有保留反馈的能力，模型将继续重复同样的错误。

已经提出了几种方法来解决这个问题，例如从人类反馈中强化学习[Kreutzer等人，2018,Jaques等人，2019]，用于序列预测的actor-critic算法[Bahdanau等人，2016]，以及监督学习[Stiennon等人，2020,Ouyang等人，2022b]。然而，这些方法通常需要额外的训练或大量的数据，使得它们不太适合少量的学习或数据可用性有限的场景。尽管取得了这些进展，但在开发实用和有效的Seq2Seq模型在少镜头学习背景下的反馈机制方面仍有很大的研究差距。在本文中，我们的目标是研究这一差距，并探索新的方法，可以在不需要重新训练的情况下有效地纳入用户反馈，从而提高Seq2Seq模型在数据可用性有限的现实应用中的性能和适应性。

2 不匹配表示导致的脆性
Seq2Seq模型面临的一个主要挑战是它们在处理明显偏离文本数据的输入或输出时的脆弱性。当应用于非常规任务或领域时，这种限制可能导致性能不佳，这些任务或领域需要与训练期间遇到的表示不同[Lake等人，2017,Ratner等人，2017]。开发能够处理不同和不匹配表示的模型不仅可以提高它们的泛化能力，还可以扩展它们对更广泛任务的适用性。

例如，在大量英语文本语料库上训练的Seq2Seq模型可能不适合处理特定于领域的语言的输入或输出，例如数学方程或计算机代码。在处理不匹配表示方面解决这一差距对于创建更通用和健壮的Seq2Seq模型至关重要，这些模型可以适应各种现实世界的场景和任务[Graber等人，2018]。

3 未能利用数据中固有的结构
普通Seq2Seq模型的一个重大限制是，它们倾向于将输入和输出数据视为非结构化序列，往往忽略了可以用来增强模型理解和生成能力的任何底层结构或模式[Bastings等人，2017]。将领域特定的知识、结构或约束合并到模型体系结构或训练过程中，将支持更准确、有效和一致的输出生成，从而在专门的任务或领域中获得更好的性能。

类人文本生成和推理的关键能力

支持下一个令牌预测目标简单的一个常见论点是，它与人类处理和生成语言的方式相似[Heilbron et al.， 2022]。然而，人类推理表现出的细微差别是当前模型难以复制的。以下几个例子突出了这些局限性:

生成多个候选项:人类经常创建和评估多个选项，这是标准LLM输出中不固有的过程。
迭代生成: 在像写作这样的任务中，人类参与评审和改进的迭代过程，而不是由法学硕士完成的一次性生成。
语境和世界知识:人类的交流依赖于超越直接文本数据的更广泛的知识和语境信息。
工具使用: 人们使用各种工具来完成任务。最重要的是，人们意识到什么时候需要一个特定的工具。
问题重构:人们经常重新表述问题并重新尝试。
优先处理简单的任务:一个常见的人类解决问题的策略是先处理问题的简单部分。

这些示例有一个共同的主题:需要超越简单的输入/输出关系。法学硕士提供了非凡的能力，但为了解决所有的任务，它们需要用更复杂的推理过程来增强。这种需求反映在少量提示技术的兴起中，其中使用搜索、自我改进和工具使用等策略来增强这些模型。这些技术中的许多都隐含地引入了结构元素，下面将对此进行解释。

1.1.2 注入结构:本文的贡献

某些问题可能提供一种固有的结构，可以用于可解释性或有效性。例如，在解决常识性推理问题时，将结果附加在捕获相关关系和依赖关系的知识图上可能是有用的[Han等人，2020]。解决这一差距并开发将结构信息纳入Seq2Seq模型的方法，有可能显著提高其在广泛领域和任务中的性能和适用性[Zhang等人，2019a,c]。

结构在人工智能领域是一个模棱两可的术语，有多种解释[Newell et al.， 1972, Russell, 2010]。为了本文的目的，我们采用了一个广泛的结构视角，不仅包括其在组织训练数据中的使用[Bengio等人，2013,Schmidhuber, 2015]，还包括其在整个模型开发和部署生命周期中的作用，从增强训练和推理结果[Vaswani等人，2017,Devlin等人，2019,Lake等人，2017]，到提高最终结果有效性的推理后调整[Nye等人，2021b, Dohan等人，2022]。

定义1 (结构)。在结构增强生成与推理的背景下，期限结构是指:
在这里插入图片描述
图1.1:本论文提案概述:本论文的目标是在模型开发和部署管道中集成结构。

a. 以系统、分层或关系的方式组织和表示数据、知识或信息[Pearl等人，2000;Bengio等人，2013;Hovy等人，2013]。这有助于捕捉不同元素之间的潜在关系和依赖关系，使人工智能系统更容易理解、生成和使用自然语言进行推理。例如，组织知识图来表示领域中实体之间的关系。
b. 利用数据或问题域中存在的固有结构来优化结果[Bahdanau等人，2014,Vaswani等人，2017,Battaglia等人，2018]。这包括使用数据或知识的结构属性来改进推理、决策或生成，以及增强人工智能系统的效率、可解释性或可扩展性。例如，使用解析树的结构来指导生成语法正确的句子。

注意，这个定义超越了关注数据排列的传统结构定义，并在定义中包含了过程。因此，我们对结构的定义既包括数据的结构，也包括过程本身。
在这里插入图片描述
图1.2:本文四个部分的示例:(a)在数据中注入结构进行微调，(b)结构增强建模，©在推理过程中利用结构，以及(d) LLM的推理后增强。

1.2 论文概述

本文探讨了结构在当代语言生成和推理模型中的重要意义。全文共分为四个部分:

第一部分:在数据中注入结构用于调优，涵盖三个章节，探索大型语言模型(llm)在各种任务中的高级应用。

第2章研究了使用llm (NAACL 2021)生成文档的事件级时间图。它提出了使用llm自动生成文档事件级时间图的第一个研究，并证明了该方法的有效性。
第3章介绍了SETAUG，一种有效利用序不变性和基数性的条件集生成新算法(EMNLP 2022)。通过在增强数据上训练序列到序列模型，该方法在多个基准数据集上取得了显著的改进。

第二部分:结构辅助建模 深入研究了结构增强的生成和推理。

第5章重点介绍了文本风格迁移(ACL 2020)，并提出了在没有并行数据的情况下有效和可解释的风格迁移技术。两个步骤的过程提高了性能和可解释性。
第6章研究了使用图的结构化情景推理(ACL 2021, EMNLP 2021)。提出了一种分层混合专家模型，该模型可以有效地学习输入噪声图的条件，以提高推理能力。

第4章提出了一种使用llm和程序轨迹数据集(DL4C 2022接受的初步数据集版本)的程序中有针对性的算法优化方法。这项工作正在进行中，旨在改进编程任务的优化过程。

第三部分:在推理过程中利用结构探讨了图生成、结构化常识推理和程序辅助语言模型的方法。

第7章介绍了COCOGEN，这是一种使用大型语言模型进行结构化常识推理的新方法(EMNLP 2022)。它将结构化的常识性推理任务视为代码生成任务，允许预先训练的代码LMs作为结构化的常识性推理器执行得更好。
第8章介绍了程序辅助语言模型(PAL)方法，它利用大型语言模型来理解和分解问题，同时将解决步骤外包给运行时(ICML 2023)。这种方法可以提高算术和符号推理任务的性能。

第四部分:llm的推理后增强 研究了两章，重点是通过用户交互和迭代改进来增强大型语言模型(llm)。第9章介绍了MEMPROMPT，这是一种将GPT-3与用户反馈记忆相结合的方法，可提高跨不同任务的准确性(EMNLP 2022, NAACL 2022)。通过将GPT-3与不断增长的误解记录和用户反馈相结合，系统可以根据过去的用户反馈为新的查询生成增强的提示。MEMPROMPT的一种变体，称为FB-NET，利用对结构化生成的微调模型输出中的fx错误的反馈，并在naacl2022上被接受。

第10章介绍了SELF-REFINE，这是一个通过生成多方面反馈来迭代精炼LLM输出的框架，在各种任务中展示了比直接生成的显著改进。拟议的工作旨在通过整合规划方法来扩展自我完善。

在这里插入图片描述
图1.1 作者的成果