24年1月论文“A Survey of Reasoning with Foundation Models”,来自香港中文大学、华为、香港大学、上海AI实验室、香港科技大学、大连理工、北京大学、清华大学、合肥工大、中国人民大学、复旦大学和香港科技大学广州分校。
推理是解决复杂问题的关键能力,在谈判、医疗诊断和刑事调查等各种现实环境中发挥着关键作用。它是通用人工智能(AGI)领域的基本方法论。随着大语言模型(LLM)等基础模型的不断发展,人们越来越有兴趣探索它们在推理任务中的能力。本文介绍了提出的或适用于推理的开创性基础模型,重点介绍各种推理任务、方法和基准的最新进展。然后,深入研究基础模型中推理能力涌现背后潜在的未来方向。还讨论推理背景下多模态学习、自主智体和超对齐的相关性。
推理是人工智能的一个关键方面,其应用跨多个领域,如问题求解、定理证明、决策和机器人技术。《思考,快与慢》阐明了人类心智的双系统框架,由“系统1”(“System 1)和“系统2”(System 2)思维模式组成。“系统1”进行迅速,依赖直觉、情绪、直觉和无意识。相比之下,“系统2”进行更慢,包括有意识的推敲,如算法推理、逻辑分析和数学能力。推理作为“系统2”的关键功能之一发挥着至关重要的作用。
推理可以大致分为两种:形式语言推理 (formal language reasoning) 和自然语言推理 (natural language reasoning )。如图所示是两种语言推理的类型及其支持任务的例子:一方面,形式语言推理通常应用于软硬件系统的形式验证、定理证明和自动推理等领域 。另一方面,自然语言推理实现更直观的人机交互,支持问题回答、信息检索、文本摘要和情感分析等任务。
自诞生以来,基础模型在各种领域展现出显著的效果,包括自然语言处理、计算机视觉和多模态任务。然而,对通用AI的兴趣,引发了关于基础模型是否能展现人类般的推理能力的争论。因此,对研究基础模型的推理能力的兴趣激增。
如图所示:左边:推理任务概述,即数学、逻辑、因果、视觉、多模态、常识等推理;右边:基础模型的推理技术概述,即预训练、微调、专家混合、对齐训练和上下文学习,以及自主智体。
基础模型通常由数十亿个参数组成,并通过自监督学习在大规模数据集上进行(预)训练。一旦(预)训练完成,基础模型可以做特定任务的微调、线性探讨(linear probing)或提示工程进行调整,解决许多下游任务,展现出显著的泛化能力和出色的准确性。与传统transformer中使用的软注意机制相比,系统2注意(S2A)利用LLM的能力来促进语言推理。这种方法提高了长篇内容生成的事实性和客观性。将逻辑规则和原则整合到学习过程中,这些模型可以执行诸如推理和演绎等复杂任务。这使得它们能够根据明确的知识和逻辑推理进行决策,而不仅仅依赖于统计模式。作为AI领域中的快速发展领域,基础模型推理旨在开发能以更人性化的方式理解和处理复杂信息的模型。基于逻辑推理和知识表示的基础之上,这些模型使抽象概念推理和基于逻辑规则进行决策成为可能。
下表是来自 Social IQA 的常识推理问题的示例(Sap,2019)。其中正确答案以粗体显示。
下表是数学应用问题 (MWP)的例子。
下表是演绎推理、溯因推理和归纳推理的示意图。在这个例子中,黑色文本代表给定的知识,而红色文本代表推断的知识。术语“事实”表示具体信息,而“规则”表示一般原则或指南。
如图所示:基础模型主要可分为语言、视觉和多模态的类别,每一个都是一个积极研究的领域。
如图所示:基础模型推理任务的类别,给出每个类别的代表性例子:常识、数学、逻辑、因果、视觉、语音、多模态和具身推理,还有其他方面的例子。
如图所示是基础模型常识推理研究的三个领域: (a) 通过理解日常知识,基础模型可以从问题中推理出隐性知识并推断出答案。 (b) 基础模型从一般物理知识推断出广泛的物理特性。 © 基础模型对一组目标的空间属性进行推理。
如图所示是增强大语言模型逻辑推理能力的两种主要方法: (a) 上下文学习利用特定提示作为演示来引发逻辑推理。 (b) 微调用额外的训练样本来更新专门的模型参数。
下表是命题逻辑和谓词逻辑在基本要素、复杂性、表达能力和应用方面的比较。
如图所示是反映不同因果推理任务的因果图示例。 (a) 因果发现(Casual discovery)识别给定系统中变量之间的潜在因果关系。 (b) 效果推断(Effect inference)根据已知的因果关系估计系统上特定干预措施的结果(例如权重)。 © 溯源(Atribution)确定特定原因对特定结果负责的程度。 (d) 裁判(Judgement)根据因果关系的感知后果和影响做出决定。
如图是通用视觉系统 G-VUE 的四个功能域(Huang,2023b)即感知、落地、推理和行动,及其相应的视觉任务。
如图是SUPERB(Yang, 2021)的四个评估领域,侧重于基础模型的判别能力和相应的任务。 PR:声音识别,ASR:自动语音识别,KS:关键字识别,QbE-STD:通过口语术语检测例子进行查询,SID:说话人识别,ASV:自动的说话人验证,SD:说话人分类,IC:意图分类,SF:槽填充,ER:情感识别。
如图所示,多模态推理任务可以大致分为图像文本对齐、文本到图像生成、多模态到文本生成和多模态理解。当前的多模态基础模型主要涉及三种处理推理任务的关键技术,包括多模态指令调整、多模态上下文学习和LLM辅助视觉推理。
如图所示是内省推理(introspective reasoning)和外省推理(extrospective reasoning)之间的差异。内省推理不需要与环境交互,而外省推理则利用外部环境的观察和反馈来调整规划。
如图所示是单智体和多智体推理的区别::争论是多智体才有的存在
下表是常识推理基准的统计。 Choices:每个问题的选择数;Questions:问题的数量。
下表是逻辑推理基准 (Luo 2023d)。任务分为三种类型:多项选择题回答(MCQA);自然语言推理(NLI);和事实验证(FV)。
下表是声音推理任务的指标。这里是“cat”表示任务的类别,“discr”和“gen”分别代表鉴别任务和生成任务。
如图所示是用于预训练基础模型的多种数据源和数据集,主要包括文本数据、图像数据和多模态数据。
如图是编码器-解码器框架和只有解码器框架的示意图:
如图是不同参数高效训练方法的插图。 (a)低秩适应(LoRA)保持预训练模型的原始权重不变,同时将基于秩分解的可训练矩阵集成到网络的每一层中以调整参数。 (b) 提示调整在输入层结合了可训练的提示向量,并使用提示增强输入来解决特定的下游问题。 © SSF 只需要缩放和移动由预训练网络提取的深层特征即可进行参数高效的微调。 (d) MMA 训练轻量级适配器来弥合大语言模型和视觉语言任务之间的差距,从而实现视觉和语言模型的联合优化。
如图是LLM对齐训练的开发过程。首先,LLM 通常使用高质量指令数据的监督微调 (SFT) 进行优化。然后,可以通过人类偏好训练进一步调整。相关技术包括需要强化学习的在线人类偏好训练(左)和直接优化策略以最好地满足偏好的离线人类偏好训练(右)。
如图是递归语言模型中的专家混合 (MoE) 层。在这种情况下,稀疏门函数选择一对专家来执行所需的计算。
如图是ICL的常用方法:1)演示例子选择,包括先验知识、检索,2)CoT,包括零样本(零样本CoT和规划-再-求解的提示),少样本(CoT、最少-到-最多、复杂CoT、自动CoT、思维程序、思维树、思维图和思维骨架等),多路聚合(DIVERSE、自洽、自适应一致性、模式选择、自评估指导解码和规划的推理),3)多伦提示,包括学习的细化器(自纠错、LLM-AUGMENTER)、自细化、自调试和渐进线索提示。
如图所示是自主智体的LLM一般流程。LLM智体利用LLM作为其数字大脑,掌握多种能力并拥有高水平的智力。智体可以接收一组不同的编码数据作为输入,并相应地构建或访问知识库和技能库。有了足够的知识和提示,智体就可以半自主地执行一系列任务。
挑战:幻觉、上下文长度、多模态学习、效率和成本、人类喜好和多语言支持。
研究方向:安全和隐私、理解和透明、自动语言智体、科学推理和超对齐。