基础模型的推理:综述

24年1月论文“A Survey of Reasoning with Foundation Models”,来自香港中文大学、华为、香港大学、上海AI实验室、香港科技大学、大连理工、北京大学、清华大学、合肥工大、中国人民大学、复旦大学和香港科技大学广州分校。

推理是解决复杂问题的关键能力,在谈判、医疗诊断和刑事调查等各种现实环境中发挥着关键作用。它是通用人工智能(AGI)领域的基本方法论。随着大语言模型(LLM)等基础模型的不断发展,人们越来越有兴趣探索它们在推理任务中的能力。本文介绍了提出的或适用于推理的开创性基础模型,重点介绍各种推理任务、方法和基准的最新进展。然后,深入研究基础模型中推理能力涌现背后潜在的未来方向。还讨论推理背景下多模态学习、自主智体和超对齐的相关性。

推理是人工智能的一个关键方面,其应用跨多个领域,如问题求解、定理证明、决策和机器人技术。《思考,快与慢》阐明了人类心智的双系统框架,由“系统1”(“System 1)和“系统2”(System 2)思维模式组成。“系统1”进行迅速,依赖直觉、情绪、直觉和无意识。相比之下,“系统2”进行更慢,包括有意识的推敲,如算法推理、逻辑分析和数学能力。推理作为“系统2”的关键功能之一发挥着至关重要的作用。

推理可以大致分为两种:形式语言推理 (formal language reasoning) 和自然语言推理 (natural language reasoning )。如图所示是两种语言推理的类型及其支持任务的例子:一方面,形式语言推理通常应用于软硬件系统的形式验证、定理证明和自动推理等领域 。另一方面,自然语言推理实现更直观的人机交互,支持问题回答、信息检索、文本摘要和情感分析等任务。

添加图片注释,不超过 140 字(可选)

自诞生以来,基础模型在各种领域展现出显著的效果,包括自然语言处理、计算机视觉和多模态任务。然而,对通用AI的兴趣,引发了关于基础模型是否能展现人类般的推理能力的争论。因此,对研究基础模型的推理能力的兴趣激增。

如图所示:左边:推理任务概述,即数学、逻辑、因果、视觉、多模态、常识等推理;右边:基础模型的推理技术概述,即预训练、微调、专家混合、对齐训练和上下文学习,以及自主智体。

添加图片注释,不超过 140 字(可选)

基础模型通常由数十亿个参数组成,并通过自监督学习在大规模数据集上进行(预)训练。一旦(预)训练完成,基础模型可以做特定任务的微调、线性探讨(linear probing)或提示工程进行调整,解决许多下游任务,展现出显著的泛化能力和出色的准确性。与传统transformer中使用的软注意机制相比,系统2注意(S2A)利用LLM的能力来促进语言推理。这种方法提高了长篇内容生成的事实性和客观性。将逻辑规则和原则整合到学习过程中,这些模型可以执行诸如推理和演绎等复杂任务。这使得它们能够根据明确的知识和逻辑推理进行决策,而不仅仅依赖于统计模式。作为AI领域中的快速发展领域,基础模型推理旨在开发能以更人性化的方式理解和处理复杂信息的模型。基于逻辑推理和知识表示的基础之上,这些模型使抽象概念推理和基于逻辑规则进行决策成为可能。

下表是来自 Social IQA 的常识推理问题的示例(Sap,2019)。其中正确答案以粗体显示。

添加图片注释,不超过 140 字(可选)

下表是数学应用问题 (MWP)的例子。

添加图片注释,不超过 140 字(可选)

下表是演绎推理、溯因推理和归纳推理的示意图。在这个例子中,黑色文本代表给定的知识,而红色文本代表推断的知识。术语“事实”表示具体信息,而“规则”表示一般原则或指南。

添加图片注释,不超过 140 字(可选)

如图所示:基础模型主要可分为语言、视觉和多模态的类别,每一个都是一个积极研究的领域。

添加图片注释,不超过 140 字(可选)

如图所示:基础模型推理任务的类别,给出每个类别的代表性例子:常识、数学、逻辑、因果、视觉、语音、多模态和具身推理,还有其他方面的例子。

添加图片注释,不超过 140 字(可选)

如图所示是基础模型常识推理研究的三个领域: (a) 通过理解日常知识,基础模型可以从问题中推理出隐性知识并推断出答案。 (b) 基础模型从一般物理知识推断出广泛的物理特性。 © 基础模型对一组目标的空间属性进行推理。

添加图片注释,不超过 140 字(可选)

如图所示是增强大语言模型逻辑推理能力的两种主要方法: (a) 上下文学习利用特定提示作为演示来引发逻辑推理。 (b) 微调用额外的训练样本来更新专门的模型参数。

添加图片注释,不超过 140 字(可选)

下表是命题逻辑和谓词逻辑在基本要素、复杂性、表达能力和应用方面的比较。

添加图片注释,不超过 140 字(可选)

如图所示是反映不同因果推理任务的因果图示例。 (a) 因果发现(Casual discovery)识别给定系统中变量之间的潜在因果关系。 (b) 效果推断(Effect inference)根据已知的因果关系估计系统上特定干预措施的结果(例如权重)。 © 溯源(Atribution)确定特定原因对特定结果负责的程度。 (d) 裁判(Judgement)根据因果关系的感知后果和影响做出决定。

添加图片注释,不超过 140 字(可选)

如图是通用视觉系统 G-VUE 的四个功能域(Huang,2023b)即感知、落地、推理和行动,及其相应的视觉任务。

添加图片注释,不超过 140 字(可选)

如图是SUPERB(Yang, 2021)的四个评估领域,侧重于基础模型的判别能力和相应的任务。 PR:声音识别,ASR:自动语音识别,KS:关键字识别,QbE-STD:通过口语术语检测例子进行查询,SID:说话人识别,ASV:自动的说话人验证,SD:说话人分类,IC:意图分类,SF:槽填充,ER:情感识别。

添加图片注释,不超过 140 字(可选)

如图所示,多模态推理任务可以大致分为图像文本对齐、文本到图像生成、多模态到文本生成和多模态理解。当前的多模态基础模型主要涉及三种处理推理任务的关键技术,包括多模态指令调整、多模态上下文学习和LLM辅助视觉推理。

添加图片注释,不超过 140 字(可选)

如图所示是内省推理(introspective reasoning)和外省推理(extrospective reasoning)之间的差异。内省推理不需要与环境交互,而外省推理则利用外部环境的观察和反馈来调整规划。

添加图片注释,不超过 140 字(可选)

如图所示是单智体和多智体推理的区别::争论是多智体才有的存在

添加图片注释,不超过 140 字(可选)

下表是常识推理基准的统计。 Choices:每个问题的选择数;Questions:问题的数量。

添加图片注释,不超过 140 字(可选)

下表是逻辑推理基准 (Luo 2023d)。任务分为三种类型:多项选择题回答(MCQA);自然语言推理(NLI);和事实验证(FV)。

添加图片注释,不超过 140 字(可选)

下表是声音推理任务的指标。这里是“cat”表示任务的类别,“discr”和“gen”分别代表鉴别任务和生成任务。

添加图片注释,不超过 140 字(可选)

如图所示是用于预训练基础模型的多种数据源和数据集,主要包括文本数据、图像数据和多模态数据。

添加图片注释,不超过 140 字(可选)

如图是编码器-解码器框架和只有解码器框架的示意图:

添加图片注释,不超过 140 字(可选)

如图是不同参数高效训练方法的插图。 (a)低秩适应(LoRA)保持预训练模型的原始权重不变,同时将基于秩分解的可训练矩阵集成到网络的每一层中以调整参数。 (b) 提示调整在输入层结合了可训练的提示向量,并使用提示增强输入来解决特定的下游问题。 © SSF 只需要缩放和移动由预训练网络提取的深层特征即可进行参数高效的微调。 (d) MMA 训练轻量级适配器来弥合大语言模型和视觉语言任务之间的差距,从而实现视觉和语言模型的联合优化。

添加图片注释,不超过 140 字(可选)

如图是LLM对齐训练的开发过程。首先,LLM 通常使用高质量指令数据的监督微调 (SFT) 进行优化。然后,可以通过人类偏好训练进一步调整。相关技术包括需要强化学习的在线人类偏好训练(左)和直接优化策略以最好地满足偏好的离线人类偏好训练(右)。

添加图片注释,不超过 140 字(可选)

如图是递归语言模型中的专家混合 (MoE) 层。在这种情况下,稀疏门函数选择一对专家来执行所需的计算。

添加图片注释,不超过 140 字(可选)

如图是ICL的常用方法:1)演示例子选择,包括先验知识、检索,2)CoT,包括零样本(零样本CoT和规划-再-求解的提示),少样本(CoT、最少-到-最多、复杂CoT、自动CoT、思维程序、思维树、思维图和思维骨架等),多路聚合(DIVERSE、自洽、自适应一致性、模式选择、自评估指导解码和规划的推理),3)多伦提示,包括学习的细化器(自纠错、LLM-AUGMENTER)、自细化、自调试和渐进线索提示​。

添加图片注释,不超过 140 字(可选)

如图所示是自主智体的LLM一般流程。LLM智体利用LLM作为其数字大脑,掌握多种能力并拥有高水平的智力。智体可以接收一组不同的编码数据作为输入,并相应地构建或访问知识库和技能库。有了足够的知识和提示,智体就可以半自主地执行一系列任务。

添加图片注释,不超过 140 字(可选)

挑战:幻觉、上下文长度、多模态学习、效率和成本、人类喜好和多语言支持。
研究方向:安全和隐私、理解和透明、自动语言智体、科学推理和超对齐。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11950.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网上跳蚤市场|基于SSM+vue的网上跳蚤市场系统的设计与实现(源码+数据库+文档)

网上跳蚤市场系统 目录 基于SSM+vue的网上跳蚤市场系统的设计与实现 一、前言 二、系统设计 三、系统功能设计 1系统功能模块 2后台登录模块 5.2.1管理员功能 5.2.2会员功能 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八…

Linux字符设备驱动设计

Linux字符设备驱动设计 概述 驱动的定义与功能 计算机系统中存在着大量的设备, 操作系统要求能够控制和管理这些硬件, 而驱动就是帮助操作系统完成这个任务。 驱动相当于硬件的接口, 它直接操作、 控制着我们的硬件, 操作系统通…

python批量为图片做灰度处理

欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.代码 三.使用 四.总结

搞懂Docker(九)- 使用Docker Compose

获取示例程序 示例程序 或者 示例程序 获取示例程序程序结构如下├── getting-started-app/ │ ├── package.json │ ├── README.md │ ├── spec/ │ ├── src/ │ └── yarn.lock使用Docker Compose Docker Compose是一个帮助你定义和共享多容器应用程序的工具…

Linux-远程登录

远程登录Linux服务器的两款小工具: 1、Xshell (可以远程登录到Linux终端控制台) 2、 Xftp (可以与Linux服务器互相传递文件) 家庭/学校免费 - NetSarang Website 下载地址 1、傻瓜式安装Xshell6 2、在Linux主机上查看 Linux主机的…

【C++】深度解析:用 C++ 模拟实现 String 类,探索其底层实现细节

目录 了解string类 string的内存管理 VS下string的结构 ​g下string的结构 string的模拟实现 string的构造函数 浅拷贝 深拷贝 string的遍历 重载 [] 下标访问 迭代器访问 reserve resize 增删查改 push_back() append和 insert和erase find substr swap 流插入…

SpringBoot集成Seata分布式事务OpenFeign远程调用

Docker Desktop 安装Seata Server seata 本质上是一个服务,用docker安装更方便,配置默认:file docker run -d --name seata-server -p 8091:8091 -p 7091:7091 seataio/seata-server:2.0.0与SpringBoot集成 表结构 项目目录 dynamic和dyna…

智慧公厕管理系统的四层架构:感知层、传输层、平台层和应用层

智慧公厕管理系统是一种利用先进技术实现智能化管理和优化厕所体验的创新解决方案。该系统采用复杂的架构,涵盖了多个应用子系统,致力于提高公厕的卫生状况、资源利用效率、安全性以及用户体验。本文将以智慧公厕源头实力厂家广州中期科技有限公司&#…

汇编语言程序设计-2-访问寄存器和内存

2. 访问寄存器和内存 文章目录 2. 访问寄存器和内存2.0 导学2.1 寄存器及数据存储2.2 mov和add指令2.3 确定物理地址的方法2.4 内存的分段表示法2.5 Debug的使用2.6 【代码段】CS、IP与代码段2.7 【代码段】jmp指令2.8 【数据段】内存中字的存储2.9 【数据段】用DS和[address]实…

【自动驾驶技术栈学习】1-硬件《大话自动驾驶》| 综述要点总结 by.Akaxi

----------------------------------------------------------------------------------------------------------------- 致谢:感谢十一号线人老师的《大话自动驾驶》书籍,收获颇丰 链接:大话自动驾驶 (豆瓣) (douban.com) -------------…

618购物狂欢不知道怎么买?请收下这份好物清单,直接闭眼入!

在繁忙的618购物狂欢节来临之际,面对琳琅满目的商品,你是否感到无从下手?别担心,我们精心整理了一份好物清单,汇聚了各类热销与口碑兼具的精品。无论你是追求品质生活的消费者,还是寻找实惠好物的网购达人&…

实时网络监控 - 一目了然网络状况

网络问题排查一直是IT管理员头痛的问题。随着网络规模的不断扩大和业务复杂度的提升,如何快速定位和解决网络故障变得尤为关键。本文详细介绍了一款名为 AnaTraf 的网络流量分析工具,它能提供全流量回溯分析、实时网络监控、性能分析等功能,助力企业快速诊断和解决各…

AI绘画Stable Diffusion换脸插件ReActor 不香了,新一代换脸神器 InstantID!

前 言 之前我介绍了 SD 中的一款换脸插件 ReActor,虽然好使,但是安装还是有些许麻烦的。 今天给小伙伴们介绍一款新型的换脸插件:InstantID,主要是使用 ControlNet 和 IP-Adapter 的组合来控制扩散过程中的面部特征。 一句话&a…

Hive的join操作

假设有三张表,结构和数据如下:-- 创建表 test_a,test_b,test_c CREATE TABLE test_a( id int, name string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY \t;--分别导入数据到三个表中 --test_a 1 a1 2 a2 4 a4 --test_b 1 b1 3 b3 4 b4 --…

【Vue探索之旅】初识Vue

文章目录 前言 渐进式框架​ 入门案例 完结撒花 前言 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架。与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,不仅易于上手&#x…

XWiki 服务没有正确部署在tomcat中,如何尝试手动重新部署?

1. 停止 Tomcat 服务 首先,您需要停止正在运行的 Tomcat 服务器,以确保在操作文件时不会发生冲突或数据损坏: sudo systemctl stop tomcat2. 清空 webapps 下的 xwiki 目录和 work 目录中相关的缓存 删除 webapps 下的 xwiki 目录和 work …

angular13 自定义组件全项目都可用 自存

1.定义自定义组件 使用命令创建一个组件 但删除它在你的module里的声明,因为会报错只能引用一次 在本组件中创建一个module文件,引入刚才的组件component.ts import { NgModule } from angular/core; import { CommonModule } from angular/common; im…

[ES] ElasticSearch节点加入集群失败经历分析主节点选举、ES网络配置 [publish_address不是当前机器ip]

背景 三台CentOS 7.6.1虚拟机, 每台虚拟机上启动一个ElasticSearch 7.17.3(下面简称ES)实例 即每台虚拟机上一个ES进程(每台虚拟机上一个ES节点) 情况是: 之前集群是搭建成功的, 但是今天有一个节点一…

函数编辑器调研及设计开发

前言:在产品研发中需要一款可嵌入web开发的代码及函数编辑器,本文从功能,扩展,外观/交互,维护/社区,兼容性,开源与否等方面考虑,进行对比筛选 1、编辑器统计数据 市面上编辑器有很…

Windows电脑使用Docker安装AList网盘神器并配置公网地址打造私人云存储空间

文章目录 前言1. 使用Docker本地部署Alist1.1 本地部署 Alist1.2 访问并设置Alist1.3 在管理界面添加存储 2. 安装cpolar内网穿透3. 固定Alist公网地址 前言 本文和大家分享如何在Windows系统使用Docker本地部署Alist全平台网盘神器,然后结合cpolar内网穿透工具实现…