人工智能模型组合学习的理论和实验实践

        组合学习,即掌握将基本概念结合起来构建更复杂概念的能力,对人类认知至关重要,特别是在人类语言理解和视觉感知方面。这一概念与在未观察到的情况下推广的能力紧密相关。尽管它在智能中扮演着核心角色,但缺乏系统化的理论及实验研究方法,使得分析计算模型的组合学习能力变得困难。

        本文将对组合学习的各个方面进行全面的调查,包括:

  • 认知方面:探讨认知科学和语言学中定义的组合学习任务,并将其与现有数据集联系起来。
  • 计算模型:概述旨在解决组合学习问题的各种计算模型,包括基本神经网络模型、大型语言模型和定制架构(包括神经符号模型)。
  • 评估范式:介绍理论和实验两种评估方法,以评估模型的组合学习能力。

1 组合学习五个主要的组合性度量标准

组合性是整体泛化能力的一个重要方面。认知科学和语言学文献已经确定了定义组合性的任务的广泛分类,这些任务可以用来评估模型的组合推理能力。人类自然语言的基础在于组合性。一个常用的任务分类,定义了五个主要的组合性度量标准:系统性(Systematicity)、生成性(Productivity)、替代性(Substitutivity)、局部性(Localism)和过度泛化(Overgeneralization)

1.1 系统性组合 (Systematicity Composition)

系统性是评估架构性能时最常用的组合性概念之一。它被定义为系统地重新组合已知部分和规则的能力。在评估模型的组合推理能力时,将已知元素句法组合成新的或“未见过”的表达式的能力是一个重要的测试。这也被称为基于分布的组合性评估,其中定义了两个原则:一是确保原子的分布在训练集和测试集中相似,另一个是确保复合物的分布在训练集和测试集中不同。

1.1.1 任务示例

  • 将不同的形容词和名词组合成新的名词短语,例如,将“高”和“大”组合成“高大”。
  • 将不同的动词和名词组合成新的动词短语,例如,将“吃”和“苹果”组合成“吃苹果”。

1.1.2 数据集:CREPE, SCAN, gSCAN, PCFG SET, COGS

1.2  生成性/长度泛化 (Productivity/Length Generalization)

另一种常用的组合性测试是长度泛化或生成性,模型在比训练数据更长的表达式或序列上的性能被测试

1.2.1 任务示例

  • 理解并操作包含多个嵌套条件的逻辑表达式,例如,“如果A且B,则C;否则,D”。
  • 理解并操作包含多个步骤的程序,例如,编写一个程序来计算阶乘。

1.2.2 数据集:CREPE, PCFG SET, CFQ, COGS

1.3 替代性/同义性 (Substitutivity/Synonymity)

性是评估能够理解并操作表达式中同义词的使用

1.3.1 任务示例

  • 将包含同义词的表达式翻译成其他语言,例如,将“我喜欢吃水果”翻译成“我喜欢吃苹果”。
  • 理解并操作包含同义词的句子,例如,“我喜欢吃水果,尤其是苹果”。

1.3.2 数据集:PCFG SET

1.4 局部性 (Localism)

组合性的另一个细微差别是全局与局部组合的概念根据组合性原则,组合运算符的局部性可以变化。复杂表达式的含义可以仅依赖于其直接部分的含义(局部组合),或依赖于上下文的全局结构。局部性可以通过分析模型赋予独立复合物的含义与当该复合物是更大表达式的一部分时的含义来测试。

1.4.1 任务示例

  • 理解并操作包含局部和全局组合关系的句子,例如,“我喜欢吃水果,尤其是苹果”。
  • 理解并操作包含指代关系的句子,例如,“他喜欢吃水果,尤其是苹果”。

1.4.2 数据集:PCFG SET

1.5 泛化过度 (Overgeneralization)

过度泛化,评估模型更倾向于选择例外而非规则的程度。

1.5.1 任务示例

理解并操作包含规则例外情况的句子,例如,“狗是动物,但不是所有动物都是狗”。

理解并操作包含反例的句子,例如,“苹果是水果,但不是所有水果都是苹果”。

1.5.2 数据集:PCFG SET

2 抽象任务和数据集

2.1 系统性组合

  • CREPE:这是一个合成数据集,用于评估模型在描述图像方面的组合学习能力。主要任务设置是,给定一张图片,模型需要从多个给定选项中识别出合适的文本标题。这种系统性挑战测试了模型是否能够在训练期间系统地生成新的组合,这些组合在训练期间未曾观察到,例如“在平底锅上的可丽饼”(Crepe on a skillet),尽管在不同的上下文中分别观察到了可丽饼和平底锅。
  • SCAN:这是一个导航任务数据集,用于评估模型在理解自然语言指令方面的组合学习能力。模型需要根据指令在二维网格世界中导航。
  • gSCAN:这是一个基于SCAN的地面数据集,用于评估模型在理解自然语言指令方面的组合学习能力。模型需要根据指令在二维网格世界中导航,并理解指令中的新颖组合。
  • PCFG SET:这是一个基于概率上下文无关语法的数据集,用于评估模型在翻译语法表达式方面的组合学习能力。模型需要将语法表达式翻译成表示其意义的序列。
  • COGS:这是一个语义解析数据集,用于评估模型在理解英语句子方面的组合学习能力。模型需要确定输入句子的形式意义表示。

2.2 生产力/长度泛化

  • CREPE:除了系统性任务,CREPE还包含生产力任务,用于评估模型处理长序列的能力。
  • PCFG SET:PCFG SET包含多个子数据集,其中一些子数据集用于评估模型处理长序列的能力。
  • CFQ:这是一个基于知识图谱的自然语言问答数据集,用于评估模型在理解自然语言问题方面的组合学习能力。CFQ包含多个子数据集,其中一些子数据集用于评估模型处理长序列的能力。
  • COGS:COGS包含多个子数据集,其中一些子数据集用于评估模型处理长序列的能力。

2.3 其他泛化标准

PCFG SET:唯一一个评估其他三个额外标准的基准。PCFG SET还包含其他三个子数据集,分别用于评估模型的可替换性、局部性和泛化过度能力。

3 组合学习模型

3.1 经典神经网络模型

对不同的神经模型进行了组合学习任务的测试评估了长短期记忆网络(LSTM)、卷积神经网络(CNN)和变换器(Transformers)在序列到序列语言处理任务上的表现,这些任务是PCFG SET任务。平均来看,变换器(Transformers)在这些任务上的表现优于其他两种模型,但在两种经典神经模型中,卷积模型比LSTM表现得更好

3.2 基于Transformer架构模型

大型语言模型的组合能力目前是一个有争议的话题。它们已经在本质上是组合一般任务上进行了评估,例如算术、逻辑和动态规划。GPT系列变换器通过将问题简化为线性子图匹配来解决这些任务,而没有发展出真正的组合推理能力。

变换器在组合任务上表现的具体架构因素, 1)位置编码的类型,2)使用复制解码器,3)模型大小,4)权重共享,5)使用中间表示进行预测-在几个不同的数据集和基准上。所采用的任务包括加法、加法负数、反转、复制、笛卡尔积、交集、SCAN长度和SCAN加跳、PCFG生成性和系统性、COGS和CFQ-mcd1。

结论如下:

  • 相对位置编码通常有帮助,但使用嵌入是必要的,仅仅使用相对位置偏见是不够的。
  • SCAN和CFQ这样的任务没有受到位置嵌入的影响。
  • 复制或PCFG这样的任务从复制解码器中受益,因为它可以学习一种像学习输入的某个位置一样的对称性。
  • 就模型大小而言,发现对于算法任务,大型模型并没有帮助。
  • 对于PCFG,大型模型优于它们的小型变体。

3.3 神经符号架构模型

在对智能系统建模的尖端研究中,神经符号建模是一个日益增长的趋势。随着对通用人工智能模型的需求不断增长,需要高度组合的模型,这些模型可以根据以前训练的更简单任务进行推理,以完成新颖和复杂的任务。

一种方法是使用自然语言解释来生成正式规范,这些规范明确地以所需更简单步骤的形式列出组合任务。然后,将正式规范传递给适当的引擎来解决问题。遵循这种方法的著名视觉理解模型是VisProg。VisProg是一个模块化的神经符号模型,可以在给定自然语言指令的情况下,仅依赖于大型语言模型的上下文学习,解决各种组合视觉推理任务。它生成Python模块程序以获得解决方案。这种方法为模型如何推导出解决方案提供了可解释的推理。这些模块程序使用VisProg支持的内置模块,例如现成的神经计算机视觉模型、图像预处理模块或Python子程序,并在没有特定任务训练的情况下解决复杂任务。

另一个方法是从未加语言解释中生成问题的正式逻辑规范,并将逻辑形式传递给逻辑推理引擎。这项工作使用像GPT-3或GPT-3.5 Turbo这样的大型语言模型,通过将复杂组合任务分解为基于推理链的更小步骤,为解决复杂组合任务提供“指南”。类似于此,许多最近的工作集中在可以使用的不同的提示策略上,这些策略可以通过模块化方法解决复杂组合任务。

4 理论发现

4.1 经典神经网络模型

  • 循环神经网络 (RNN): RNN 模型在组合泛化方面表现出一定的能力,能够生成具有特定嵌套深度的自然语言句子。然而,RNN 的泛化能力受到其内存和计算复杂度的限制。
  • 卷积神经网络 (CNN): CNN 模型在组合泛化方面也展现出潜力,能够处理视觉任务中的组合结构。然而,CNN 的组合泛化能力仍需进一步研究和提升。

4.2 基于Transformer架构模型

  • 精度限制: Transformer 模型在处理长输入序列时存在精度限制,这限制了其在解决高度复杂的组合任务方面的能力。
  • 注意力机制: 硬注意力机制导致 Transformer 忽略大部分输入信息,而软注意力机制难以处理长输入序列。这些局限性限制了 Transformer 在组合泛化方面的表现。
  • 潜在突破: 通过引入中间表示、改进位置编码、使用复制解码器等技术,可以提升 Transformer 模型的组合泛化能力。

4.3 大型语言模型 (LLM)

  • 涌现能力: LLM 在组合泛化方面展现出涌现能力,能够在特定任务上表现出超越其参数规模的性能。然而,这种涌现能力的存在性和本质仍存在争议。
  • 数据污染: LLM 的训练数据规模庞大,存在数据污染问题,这影响了其在组合泛化方面的评估。
  • 认知动机: LLM 在组合泛化方面的能力与人类认知存在差异,需要进一步研究和改进。

5 未来方向

已经有大量研究从认知角度探讨了人类的组合学习能力。语言学和形式语言研究人员自从语言具有固有的组合结构以来就对组合性概念进行了形式化。然而,从人工智能和机器学习的角度来看,想法是从认知和语言学中借鉴的,计算任务和模型的设计集中在组合性的少数几个方面

  • 设计更具组合泛化能力的神经网络架构,例如神经模块网络、Pushdown Layers 等。
  • 开发新的学习算法,例如基于认知科学原理的学习算法,以提升 AI 模型的组合泛化能力。
  • 建立更完善的评估体系,以准确评估 AI 模型的组合泛化能力。
  • 探索神经符号模型和神经组合计算在组合泛化方面的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/28189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DDPAI盯盯拍记录仪删除后的恢复方法(前后双路)

DDPAI盯盯拍行车记录仪的口碑相当不错,其产品一直以行车记录仪为主,曾经使用过比较早的产品,体验还不错。下面来看下这个DDPAI的视频恢复方法。 故障存储: 64G存储卡 /文件系统:FAT32 故障现象: 在发生事故后在记录仪上看到了…

工程设计问题---工业制冷系统的优化设计问题

参考文献: [1]李煜,梁晓,刘景森,等.基于改进平衡优化器算法求解工程优化问题[J/OL].计算机集成制造系统,1-34[2024-06-16].

水滴式粉碎机:玉米饲料加工的新篇章

在饲料加工业中,玉米作为一种重要的原料,其加工方式直接影响到饲料的品质以及动物对饲料的消化吸收率。近年来,随着科技的进步,越多的环保的饲料加工设备被引入到饲料生产中,其中,水滴式粉碎机以其独特的优…

Ubuntu Linux 24.04 C语言TCP/IP socket编程基础知识

socket起源于Unix,Unix/Linux基本哲学之一就是“一切皆文件”,都可以用“打开open –> 读写write/read –> 关闭close”模式来操作。Socket就是该模式的一个实现,socket即是一种特殊的文件,一些socket函数就是对其进行读/写…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 部门项目任务分配(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 📎在线评测链接 部门项目任务分配(100分) 🌍 评测功能需要订阅专栏后私信联…

举例说明 如何通过SparkUI和日志定位任务莫名失败?

有一个Task OOM: 通过概览信息,发现Stage 10的Task 36失败了4次导致Job失败。概览信息中显示最后一次失败的退出代码(exit code)是143,意味着发生了内存溢出(OOM,即Out of Memory)。…

探索Edge

目录 1.概述 1.1.什么是浏览器 1.2.浏览器的作用 2.Edge 2.1.什么是Edge 2.2.诞生背景 2.3.历史版本 2.4.作用 2.5.优缺点 2.5.1.优点 2.5.2.缺点 3.对比 3.1.和360浏览器的对比 3.2.和谷歌浏览器(Chrome)的对比 4.未来展望 5.总结 1.概…

从“产品的RFM分析”看如何探索“职业方向”

我们在做产品分析时,经常会用到一种方法“产品的RFM分析”,它是一种客户细分和价值评估的常用方法,广泛应用于电子商务、零售和其他众多行业,它可以帮助企业和产品团队更好地理解用户行为,优化营销策略,提升…

Python基础教程(二十二):XML解析

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

0 算法复杂度

算法复杂度 时间复杂度有关总结 一,常数时间的操作【基本操作】 常数时间——固定时间——O(1)——由实现细节决定 不会随着输入规模的变化而增加时间复杂度 1 基本操作解析 1.算数操作: ab a-b a*b a/b int a 32位 int b 32位11 178997…

Linux--MQTT(二)通信基本原理

一、MQTT 通信基本原理 MQTT 是一种基于 客户端 - 服务端 架构的消息传输协议,所以在 MQTT 协议通信中,有两个最为重要的角色,它们便是服务端 和 客户端 。 举例:若开发板向“芯片温度”这一主题发布消息,那么服务…

cocos开发的时候 wx.onShow在vscode里面显示红色

这个函数是在微信小游戏平台才会用到。 cocos识别不到wx这个变量。 可以改成下面的写法。 只要在变量前面加一个globalThis.就能识别这个变量了。也不报错了。 搞死强迫症了。orz 欢迎大家来玩我的微信小游戏。多多提意见啊。

欧阳修,仕途波澜中的文坛巨匠

欧阳修,字永叔,号醉翁、六一居士,生于北宋真宗景德四年(公元1007年),卒于北宋神宗熙宁五年(公元1072年),享年65岁。他是北宋时期著名的文学家、史学家,也是唐…

计算机缺失d3dcompiler_43.dll怎么办,介绍5种靠谱的解决方法

在电脑使用过程中,我们经常会遇到一些错误提示,其中之一就是“找不到d3dcompiler43.dll”的错误。那么,d3dcompiler43.dll到底是什么?为什么会出现丢失的情况?它对计算机有什么具体影响?如何解决这个问题&a…

数据库系统概念(第七周 第二堂)(E-R模型转关系模式)

前言 前一堂课我们深入研究了E-R模型的画法和要点,学习E-R模型肯定是为了给数据库表格设计提供帮助。数据库表格设计就是关系模式设计,数据库表就是关系模式的实例化。所以本堂课,我们来看E-R模型如何转为关系模式。 转化原则 转化步骤 转…

[Vulnhub]Solid-State POP3邮件服务(James)+rbash逃逸

信息收集&SSH Server IP addressPorts Open192.168.8.100TCP:22,25,80,110,119,4555 Nmap 扫描: $ nmap -p- 192.168.8.100 --min-rate 1000 -sC -sV 结果: Host is up (0.00061s latency). Not shown: 65529 closed tcp ports (conn-refused) PORT STATE SERVICE…

phpStudy安装sqli-labs

phpStudy安装sqli-labs git地址:https://github.com/Audi-1/sqli-labs 点击管理–>根目录 将git下载的sqli-labs文件放进去并解压 进入sql-connections修改 修改db-creds.inc文件为自己数据库的账号密码 更改php版本为5.*,因为这个程序只能在php 5.…

[Golang] go-kit 介绍和使用 (微服务实现工具)

文章目录 1.go-kit 介绍1.1 go-kit 三层结构 2.go-kit 实例 1.go-kit 介绍 go-kit是一个分布式的开发工具集,在大型的组织(业务)中可以用来构建微服务,其解决了分布式系统中大多数常见问题,因此,使用者可以…

Paragon NTFS for Mac 15软件下载-详细安装教程视频

​Paragon NTFS for Mac是Mac平台上一款非常优秀的读写工具,可以在Mac OS X中完全读写、修改、访问NTFS硬盘、U盘等外接设备的文件。这款软件最大的亮点简书可以让我们读写 NTFS 分区,因为在Mac OS X 系统上,默认状态下我们只能读取NTFS 分区…

Spring-kafka消费者消费的一些问题

前言 Spring Kafka 无缝集成了 Spring Boot、Spring Framework 及其生态系统中的其他项目,如 Spring Cloud。通过与 Spring Boot 的自动配置结合,开发者可以快速启动和配置 Kafka 相关的功能。无需编写大量样板代码即可实现 Kafka 的生产和消费功能&…