【持续学习系列(九)】《Continual Learning with Pre-Trained Models: A Survey》

一、论文信息

1 标题

Continual Learning with Pre-Trained Models: A Survey

2 作者

Da-Wei Zhou, Hai-Long Sun, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan

3 研究机构

National Key Laboratory for Novel Software Technology, Nanjing University; School of Artificial Intelligence, Nanjing University

二、主要内容

这篇论文是关于预训练模型（PTM）在持续学习（CL）中的应用的全面调查。持续学习旨在使学习系统能够随着数据的演变吸收新知识，同时克服在学习新知识时对旧知识的灾难性遗忘。论文将现有的方法分为三类：基于提示的方法、基于表示的方法和基于模型混合的方法，并对它们进行了比较分析。

三、相关背景

论文回顾了持续学习领域的研究进展，特别是那些不包含预训练模型的典型算法。同时，论文指出在当前预训练模型时代，基于PTM的CL正成为一个中心研究领域。

Preliminaries of Continual Learning

在论文的“Preliminaries”部分，2.1节定义了持续学习（Continual Learning, CL）的数学问题。持续学习关注的是一系列任务的学习场景，这些任务以数据流的形式出现。每个任务由输入实例和它们的标签组成，目标是让模型在不断学习新任务的同时，不忘记之前学到的知识。

数学上，CL的目标是最小化所有已见任务的期望风险，这可以通过以下公式表示：

$f^* = \argmin_{f \in H} \mathbb{E}_{(x,y) \sim D_1 \cup \dots \cup D_B} I(y \neq f(x))$

其中， $H$ 是假设空间 $I(\cdot)$ 是指示函数（如果表达式成立则输出1，否则输出0） $D_b$ 是第 $b$ 个任务的数据分布。这意味着CL模型应该在所有已见任务上表现良好，即不仅要学习新任务，还要记住旧任务。

Variations of CL

在CL的变体中，特别提到了Class-Incremental Learning (CIL)、Task-Incremental Learning (TIL) 和 Domain-Incremental Learning (DIL)。

CIL (Class-Incremental Learning): 在CIL中，新任务包含之前未见过的新类别，模型需要学习这些新类别，同时不忘记旧类别。在训练阶段，新任务的数据分布 $p(X_b)$ 与旧任务的数据分布 $p(X_{b'})$ 不同，且新任务的类别集合 $Y_b$ 与旧任务的类别集合 $Y_{b'}$ 没有交集（ $Y_b \cap Y_{b'} = \emptyset$ ）。在测试阶段，CIL不提供任务ID（即 $b$ ）。
TIL (Task-Incremental Learning): TIL与CIL类似，但在测试阶段，TIL提供了任务ID（即 $b$ ），这允许模型在测试时知道每个实例属于哪个任务。
DIL (Domain-Incremental Learning): DIL关注的是当新任务的数据分布 $p(X_b)$ 与旧任务的数据分布 $p(X_{b'})$ 不同时，但新旧任务的类别集合相同（ $Y_b = Y_{b'}$ ）。例如，新任务可能包含同一类别的图像，但存在领域偏移，如卡通画和油画。

这些变体在处理新旧知识的关系和测试阶段的要求上有所不同，但共同目标都是让模型能够适应新任务，同时保持对旧任务的记忆。

四、解决方案

论文提出了三种基于PTM的CL方法：

1、基于提示的方法（Prompt-Based Methods）

基于提示的方法利用预训练模型（PTM）的泛化能力，通过引入轻量级的可训练模块（如提示）来调整模型，以便在不破坏原有泛化能力的前提下适应新任务。

代表工作及其做法：

Visual Prompt Tuning (VPT): VPT通过在预训练模型的输入特征前添加一组可学习的参数（提示），然后通过最小化交叉熵损失来优化这些提示。这样，模型可以在保持预训练权重不变的情况下，通过调整提示来适应新任务。
Prompt Pool: 提示池方法收集一组提示，允许在训练和推理过程中进行实例特定的提示。例如，L2P（Learnable Prompts）通过关键-查询匹配策略来选择与输入特征最相似的提示。
DualPrompt: 这种方法通过在不同层次上附加提示来探索提示的深度，并区分通用提示和专家提示。通用提示用于编码任务通用信息，而专家提示则针对特定任务。
CODA-Prompt: CODA-Prompt提出了一种基于注意力机制的提示构建方法，通过计算输入特征与提示键的注意力分数来创建加权的提示组合。
DAP (Dual Attention Prompt): DAP通过编码提示生成到一个多层感知机（MLP）网络中，生成实例特定的提示。这种方法通过在任务预测的基础上产生权重和偏置，来生成提示。

优缺点总结：

优点：

泛化能力：利用预训练模型的泛化能力，有效地编码任务特定的知识。
参数效率：提示模块的参数量小，适合资源受限的环境。
适应性：通过学习提示池，模型能够进行自适应的知识检索和实例特定的预测。

缺点：

提示选择：提示选择过程可能存在局限性，可能导致遗忘问题。
表示能力限制：固定大小的提示池可能限制了表示能力，而动态增长的提示池可能导致训练和测试不匹配。
比较公平性：某些方法（如DAP）可能依赖于批量信息，这在实际应用中可能导致性能下降。

2、基于表示的方法（Representation-Based Methods）

基于表示的方法直接利用预训练模型的表示能力来构建分类器，通常通过冻结预训练权重并提取类别原型来实现。

代表工作及其做法：

1. SimpleCIL: SimpleCIL通过冻结预训练权重，提取每个类别的中心（原型），并用这些原型作为分类器权重。这种方法简单直观，且在某些情况下表现出色。

2. ADAM (Adaptive Model with Data Augmentation): ADAM通过比较原型分类器和全微调模型的性能，提出使用参数高效的模块（如提示或适配器）来微调预训练模型，并结合预训练和微调模型的特征。

3. RanPAC (Random Projections for Continual Learning): RanPAC使用在线LDA分类器来去除类别间的相关性，并设计额外的随机投影层来投影特征到高维空间，以提高特征的可分性。

优缺点总结：

优点：

直观性：使用类别原型作为分类器权重直观且易于解释。
轻量级更新：主要冻结预训练模型的权重，更新成本较低。
性能：在某些任务上，基于表示的方法表现出与复杂学习系统相当的性能。

缺点：

特征冗余：在构建类别原型时可能忽略模型间的冗余特征。
领域适应性：在涉及多个领域的任务中，可能需要更复杂的模型调整来桥接领域间的差异。

3、基于模型混合的方法（Model Mixture-Based Methods）

基于模型混合的方法在持续学习过程中创建一组模型，并在推理时进行模型融合或合并，以减轻灾难性遗忘。

代表工作及其做法：

1. ESN (Ensemble of Specialized Networks): ESN在面对新任务时初始化并训练新的分类器头，然后在推理时通过投票策略来融合这些分类器的输出。

2. LAE (Learning with Augmented Experts): LAE定义了在线和离线学习协议，在线模型通过交叉熵损失更新，而离线模型通过模型合并（如指数移动平均）来更新。

3. PROOF (Prompt-based Reasoning for Out-of-Domain Generalization): PROOF利用CLIP模型进行跨模态匹配，通过设计一个三级融合模型来处理图像到文本、图像到图像原型和图像到调整文本的任务。

优缺点总结：

优点：

多样性：通过模型融合或合并，可以提高决策的多样性和鲁棒性。
知识共享：模型混合允许在不同阶段之间共享知识，强调知识的重要性。
推理成本：模型融合或合并后的推理成本不会随着模型数量的增加而显著增加。

缺点：

存储成本：需要保存所有历史模型，占用大量内存。
参数选择：决定哪些参数进行合并仍然是一个开放问题，可能导致解决方案的启发式和手工调整。
模型大小：尽管模型融合可以限制模型大小，但合并大型模型的权重也需要额外的计算。

五、实验环节

论文在七个基准数据集上对代表性方法进行了评估，包括CIFAR100、CUB200、ImageNet-R/A、ImageNet-A、ObjectNet、Omnibenchmark和VTAB。实验结果表明，基于表示的方法（如ADAM和RanPAC）表现出更竞争力的性能，而基于提示的方法（如L2P和DualPrompt）的性能较差。