文章概要
这篇调查文章仅关注选择性遗忘,承认遗忘某些信息可以通过允许模型优先考虑和保留更重要或相关的信息,以及保护用户隐私,从而带来好处。选择性遗忘(Selective forgetting)涉及有选择地忽略无关或噪声数据。这种形式的遗忘有助于优化模型的内存利用,提高其概括能力,并增强其对不同数据集和任务的适应性。
本文调查了机器学习文献中的遗忘现象,以回答以下研究问题:
[RQ1]:遗忘在不同知识领域(如心理学、哲学、神经科学)中是如何体现的?这个研究问题探讨了遗忘的多方面性质,以激发在机器学习方法中开发新的遗忘模型。
[RQ2]: 遗忘如何用于遵守数据隐私法,减少偏见并在机器学习方法中优先处理相关信息?
[RQ3]: 在机器学习中实施遗忘机制有哪些未来的研究机会和挑战?在这里,我们探索当前的研究空白,以推动该领域的发展。
机器学习中的遗忘
-
遗忘过程如何被塑造?
一个关键方法是建立反馈机制或控制和监控回路。遗忘是一个依赖于反馈信号的动态系统,这些信号表现为认知感受,作为现象学反馈,指导我们在何时以及如何遗忘。 -
遗忘中的挑战
一个值得注意的关注点是哲学和语言学中讨论的伦理问题。遗忘作为对记忆的反映,显著地塑造了我们对伦理、道德责任、历史、政治以及过去和未来的看法。鉴于这种影响,当处理机器学习系统的遗忘行为时,必须谨慎行事。不同类型的数据及其在模型训练过程中的权重可能会影响模型的推理和决策能力。因此,在这个背景下,仔细考虑与遗忘相关的伦理关切和偏见是至关重要的。另一个需要考虑的重要方面是偶然遗忘的界限,因为并非所有的遗忘情况都会产生积极的结果。在教育理论中,过度遗忘可能会使问题解决变得过于具有挑战性,潜在地阻碍学生的学习流程通道,从而产生负面体验 同样,不适当的存档实践可能会导致机器学习模型的灾难性遗忘和荒谬的决策制定,这给我们带来了新的挑战,即确定不同类型训练任务中适当的遗忘界限,确保遗忘被有效和适当地应用。
机器学习的分类
- Dimension
- Content遗忘的内容:物体、标签、类别、任务、数据流
- Recoverabilty可恢复性:
- 不可恢复遗忘【信息无法恢复,通常涉及隐私或版权,处理更广泛的记忆】
- 可恢复性遗忘【暂时搁置预训练的知识后引入模型、提供灵活的学习策略】
- 短暂遗忘:模型对特定事物的记忆会随着时间的推移而减弱,但有可能恢复
- 抑制遗忘:模型故意对某些记忆设置障碍,除非移除障碍,否则很难回忆起那些特定的细节
- 梯度遗忘:以不同的速度遗忘不同的事物,因为它的学习或优化知识的方式是可以调整的
- Extent遗忘程度:
- 精确遗忘:移除样本后,模型的输出与从未在移除的样本上训练过的模型的输出相同
- 近似遗忘:保留了被遗忘知识的缩小版或效力较低的版本,无需从头训练模型(常用于当人们想要保持一定程度的适应性或重新审视和微调以前学习过的信息的能力,同时减少其对模型的当前影响时)
- Approch
- active forgetting主动遗忘:目标是更新信息以提高性能。这是迁移学习的主要内容,使用不同域的知识提升机器学习模型。通过遗忘改善消极迁移NT,增强模型的泛化能力,防止模型对训练数据出现过拟合。模型可以采用选择性遗忘来丢弃噪音和不相关的细节,而不是保留所有信息。
- passive forgetting被动遗忘:仅在响应特定请求以保护用户隐私和增强安全性时发生。除了删除对应的训练数据,还要消除其对模型训练结果的影响(反学习)。重新训练显然在计算时费时费力,应i希望修改机器模型和数据集进行近似反学习
反学习:
遗忘方法(主动学习)
三个研究方向:遗忘以减轻负迁移;遗忘以增强对未见数据的泛化能力;遗忘以释放存储空间
1. 域相似估计——for NT
由于源域和目标域的差距导致NT,因此在NT前实施主动遗忘策略。
- Feature statistics-based approaches
- Test-prediction-based approaches
- Fine-tuning-based approaches:通过修改较高层的参数同时保留较低层的权重,将预训练模型调整到新的目标域
2. NT mitigation approaches
该过程通过主动遗忘得到有效管理,即故意丢弃或淡化特定知识以增强目标域的结果
- data transferability:多域、多类
- model transferability:对于模型可迁移性,通过可迁移批量规范化等方法增强源模型训练,使模型能够优先考虑更具适应性的特征并“忘记”不太相关的特征
- Training process enhancement涉及管理训练动态,例如在优化过程中改变步长和方向,由超参数𝜆引导。
- Target prediction enhancement目标预测增强采用软伪标记、选择性伪标记、聚类增强伪标记和熵正则化等技术。这些方法通过“忘记”嘈杂或不相关的标签和数据,使模型能够适应新的领域,从而提高目标领域的预测精度。
3.Iterative training
通过迭代改进机器学习模型以增强其泛化能力。Knowledge Evolution、Iterative Magnitude Pruning
Eg.RIFLE,这是一种定期重新初始化模型最后一层以减少对特定特征的依赖的方法,从而鼓励学习更广泛的模式。这种方法以及利用合成机器翻译语料库和迭代自提炼的策略,通过利用反向翻译和连续教学迭代有效地增强了学习。
“迭代学习”方法在增强组合性方面非常有效。Eg.later-layer forgetting (LLF)策略,该策略涉及重新初始化网络的后层以专门删除与复杂示例相关的信息,从而促进“遗忘和重新学习”范式。迭代再训练过程”中,一致理解的特征会得到强化。
4.Improve attention’s efficiency
- Yuhuai Wu等人通过引入 kNN 查找和不可微分的外部存储器,提供了一种 scale transformers的创新方法。这些技术使模型能够有效地管理其注意力机制,专注于必要的细节,同时“忘记”不必要的计算。
- 用于组织巩固记忆的各种控制策略被总结为一个统一的抽象:具有有界记忆控制的注意力(ABC)[170]。
- [169] 中引入的𝐴𝐵𝐶𝑀𝐿𝑃作为 ABC 的一个实例,引入了一个神经网络来确定如何将每个标记存储在记忆中,以在准确性和效率之间取得更好的平衡。
5. Lossless compression
- [203]引入了 Expire-span ,为每个内存计算特定的使用寿命(图 9)。一旦内存超过其使用寿命,它就无法访问。
- RECOMP[250] 是为提高视觉语言模型性能而提出的,其操作方式是先检索文档,然后将其压缩为摘要,然后再进行同化。该模型使用两种压缩器类型:一种是选择关键句子的提取式压缩器,另一种是从多个来源生成摘要的抽象式压缩器。这些压缩器旨在增强语言模型的任务性能,如果文档不相关,还可以选择“选择性增强”,即返回空字符串。这种选择性方法反映了 transformer 中的“遗忘”概念,简化了信息输入,以确保模型准确性和效率之间的最佳权衡。
- TRIME [268] 强调记忆类型分类,引入了在测试期间针对不同记忆类型的记忆构建和数据批处理方法。
- Item2Vec++ (AI2V++) 模型提出了一种神经注意力协同过滤方法,其中用户表征在推荐项目存在的情况下会动态调整 [67]。
https://mp.weixin.qq.com/s/ddGhxUwHpx3PJD3dJmZQ6w
https://arxiv.org/pdf/2405.20620v1