【连续学习之SSL算法】2018年论文Selfless sequential learning

1 介绍

年份:2018

期刊: arXiv preprint
Aljundi R, Rohrbach M, Tuytelaars T. Selfless sequential learning[J]. arXiv preprint arXiv:1806.05421, 2018.

本文提出了一种名为SLNID(Sparse coding through Local Neural Inhibition and Discounting)的正则化算法,其核心原理是通过模拟大脑中的侧抑制机制,在神经网络中鼓励表示稀疏性,即在网络层级上抑制同时激活的神经元,从而实现对新任务学习时保留网络容量以减少对先前任务的遗忘,并提高序列学习的性能。本文算法属于基于正则化的算法,因为它通过引入一个新的正则化项来鼓励神经网络在表示层面上保持稀疏性,同时考虑了神经元的重要性,以减少对先前任务的干扰。

2 创新点

  1. 自less序列学习(Selfless Sequential Learning)概念
    • 提出了自less序列学习的概念,强调在学习过程中不仅要考虑当前任务,还要为未来任务预留模型容量。
  2. 基于侧抑制的正则化策略
    • 受到大脑中侧抑制机制的启发,提出了一种新的正则化方法,通过惩罚同时激活的神经元来鼓励表示稀疏性。
  3. 局部神经抑制(Local Neural Inhibition)
    • 为了适应复杂任务,提出了局部神经抑制的概念,即只在局部邻域内抑制其他神经元的活动,而不是在整个层级上。
  4. 神经元重要性权重(Neuron Importance for Discounting Inhibition)
    • 引入了神经元重要性的概念,用于调整正则化项,以避免对先前任务中重要的神经元施加抑制,从而减少对旧任务的干扰。
  5. 稀疏编码通过局部神经抑制和折扣(SLNID)
    • 结合了上述概念,提出了SLNID正则化方法,该方法在保持表示稀疏性的同时,允许对先前任务重要的神经元进行折扣处理。
  6. 实验验证
    • 在多个数据集(包括Permuted MNIST、CIFAR和Tiny Imagenet)上验证了所提方法的有效性,并与现有的终身学习(Lifelong Learning, LLL)方法进行了比较,显示出一致的性能提升。
  7. 与现有LLL方法的兼容性
    • 展示了SLNID正则化方法可以与现有的基于重要参数保持的LLL方法(如EWC和MAS)结合使用,并且能够提升这些方法的性能。

3 算法

3.1 算法原理

  1. 表示稀疏性(Representation Sparsity)
    • 算法强调在神经网络的激活(即神经元的输出)层面上实现稀疏性,而不是在参数层面上。这样做的目的是减少新任务学习时对旧任务的干扰,因为稀疏的表示意味着大部分神经元在任何给定时间都是不活跃的,从而为新任务留出更多的网络容量。
  2. 局部神经抑制(Local Neural Inhibition)
    • 算法通过局部神经抑制来实现表示稀疏性。这意味着算法会抑制在同一局部区域内同时激活的神经元,模仿大脑中的侧抑制过程。这种局部抑制通过一个高斯权重函数实现,该函数根据神经元之间的距离来调整它们之间的相互抑制强度。
  3. 神经元重要性(Neuron Importance)
    • 算法引入了神经元重要性的概念,用于衡量神经元在先前任务中的重要性。这是通过计算神经元输出对损失函数梯度的绝对值累积来实现的。重要的神经元在新任务中不会被抑制,以避免对旧任务的性能造成影响。
  4. 正则化项(Regularization Term)
    • 算法在训练目标函数中加入了一个正则化项,用于惩罚那些同时激活的神经元。这个正则化项考虑了神经元的重要性,并使用高斯函数来实现局部抑制。
  5. 折扣抑制(Discounting Inhibition)
    • 对于那些对先前任务重要的神经元,算法会减少或“折扣”对它们的抑制,以保护旧任务的性能不受学习新任务的影响。
  6. 结合现有方法(Combination with Existing Methods)
    • SLNID正则化项可以与现有的终身学习(Lifelong Learning, LLL)方法结合使用,如EWC(Elastic Weight Consolidation)和MAS(Memory Aware Synapses)。这些方法通过惩罚对先前任务重要参数的改变来减少灾难性遗忘。
  7. 训练过程(Training Process)
    • 在训练过程中,算法会优化一个包含数据损失、参数重要性惩罚项和表示稀疏性正则化项的组合目标函数。这有助于在保持对新任务的学习的同时,保留对旧任务的记忆。

3.2 算法步骤

  1. 初始化网络参数 θ \theta θ和网络容量。
  2. 对于序列中的每个新任务 T n T_n Tn,执行以下步骤:

a. 使用当前任务的数据集训练网络,同时最小化以下目标函数:

min ⁡ θ 1 M ∑ m = 1 M L ( y m , f ( x m , θ n ) ) + λ Ω ∑ k Ω k ( θ n k − θ n − 1 k ) 2 + λ S S L R S S L ( H l ) \min_{\theta} \frac{1}{M} \sum_{m=1}^{M} L(y_m, f(x_m, \theta_n)) + \lambda_{\Omega} \sum_{k} \Omega_k (\theta_{n_k} - \theta_{n-1_k})^2 + \lambda_{SSL} R_{SSL}(H_l) θminM1m=1ML(ym,f(xm,θn))+λΩkΩk(θnkθn1k)2+λSSLRSSL(Hl)

其中, L L L是损失函数, f f f是网络预测函数, θ n − 1 \theta_{n-1} θn1是之前任务学习到的最优参数, λ Ω \lambda_{\Omega} λΩ λ S S L \lambda_{SSL} λSSL是权衡参数, R S S L R_{SSL} RSSL是稀疏表示正则化项。
b. 计算每个神经元的重要性权重 α i \alpha_i αi,通过累积每个神经元输出对损失函数梯度的绝对值来实现:

α i = 1 M ∑ m = 1 M ∣ g i ( x m ) ∣ , g i ( x m ) = ∂ ( L ( y m , f ( x m , θ n ) ) ) ∂ n i \alpha_i = \frac{1}{M} \sum_{m=1}^{M} |g_i(x_m)|, \quad g_i(x_m) = \frac{\partial (L(y_m, f(x_m, \theta_n)))}{\partial n_{i}} αi=M1m=1Mgi(xm),gi(xm)=ni(L(ym,f(xm,θn)))

其中, n i n_i ni是第 i i i个神经元的输出。

c. 应用局部神经抑制和折扣抑制,更新正则化项 R S S L ( H l ) R_{SSL}(H_l) RSSL(Hl)

R S L N I D ( H l ) = 1 M ∑ i , j e − ( α i + α j ) e − ( i − j ) 2 2 σ 2 ∑ m h m i h m j , for  i ≠ j R_{SLNID}(H_l) = \frac{1}{M} \sum_{i,j} e^{-(\alpha_i + \alpha_j)} e^{-\frac{(i-j)^2}{2\sigma^2}} \sum_{m} h_{m_i} h_{m_j}, \quad \text{for } i \neq j RSLNID(Hl)=M1i,je(αi+αj)e2σ2(ij)2mhmihmj,for i=j

其中, h m i h_{m_i} hmi是第 m m m个输入在隐藏层的激活值, σ 2 \sigma^2 σ2是高斯函数的方差,控制局部邻域的范围。它通过考虑神经元的重要性和它们之间的空间距离来调整相互间的抑制强度。

d. 更新网络参数 θ \theta θ,通过梯度下降或其他优化算法最小化目标函数。

  1. 重复步骤 2,直到所有任务都已学习。
  2. 在新任务学习时,通过保留未使用的神经元和减少对重要神经元的干扰,减少对先前任务的遗忘,并提高新任务的学习效率。

4 实验分析

图1展示了参数稀疏(a)与表示稀疏(b)在简单双任务案例中的区别,其中参数稀疏导致第二层及更深层的激活在新任务学习时发生改变,而表示稀疏通过限制激活的神经元数量减少了这种干扰。实验结论表明,表示稀疏(如SLNID方法所采用的)相比于参数稀疏,在序列学习中能更有效地减少新任务对旧任务的干扰,从而提高了模型在连续任务学习中的性能和稳定性。

图2展示了在5个排列MNIST序列上不同正则化技术的比较,其中基于表示的正则化技术(实心条形)表现优于基于参数的正则化(带线条的条形)和激活函数(点状条形),特别是SLNID正则化在最后两个任务上表现最佳,表明其在保留网络容量以学习后续任务方面更为有效。实验结论表明,基于表示的正则化方法,尤其是SLNID,能够在序列学习中更好地维持性能,特别是在学习序列中较晚出现的任务时,这表明这些方法在保留网络容量以适应新任务方面更为有效。

5 思考

(1)参数稀疏与表示稀疏分别是什么意思?有哪些代表性算法?

  1. 参数稀疏(Parameter Sparsity)
    • 定义:参数稀疏指的是网络中的权重参数本身是稀疏的,即许多权重值为零或接近零。这意味着网络中只有少数连接是活跃的,而大部分连接可以被忽略。
    • 代表性算法
      • 权重衰减(Weight Decay):通过在损失函数中添加L1或L2正则化项来实现参数的稀疏性,L1正则化倾向于产生更稀疏的解。
      • Pruning:这是一种后训练技术,通过移除那些对输出影响最小的权重来减少网络的复杂度。
      • Sparse Coding:在信号处理和机器学习中,通过优化使得编码向量中只有少数非零元素,用于特征提取和压缩。
  2. 表示稀疏(Representation Sparsity)
    • 定义:表示稀疏指的是网络在处理输入时产生的激活模式是稀疏的,即在任何给定时间,只有少数神经元处于激活状态,而大多数神经元的激活值接近零。
    • 代表性算法
      • ReLU激活函数:由于ReLU函数将负值置为零,它自然倾向于产生稀疏的激活。
      • L1正则化应用于激活:通过对激活值施加L1正则化,鼓励模型学习到更稀疏的表示。
      • 自编码器(Autoencoders):特别是稀疏自编码器,它们通过正则化项强制编码表示为稀疏形式。
      • 文章中提到的SLNID:通过局部神经抑制和折扣抑制来实现表示稀疏,减少新任务学习时对旧任务的干扰。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/64230.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

结构方程模型【SEM】:嵌套分层数据及数据分组分析

结构方程模型(System of Equations Model,简称SEM),在生态学和环境科学中通常指的是一组描述生态系统中能量、物质和信息流动的数学方程。这些方程可以是确定性的,也可以是随机的,它们共同构成了一个模型&a…

hot100_56. 合并区间

以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。 请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。数据结构 二维链表存储每个区间 方法 先对每个区间的…

Python大数据:基于Python的王者荣耀战队数据分析系统的设计与实现

系统展示 比赛信息管理 看板展示 系统管理 摘要 本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析,然后搭建开发平台以及配置计算机软硬件;通过对数据流图以及系统结构的设计,创建相应的数据…

两分钟解决:vscode卡在设置SSH主机,VS Code-正在本地初始化VSCode服务器

问题原因 remote-ssh还是有一些bug的,在跟新之后可能会一直加载初始化SSH主机解决方案 1.打开终端2.登录链接vscode的账号,到家目录下3.找到 .vscode-server文件,删掉这个文件4.重启 vscode 就没问题了

day26 文件io

函数接口 1 .open和close 文件描述符:系统为用open打开的文件分配的标识符 非负的整形数据 0-1023 最小未被使用原则 使用完时及时释放,避免文件描述符溢出 文件描述溢出就是文件使用完没有及时关闭文件 int open(const char *pathname, int flags); /…

Java Stream流详解——串行版

Stream流——串行版 ​ Stream流是java8引入的特性&#xff0c;极大的方便了我们对于程序内数据的操作&#xff0c;提高了性能。通过函数式编程解决复杂问题。 1.BaseStream<T,S extense BaseStream<T,S>> ​ 他是流处理的基石概念&#xff0c;重点不在于这个接…

el-backtop(返回顶部)

案例&#xff1a; <el-backtop target".app-main"><svg-icon icon-class"backtop" size"24px" /></el-backtop>

探秘“香水的 ChatGPT”:AI 开启嗅觉奇幻之旅!

你没有看错&#xff0c;AI也能闻到味道了&#xff01;这是一家名为Osmo公司公布的信息&#xff0c;他们成功创造出了由AI生成的李子味道&#xff0c;快跟着小编一探究竟吧~ 【图片来源于网络&#xff0c;侵删】 Osmo公司的这项技术&#xff0c;通过分析香味的化学成分和人类嗅…

电子配件行业的未来之路:产品说明书数字化转型的力量

在科技飞速发展的今天&#xff0c;电子配件行业作为科技创新的前沿阵地&#xff0c;正经历着前所未有的变革。从智能手机、平板电脑到智能穿戴设备&#xff0c;各种新型电子配件层出不穷&#xff0c;极大地丰富了人们的生活。然而&#xff0c;随着产品种类的增多和功能的复杂化…

Vscode + gdbserver远程调试开发板指南:

本章目录 步骤环境准备网络配置vscode配置步骤 (全图示例)开发板配置开始调试注意: 每次断开之后&#xff0c;开发板都需要重新启动gdbserver才可调试。 参考链接: 步骤 环境准备 将交叉编译链路径加入$PATH变量&#xff1a;确保系统能够找到所需的工具。 export PATH$PATH:/p…

对外发PDF设置打开次数

在线 Host PDF 文件并对链接进行限制——保障文件安全的最佳解决方案 在数字化办公和远程协作日益普及的今天&#xff0c;如何安全高效地分享 PDF 文件成为许多用户关注的重点。MaiPDF 作为一款功能强大的在线工具&#xff0c;不仅支持在线 host PDF 文件&#xff0c;还提供多…

VS2022 中的 /MT /MTd /MD /MDd 选项

我们有时编译时,需要配置这个 运行库,指定C/C++运行时库的链接方式。 如下图 那么这些选项的含义是什么? /MT:静态链接多线程库 /MT选项代表“Multi-threaded Static”,即多线程静态库。选择此选项时,编译器会从运行时库中选择多线程静态连接库来解释程序中的代码,…

MacOS下TestHubo安装配置指南

TestHubo是一款开源免费的测试管理工具&#xff0c; 下面介绍MacOS私有部署的安装与配置。TestHubo 私有部署版本更适合有严格数据安全要求的企业&#xff0c;支持在本地或专属服务器上运行&#xff0c;以实现对数据和系统的完全控制。 1、Mac 服务端安装 Mac安装包下载地址&a…

Amazon Bedrock 实践 - 利用 Llama 3.2 模型分析全球糖尿病趋势

黄浩文 资深开发者布道师 亚马逊云科技 拥有电信、互联网以及云计算等行业超过 20 年的丰富经验&#xff0c;曾任职于微软、Sun 和中国电信。他目前专注于生成式 AI、大型语言模型 (LLM)、机器学习和数据科学等领域的技术内容创作和实践分享&#xff0c;致力于赋能全球开发者。…

期权懂|如何计算期权卖方平仓后的盈利?

锦鲤三三每日分享期权知识&#xff0c;帮助期权新手及时有效地掌握即市趋势与新资讯&#xff01; 如何计算期权卖方平仓后的盈利&#xff1f; 期权卖方平仓后的盈利计算涉及多个因素&#xff0c;包括期权的交易价格、平仓价格以及权利金的变动等。 交易价格&#xff1a;期权卖…

【连续学习之VCL算法】2017年论文:Variational continual learning

1 介绍 年份&#xff1a;2017 期刊&#xff1a; arXiv preprint Nguyen C V, Li Y, Bui T D, et al. Variational continual learning[J]. arXiv preprint arXiv:1710.10628, 2017. 本文提出的算法是变分连续学习&#xff08;Variational Continual Learning, VCL&#xf…

多视图 (Multi-view) 与多模态 (Multi-modal)

多视图 (Multi-view) 与多模态 (Multi-modal) 是两种不同的数据处理方式&#xff0c;它们在机器学习和数据分析中有着重要的应用。尽管这两者有一些相似之处&#xff0c;但它们关注的角度和处理方法有所不同。 多视图 (Multi-view) 定义&#xff1a;多视图指的是同一数据对象…

【Transformer】深入浅出自注意力机制

写在前面&#xff1a;博主本人也是刚接触计算机视觉领域不久&#xff0c;本篇文章是为了记录自己的学习&#xff0c;大家一起学习&#xff0c;有问题欢迎大家指出。&#xff08;博主本人的习惯是看文章看到不懂的有立马去看不懂的那块&#xff0c;所以博文可能内容比较杂&#…

HarmonyOS NEXT 实战之元服务:静态案例效果---教育培训服务

背景&#xff1a; 前几篇学习了元服务&#xff0c;后面几期就让我们开发简单的元服务吧&#xff0c;里面丰富的内容大家自己加&#xff0c;本期案例 仅供参考 先上本期效果图 &#xff0c;里面图片自行替换 效果图1完整代码案例如下&#xff1a; import { authentication } …

互联网视频云平台EasyDSS无人机推流直播技术如何助力野生动植物保护工作?

在当今社会&#xff0c;随着科技的飞速发展&#xff0c;无人机技术已经广泛应用于各个领域&#xff0c;为我们的生活带来了诸多便利。而在动植物保护工作中&#xff0c;无人机的应用更是为这一领域注入了新的活力。EasyDSS&#xff0c;作为一款集视频处理、分发、存储于一体的综…