文章目录
- 前言
- 一、向量范数
- 1.L0范数
- 1.1定义
- 1.2计算式
- 1.3特点
- 1.4应用场景
- 1.4.1特征选择
- 1.4.2压缩感知
- 2.L1范数(曼哈顿范数)
- 2.1定义
- 2.2计算式
- 2.3特点
- 2.4应用场景
- 2.4.1L1正则化
- 2.4.2鲁棒回归
- 3.L2范数(欧几里得范数)
- 3.1定义
- 3.2特点
- 3.3应用场景
- 4.L∞范数(最大范数)
- 4.1定义
- 4.2计算式
- 4.3特点
- 4.4应用场景
- 5.Lp范数(广义范数)
- 5.1定义
- 5.2计算式
- 5.3特点
- 二、矩阵范数
- 1. Frobenius范数(矩阵L2范数)
- 1.1定义
- 1.2特点
- 1.3应用场景
- 2. 核范数(迹范数)
- 2.1定义
- 2.2计算式
- 2.3特点
- 2.4应用场景
- 3. 谱范数(最大奇异值范数)
- 3.1定义
- 3.2计算式
- 3.3特点
- 3.4应用场景
- 三、范数在深度学习中的核心应用
- 1. 正则化(防止过拟合)
- 1.1L1正则化
- 1.2L2正则化
- 2. 损失函数设计
- 2.1L1损失
- 2.2L2损失
- 3. 权重约束与优化
- 3.1梯度裁剪
- 3.2谱归一化
- 4. 模型压缩与稀疏化
- 4.1L1正则化
- 4.2结构化范数
- 5. 对抗防御
- 5.1L∞范数
- 四、不同范数的对比与选择
- 五、总结
- L1/L2范数
- 矩阵范数
- 范数选择原则
前言
本文介绍了一系列范数的定义、计算、使用。比如L1\L2\L∞\Frobenius范数(矩阵L2范数),用于正则化(防止过拟合)、损失函数。
一、向量范数
1.L0范数
1.1定义
向量中非零元素的数量
1.2计算式
1.3特点
- 非凸且计算困难(NP难问题)。
- 用于稀疏性约束,但实际常用L1范数替代。
1.4应用场景
1.4.1特征选择
特征选择(稀疏特征提取)。
1.4.2压缩感知
压缩感知(信号稀疏表示)。
2.L1范数(曼哈顿范数)
2.1定义
定义:向量元素绝对值之和。
2.2计算式
2.3特点
- 凸函数,可优化性强。
- 诱导稀疏性:优化过程中倾向于将部分参数置零。
- 几何解释:菱形等高线,在坐标轴处有“尖角”(稀疏性来源)。
2.4应用场景
2.4.1L1正则化
L1正则化(Lasso):用于线性回归、神经网络权重稀疏化。
2.4.2鲁棒回归
鲁棒回归(如最小绝对偏差)。
3.L2范数(欧几里得范数)
3.1定义
定义:向量元素平方和的平方根。
3.2特点
- 严格凸,优化稳定。
- 抑制大参数值,防止过拟合。
- 几何解释:圆形等高线,各方向平滑下降。
3.3应用场景
- L2正则化(岭回归、权重衰减):防止模型过拟合。
- 损失函数(如均方误差损失)。
4.L∞范数(最大范数)
4.1定义
定义:向量元素绝对值的最大值。
4.2计算式
4.3特点
- 关注最大幅值的元素。
- 在对抗样本生成中用于约束扰动大小。
4.4应用场景
- 对抗训练(限制扰动的最大幅度)。
- 梯度裁剪(防止梯度爆炸)。
5.Lp范数(广义范数)
5.1定义
定义:向量元素绝对值的p次方和的1/p次幂。
5.2计算式
5.3特点
p=1时为L1范数,p=2时为L2范数,p→∞时趋近L∞范数。
不同p值对应不同的稀疏性和平滑性权衡。
二、矩阵范数
1. Frobenius范数(矩阵L2范数)
1.1定义
定义:矩阵元素平方和的平方根。
1.2特点
- 将矩阵视为向量后计算L2范数。
- 衡量矩阵的“总能量”。
1.3应用场景
- 权重矩阵的正则化(如全连接层参数约束)。
- 矩阵分解(如PCA、SVD)。
2. 核范数(迹范数)
2.1定义
定义:矩阵奇异值之和。
2.2计算式
2.3特点
- 反映矩阵的低秩性质。
- 用于低秩矩阵恢复。
2.4应用场景
- 推荐系统(矩阵补全,如Netflix问题)。
- 鲁棒PCA(分离低秩矩阵与稀疏噪声)。
3. 谱范数(最大奇异值范数)
3.1定义
定义:矩阵的最大奇异值。
3.2计算式
3.3特点
- 衡量矩阵对向量的最大拉伸程度。
- 与Lipschitz连续性相关。
3.4应用场景
- 生成对抗网络(GAN):约束判别器的Lipschitz常数。
- 谱归一化(稳定训练过程)。
三、范数在深度学习中的核心应用
1. 正则化(防止过拟合)
1.1L1正则化
L1正则化:通过稀疏化权重减少模型复杂度(如Lasso回归)。
1.2L2正则化
L2正则化:通过限制权重幅度防止过拟合(如岭回归、神经网络权重衰减)。
2. 损失函数设计
2.1L1损失
L1损失(MAE):对异常值鲁棒,用于回归任务。
2.2L2损失
L2损失(MSE):对异常值敏感,但优化更稳定。
3. 权重约束与优化
3.1梯度裁剪
梯度裁剪:使用L2或L∞范数限制梯度大小,防止梯度爆炸。
3.2谱归一化
谱归一化:通过谱范数约束网络层的Lipschitz常数(如WGAN)。
4. 模型压缩与稀疏化
4.1L1正则化
L1正则化:生成稀疏权重矩阵,便于模型压缩(如剪枝)。
4.2结构化范数
结构化范数(如Group Lasso):约束特定参数组的稀疏性。
5. 对抗防御
5.1L∞范数
L∞约束:限制对抗扰动的大小(如对抗训练中的PGD攻击)。
四、不同范数的对比与选择
范数类型 稀疏性 计算复杂度 典型应用
L0 最强 NP难 理论分析,实际中少用
L1 强 低 特征选择、稀疏模型
L2 无 低 防止过拟合、稳定优化
L∞ 无 低 对抗训练、梯度裁剪
Frobenius 无 中 矩阵正则化、分解
核范数 低秩性 高 推荐系统、低秩恢复
五、总结
L1/L2范数
L1/L2范数:基础正则化工具,分别诱导稀疏性和平滑性。
矩阵范数
矩阵范数:处理高维数据、低秩建模及稳定训练。
范数选择原则
- 根据任务需求(稀疏性、低秩性、鲁棒性)。
- 考虑计算效率和优化难度。
- 结合模型结构(如卷积层常用Frobenius范数,全连接层用L2)。
理解不同范数的特性及其几何意义,能够帮助设计更高效的模型架构、正则化策略和优化方法,从而提升深度学习模型的性能和泛化能力。