5. 正则化
5.0 手推L1,L2
5.1 什么是正则化,如何理解
定义: 在损失函数后加上一个正则化项(惩罚项),其实就是常说的结构风险最小化策略,即损失函数 加上正则化。一般模型越复杂,正则化值越大。
正则化项是用来对模型中某些参数进行约束,正则化的一般形式如下:
第一项是损失函数(经验风险),第二项是正则化项
公式可以看出,加上惩罚项后损失函数的值会增大,要想损失函数最小,惩罚项的值要尽可能的小,模型参数就要尽可能的小,这样就能减小模型参数,使得模型更加简单。
5.3 L0 L1 L2正则化
L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。L0范数不连续,不可求导,很难优化求解(NP难问题)
L1范数是指向量中各个元素绝对值之和。L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。
L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项 ||w||2 最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0。
5.3 L1 L2正则化的区别
稀疏性:L1>L2。L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。
鲁棒性:L1>L2。鲁棒性定义为对数据集中异常值的容忍力。L1 范数比L2范数更鲁棒,原因相当明显:从定义中可以看到,L2范数取平方值,因此它以指数方式增加异常值的影响;L1范数只取绝对值,因此它会线性地考虑它们。
解的数量:L1多个,L2一个。
5.4 L1在0处不可导是怎么处理的
- 坐标轴下降法是沿着坐标轴的方向,Eg: lasso回归的损失函数是不可导的
- 近端梯度下降(Proximal Algorithms)
- 交替方向乘子法(ADMM)