前一节我们描述了过拟合的问题,本节我们将介绍一些正则化模型的技术。 我们总是可以通过去收集更多的训练数据来缓解过拟合。 但这可能成本很高,耗时颇多,或者完全超出我们的控制,因而在短期内不可能做到。 假设我们已经拥有尽可能多的高质量数据,我们便可以将重点放在正则化技术上。
回想一下,在多项式回归的例子中, 我们可以通过调整拟合多项式的阶数来限制模型的容量。 实际上,限制特征的数量是缓解过拟合的一种常用技术。 然而,简单地丢弃特征对这项工作来说可能过于生硬。 我们继续思考多项式回归的例子,考虑高维输入可能发生的情况。 多项式对多变量数据的自然扩展称为单项式(monomials), 也可以说是变量幂的乘积。 单项式的阶数是幂的和。 例如, x 1 2 x 2 x_{1}^{2}x_{2} x12x2和 x 3 x 5 2 x_{3}x_{5}^{2} x3x52都是 3 3 3次单项式。
在前面, 我们已经描述了 L 1 L_{1} L1范数和 L 2 L_{2} L2范数, 它们是更为一般的 L p L_{p} Lp范数的特殊情况。
-
正则化是处理过拟合的常用方法:在训练集的损失函数中加入惩罚项,以降低学习到的模型的复杂度。
-
保持模型简单的一个特别的选择是使用 L 2 L_{2} L2惩罚的权重衰减。这会导致学习算法更新步骤中的权重衰减。
-
权重衰减功能在深度学习框架的优化器中提供。
-
在同一训练代码实现中,不同的参数集可以有不同的更新行为。