目录
- 一.正则化
- 1.1 正则化的好处
- 1.2 正则化的实现方式
- 二.正则化改进线性回归的成本函数
- 2.1 正则化后的成本函数的意义
- 2.2 λ参数的作用
- 2.3 不同λ对算法的影响
- 2.4 为什么参数b没有正则化项
- 三.正则化线性回归的梯度下降
- 3.1 为什么正则化可以在梯度下降迭代中减小w
- 3.2 导数的计算过程(选修)
- 四.正则化改进逻辑回归的成本函数
- 五.正则化逻辑回归的梯度下降
- 总结
一.正则化
1.1 正则化的好处
可以使参数变小,参数值越小,模型越简单,过拟合的可能性变小。
1.2 正则化的实现方式
成本函数中添加正则化项来约束w参数,从而选择较小的参数值。
二.正则化改进线性回归的成本函数
由原来的均方误差项和新加的正则化项组成。λ表示正则化参数,乘法参数b的影响不大,因此参数b不使用正则化项。
2.1 正则化后的成本函数的意义
参数构建的模型可以更好的拟合数据,同时让w参数尽可能的小,减少过拟合的风险。
2.2 λ参数的作用
λ决定这两项的权重性。
2.3 不同λ对算法的影响
- λ为0
这是一种极端情况,正则化项等于不存在,因此模型会发生过拟合。 - λ为10的10次方
另一种极端情况,正则化权重很大,因此w参数都接近0,才能最小化正则化项。由于w都接近0,fx近乎等于b,模型只是一条直线了,发生了欠拟合。
- 理想λ
平衡第一项和第二项,既能最小化均方误差,也能保持w参数较小(后续会讲如何选择λ)。
2.4 为什么参数b没有正则化项
b对模型的复杂性影响不大,因此一般不添加b的正则化项。
三.正则化线性回归的梯度下降
3.1 为什么正则化可以在梯度下降迭代中减小w
- 公式展开后重新合并,公式第一项是新加的,第二项是旧形式的成本函数。
- 第一项里,λ是1-10的数,α是类似0.01的数,因此每次梯度下降迭代,wj都会乘以略小于1的数,因此w参数会慢慢减小。
3.2 导数的计算过程(选修)
四.正则化改进逻辑回归的成本函数
五.正则化逻辑回归的梯度下降
和线性回归的梯度下降公式一样,唯一的区别是公式里的f(x)表达式不同。同样,b参数没有正则化项。
总结
正则化是一种减少模型过拟合风险的技术。具体操作是在成本函数中添加一个正则化项,这有助于约束权重参数 w 的大小。通常,不需要对参数 b 进行正则化,因为 b 对模型的复杂度影响相对较小。正则化的关键在于参数 λ,一个合适的 λ 值能帮助我们平衡模型拟合数据的能力与减少过拟合的需求。无论是线性回归还是逻辑回归,其成本函数都可以通过引入正则化项得到改进。使用梯度下降法更新正则化后的成本函数,可以有效找到最佳的 w 和 b,从而构建出既能良好拟合数据又能控制过拟合的模型。