知识积累（二）：损失函数正则化与权重衰减

文章目录

1. 欧氏距离与L2范数
- 1.1 常用的相似性度量
2. 什么是正则化？
参考资料

本文只介绍 L2 正则化。

1. 欧氏距离与L2范数

欧氏距离也就是L2范数

1.1 常用的相似性度量

1）点积
2）余弦相似度
3）L1和L2

2. 什么是正则化？

正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。
2.1 正则化如何影响模型复杂度
1）loss（w，b）是 w 和 b 的函数。（这里的 w 和 b 简单理解就是 y = wx+b）
2）机器学习本质：损失函数找到最优解（损失函数最小点）。找最优解的过程就是参数 w 的不断梯度下降的过程。
即 w = w - lr *（loss对于w的梯度）
其中，lr是学习率。
3）整个网络模型本身是 w 和 b 的函数，b是偏置项，不在正则化考虑范围内。所以正则化就是通过约束模型的参数w来限制模型的复杂度。

2.2 L2正则化为什么叫权重衰减？
请添加图片描述
由上图可以看出，相较于不使用正则化的权重更新，加了正则化以后，每次权重更新之前，先让原来的 w 进行一次衰减。
这里的衰减率 a 是一个人为设置的超参数。

2.3 为什么权重衰减可以限制模型复杂度？
1）神经网络模型本质是在拟合一条曲线（函数）来完成不同类别的分类
曲线弯弯绕绕，过拟合
曲线太平，欠拟合
2）所以要想找到合适的曲线（函数），可以按照泰勒展开来理解，减少弯弯绕绕的过程就是降低高次项对于最终结果的影响。
3）权重衰减其实就是不断限制 w 的取值范围。通过对于 w 的限制来约束高次项的影响。（这里不做严格证明）

参考资料

【1】https://www.bilibili.com/video/BV1gf4y1c7Gg/?spm_id_from=333.337.search-card.all.click&vd_source=b4732b5f7a12a21575a1d3423f81fe9c
【2】https://blog.csdn.net/Accelerating/article/details/108218719#%E6%AC%A7%E6%B0%8F%E8%B7%9D%E7%A6%BB
【3】相似性度量：https://zhuanlan.zhihu.com/p/660426812

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/698120.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！