深入理解L1、L2正则化

深入理解L1、L2正则化

转自:【面试看这篇就够了】L1、L2正则化理解

一、概述

正则化(Regularization)是机器学习中一种常用的技术,其主要目的是控制模型复杂度,减小过拟合。正则化技术已经成为模型训练中的常用技术,在面试中,经常会遇到面试官问此题。由于正则化已经成为一种标准的技术,日常使用中往往都是直接用,而没有特别了解背后的原理。而如果面试中回答得不够好,或者没回答清楚,就会非常影响面试结果。因此非常有必要将此题弄清楚。本文便是秉承着这样的一种目的,给大家详尽而又彻底地讲解这个问题。遇到面试的时候,看这篇文章就够用了。

最基本的正则化方法是在原目标(代价)函数 中添加惩罚项,对复杂度高的模型进行“惩罚”。其数学表达形式为
J~(ω;X,y)=J(ω;X,y)+αΩ(ω)\widetilde{J}(\omega;X,y)={J}(\omega;X,y)+\alpha\Omega(\omega) J(ω;X,y)=J(ω;X,y)+αΩ(ω)
式中 XXXyyy 为训练样本和对应标签,ω\omegaω 为权重系数的向量,J(⋅)J(\cdot)J() 为目标函数,Ω(ω)\Omega(\omega)Ω(ω) 即为惩罚项,可理解为模型“规模”的某种度量,参数 α\alphaα 用于控制正则化的强弱。不同的 Ω(⋅)\Omega(\cdot)Ω() 函数对权重 ω\omegaω 的最优解有不同的偏好,因而会产生不同的正则化效果。最常用的 Ω\OmegaΩ 函数有两种,即 L1L_1L1 范数和 L2L_2L2 范数,相应称之为 L1L_1L1 / L2L_2L2 正则化。

L1L_1L1 正则化是指权重向量 ω\omegaω 中各个元素绝对值之和:
Ω(ω)=∣∣ω∣∣1=∑i∣ωi∣\Omega(\omega)=||\omega||_1=\sum_i|\omega_i| Ω(ω)=∣∣ω1=iωi
L2L_2L2 正则化是指权重向量 ω\omegaω 中各个元素的平方和:
Ω(w)=∣∣ω∣∣2=∑iωi2\Omega(w)=||\omega||_2=\sum_i\omega^2_i Ω(w)=∣∣ω2=iωi2

二、对 L1L_1L1L2L_2L2 的理解方式

本小节将从不同的方式对 L1L_1L1L2L_2L2 进行讲解,方便读者对 L1L_1L1L2L_2L2 的作用有一个更深的理解。同时在面试的时候,也可以更加从容地回答面试官的问题。本人通过阅读、总结网络上的各种文章,提供5种理解方式:

  1. 正则化理解之最大后验概率估计
  2. 正则化理解之梯度
  3. 正则化理解之等高线图
  4. 正则化理解之数学公式解析
  5. 正则化理解之结构风险最小化

1 正则化理解之最大后验概率估计

最大似然估计中,假设权重 ω\omegaω 是位置的参数,有对数似然函数:
L(ω)=ln[P(y∣X;ω)]=ln∏iP(yi∣xi;ω)L(\omega)=ln[P(y|X;\omega)]=ln\prod_iP(y^{i}|x^i;\omega) L(ω)=ln[P(yX;ω)]=lniP(yixi;ω)
通过假设 yiy^iyi 不同的概率分布,可得到不同的模型。例如假设 yi∼N(ωTxi,σ2)y^i\sim N(\omega^Tx^i,\sigma^2)yiN(ωTxi,σ2) 的高斯分布,则有:
L(ω)=ln∏12πσe−(yi−ωTxi)22σ2=−12σ2∑i(yi−ωTxi)2+CL(\omega)=ln\prod \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^i-\omega^Tx^i)^2}{2\sigma^2}}=-\frac{1}{2\sigma^2}\sum_i(y^i-\omega^Tx^i)^2+C L(ω)=ln2πσ1e2σ2(yiωTxi)2=2σ21i(yiωTxi)2+C
式中 CCC 为常数项,由于常数项和系数项不影响 maxL(ω)maxL(\omega)maxL(ω) 的解,因而可令 J(ω;X,y)=−L(ω)J(\omega;X,y)=-L(\omega)J(ω;X,y)=L(ω) 即可得到线性回归的代价函数。

最大后验概率估计中,则将权重 ω\omegaω 看做随机变量,也具有某种分布,从而有:
P(ω∣X,y)=P(ω,X,y)P(X,y)=P(X,y∣ω)P(ω)P(X,y)∝P(y∣X,ω)P(ω)P(\omega|X,y)=\frac{P(\omega,X,y)}{P(X,y)}=\frac{P(X,y|\omega)P(\omega)}{P(X,y)}\propto P(y|X,\omega)P(\omega) P(ωX,y)=P(X,y)P(ω,X,y)=P(X,y)P(X,yω)P(ω)P(yX,ω)P(ω)
同样取对数有:
MAP=lnP(y∣X,ω)P(ω)=lnP(y∣X,ω)+lnP(ω)MAP=lnP(y|X,\omega)P(\omega)=lnP(y|X,\omega)+lnP(\omega) MAP=lnP(yX,ω)P(ω)=lnP(yX,ω)+lnP(ω)
可以看出后验概率函数未在似然函数的基础上增加了一项 lnP(ω)lnP(\omega)lnP(ω)P(ω)P(\omega)P(ω) 的意义是对权重系数 ω\omegaω 的概率分布的先验假设,在收集到训练样本 {X,y}\{X,y\}{X,y} 之后,则根据 ω\omegaω{X,y}\{X,y\}{X,y} 下的后验概率对 ω\omegaω 进行修正,从而对 ω\omegaω 做出更好的估计。

若假设 ωj\omega_jωj 的先验分布为 0 均值的高斯分布,即 ωj∼N(0,σ2)\omega_j\sim N(0,\sigma^2)ωjN(0,σ2) ,则有:
lnP(ω)=ln∏jP(ωj)=ln∏j12πσe−ωj22σ2=−12σ2∑jωj2+C′lnP(\omega)=ln\prod_jP(\omega_j)=ln\prod_j\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\omega_j^2}{2\sigma^2}}=-\frac{1}{2\sigma^2}\sum_j\omega_j^2+C' lnP(ω)=lnjP(ωj)=lnj2πσ1e2σ2ωj2=2σ21jωj2+C
可以看到,在高斯分布下 lnP(ω)lnP(\omega)lnP(ω) 的效果等价于在代价函数中增加 L2L_2L2 正则项。

若假设 ωj\omega_jωj 服从均值为 0、参数为 aaa 的拉普拉斯分布,即:
P(ωj)=12ae−∣ωj∣aP(\omega_j)=\frac{1}{\sqrt{2a}}e^{\frac{-|\omega_j|}{a}} P(ωj)=2a1eaωj
则有:
logP(ω)=log∏j12ae−∣ωj∣a=−1a∑j∣wj∣+C′logP(\omega)=log\prod_j\frac{1}{\sqrt{2a}}e^\frac{-|\omega_j|}{a}=-\frac{1}{a}\sum_j|w_j|+C' logP(ω)=logj2a1eaωj=a1jwj+C
可以看到,在拉普拉斯分布下 lnP(ω)lnP(\omega)lnP(ω) 的效果等价于在代价函数中增加 L1L_1L1 正则项。

故此,我们得到对于 L1L_1L1L2L_2L2 正则化的第一种理解:

  • L1L_1L1 正则化可通过假设权重 ω\omegaω 的先验分布为拉普拉斯分布im,由最大后验概率估计导出;
  • L2L_2L2 正则化可通过假设权重 ω\omegaω 的先验分布为高斯分布,由最大后验概率估计导出。

在这里插入图片描述

2 正则化理解之梯度

L1L_1L1ω\omegaω 绝对值之和。当 ω\omegaω 大于 0 时,梯度式中为正常数,更新的参数 ω\omegaω 变小;当 ω\omegaω 小于 0 时,梯度始终为负常数,更新的参数 ω\omegaω 变大;所以,L1L_1L1 正则化容易使参数变为 0 ,即特征稀疏化。

L2L_2L2ω\omegaω 平方和。当 ω\omegaω 趋向于 0 时,参数减小得非常缓慢,因此 L2L_2L2 正则化是参数减小到很小的范围,但不为 0 。

3 正则化理解值等值线图

易得,略。

4 正则化理解之数学公式解析

假设原目标函数 J(ω)J(\omega)J(ω) 的最优解 ω∗\omega^*ω ,并假设其为二阶可导,将 J(ω)J(\omega)J(ω)ω∗\omega^*ω 处进行二阶泰勒展开:
J~(ω)=J(ω∗)=12(ω−ω∗)TH(ω−ω∗)\widetilde{J}(\omega)=J(\omega^*)=\frac{1}{2}(\omega-\omega^*)^TH(\omega-\omega^*) J(ω)=J(ω)=21(ωω)TH(ωω)
式中 HHHJ(ω)J(\omega)J(ω)ω∗\omega^*ω 处的 Hessian 矩阵,注意 ω∗\omega^*ωJ(ω)J(\omega)J(ω) 的最优解,其一阶导数为 0,因而式中无一阶导数项。J~(ω)\widetilde{J}(\omega)J(ω) 取得最小值时有:
∇ωJ~(ω)=H(ω−ω∗)=0\nabla_\omega\widetilde{J}(\omega)=H(\omega-\omega^*)=0 ωJ(ω)=H(ωω)=0
由于 L2L_2L2 正则化的目标函数为在 J(ω)J(\omega)J(ω) 中添加 Ω(ω)=12α∣∣ω∣∣22=12αωTω\Omega(\omega)=\frac{1}{2}\alpha||\omega||^2_2=\frac{1}{2}\alpha\omega^T\omegaΩ(ω)=21α∣∣ω22=21αωTω ,因而有:
∇ωJ~(ω)=∇ωJ^(ω)+∇ωΩω=H(ω−ω∗)+αω\nabla_\omega\widetilde{J}(\omega)=\nabla_{\omega}\hat{J}(\omega)+\nabla_\omega\Omega_\omega=H(\omega-\omega^*)+\alpha\omega ωJ(ω)=ωJ^(ω)+ωΩω=H(ωω)+αω
设其最优解为 ω~\widetilde{\omega}ω ,则有:
H(ω~−ω∗)+αω~=0H(\widetilde{\omega}-\omega^*)+\alpha\widetilde{\omega}=0 H(ωω)+αω=0

ω~=(H+αI)−1Hω∗\widetilde{\omega}=(H+\alpha I)^{-1}H\omega^* ω=(H+αI)1Hω

由于 HHH 是对称矩阵,可对其做特征值分解,即 H=QΛQ−1H=Q\Lambda Q^{-1}H=QΛQ1 ,其中 QQQ 为正交矩阵,且每一列为 HHH 的特征向量,代入上式有:
ω~=Q(Λ+αI)−1ΛQTω∗\widetilde{\omega}=Q(\Lambda+\alpha I)^{-1}\Lambda Q^T\omega^* ω=Q(Λ+αI)1ΛQTω
其中 Λ\LambdaΛ 为对角矩阵,其对角线元素为 HHH 的特征值 λj\lambda_jλj

ω∗\omega^*ω 可以 QQQ 为正交基上做线性展开,由上式可知 ω~\widetilde{\omega}ωω∗\omega^*ωHHH 的每个特征向量上的分量以 λjλj+α\frac{\lambda_j}{\lambda_j+\alpha}λj+αλj 比例缩放得到。若 λj≫α\lambda_j\gg\alphaλjα ,则 ωj\omega_jωj 受正则化的影响较小;若 λ≪α\lambda\ll\alphaλα ,则 ωj∗\omega_j^*ωj 受正则化的影响较大,将收缩到接近于 0 的值。同时,若 ωj∗≠0\omega^*_j\ne0ωj=0 ,则 ω~j≠0\widetilde{\omega}_j\ne0ωj=0 ,因而 L2L_2L2 正则化不会产生稀疏性的效果。

对于 L1L_1L1 正则化,只需将 Ω(ω)\Omega(\omega)Ω(ω) 替换为 ω\omegaωL1L_1L1 范数,同理可以得到:
∇ωJ~(ω)=∇J^(ω)+∇ωΩ(ω)=H(ω−ω∗)+αsign(ω)\nabla_\omega\widetilde{J}(\omega)=\nabla\hat{J}(\omega)+\nabla_\omega\Omega(\omega)=H(\omega-\omega^*)+\alpha sign(\omega) ωJ(ω)=J^(ω)+ωΩ(ω)=H(ωω)+αsign(ω)
其最优解满足:
H(ω~−ω∗)+αsign(ω~)=0H(\widetilde{\omega}-\omega^*)+\alpha sign(\widetilde{\omega})=0 H(ωω)+αsign(ω)=0
为了简化讨论,我们假设 HHH 为对角阵,即 H=diag[H11,H22,…,Hnn]H=diag[H_{11},H_{22},\dots,H_{nn}]H=diag[H11,H22,,Hnn]Hjj>0H_{jj}>0Hjj>0 。此时 ω\omegaω 的不同分量之间没有相关性,该假设可通过对输入特征进行预处理(如使用 PCA)得到,此时 ω~\widetilde{\omega}ω 的解为:
ω~=sign(ωj∗)max{∣ωj∗∣−αHjj,0}\widetilde{\omega}=sign(\omega_j^*)max\{|\omega_j^*|-\frac{\alpha}{H_{jj}},0\} ω=sign(ωj)max{ωjHjjα,0}
∣ωj∗∣≤αHjj|\omega^*_j|\le \frac{\alpha}{H_{jj}}ωjHjjα 时,可知 ω~j=0\widetilde{\omega}_j=0ωj=0 ,因而 L1L_1L1 正则化会使得最优解的某些元素为 0,从而产生稀疏性;∣ωj∗∣≥αHjj|\omega^*_j|\ge \frac{\alpha}{H_{jj}}ωjHjjα 时,ω~j\widetilde{\omega}_jωj 会在原有最优解上偏移一个常数值。

综上,L2L_2L2 正则化的效果是对原最优解的每个元素进行不同比例的放缩;L1L_1L1 正则化则会使原最优解的元素产生不同量的偏移,并使得某些元素为 0,从而产生稀疏性。

5 正则化理解之结构风险最小化

在经验风险最小化(也就是训练误差最小化)的基础上,尽可能采用简单的模型(奥卡姆剃刀理论),以此提高泛化预测精度。

  • L1L_1L1 从参数个数的角度去衡量模型的复杂度
  • L2L_2L2 从参数值的大小的角度去衡量模型的复杂度

三、L1L_1L1L2L_2L2 的适用场景

由于 L1L_1L1L2L_2L2 的特点,因此他们有各自不同的适用场景。

  • L1L_1L1 :使模型中尽可能多的参数值为 0,是一种从改变模型结构的角度(减少模型参数的数量)解决过拟合的方式。因此适用于:模型剪枝、模型压缩、特征选择
  • L2L_2L2 :使模型中所有的参数值尽可能小,是的模型尽量不依赖于某几个特殊的特征,而是使得每个特征得到尽量均衡的权重,即从参数分布(让分布尽可能地均匀)的角度,解决过拟合问题,这也是常用的解决过拟合的方式。因此适用于解决一般的过拟合问题

引用

MrLi:深入理解L1、L2正则化

bingo酱:L1正则化与L2正则化

落落大方的发卡:拉普拉斯分布

张小磊:极大似然估计与最大后验概率估计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/532434.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习中的概率模型

机器学习中的概率模型 转自:https://zhuanlan.zhihu.com/p/164551678 机器学习中的概率模型 概率论,包括它的延伸-信息论,以及随机过程,在机器学习中有重要的作用。它们被广泛用于建立预测函数,目标函数,以…

max std value 宏_Rust Macro/宏 新手指南

Rust语言最强大的一个特点就是可以创建和利用宏/Macro。不过创建 Rust宏看起来挺复杂,常常令刚接触Rust的开发者心生畏惧。这片文章 的目的就是帮助你理解Rust Macro的基本运作原理,学习如何创建自己的 Rust宏。相关链接:在线学编程 - 汇智网…

农林资金 大数据审计案例_大数据审计:现状与发展

大数据审计:现状与发展【摘要】传统手工环境下,审计人员常用的审计方法包括检查法、观察法、重新计算法、外部调查法、分析法、鉴定法等。随着信息技术的发展,被审计单位的运行越来越依赖于信息化环境。信息化环境下审计工作发生了巨大的变化…

angularjs sill 创建项目_开源项目——博客项目MyBlogs.Core,基于.NET 5

个人博客站项目源码,高性能低占用的博客系统,这也许是我个人目前写过的性能最高的web项目了 。目前日均处理请求数80-120w次,同时在线活跃用户数30-100人,数据量累计已达到100多万条,数据库Redis网站主程序同时运行在一…

怀旧服推荐配置_【怀旧服】狂暴战P4毕业装备推荐

在怀旧服开启P4阶段之后,狂暴战玩家的输出也得到了进一步的提升。当然,狂暴战想要打出足够的伤害离不开对应的装备,现在就给大家介绍下狂暴战P4阶段的BIS装备。散件装备狂暴战在这一阶段依旧有非常不错的散件装备,个人建议玩家入手…

高斯混合模型GMM及EM迭代求解算法(含代码实现)

高斯混合模型GMM及EM迭代求解算法(含代码实现) 高斯分布与高斯混合模型 高斯分布 高斯分布大家都很熟悉了,下面是一元高斯分布的概率密度函数(Probability Density Function,PDF): P(x)N(μ,…

十个模块_专栏 | ABAQUS Part模块的十个小技巧

作者介绍星辰_北极星2012年开始从事Abaqus仿真相关工作,服务大小课题逾百项; 主要仿真领域:石油工程、岩土工程和金属加工工艺; 重点研究方向:ABAQUS GUI二次开发、固体力学、断裂以及损伤等。Abaqus有部件(Part)和装配体(Assembl…

深度学习时代的视频理解综述

深度学习时代的视频理解综述 本文为b站bryanyzhu老师四期视频理解相关论文解读的汇总图文笔记。 我们先精读深度学习时代视频理解领域最为重要的两篇论文:双流网络和 I3D。它们分别是领域内两大类方法双流(利用光流)网络和 3D CNN 网络的代…

typec扩展坞hdmi没反应_typec扩展坞转hdmi/vga多功能网口usb转换器苹果华为电脑matebook6元优惠券券后价26.8元...

★typec扩展坞转hdmi/vga多功能网口usb转换器苹果华为电脑matebook,6元拼多多优惠券★券后价26.8元★★★typec扩展坞转hdmi/vga多功能网口usb转换器苹果华为电脑matebook¥26.8元¥32.8元已拼5097件点击抢购猜你喜欢[速发]喵喵机P1热敏打印机手…

NLP任务概览

NLP任务概览 本文为台湾大学李宏毅老师视频课程笔记。本课程介绍了 (2020年)NLP 领域常见的 17 种任务。本文只会从输入输出的角度概览多种 NLP 任务,并简介它们的常见做法,并不会细致地介绍每个任务模型的具体细节。 两种模式与…

大物实验总结模板_期中总结大会amp;期末动员大会

在逐渐降温的双创周麦包坊的期中总结暨期末动员大会来啦在学长团和小麦包的分享下希望大家重新启航奋斗期末板块一学长团经验分享面对本学期十二门科目,作为过来人的前辈们给出很多对本学期各科目的针对性建议,可谓是干货满满,快来瞧瞧吧&…

PTMs:NLP预训练模型的全面总结

PTMs:NLP预训练模型的全面总结 转自:https://zhuanlan.zhihu.com/p/115014536 预训练模型(Pre-trained Models,PTMs) 的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trained Models for Natur…

python中提取几列_Python一键提取PDF中的表格到Excel(实例50)

从PDF文件获取表格中的数据,也是日常办公容易涉及到的一项工作。一个一个复制吧,效率确实太低了。用Python从PDF文档中提取表格数据,并写入Excel文件,灰常灰常高效。上市公司的年报往往包含几百张表格,用它作为例子再合…

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解 声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。 本…

重新打开_iPhone 应用停止响应或无法打开的解决办法

如果当您在 iPhone 上使用某个重要应用时,遇到应用停止响应、意外退出或无法打开的问题,请参考如下步骤尝试解决:1.强制退出应用:在 iPhone 后台强制关闭该应用之后,再次重新打开看看。2.重启您的设备,然后…

机器学习理论——优雅的模型:变分自编码器(VAE)

机器学习理论——优雅的模型:变分自编码器(VAE) 转自:机器学习理论—优雅的模型(一):变分自编码器(VAE) 另外直观理解 VAE, 推荐 台大李宏毅老师的课程&#…

基于流的(Flow-based)生成模型简介

基于流的(Flow-based)生成模型简介 生成任务 我们先回顾一下所谓的生成任务,究竟是做什么事情。我们认为,世界上所有的图片,是符合某种分布 pdata(x)p_{data}(x)pdata​(x) 的。当然,这个分布肯定是个极其复杂的分布。而我们有一…

iec60870-5-104通讯协议编程_三菱FX编程口通讯协议1——协议解读

三菱PLC编程口通讯协议:1、三菱PLC编程口通讯协议有四个命令,如下:2、三菱FX系列PLC地址对应表:PLC_X Group Base AddRess128;Const PLC_Y_Group Base AddRess160;M _Group Base_AddRess 256;P…

DETR精读笔记

DETR精读笔记 论文:End-to-End Object Detection with Transformers (发表于 ECCV-2020) 代码:https://github.com/facebookresearch/detr 解读视频:DETR 论文精读【论文精读】 本笔记主要基于 Yi Zhu 老师的解读 引言…

GAN网络评估指标:IS、FID、PPL

GAN网络评估指标:IS、FID、PPL 转自:IS、FID、PPL,GAN网络评估指标 另外关于GAN的评价指标,推荐李宏毅老师的视频:【機器學習2021】生成式對抗網路 (Generative Adversarial Network, GAN) (三) – 生成器效能評估與條…