损失函数梯度对比-均方差和交叉熵

前言

我们都知道在机器学习中,希望算法或者网络收敛更快,有些是对数据预处理,尤其是Batch Normalization,有些是采用不同的激活函数,尤其是Relu激活函数取得了巨大的成功,还有一种加速收敛方法是更换损失函数。本博客就是针对均方差损失(MSE)和交叉熵损失的收敛速度做一个推导,当然少不了参考他人博客啦,但是参考归参考,重在自己推导一遍。

国际惯例,来一波地址

人工神经网络——【BP】反向传播算法证明

Kullback–Leibler divergence(相对熵,KL距离,KL散度)

交叉熵代价函数(作用及公式推导)

交叉熵代价函数

两种损失函数对比

前提条件

在三层BP神经网络(输入->隐层->输出)中,设yyy为模型输出,ooo为真实标注,激活函数为sigmoidsigmoidsigmoid(用σ\sigmaσ表示),输出层偏置为b,隐层单元值为h,隐层到输出层权重为www,这样就能得到y=σ(wh+b)y=\sigma(wh+b)y=σ(wh+b)

为了简便起见,只对比隐层中的一个单元与输出层之间的连接权重对于一个样本输入的更新梯度。提前关注sigmoidsigmoidsigmoid函数
σ(x)=11+e−x\sigma(x)=\frac{1}{1+e^{-x}} σ(x)=1+ex1
以及sigmoidsigmoidsigmoid函数的导数
σ′(x)=∂σ(x)x=σ(x)(1−σ(x))\sigma'(x)=\frac{\partial \sigma(x)}{x}=\sigma(x)(1-\sigma(x)) σ(x)=xσ(x)=σ(x)(1σ(x))
还有yyy对权重的导数
y′=∂y∂w=y(1−y)hy'=\frac{\partial y}{\partial w}=y(1-y)h y=wy=y(1y)h

均方差损失

函数表达为:
LMSE=12∣∣(o−y)∣∣22=12(o−y)2L_{\text{MSE}}=\frac{1}{2}||(o-y)||_2^2=\frac{1}{2}(o-y)^2 LMSE=21(oy)22=21(oy)2
权重梯度更新,更详细的推导看我前面的博客
∂LMSE∂w=(o−y)σ′(wh+b)h\frac{\partial L_{\text{MSE}}}{\partial w}=(o-y)\sigma'(wh+b)h wLMSE=(oy)σ(wh+b)h

交叉熵损失

函数表达为:
Lcross−entropy(o,y)=−([olog⁡y]+(1−o)log⁡(1−y))L_{cross-entropy}(o,y)=-([o\log y]+(1-o)\log(1-y)) Lcrossentropy(o,y)=([ology]+(1o)log(1y))
【题外话】为什么不能将交叉熵内的y,oy,oy,o互换位置呢?因为ooo是真实标注,可能取到0值,但是yyysigmoidsigmoidsigmoid激活的值,只能无限逼近0,而不会等于0。这样log⁡\loglog才有意义嘛。

权重更新梯度,利用到前提条件中yyy对权重的导数
∂Lcross-entropy∂w=−(oy⋅y′−1−o1−y⋅y′)=−[o−yy(1−y)⋅y′]=(y−o)h\begin{aligned} \frac{\partial L_{\text{cross-entropy}}}{\partial w}&=-(\frac{o}{y}\cdot y'-\frac{1-o}{1-y}\cdot y')\\ &=-\left[\frac{o-y}{y(1-y)}\cdot y'\right]\\ &=(y-o)h \end{aligned} wLcross-entropy=(yoy1y1oy)=[y(1y)oyy]=(yo)h

对比

因为是查看的是梯度更新的步长,所以不用关心正负,对比均方差和交叉熵两种损失函数更新梯度的绝对值即可
ΔMSE=∣o−y∣⋅∣σ′(wh+b)∣⋅∣h∣Δcross-entropy=∣y−0∣⋅∣h∣\Delta_{\text{MSE}}=|o-y|\cdot|\sigma'(wh+b)|\cdot|h|\\ \Delta_{\text{cross-entropy}}=|y-0|\cdot|h| ΔMSE=oyσ(wh+b)hΔcross-entropy=y0h
可以发现
ΔMSEΔcross-entropy=∣σ′(wh+b)∣≤0.25\frac{\Delta_{\text{MSE}}}{\Delta_{\text{cross-entropy}}}=|\sigma'(wh+b)|\leq0.25 Δcross-entropyΔMSE=σ(wh+b)0.25
【注】这个最大值0.25,就是斜率y′y'y的最大值,直接对y′=y(1−y)=y−y2y'=y(1-y)=y-y^2y=y(1y)=yy2求导等于0,就可以发现y=12y=\frac{1}{2}y=21的时候斜率最大,为0.25。
谢谢评论区指正,以前博客写的是最小值。

而且,从下面的sigmoidsigmoidsigmoid函数图像可以发现,对于均方差MSE损失,输出越大,梯度越小。比如当真实标注为000的时候,y=σ(wh+b)y=\sigma(wh+b)y=σ(wh+b)越大,sigmoid的值越大,但是sigmoid的梯度越小,这也就导致了Δcross-entropy\Delta_{\text{cross-entropy}}Δcross-entropy的梯度大(因为没sigmoid导数这一项),但是ΔMSE\Delta_{\text{MSE}}ΔMSE的梯度小(因为乘以了sigmoid较远的非常小的梯度)。

这里写图片描述
本文已经同步到微信公众号中,公众号与本博客将持续同步更新运动捕捉、机器学习、深度学习、计算机视觉算法,敬请关注
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/246649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何选择深度学习优化器

前言 转载地址:如何选择深度学习优化器 作者:不会停的蜗牛 CSDN AI专栏作家 在很多机器学习和深度学习的应用中,我们发现用的最多的优化器是 Adam,为什么呢? 下面是 TensorFlow 中的优化器, https://w…

【caffe-Windows】基于Python多标签方法——VOC2012数据集

前言 按照上一篇博客所遗留的话题:多标签分类,进行初步探索,此篇博客针对caffe官网的多分类进行配置,只不过是Python接口的,不过官网在开头说明可以使用HDF5或者LMDB进行操作,只不过Python更加方便罢了 国…

【theano-windows】学习笔记二——theano中的函数和共享参数

前言 上一篇博客中学到了theano中的变量类型,也就是dscalar、dvector之类的, 然后还有一个theano.function和eval函数, 将我们所定义的操作转换成theano可执行的函数,类似于def, 还有就是简单的线性代数运算操作。 在神经网络(NN)中, 我们声明了权重、…

【theano-windows】学习笔记三——theano中的导数

前言 就一个NN而言,包含梯度、偏置、参数更新,而前面第一篇博客学习了theano中符号变量的定义, 第二篇博客学习了变量的随机初始化, 变量之间的互相操作(类似于sigmoid(w∗xb)), 但是参数更新还应涉及到损失函数的偏导计算,这一章节就是看看…

【theano-windows】学习笔记五——theano中张量部分函数

前言 至此感觉应该可以写出一个logistic回归程序了,但是为了达到对theano中张量的更灵活的使用, 还是先看一下thenao.tensor对变量都提供了哪些操作,最全的文档戳这里或者这里, 这里就稍微摘取一点自我感觉以后可能用得多的函数 基本张量函数 创建张量…

【theano-windows】学习笔记六——theano中的循环函数scan

前言 Scan是Theano中最基础的循环函数, 官方教程主要是通过大量的例子来说明用法. 不过在学习的时候我比较习惯先看看用途, 然后是参数说明, 最后再是研究实例. 国际惯例, 参考网址 官网关于Scan的11个例子 官网更全面的介绍 简介 用途 递归的一般形式, 可以被用于循环s…

【theano-windows】学习笔记九——softmax手写数字分类

前言 上一篇博客折腾了数据集的预备知识, 接下来按照官方的Deep learning 0.1 documentation一步步走, 先折腾softmax, 关于softmax和logistic回归分类的联系, 我在之前写过一个小博客 国际惯例, 参考博客走一波: Classifying MNIST digits using Logistic Regression soft…

【theano-windows】学习笔记十——多层感知机手写数字分类

前言 上一篇学习了softmax, 然后更进一步就是学习一下基本的多层感知机(MLP)了. 其实多层感知机同时就是w*xb用某个激活函数激活一下, 得到的结果作为下一层神经元的输入x, 类似于 output⋯f3(f2(f1(x∗w1b2)∗w2b2)∗w3b3)⋯output=\cdots f^3(f^2(f^1(x*w^1+b^2)*w^2+b^2)*…

【theano-windows】学习笔记十一——theano中与神经网络相关函数

前言 经过softmax和MLP的学习, 我们发现thenao.tensor中除了之前的博客【theano-windows】学习笔记五——theano中张量部分函数提到的张量的定义和基本运算外, 还有一个方法称为nnet, 如果自己实现过前面两篇博客中的代码就会发现用到了theano.tensor.nnet.sigmoid和thenao.te…

【caffe-windows】全卷积网络特征图分析

前言 突然就想分析一下全卷积网络的转置卷积部分了, 就是这么猝不及防的想法, 而且这个网络对图片的输入大小无要求,这么神奇的网络是时候分析一波了,我个人的学习方法调试代码,然后对照论文看理论 本次分析主要针对每层的权重大小和特征图…

【theano-windows】学习笔记十二——卷积神经网络

前言 按照进度, 学习theano中的卷积操作 国际惯例, 来一波参考网址 Convolutional Neural Networks (LeNet) 卷积神经网络如何应用在彩色图像上? 卷积小知识 三大特性:局部感知(稀疏连接), 权值共享, 池化 上图很重要, 描述的是前一个隐层m-1具有四…

【theano-windows】学习笔记十三——去噪自编码器

前言 上一章节学习了卷积的写法,主要注意的是其实现在theano.tensor.nnet和theano.sandbox.cuda.dnn中都有对应函数实现, 这一节就进入到无监督或者称为半监督的网络构建中. 首先是自编码器(Autoencoders)和降噪自编码器(denoising Autoencoders) 国际惯例, 参考网址: Denoi…

【theano-windows】学习笔记十四——堆叠去噪自编码器

前言 前面已经学习了softmax,多层感知器,CNN,AE,dAE,接下来可以仿照多层感知器的方法去堆叠自编码器 国际惯例,参考文献: Stacked Denoising Autoencoders (SdA) Greedy Layer-Wise Training of Deep Networks 理…

【theano-windows】学习笔记十五——受限玻尔兹曼机

前言 终于到了最喜欢的模型: 受限玻尔兹曼机(RBM)了, 发现关于RBM是如何从能量模型发展过来的介绍非常不错, 而关于详细理论证明, 可以去看我前面的受限玻尔兹曼机的一系列博客. 国际惯例, 参考博客,超级强推第二个博客, 证明过程很给力: Restricted Boltzmann Machines (R…

【Ogre-windows】环境配置

前言 由于工程原因, 学习一下Ogre面向对象图形渲染开源引擎, 慢慢爬坑吧。首先还是环境的配置问题哎. 其实最重要的是要预先编译三方库, 虽然官方说可以自动编译, 但是在自己电脑上还是出现了无法解析外部符号之类的问题, 正常情况下我就认为是三方库的lib出现了问题, 最后额外…

【theano-windows】学习笔记十六——深度信念网络DBN

前言 前面学习了受限玻尔兹曼机(RBM)的理论和搭建方法, 如果稍微了解过的人, 肯定知道利用RBM可以堆叠构成深度信念网络(deep belief network, DBN)和深度玻尔兹曼机(deep Boltzmann machine), 这里就先学习一下DBN. 国际惯例, 参考博文: Deep Belief Networks A fast lear…

【Ogre-windows】实例配置

前言 折腾了好久才搞定教程实例, 主要是因为上一篇博客安装的具体版本是Ogre1.10.9, 而官方的Ogre Wiki Tutorial Framework没有指定具体版本, 如果单纯下载Ogre Wiki Tutorial Framework 1.10 - (Windows line endings, updated 2015-10-15) 运行, 基本会血崩. 所以, 在经过仔…

【Ogre-windows】旋转矩阵及位置解析

前言 这篇博客主要针对三种问题 如何创建动画帧如何获取全局位置如何计算全局旋转矩阵 仿真环境为VS2013Ogre1.10.9与matlab验证 创建动画帧 这里只做一个简单的实验: 将自带的人物模型Jaiqua的run运动给新创建的运动myrun中并播放,直接贴代码了 void JaiQua:…

BP推导——续

前言 之前有证明过一次人工神经网络——【BP】反向传播算法证明 ,但是回头看的时候,有很多地方非常不严谨,特此拿出来再单独证明一次BP,并严格保证其严谨性。如果想看看粗略的证明,可以去看我之前的博客,毕…

matlab学习——强连通分量

前言 最近motion graph相关实验,发现实现运动过渡需要构建运动图,而为了避免运动过渡陷入死胡同,需要对图结构进行裁剪,方法就是计算图模型的极大强联通分量,但是自己懒得去实现,所以就去搜了一下matlab中…