梯度检验与高级优化

众所周知,反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,但从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。另外,使用本节所述求导检验方法,可以帮助你提升写正确代码的信心。


缺位错误(Off-by-one error)举例说明:比如 \textstyle for 循环中循环 \textstyle m次,正确应该是 \textstyle for (i=1;~i<=m;~i++),但有时程序员疏忽,会写成 \textstyle for (i=1;~i<m;~i++),这就是缺位错误。


假设我们想要最小化以 \textstyle \theta 为自变量的目标函数\textstyle J(\theta)。假设 \textstyle J : \Re \mapsto \Re,则 \textstyle \theta \in \Re。在一维的情况下,一次迭代的梯度下降公式是

\begin{align}\theta := \theta - \alpha \frac{d}{d\theta}J(\theta).\end{align}


再假设我们已经用代码实现了计算 \textstyle \frac{d}{d\theta}J(\theta) 的函数 \textstyle g(\theta),接着我们使用 \textstyle \theta := \theta - \alpha g(\theta) 来实现梯度下降算法。那么我们如何检验 \textstyle g 的实现是否正确呢?

回忆导数的数学定义:

\begin{align}\frac{d}{d\theta}J(\theta) = \lim_{\epsilon \rightarrow 0}\frac{J(\theta+ \epsilon) - J(\theta-\epsilon)}{2 \epsilon}.\end{align}

那么对于任意 \textstyle \theta 值,我们都可以对等式左边的导数用:

\begin{align}\frac{J(\theta+{\rm EPSILON}) - J(\theta-{\rm EPSILON})}{2 \times {\rm EPSILON}}\end{align}

来近似。


实际应用中,我们常将 \textstyle EPSILON 设为一个很小的常量,比如在\textstyle 10^{-4} 数量级(虽然 \textstyle EPSILON 的取值范围可以很大,但是我们不会将它设得太小,比如 \textstyle 10^{-20},因为那将导致数值舍入误差。)


给定一个被认为能计算 \textstyle \frac{d}{d\theta}J(\theta) 的函数\textstyle g(\theta),我们可以用下面的数值检验公式

\begin{align}g(\theta) \approx\frac{J(\theta+{\rm EPSILON}) - J(\theta-{\rm EPSILON})}{2 \times {\rm EPSILON}}.\end{align}

计算两端是否一样来检验函数是否正确。


上式两端值的接近程度取决于 \textstyle J 的具体形式。但是在假定\textstyle {\rm EPSILON} = 10^{-4} 的情况下,你通常会发现上式左右两端至少有4位有效数字是一样的(通常会更多)。


现在,考虑 \textstyle \theta \in \Re^n 是一个向量而非一个实数(那么就有\textstyle n个参数要学习得到),并且 \textstyle J: \Re^n \mapsto \Re。在神经网络的例子里我们使用 \textstyle J(W,b),可以想象为把参数 \textstyle W,b 组合扩展成一个长向量 \textstyle \theta。现在我们将求导检验方法推广到一般化,即 \textstyle \theta 是一个向量的情况。

假设我们有一个用于计算 \textstyle \frac{\partial}{\partial \theta_i} J(\theta)的函数 \textstyle g_i(\theta);我们想要检验 \textstyle g_i 是否输出正确的求导结果。我们定义 \textstyle \theta^{(i+)} = \theta +{\rm EPSILON} \times \vec{e}_i,其中

\begin{align}\vec{e}_i = \begin{bmatrix}0 \\ 0 \\ \vdots \\ 1 \\ \vdots \\ 0\end{bmatrix}\end{align}

是第 \textstyle i 个基向量(维度和 \textstyle \theta 相同,在第 \textstyle i 行是“\textstyle 1”而其他行是“\textstyle 0”)。所以,\textstyle \theta^{(i+)} 和 \textstyle \theta 几乎相同,除了第 \textstyle i 行元素增加了 \textstyle EPSILON。类似地,\textstyle \theta^{(i-)} = \theta - {\rm EPSILON} \times \vec{e}_i 得到的第 \textstyle i 行减小了 \textstyle EPSILON。然后我们可以对每个 \textstyle i 检查下式是否成立,进而验证 \textstyle g_i(\theta) 的正确性:

\begin{align}g_i(\theta) \approx\frac{J(\theta^{(i+)}) - J(\theta^{(i-)})}{2 \times {\rm EPSILON}}.\end{align}


当用反射传播算法求解神经网络时,正确算法实现会得到:

\begin{align}\nabla_{W^{(l)}} J(W,b) &= \left( \frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)} \\\nabla_{b^{(l)}} J(W,b) &= \frac{1}{m} \Delta b^{(l)}.\end{align}


以上结果与反向传播算法中的最后一段伪代码一致,都是计算梯度下降。为了验证梯度下降代码的正确性,使用上述数值检验方法计算 \textstyle J(W,b) 的导数,然后验证 \textstyle \left(\frac{1}{m}\Delta W^{(l)} \right) + \lambda W 与 \textstyle \frac{1}{m}\Delta b^{(l)} 是否能够给出正确的求导结果。


迄今为止,我们的讨论都集中在使用梯度下降法来最小化 \textstyle J(\theta)。如果你已经实现了一个计算 \textstyle J(\theta) 和 \textstyle \nabla_\theta J(\theta) 的函数,那么其实还有更精妙的算法来最小化 \textstyle J(\theta)。举例来说,可以想象这样一个算法:它使用梯度下降,并能够自动调整学习速率 \textstyle \alpha,以得到合适的步长值,最终使 \textstyle \theta 能够快速收敛到一个局部最优解。还有更妙的算法:比如可以寻找一个Hessian矩阵的近似,得到最佳步长值,使用该步长值能够更快地收敛到局部最优(和牛顿法类似)。此类算法的详细讨论已超出了这份讲义的范围,但是L-BFGS算法我们以后会有论述(另一个例子是共轭梯度算法)。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时,你需要提供关键的函数:即对于任一个 \textstyle \theta,需要你计算出 \textstyle J(\theta) 和 \textstyle \nabla_\theta J(\theta)。之后,这些优化算法会自动调整学习速率/步长值 \textstyle \alpha 的大小(并计算Hessian近似矩阵等等)来自动寻找 \textstyle J(\theta) 最小化时\textstyle \theta 的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。


中英文对照

off-by-one error 缺位错误

bias term 偏置项

numerically checking 数值检验

numerical roundoff errors 数值舍入误差

significant digits 有效数字

unrolling 组合扩展

learning rate 学习速率

Hessian matrix Hessian矩阵

Newton's method 牛顿法

conjugate gradient 共轭梯度

step-size 步长值


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/566168.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python数模笔记-Sklearn (1)介绍

1、SKlearn 是什么 Sklearn&#xff08;全称 SciKit-Learn&#xff09;&#xff0c;是基于 Python 语言的机器学习工具包。 Sklearn 主要用Python编写&#xff0c;建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上&#xff0c;也用 Cython编写了一些核心算法来提高性能。…

自编码算法与稀疏性

目前为止&#xff0c;我们已经讨论了神经网络在有监督学习中的应用。在有监督学习中&#xff0c;训练样本是有类别标签的。现在假设我们只有一个没有带类别标签的训练样本集合 &#xff0c;其中 。自编码神经网络是一种无监督学习算法&#xff0c;它使用了反向传播算法&#…

Python数模笔记-Sklearn(2)聚类分析

1、分类的分类 分类的分类&#xff1f;没错&#xff0c;分类也有不同的种类&#xff0c;而且在数学建模、机器学习领域常常被混淆。 首先我们谈谈有监督学习&#xff08;Supervised learning&#xff09;和无监督学习&#xff08;Unsupervised learning&#xff09;&#xff…

可视化自编码器训练结果

训练完&#xff08;稀疏&#xff09;自编码器&#xff0c;我们还想把这自编码器学到的函数可视化出来&#xff0c;好弄明白它到底学到了什么。我们以在1010图像&#xff08;即n100&#xff09;上训练自编码器为例。在该自编码器中&#xff0c;每个隐藏单元i对如下关于输入的函数…

Python数模笔记-Sklearn(3)主成分分析

主成分分析&#xff08;Principal Components Analysis&#xff0c;PCA&#xff09;是一种数据降维技术&#xff0c;通过正交变换将一组相关性高的变量转换为较少的彼此独立、互不相关的变量&#xff0c;从而减少数据的维数。 1、数据降维 1.1 为什么要进行数据降维&#xff1…

稀疏自编码器一览表

下面是我们在推导sparse autoencoder时使用的符号一览表&#xff1a; 符号含义训练样本的输入特征&#xff0c;.输出值/目标值. 这里 可以是向量. 在autoencoder中&#xff0c;.第 个训练样本输入为 时的假设输出&#xff0c;其中包含参数 . 该输出应当与目标值 具有相同的…

Python数模笔记-Sklearn(4)线性回归

1、什么是线性回归&#xff1f; 回归分析&#xff08;Regression analysis)是一种统计分析方法&#xff0c;研究自变量和因变量之间的定量关系。回归分析不仅包括建立数学模型并估计模型参数&#xff0c;检验数学模型的可信度&#xff0c;也包括利用建立的模型和估计的模型参数…

Python数模笔记-Sklearn(5)支持向量机

支持向量机&#xff08;Support vector machine, SVM&#xff09;是一种二分类模型&#xff0c;是按有监督学习方式对数据进行二元分类的广义线性分类器。 支持向量机经常应用于模式识别问题&#xff0c;如人像识别、文本分类、手写识别、生物信息识别等领域。 1、支持向量机&…

矢量化编程

当使用学习算法时&#xff0c;一段更快的代码通常意味着项目进展更快。例如&#xff0c;如果你的学习算法需要花费20分钟运行完成&#xff0c;这意味着你每个小时能“尝试”3个新主意。但是假如你的程序需要20个小时来运行&#xff0c;这意味着你一天只能“尝试”一个新主意&am…

Python数模笔记-NetworkX(1)图的操作

1、NetworkX 图论与网络工具包 NetworkX 是基于 Python 语言的图论与复杂网络工具包&#xff0c;用于创建、操作和研究复杂网络的结构、动力学和功能。 NetworkX 可以以标准和非标准的数据格式描述图与网络&#xff0c;生成图与网络&#xff0c;分析网络结构&#xff0c;构建…

逻辑回归的向量化实现样例

逻辑回归的向量化实现样例 我们想用批量梯度上升法对logistic回归分析模型进行训练&#xff0c;其模型如下&#xff1a; 让我们遵从公开课程视频与CS229教学讲义的符号规范&#xff0c;设 &#xff0c;于是 &#xff0c;&#xff0c; 为截距。假设我们有m个训练样本{(, ) ,...…

Python数模笔记-NetworkX(2)最短路径

1、最短路径问题的常用算法 最短路径问题是图论研究中的经典算法问题&#xff0c;用于计算图中一个顶点到另一个顶点的最短路径。 欢迎关注 Youcans 原创系列&#xff0c;每周更新数模笔记 Python数模笔记-PuLP库 Python数模笔记-StatsModels统计回归 Python数模笔记-Sklearn…

神经网络向量化

神经网络向量化 在本节&#xff0c;我们将引入神经网络的向量化版本。在前面关于神经网络介绍的章节中&#xff0c;我们已经给出了一个部分向量化的实现&#xff0c;它在一次输入一个训练样本时是非常有效率的。下边我们看看如何实现同时处理多个训练样本的算法。具体来讲&…

Python数模笔记-NetworkX(3)条件最短路径

1、带有条件约束的最短路径问题 最短路径问题是图论中求两个顶点之间的最短路径问题&#xff0c;通常是求最短加权路径。 条件最短路径&#xff0c;指带有约束条件、限制条件的最短路径。例如&#xff0c;顶点约束&#xff0c;包括必经点或禁止点的限制&#xff1b;边的约束&…

简单技能之程序调试入门

简单技能之程序调试入门 黑盒测试 等价类划分

Python数模笔记-NetworkX(4)最小生成树

1、生成树和最小生成树 1.1 生成树 连通的无圈图称为树&#xff0c;就是不包含循环的回路的连通图。 对于无向连通图&#xff0c;生成树&#xff08;Spanning tree&#xff09;是原图的极小连通子图&#xff0c;它包含原图中的所有 n 个顶点&#xff0c;并且有保持图连通的最…

Python数模笔记-NetworkX(5)关键路径法

关键路径法&#xff08;Critical path method&#xff0c;CPM&#xff09;是一种计划管理方法&#xff0c;通过分析项目过程中工序进度安排寻找关键路径&#xff0c;确定最短工期&#xff0c;广泛应用于系统分析和项目管理。 1、拓扑序列与关键路径 1.1 拓扑序列 一个大型工程…

Python小白的数学建模课-01.新手必读

Python 完全可以满足数学建模的需要。 Python 是数学建模的最佳选择之一&#xff0c;而且在其它工作中也无所不能。 『Python小白的数学建模课 Youcans』 带你从数模小白成为国赛达人。 欢迎关注『Python小白的数学建模课 Youcans』系列&#xff0c;每周持续更新 Python小白…

Python的数学建模课-02.数据导入

数据导入是所有数模编程的第一步&#xff0c;比你想象的更重要。 先要学会一种未必最佳&#xff0c;但是通用、安全、简单、好学的方法。 『Python小白的数学建模课 Youcans』 带你从数模小白成为国赛达人。 1. 数据导入是所有数模编程的第一步 编程求解一个数模问题&#…