Python 全栈体系【四阶】（十七）

第五章深度学习

请添加图片描述

一、基本理论

3. 深度神经网络训练法则

3.1 损失函数

3.1.1 什么是损失函数？

损失函数（Loss Function），也有称之为代价函数（Cost Function），用来度量预测值和实际值之间的差异。

3.1.2 损失函数的作用

度量决策函数 $f (x)$ 和实际值之间的差异。

作为模型性能参考。损失函数值越小，说明预测输出和实际结果（也称期望输出）之间的差值就越小，也就说明我们构建的模型越好。学习的过程，就是不断通过训练数据进行预测，不断调整预测输出与实际输出差异，使得损失值最小的过程。

3.1.3 常用损失函数

均方误差（Mean square error）损失函数。均方误差是回归问题常用的损失函数，它是预测值与目标值之间差值的平方和，其公式和图像如下所示：

请添加图片描述

为什么使用误差的平方
- 曲线的最低点是可导的
- 越接近最低点，曲线的坡度逐渐放缓，有助于通过当前的梯度来判断接近最低点的程度（是否逐渐减少步长，以免错过最低点）

在这里插入图片描述
交叉熵（Cross Entropy）。交叉熵是 Shannon 信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息，在机器学习中用来作为分类问题的损失函数。假设有两个概率分布， $t_k$ 与 $y_k$ ，其交叉熵函数公式及图形如下所示：
请添加图片描述

3.2 梯度下降

3.2.1 什么是梯度

梯度（gradient）是一个向量（矢量，有方向），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大。损失函数沿梯度相反方向收敛最快（即能最快找到极值点）。当梯度向量为零（或接近于零），说明损失函数到达一个极小值点，模型准确度达到一个极大值点。

请添加图片描述

3.2.2 梯度下降

通过损失函数，我们将“寻找最优参数”问题，转换为了“寻找损失函数最小值”问题。寻找步骤：
（1）损失是否足够小？如果不是，计算损失函数的梯度。
（2）按梯度的反方向走一小步，以缩小损失。
（3）循环到（1）。
这种按照负梯度不停地调整函数权值的过程就叫作**“梯度下降法”**。通过这样的方法，改变每个神经元与其他神经元的连接权重及自身的偏置，让损失函数的值下降得更快，进而将值收敛到损失函数的某个极小值。

3.2.3 导数与偏导数

导数的定义

所谓导数，就是用来分析函数“变化率”的一种度量。其公式为：

导数的含义：反映变化的剧烈程度（变化率）
请添加图片描述
偏导数

“偏导”的英文本意是“partial derivatives“（表示局部导数）。对于多维变量函数而言，当求某个变量的导数时，就是把其他变量视为常量，然后对整个函数求其导数（相比于全部变量，这里只求一个变量，即为“局部”）。例如有函数：

3.2.4 学习率

学习率是梯度下降过程中，在梯度值前面的系数，用来控制调整的步幅大小。
请添加图片描述

3.2.5 梯度递减训练法则

神经网络中的权值参数是非常多的，因此针对损失函数 E 的权值向量的梯度如以下公式所示：
在这里插入图片描述

表示损失函数 E 的梯度，它本身也是一个向量，它的多个维度分别由损失函数 E 对多个权值参数 $w_i$ 求偏导所得。当梯度被解释为权值空间中的一个向量时，它就确定了 E 陡峭上升的方向，那么梯度递减的训练法则就如下公式所示：
请添加图片描述

3.2.6 梯度下降算法

3.2.6.1 批量梯度下降

批量梯度下降法（Batch Gradient Descent，BGD）是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新。

优点：

一次迭代是对所有样本进行计算，此时利用矩阵进行操作，实现了并行。
由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD 一定能够得到全局最优。

缺点：

当样本数目 m 很大时，每迭代一步都需要对所有样本计算，训练过程会很慢。

3.2.6.2 随机梯度下降

随机梯度下降法（Stochastic Gradient Descent，SGD）每次迭代使用一个样本来对参数进行更新，使得训练速度加快。

优点：

由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。

缺点：

准确度下降。由于即使在目标函数为强凸函数的情况下，SGD 仍旧无法做到线性收敛。
可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势。
不易于并行实现。

3.2.6.3 小批量梯度下降

小批量梯度下降（Mini-Batch Gradient Descent, MBGD）是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是：每次迭代使用指定个（batch_size）样本来对参数进行更新。

优点：

通过矩阵运算，每次在一个 batch 上优化神经网络参数并不会比单个数据慢太多。
每次使用一个 batch 可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。

缺点：

batch_size 的不当选择可能会带来一些问题。

3.2.7 几种梯度下降算法收敛比较

批量梯度下降稳健地向着最低点前进的

随机梯度下降震荡明显，但总体上向最低点逼近

小批量梯度下降位于两者之间

在这里插入图片描述

3.3 反向传播算法

3.3.1 什么是正向传播网络

前一层的输出作为后一层的输入的逻辑结构，每一层神经元仅与下一层的神经元全连接，通过增加神经网络的层数虽然可为其提供更大的灵活性，让网络具有更强的表征能力，也就是说，能解决的问题更多，但随之而来的数量庞大的网络参数的训练，一直是制约多层神经网络发展的一个重要瓶颈。

3.3.2 什么是反向传播

反向传播（Backpropagation algorithm）全称“误差反向传播”，是在深度神经网络中，根据输出层输出值，来反向调整隐藏层权重的一种方法。

3.3.3 为什么需要反向传播

为什么不直接使用梯度下降而使用反向传播方式更新权重呢？

梯度下降应用于有明确求导函数的情况，或者可以求出误差的情况（比如线性回归），我们可以把它看做没有隐藏层的网络。但对于多个隐藏层的神经网络，输出层可以直接求出误差来更新参数，但隐藏层的误差是不存在的，因此不能对它直接应用梯度下降，而是先将误差反向传播至隐藏层，然后再应用梯度下降。

3.3.4 反向传播算法极简史

1974 年，哈佛大学沃伯斯博士在他的博士论文中，首次提出了通过误差的反向传播来训练人工神经网络，以解决神经网络数量庞大的参数训练问题。但是，沃伯斯的工作并没有得到足够的重视，因为当时神经网络正陷入低潮，可谓“生不逢时”。

1986 年，由杰弗里·辛顿（Geoffrey Hinton）和大卫·鲁姆哈特（David Rumelhart）等人在著名学术期刊 Nature（自然）上发表了论文“借助误差反向传播算法的学习表征（Learning Representations by Back-propagating errors）”，系统而简洁地阐述了反向传播算法在神经网络模型上的应用。反向传播算法非常好使，它直接把纠错的运算量降低到只和神经元数目本身成正比的程度。

后来，沃伯斯得到了 IEEE（电气电子工程师学会）神经网络分会的先驱奖；Geoffrey Hinton 与 Yoshua Bengio、Yann LeCun（合称“深度学习三巨头”）共同获得了 2018 年的图灵奖。

3.3.5 图解反向传播

问题：Tom 在超市买了 2 个苹果，每个 10 元，消费税 10%，请计算应该支付的金额
请添加图片描述
问题：Tom 在超市买了 2 个苹果，每个 10 元，消费税 10%，请计算苹果价格上涨会在多大程度上影响支付金额（即求“支付金额关于苹果的价格的导数”）。设苹果的价格为 x，支付金额为 L，则相当于求 $\frac{\partial L}{\partial x}$ 。这个导数的值表示当苹果的价格稍微上涨时，支付金额会增加多少。