bp神经网络训练_数据分析模型6——神经网络基础（人工智能的底层模型）

未经许可请勿转载

更多数据分析内容参看这里

今天我们来学习人工智能的底层模型——神经网络（NEURAL NETWORKS），现在比较热门的一个模型是深度学习，深度学习的基础也是神经网络，要学好深度学习，神经网络不了解基本是不可能的。

一、神经网络概述

首先我们来看一下生物的神经构造，因为神经网络就是从生物的神经构造得到的灵感。在生物的神经构造中，下图中圆形的是细胞本体（细胞核），神经网络中称之为神经元，人具有

个神经元。神经元根神经元之间是通过轴突来沟通的，在靠近细胞本体的地方比较粗，末端比较细，称之为树状突。树状突和树状突会碰触在一起称之为突触，神经网络中称为神经键。细胞核就是通过神经键来互相沟通协调决策的，人有

个神经键，因为不是每个神经元之间都有连接的。

数学家在看过生物的神经构造后，就想通过数学模型来模仿。下图是一个非常有名的神经网络，一般人们谈到神经网络指的就是它，全称是Backpropagation(BP) Neural Networks，翻译过来就是倒传递神经网络，也有的人称之为多层感知机（Multi-Layer Perceptrons）。在BP神经网络中，神经元被分为三个层次，有输入层，隐藏层以及输出层。输入层的神经元负责接收外来的输入和刺激，它是用于数据收集用。输出层又称决策层，它的每个神经元在做一个决策，如果有五个决策就需要五个输出层神经元。中间的隐藏层神经元负责增加计算能力，当问题比较复杂时，需要隐藏层的辅助使得问题解决比较顺利，当然隐藏层的神经元不能过多，否则会造成记忆效应，即会把所有训练数据的输入和结果记录下来，以致于输入训练集中的一笔数据进入时它的答案会十分正确（类似背书），但是遇到没有见过的数据时就表现很差，也就是存在overfitting（过度拟合）问题。

在上图中，输入层会跟隐藏层的所有神经元做连接，连接的部分就称之为神经键。隐藏层会跟输出层的所有神经元做连接，但是跨层之间是不会连接的，这就是BP神经网络的一个构造。如此前所述，这边展示的是一层的隐藏层，但是隐藏层也可以多层，虽然隐藏层不能过多避免出现记忆效应，但是隐藏层也不能过少甚至没有，否则计算能力不足，预测结果也会不如预期。

上图是一个多层隐藏层，隐藏层的节点个数不必一样多，也不需要同输入层一样多。输入层会跟第一层隐藏层的神经元做一个完全连接，第一层隐藏层跟第二层隐藏层的神经元做一个完全连接，第二层隐藏层会跟输出层的神经元完全连接，这边输出层只有一个节点，代表其只要做一个决策。

二、不同形式的神经网络

当然神经网络的构造还有可以其它形式，比如下面是一个两层的神经网络，只有一个输出节点，且没有隐藏层，这种神经网络用来处理比较简单的单个决策问题。

再来看一个带有隐藏层的三层神经网络，它可以处理比较复杂的一个决策问题。

下面是输出层有多个节点的三层神经网络，可以处理复杂的n个决策问题。我们需要根据要处理的问题复杂程度考虑是否要有隐藏层，并根据要决策的问题个数来决定输出层的构造。

三、神经网络实例

我们来看一个杂志喜好预测的实例。

因为这家公司同时发行五种杂志，所以一次要做五个决策（是否对我们的汽车、房屋、运动、音乐、漫画杂志），所以输出层的决策节点有五个。我们使用年龄，是否拥有房屋，是否拥有汽车，和所住区域四个输入字段来判断。

需要指出的是，神经网络中只允许数值型的输入数据，类似KNN。在本例子中，年龄（age）被离散化成三段（<30, 30-50,>50），不再是数值型，因此需要进行摊平处理（转换为哑变量）才能输入。实际上神经网络中只能输入0到1之间的数据，而不能输入一万这样的数，也必须像KNN一样做极值正规化。

本例中，选择了四个神经元作为隐藏层的个数，前面提到隐藏层的神经元不能过多，那到底要多少神经元个数呢？那就需要根据处理事务的复杂度来决定，在实际中有个不成文的做法，

，即使用输入层的神经元个数乘以输出层的神经元个数，然后开根号，这代表了所处理问题的复杂度。以此为基础去调整隐藏层的神经元个数，在效能相同的情况下，神经元个数越少越好。在本例中，

，我们就以6个神经元为基础，通常往下调整，6,5,4各跑一下结果，在结果差不多的情况下尽可能选择少的神经元。

最终该神经网络输出就是对于各种杂志喜好的概率，Feedforword指的是数据从左往右运行。但是在训练神经网络时，顺序是相反的，backforward，这也是BP神经网络名称的由来。

我们再来看另一个手写数字识别的例子。

要做手写数字的识别，首先我们需要对一张数字影像进行切割，按照单个的数字区分开来。分割完成之后，再对每个数字做辨识，此处我们假设单张数字照片是28*28的点阵，每一个点如果对应的黑色字迹就标位1，否则就为0。

为了解决识别数字这个问题，我们构造一个三层的BP神经网络，输入节点有784个（28*28），输出节点就是0,1,2,3,4,5,6,7,8,9这十个数字的概率，而隐藏层的个数，就是根据

去做调整，最终将其定在15，此时数字的识别率已经达到90%以上，为了避免过拟合的问题，15是一个比较合适的数字。

四、BP神经网络的训练

要训练一个BP神经网络，我们首先需要构建一个网络，这涉及到两件事，一是输入数据的表示方式（数值型数据是做极值正规化Minmax normalization，还是离散化后摊平处理），这会影响输入层节点个数，当然输入属性的个数也会影响。二是要考虑做一个决策，两个决策还是多个决策，这会影响输出节点的个数，以及问题的复杂度，如果问题复杂还必须要有隐藏层。输入和输出层必须要有，你唯一可以选择的就是隐藏层要不要有，要有几层，以及隐藏层上的节点个数。就层数而言，深度学习就是具有多层隐藏层的神经网络，所以它可以处理比较复杂的类似下围棋这样的问题。

在网络建立后，就要用训练数据去训练网络。如果是一个分类问题，我们的目标就是获得一组所谓的权重，即神经键上面的值，使得训练集中案例进入神经网络后都能做正确的分类。网络训练好后，就可以去解释结果。

假设我们的训练已经完成，就会生成以下的神经网络。当具备特定特征的一个人进入网络时，就会生成其喜欢各种杂志的概率，从结果中我们可以看出这个人对汽车杂志和漫画是有兴趣的，因此可以向其推销这两种杂志。

但是这个神经网络是怎么训练出来的？我们仍未解决。要给出这个神经网络，我们就需要知道神经元的具体构造。对于输入层来说，神经元是没有构造的，它只做数据的转发，但是隐藏层和输出层是有结构的。有一个好消息是，隐藏层和输出层的每一个神经元的构造都是一样的。

上图就是单个神经元的构造，左侧的X1，X2，Xn是该神经元前一次传递过来的数值，我们会对每一个Xi乘以一个权重，加总后作为上一层传递过来的信息总和。比如要决定是否要去看一部电影，我们会去咨询别人的意见，小张可能给出来一个很高的分数，但是考虑到他的意见经常和我相左，我可能会乘以一个负的权重，小李给出了一个一般的分数，他的意见和我经常一致，因此我会乘以一个高的权重，我们可能还要考虑天气的因素才能决定是否要去看。在方框内部，有一个Bias（偏见），这个指的其实是我自己对于这部电影的意见。因此是否要去看电影的信息总量

。最后在输出是否要看电影时，我们还需要通过一个激发函数（Activation Function）把NET值压制在0-1之间。

下图中的Sigmoid function就是激发函数，Sigmoid函数又叫Logistic函数，它在机器学习领域有极其重要的地位，函数的基本性质：定义域：(−∞,+∞)(−∞,+∞)，值域：(−1,1)(−1,1)，函数在定义域内为连续和光滑函数，处处可导，导数为：f′(x)=f(x)(1−f(x))。Sigmoid函数之所以叫Sigmoid，是因为函数的图像很想一个字母S。这个函数是一个很有意思的函数，从图像上我们可以观察到一些直观的特性：函数的取值在0-1之间，且在0.5处为中心对称，并且越靠近x=0的取值斜率越大。也就是说当我们的信息输入为0的时候，输出的概率是0.5，当信息输入>0时，输出的概率在0-1之间，当信息输入<0时i，输出的概率在0-0.5之间。

我们具体来计算一个例子。下图中时一个BP神经网络，对于X=（1,0,1）需要预测其概率，真实的数据标签是1。在初始状况下，会随机生成各个神经键的权重（在-1到1之间），如下表所示，也会随机生成各个神经元的偏见。

通过计算，我们得出X输入的输出为0.474，这与实际情况1不符。这就告诉我们，由于一开始神经网络的权重值和偏见值都是随机产生的，因此其结果也是无法预测的。所以我们的目标就是，能否生成一组权重值和偏见值，使得收入（1,0,1）的时候输出结果非常接近1。

在杂志喜好预测例子中，也涉及逆向权重及偏移值的修正，因为初始跑出来结果和实际不符。要修正权重值，必然要解决怎么计算误差这个问题。误差= 期望输出 - 实际输出=

，这边使用的是平方误差，可做微分，对后面权重的调整是有帮助的。

我们希望得到一组最佳的权重值和偏移值，去最小化误差。那对于上面的误差函数，要取到极值，就是要对这个函数偏微分，根据偏微分的结果取到最佳的权重值和偏移值。

对于上图中的神经网络，要使得最终输出节点的误差最小，我们根据偏微分可以得出权重和偏差值调整的公式，此处我们略过的微分的部分。要调整权重值和θ值，我们要计算6号、4号和5号的节点误差，如下表所示（这部分公式就是微分的结果）。基本上同一层的误差公式时一样的，不同层会不相同，从下表的公式可以看出6号的误差会影响4号和5号，4号和5号的误差会影响1号、2号和3号，这就是BP神经网络被称为倒传递网络的原因。

接下来，我们利用4,5,6这三个节点的节点误差来调整权重值和θ值，下表中

的权重调整公式就是4的输出乘以6的误差，新的值就是原来的权重加上调整值，下边（0.9）指的是学习速率（Learning rate）。

根据上面重新生成一组权重值和θ值，我们把101那笔数据重新喂入，但是不会立刻就到1，而是会到0.5多，所以修正一次后还要修正第二次以及第三次等，这就是神经网络学习的过程。在解释一下learning rate的概念，假设-0.3是初始的权重，-0.25是最佳权重，在第一次调整时系统觉得太大可能会调到-0.2，第二次调整时觉得太小可能又会调回-0.3，如此循环始终无法达到最佳的-0.25, 所以我们设置一个限制虽然可以调整-0.1，但每次只允许调整其中的（0.9）比例，当然这个比例可以调整，比如设成0.1，每次进行微调处理。Learning rate设的大，很快就会收敛，但是error降不下来，Learning rate设的小，训练的回合数就比较多，运行效率慢。

如果误差函数比较复杂，神经网络中就有区域最佳的概念，如果初始权重在左侧，权重值就会收敛到左侧的最低点，效果就一般。如果初始权重在右侧，权重值就会收敛到右侧的最低点，这时候误差就比较低。所以在神经网络中，起始的权重值也比较重要，在实际中，我们会用不同的随机种子设置多次不同的起始权重，找一次误差比较低的那一次，当做我们神经网络的初始结果。