前言

本文主要介绍最基础的神经网络，包括其结构，学习方法， $\texttt{C++}$ 的实现代码。 $\texttt{Python}$ 的代码可以搜索互联网得到。

前排提示：本人涉及一丁点数学知识。

神经网络的结构

神经网络包括多个层次(Layer)。一般来说神经网络包括三个部分：输入层，隐藏层，输出层 。输入层和输出层都只有一个，而隐藏层可以有多个。顺序为输入层，隐藏层，输出层。

每一个层次会有若干的神经元。我们称第 $L_l$ 层为输出层，也就是最后一层。对于第 $L$ 层（从 $0$ 开始计数），我们用 $n_L$ 表示其神经元的数量。

对于第 $L$ 层的第 $i$ 个神经元（从 $0$ 开始计数），我们用 $a^L_i$ 表示其输出到下一层神经元或者作为结果的值。对于生物体的神经元， $a_i^L$ 的取值只有 $0, 1$ ，但是对于本文而言，计算机的神经元有 $a_i^L\in[0,1]$ 。同时，每个神经元还有一个偏移值 $b^L_i$ 。

除输入层外，每一个神经元都与上一层的所有神经元都有一个连接，对于第 $L (1 < L)$ 的第 $i$ 个神经元，它与 $L - 1$ 层的所有神经元都有连接，其中它与第 $j$ 个神经元的连接有权重 $w^L_{i,j}$ 。

下图展示了一个简单的神经网络的构成：

图中有 $n_0=3,n_1=n_2=2$ ，且第 $0$ 层为输入层，第 $2$ 层为输出层。

$\texttt{PS}$ : 此图没有展示神经元的偏移值。

在这里插入图片描述

输出值的计算

对于输入层而言，其输出值 $a^0_i (i\in[0,n_0)\cap \mathbb{Z})$ ，其输出值与神经网络的输入相同。

对于隐藏层和输出层，其计算方式如下：
$\begin{aligned} a^L_i&=f\left(z^L_i\right)\\ z^L_i&=b^L_i + \sum_{j=0}^{n_{L-1}} w^L_{i,j}a^{L-1}_j \end{aligned}$
其中， $f (x)$ 函数一般为 $\mathrm{Sigmoid}$ 函数，常见于生物种群数量的自然增长。其定义和导数如下：
$\begin{aligned} f(x)&=\frac{1}{1+e^{-x}}\\ f'(x)&=f(x)(1-f(x)) \end{aligned}$
这个函数可以让我们的输出值取值范围固定在 $[0, 1]$ 之间。

实际上，神经网络使用的 $f (x)$ 不一定需要让输出值固定在 $[0, 1]$ 之间，比如卷积神经网络(CNN)中有一个 $f (x)$ 是 $\mathrm{ReLU}$ 函数，其定义为：
$f(x)=\begin{cases} x & x>0\\ 0 & \mathrm{otherwise} \end{cases}$

请留意 $z^L_i$ 这个值，我们暂且将其称为成为中间值。

神经网络的学习方法

整个神经网络的计算过程，可以认为是一个庞大的函数 $F$ ，其自变量的个数是输入层神经元的个数，而因变量的个数是输出层神经元的个数。而我们需要的让这个函数去拟合一个标准函数 $G$ 。

而神经网络的学习过程，实际上是一个用提供的若干个输入输出（我们称这些输入输出为训练集）不断调整权重 $w$ 以及偏移值 $b$ ，使得 $F$ 拟合 $G$ 的过程。

过拟合

实际上在神经网络的学习过程中，因为参数过多（或者其他原因），容易出现过拟合(overfitting)的现象。表现为在对于训练集中的数据，神经网络可以给出优秀的结果，但是对于训练集以外的数据，则出现很多错误。

一个形象的理解方法就是：当我们用给定的一些三次函数 $G$ 上的点，用一个 $6$ 次函数 $F$ 去拟合这个 $3$ 次函数 $G$ 的时候，对于给定的点， $F$ 都和 $G$ 的输出一致，但是本应该是 $0$ 的 $4, 5, 6$ 次项不全是 $0$ ，导致 $F$ 会出现一些弯曲，这时候就出现了过拟合。下图是一个过拟合的示意图：

在这里插入图片描述

其中绿色的点是训练集， $G (x)$ 是我们需要的函数， $F (x)$ 为神经网络拟合出的函数。

一般来说，我们会使用另一套输入输出（我们称之为测试集）来评判神经网络的学习效果。

在当前状态下，我们并不考虑过拟合问题。

反向传播方法(Backprop，简称BP)

反向传播方法是神经网络学习的核心算法。

对于训练集中的一个输入输出 $k$ ，我们用 $O_i$ 表示理想状态下，神经网络的输出层的第 $i$ 个神经元应该有的输出值。这时候，我们可以计算出神经网络当前的函数 $F$ 和 $G$ 的误差，这里我们用类似方差的表达式表示其误差：
$C_k=\sum_{i=0}^{N_{L_l}} (a^{L_l}_i-O_i)^2$

实际上有其他表示误差的方式，本人不是很了解。

显然的，我们需要让 $C_k$ 越小越好，这时候，我们需要知道 $a_i^{L_l}$ 应该如何变化才能使得 $C_k$ 变小，可以想到运用导数计算出 $a$ 应该有的变化，也就是：
$\frac{\partial C_k}{\partial a^{L_l}_i} =2\left(a^{L_l}_i - O_i\right)$
想让 $C_k$ 变小，就需要让 $a_i^{L_l}$ 向着 $-\frac{\partial C_k}{a^{L_l}_i}$ 方向减小，至于如何做到这一点，我们可以调整 $b^{L_l}_i,w^{L_l}_{i,*}, a^{L_{l-1}}_*$ 。而调整这些参数，也可以使用求导的方式（ $0\leq j<n_{l-1}$ ）：
$\begin{aligned} \frac{\partial C_k}{\partial b^{L_l}_i} &= \frac{\partial z^{L_l}_i}{\partial b^{L_l}_i} \frac{\partial a^{L_l}_i}{\partial z^{L_l}_i} \frac{\partial C_k}{\partial a^{L_l}_i} = 1\cdot f'\left(z^{L_l}_i\right)\frac{\partial C_k}{\partial a^{L_l}_i}\\ \frac{\partial C_k}{\partial w^{L_l}_{i,j}} &= \frac{\partial z^{L_l}_i}{\partial w^{L_l}_{i,j}} \frac{\partial a^{L_l}_i}{\partial z^{L_l}_i} \frac{\partial C_k}{\partial a^{L_l}_i} = a^{L_{l}-1}_j f'\left(z^{L_l}_i\right)\frac{\partial C_k}{\partial a^{L_l}_i}\\ \frac{\partial C_k}{\partial a^{L_{l}-1}_j} &= \sum_{i=0}^{n_{L_l}}\frac{\partial z^{L_l}_i}{\partial a^{L_{l}-1}_j} \frac{\partial a^{L_l}_i}{\partial z^{L_l}_i} \frac{\partial C_k}{\partial a^{L_l}_i} = \sum_{i=0}^{n_{L_l}-1}w^{L_l}_{i,j}f'\left(z^{L_l}_i\right)\frac{\partial C_k}{\partial a^{L_l}_i} \end{aligned}$
要调整这些参数，只需要向着导数的反方向增减这些变量即可，至于 $a^{L_l-1}_j$ 的调整，需要调整 $b^{L_l-1}_j$ 以及 $w^{L_l-1}_{j,*}$ ，其调整方式也是求导，且结构和上述的式子大致相同：
$\begin{aligned} &\forall L\in [1,L_l-1] \cap \mathbb{Z}\\ &\frac{\partial C_k}{\partial b^{L}_i} = \frac{\partial z^{L}_i}{\partial b^{L}_i} \frac{\partial a^{L}_i}{\partial z^{L}_i} \frac{\partial C_k}{\partial a^{L}_i} = 1\cdot f'\left(z^{L}_i\right)\frac{\partial C_k}{\partial a^{L}_i}\\ &\frac{\partial C_k}{\partial w^{L}_{i,j}} = \frac{\partial z^{L}_i}{\partial w^{L}_{i,j}} \frac{\partial a^{L}_i}{\partial z^{L}_i} \frac{\partial C_k}{\partial a^{L}_i} = a^{L-1}_j f'\left(z^{L}_i\right)\frac{\partial C_k}{\partial a^{L}_i}\\ &\frac{\partial C_k}{\partial a^{L}_j} = \sum_{i=0}^{n_{L+1}-1}\frac{\partial z^{L+1}_i}{\partial a^{L}_j} \frac{\partial a^{L+1}_i}{\partial z^{L+1}_i} \frac{\partial C_k}{\partial a^{L+1}_i} = \sum_{i=0}^{n_{L+1}-1}w^{L+1}_{i,j}f'\left(z^{L+1}_i\right)\frac{\partial C_k}{\partial a^{L+1}_i} \end{aligned}$
至此，我们得到了为了拟合数据 $k$ 而需要调整的数据的内容，以及调整之前的网络的信息，我们用两个数组（或者认为是矩阵，向量）将其整合一下：
$\nabla C_k=\begin{bmatrix} \frac{\partial C_k}{\partial b^{0}_0}\\ \frac{\partial C_k}{\partial b^{0}_1}\\ \vdots\\ \frac{\partial C_k}{\partial b^{L_l}_{n_{L_l}-1}}\\ \frac{\partial C_k}{\partial w^{1}_{0,0}}\\ \frac{\partial C_k}{\partial w^{1}_{0,1}}\\ \vdots\\ \frac{\partial C_k}{\partial w^{L_l}_{n_{L_l}-1,n_{L_l-1}-1}} \end{bmatrix} , D=\begin{bmatrix} b^{0}_0\\ b^{0}_1\\ \vdots\\ b^{L_l}_{n_{L_l}-1}\\ w^{1}_{0,0}\\ w^{1}_{0,1}\\ \vdots\\ w^{L_l}_{n_{L_l}-1,n_{L_l-1}-1} \end{bmatrix}$
当我们调整网络的时候，可以使用一个参数 $\eta$ 调整这个数据对学习的影响，而调整方式，可以用 $D'=D-\eta \cdot \nabla C_k$ 表示对这个数据的学习。可想而知 $\eta$ 越大，这个数据对网络的影响越强。而 $\eta$ 的调节，是一个需要讨论的问题，但是本人不太懂，所以本文中的 $\eta =1$ 。

Mini-Batch

如果对于每个数据，都进行一次调整，那么效率会变得很低，为此，我们可以使用一个小技巧，也就是 $\texttt{Mini-Batch}$ 。具体操作方式如下：

首先设定一个大小 $S$ ，本文中，我们设其为 $10$ 。接着，将数据集打乱，然后每 $S$ 个数据组成一个 $\mathrm{Batch}$ 。对于每一个 $\mathrm{Batch}$ ，设其中的数据编号为 $1,2,3,\dots, S$ ，对于每一个数据 $i$ ，都用 $\texttt{BP}$ 计算出一个 $\nabla C_i$ ，接着将 $\mathrm{Batch}$ 中的调整信息整合，这里我们用平均值进行整合： $\nabla C=\frac{1}{S}\sum_{i=1}^S \nabla C_i$ ，接着用这个 $\nabla C$ 调整神经网络。

代码

$\texttt{NN}.h$ ：

#pragma once#include <vector>
#include <cstdarg>
#include "gloconst.h"class Network {
private:double **a, **b, **da, **db, **z;double ***w, ***dw;std::vector<int> network_size;/// <summary>/// 进行逆向传播/// </summary>/// <param name="output">学习的输出</param>void Backprop(double *output);
public:Network(std::vector<int> &network_size);~Network();/// <summary>/// 计算一个数据/// </summary>/// <param name="input">输入</param>void Calculate(double *input);/// <summary>/// 对模型进行训练/// </summary>/// <param name="data">数据 data[i][0] 表示第i个输入，data[i][1] 表示第i个输出</param>/// <param name="size">数据的数量</param>/// <param name="batch_size">mini-batch的大小</param>void Train(double ***data, int size, int batch_size = 100);/// <summary>/// 得到输出值a最大的节点的id/// </summary>/// <returns></returns>int GetMaxOutputNode();
};

$\texttt{NN.cpp}$ ：

#include "NN.h"
#include <algorithm>
#include <ctime>
#include <cassert>
#include <random>unsigned seed = time(NULL);
std::default_random_engine gen(seed);
std::normal_distribution<double> dis(0, 1);//生成正态分布的随机数 mu=0,sigma=1
inline double randn() {return dis(gen);
}
Network::Network(std::vector<int> &network_size) {this->network_size = network_size;a = new double *[network_size.size()];b = new double *[network_size.size()];da = new double *[network_size.size()];db = new double *[network_size.size()];z = new double *[network_size.size()];w = new double **[network_size.size() - 1];dw = new double **[network_size.size() - 1];for (int i = 0; i < network_size.size(); i++) { int size_i = network_size[i];b[i] = new double[size_i], a[i] = new double[size_i], da[i] = new double[size_i], db[i] = new double[size_i], z[i] = new double[size_i];for (int j = 0; j < size_i; j++) b[i][j] = randn();if (i) {w[i] = new double *[size_i];dw[i] = new double *[size_i];for (int j = 0; j < size_i; j++) {int size2 = network_size[i - 1];w[i][j] = new double[size2];dw[i][j] = new double[size2];for (int k = 0; k < size2; k++)w[i][j][k] = randn();}}}
}Network::~Network() {for (int i = 0; i < network_size.size(); i++) {int size_i = network_size[i];delete[] a[i], delete[] b[i], delete[] da[i], delete[] db[i], delete[] z[i];if (i) for (int j = 0; j < size_i; j++)delete[] w[i][j], delete[] dw[i][j];}
}void Network::Calculate(double *input) {memcpy(a[0], input, sizeof(double) * network_size[0]);for (int i = 1; i < network_size.size(); i++) {int sizei = network_size[i], size_lst = network_size[i - 1];for (int j = 0; j < sizei; j++) {z[i][j] = b[i][j];for (int k = 0; k < size_lst; k++) z[i][j] += w[i][j][k] * a[i - 1][k];a[i][j] = Sigmoid(z[i][j]);}}
}void Network::Backprop(double *output) {int lstid = network_size.size() - 1, sizei = network_size[network_size.size() - 1];for (int i = 0; i < sizei; i++) {da[lstid][i] = (a[lstid][i] - output[i]),db[lstid][i] = DSigmoid(z[lstid][i]) * da[lstid][i];for (int j = 0; j < network_size[lstid - 1]; j++)dw[lstid][i][j] = a[lstid - 1][j] * db[lstid][i];}for (int i = lstid - 1; i > 0; i--) {for (int j = 0; j < network_size[i]; j++) {da[i][j] = 0;for (int k = 0; k < network_size[i + 1]; k++)da[i][j] += w[i + 1][k][j] * db[i + 1][k];db[i][j] = DSigmoid(z[i][j]) * da[i][j];for (int k = 0; k < network_size[i - 1]; k++)dw[i][j][k] = a[i - 1][k] * db[i][j];}}
}void array_add(double *dst, double *src, int sz) {for (int i = 0; i < sz; i++) dst[i] += src[i];
}
void array_mul(double *dst, double x, int sz) {for (int i = 0; i < sz; i++) dst[i] *= x;
}void Network::Train(double ***data, int size, int batch_size) {batch_size = std::min(batch_size, size);std::random_shuffle(data, data + size);double **avr_db, ***avr_dw;avr_db = new double *[network_size.size()];avr_dw = new double **[network_size.size()];for (int i = 0; i < network_size.size(); i++) {avr_db[i] = new double[network_size[i]];avr_dw[i] = new double*[network_size[i]];if (i) for (int j = 0; j < network_size[i]; j++)avr_dw[i][j] = new double[network_size[i - 1]];}const double eta = 1;for (int st = 0; st < size; st += batch_size) {//clean the avr arrayfor (int i = 0; i < network_size.size(); i++) {memset(avr_db[i], 0, sizeof(double) * network_size[i]);if (i) for (int j = 0; j < network_size[i]; j++)memset(avr_dw[i][j], 0, sizeof(double) * network_size[i - 1]);}for (int x = st; x < st + batch_size; x++) {Calculate(data[x][0]);Backprop(data[x][1]);for (int i = 0; i < network_size.size(); i++) {array_add(avr_db[i], db[i], network_size[i]);if (i) for (int j = 0; j < network_size[i]; j++)array_add(avr_dw[i][j], dw[i][j], network_size[i - 1]);}}for (int i = 1; i < network_size.size(); i++) {array_mul(avr_db[i], -eta / batch_size, network_size[i]);array_add(b[i], avr_db[i], network_size[i]);if (i) for (int j = 0; j < network_size[i]; j++) {array_mul(avr_dw[i][j], -eta / batch_size, network_size[i - 1]),array_add(w[i][j], avr_dw[i][j], network_size[i - 1]);}}}for (int i = 0; i < network_size.size(); i++) {delete[] avr_db[i];if (i) {for (int j = 0; j < network_size[i]; j++) delete[] avr_dw[i][j];delete[] avr_dw[i];}}delete[] avr_db, delete[] avr_dw;
}int Network::GetMaxOutputNode() {int res = 0;double *lyr = a[network_size.size() - 1];int size = network_size[network_size.size() - 1];for (int i = 1; i < size; i++)res = (lyr[res] > lyr[i] ? res : i);return res;
}