神经网络 基础知识整理
- 前向传播
- 前向传播
- pytorch中的forward函数
- 反向传播
顾名思义,前向传播是从前往后传播的,从input层到output层的方向:前面一层的输出传入后一层作为输入,再对数据进行相应的处理,继续传下去,直到输出层;反向传播是从后往前传播的,从output层到input层的方向:目标函数(对应的损失函数)对某权重or某偏置(即神经网络中可训练的参数)求偏导,根据链式法则,从后往前计算偏导。
前向传播
前向传播
我们以多层感知机(MLP)为例子,来看看前向传播的过程:神经网络分为3层(输入层、中间层=隐藏层、输出层),数据分别用X、A、Y表示,输入是1*3的向量,中间层有4个神经元节点,输出有2个神经元(比如二分类任务)。X输入然后经过线性变换+非线性变换(激活函数)得到A,A再经过线性变换+非线性变换得到Y,Y经过非线性变换得到最终的输出,整个过程就是前向传播的过程。
我们来看看a1、a2、a3、a4具体的计算式子,用W表示权重,B表示偏置,表示成矩阵运算即A=f(WX+B)
,其中A是1*4的向量,W是4*3的矩阵,4对应着输出节点数量,3对应着输入节点数量【权重矩阵W的维度表示成m*n的话,m对应着i+1层网络层的维度,n对应着i层网络层的维度】,f是激活函数:
最后输出Y的计算式子:
pytorch中的forward函数
首先说说python中的__call__()方法,这个方法使得一个类(假设是MyClass)的实例化对象(myclass)可以直接用myclass()
调用__call__()方法,而不需要myclass.__call__()
这样显示调用。以下代码的输出是调用了__call__函数, 其中age=23, name=Eliy
,可见myclass()等于myclass.__call__():
class MyClass:def __call__(self, age, name) -> Any:print(f"调用了__call__函数, 其中age={age}, name={name}")if __name__ == '__main__':mycalss = MyClass()# 观察是否会调用__call__()mycalss(age=23, name= 'Eliy')
pytorch中自定义的网络结构都需要继承nn.Module类,这个类里面有self.forward()
函数,自定义类需要重写这个函数,具体内容是实现前向传播。用resnet网络为例,forward函数内容如此:
def forward(self, x):# 忽略每一层的具体结构,观察输入x的流向# 前向传播就是output = model(input)的数据处理过程out = F.relu(self.bn1(self.conv1(x)))out = self.layer1(out)out = self.layer2(out)out = self.layer3(out)out = self.layer4(out)out = F.avg_pool2d(out, 4)out = out.view(out.size(0), -1)out = self.fc(out)return out
需要注意的是,在nn.Module类中的__call__()方法里面,会去调用nn.Module的forward()方法,因此要得到自己model的输出,不必显式调用model.forward(input),直接model(input),此时会调用__call__(),进一步调用forward()。
反向传播
反向传播算法(back propagation),全称是误差反向传播算法,这里的误差实际就是目标函数/损失函数,即模型的输出y’与真实标签y之间的误差。反向传播算法通过使用链式法则,从网络的输出层开始,沿着网络的连接逐层向后计算梯度。这个过程实际上就是计算损失函数对于每个参数的偏导数,然后将这些偏导数整合成梯度。这些梯度随后可以被用于梯度下降等优化算法中,来更新网络参数以最小化损失函数。 反向传播算法与梯度下降算法结合使用,用于训练神经网络模型,具体来说是,反向传播算法计算梯度下降算法所需要的梯度。
因为模型中有很多可训练参数(假设用W表示),因此损失函数E是关于W的多元函数,高等数学学习了多元函数求偏导的方法,以及符合函数求导的链式法则,反向传播求梯度需要用到这些知识。 假设y=f(u(x))
,求关于x的导数,如下:
我们按照第一张图片给出的三层神经网络,以MSE作为损失函数(假设这里是二分类用softmax作为激活函数的话,输出是(y1,y2)这样的向量,计算MSE就逐元素相减,再平方再相加),具体以反向传播计算w1_11的偏导为例: