大模型一些概念的理解 - 线性层、前向传播、后向传播

文章目录

前言
一、线性层
- 1. 什么是线性层？
- 2. 通俗解释
- 3. 示例
二、前向传播
- 1. 什么是前向传播？
- 2. 通俗解释
- 3. 示例
三、后向传播
- 1. 什么是后向传播？
- 2. 通俗解释
- 3. 具体步骤
四、示例
五、在 PyTorch 中的后向传播

前言

最近提问里有问到一些名词：线性层、前向传播、后向传播。这些实际是神经网络的一些基础概念，我们可以先通过通俗易懂的方式简单了解下它们

一、线性层

1. 什么是线性层？

线性层（Linear Layer）是神经网络中的一种基本层，也称为全连接层（Fully Connected Layer）。
它的工作方式类似于简单的线性方程：y = Wx + b，其中 W 是权重矩阵，x 是输入，b 是偏置项，y 是输出。
线性层的主要任务是将输入的数据通过权重和偏置进行线性变换，从而生成输出。

2. 通俗解释

想象你是一家餐馆的老板，你要根据顾客的点餐数量来计算总价：

x 是顾客点的每种菜的数量。
W 是每种菜的单价。
b 是固定的服务费。

你通过这个公式计算出顾客需要支付的总价，这就相当于线性层的作用。

3. 示例

假设一个线性层输入是3维的，输出是2维的，可以理解为：

输入是一个包含3个数的列表（比如顾客点了3种菜的数量）。
线性层把这3个数转换成另一个包含2个数的列表（比如总价和服务费）。

二、前向传播

1. 什么是前向传播？

前向传播（Forward Propagation）是神经网络计算输出的过程。
它从输入层开始，通过各个隐藏层，最后到达输出层，每一层的输出都是下一层的输入。
这个过程相当于逐层传递和处理信息。

2. 通俗解释

想象你要烤一个蛋糕，过程如下：

第1步： 输入层：你有原材料（比如面粉、鸡蛋、糖）。
第2步： 隐藏层：你按照步骤混合材料、搅拌、烘烤。
第3步： 输出层：你得到一个蛋糕。

前向传播就像这个烤蛋糕的过程，你一步步按照食谱操作，最后得到一个结果。

3. 示例

在一个问答模型中，前向传播的过程如下：

第1步： 输入层：你输入一个问题和一段包含答案的文本。
第2步： 隐藏层：模型（比如 BERT）对这些文本进行处理，理解其中的含义。
第3步： 输出层：模型输出答案的起始位置和结束位置。

三、后向传播

1. 什么是后向传播？

后向传播是一种计算梯度的算法，用于神经网络的训练过程。
它通过计算每个参数对损失函数的影响来更新网络的权重和偏置。
具体来说，它是通过链式法则来计算损失函数相对于每个参数的梯度，然后使用这些梯度来更新参数。

2. 通俗解释

想象你在做一个项目，项目结果不理想，你想知道是哪个步骤出了问题：

1） 结果不好（损失函数的值大）。
2） 逐步回溯，检查每个步骤，找到哪些步骤出了问题（计算梯度）。
3） 修正这些步骤，以便下次能做得更好（更新权重和偏置）。

在这个过程中，你在不断调整和优化每个步骤，确保最终结果越来越好。

3. 具体步骤

1） 计算损失：在前向传播结束后，计算模型的预测结果与真实结果之间的差异，这个差异叫做损失（loss）。
2） 反向计算梯度：从输出层开始，逐层向回计算每个参数对损失的贡献，这个过程称为反向传播。
3） 更新参数：使用优化算法（如梯度下降），根据计算出的梯度更新每个参数，使得损失逐渐减少。

四、示例

假设我们有一个简单的神经网络来预测房价：

前向传播：
- 输入房子的特征（面积、房龄等）。
- 网络计算出一个预测的房价。
计算损失：
- 将预测的房价与实际房价进行比较，计算出差异（损失）。
后向传播：
- 从输出层开始，计算每个参数（权重和偏置）对损失的贡献。
- 使用这些梯度来调整参数，使下次预测更加准确。

五、在 PyTorch 中的后向传播

PyTorch 提供了自动微分的功能，通过计算图来支持前向传播和后向传播。

代码示例

import torch
import torch.nn as nn
import torch.optim as optim# 假设我们有一个简单的线性模型
model = nn.Linear(10, 1)  # 输入10维，输出1维
criterion = nn.MSELoss()  # 使用均方误差作为损失函数
optimizer = optim.SGD(model.parameters(), lr=0.01)  # 使用随机梯度下降优化器# 输入和真实输出
inputs = torch.randn(5, 10)  # 随机生成5个样本，每个样本10维
targets = torch.randn(5, 1)  # 随机生成5个真实输出# 前向传播
outputs = model(inputs)
loss = criterion(outputs, targets)# 后向传播
loss.backward()# 更新参数
optimizer.step()