多层感知机（神经网络）

一、感知机（逻辑回归、二分类）定义：
二、感知机不能解决XOR问题：
三、多层感知机定义：
四、训练过程：
- 1.参数维度：
- 2.常用激活函数：
- - 2.1Sigmoid激活函数：
  - 2.2Tanh激活函数：
  - 2.3ReLU激活函数：
- 3.训练过程举例：******
五、底层代码实现：
六、Pytorch版代码：

一、感知机（逻辑回归、二分类）定义：

感知机其实就是一个逻辑回归模型，解决的是二分类问题。
逻辑回归模型其实就是加入了激活函数后的线性回归模型，加入激活函数的作用是使得输出层单一神经元的单一输出值限制在0和1之间，更适合于二分类问题。
在这里插入图片描述
感知机的训练过程同线性回归，只不过在线性回归的基础上输出之前加入了激活函数进行映射。

二、感知机不能解决XOR问题：

由于逻辑回归模型只能通过一条直线将样本数据划分为两个分类，因此对于下面的样本，无论如何训练模型，得到的决策边界都不能将样本正确的划分。
在这里插入图片描述
因此对于上述问题，应该如何解决？

答案是将多个逻辑回归模型堆叠多层，就能很好的解决上述问题，这就是多层感知机的由来。
在这里插入图片描述
其中黄色的逻辑回归模型、蓝色的逻辑回归模型将样本分别分为两类。最后通过灰色的逻辑回归模型使用蓝色黄色的输出特征作为输入将样本最终分为两类。

三、多层感知机定义：

多层感知机（神经网络）是逻辑回归和Softmax回归的推广，将逻辑回归和Softmax回归堆叠来解决原来单一模型不能解决的问题。其中隐藏层h1–h5为逻辑回归模型，用于根据输入特征分别解决一个二分类问题，输出层o1–o3组成一个Softmax回归模型，根据隐藏层输出的特征进行三分类问题的预测。

在这里插入图片描述

四、训练过程：

1.参数维度：

在这里插入图片描述

输入层维度固定，由数据决定。
隐藏层神经元个数是个超参数，因此隐藏层参数矩阵W、b的行数固定，由输入层维度决定，但是列数不固定，由神经元个数决定。
输出层参数矩阵W、b的列数固定，由分类数目决定，但是行数不固定，由隐藏层神经元个数决定。

对于多隐藏层情况，每个隐藏层都有各自的W、b参数，其中隐藏层层数也是一个超参数。
在这里插入图片描述
注意每一层都是一个全连接层。全连接层概念

2.常用激活函数：

2.1Sigmoid激活函数：

在这里插入图片描述

2.2Tanh激活函数：

在这里插入图片描述

2.3ReLU激活函数：

在这里插入图片描述

3.训练过程举例：******

以十分类模型的一次训练过程为例，其中隐藏层一层，隐藏层神经元个数为256：
1.获取一个batch，里面包含batch_size张图片。
2.将batch_size张图片展成一维（例如24×24的图片展成784），获得输入维度为：batch_size×784×1（图片数×特征维度[784×1]）。
3.隐藏层参数W维度计算为784×256，参数b维度计算为1×256。
4.每张图片的所有特征分别输入隐藏层的各个神经元hi及其激活函数计算预测值yi，一张图片的输出维度为256×1，隐藏层对整个batch的输出维度为batch_size×256×1，作为输出层输入（隐藏层相当于提取特征）。
5.输出层参数W维度计算为256×10，参数b维度计算为1×10。
6.将隐藏层输出特征矩阵作为隐藏层输入，输出层是一个softmax回归模型。
7.接下来的操作同softmax回归，每个1×256×1的特征分别作为输入计算预测值，输出维度1×10的预测结果。
8.整个batch中的输出组合成维度batch_size×10。
9.使用softmax回归将输出映射成概率，维度为batch_size×10，并且每行概率之和为1。
10.使用交叉熵损失函数计算batch中所有图片的概率损失，并取均值。
11.计算各个参数wmn、bn关于损失函数的梯度。
12.反向传播算法修改参数值。
13.输入下一个batch进行训练。

五、底层代码实现：

import torch
from torch import nn
from d2l import torch as d2l
# 1.获取数据，封装成一个dataloader
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)num_inputs, num_outputs, num_hiddens = 784, 10, 256# 实现的多层感知机，其中隐藏层数为1，隐藏层中神经元个数为256
# 2.初始化参数值
# 隐藏层
W1 = nn.Parameter(torch.randn(num_inputs, num_hiddens, requires_grad=True) * 0.01)# num_inputs×num_hiddens
b1 = nn.Parameter(torch.zeros(num_hiddens, requires_grad=True))# 1×num_hiddens
# 输出层
W2 = nn.Parameter(torch.randn(num_hiddens, num_outputs, requires_grad=True) * 0.01)# num_hiddens×num_outputs
b2 = nn.Parameter(torch.zeros(num_outputs, requires_grad=True))# 1×num_outputsparams = [W1, b1, W2, b2]# 3.实现激活函数
def relu(X):a = torch.zeros_like(X)return torch.max(X, a)# 4.损失函数
loss = nn.CrossEntropyLoss()# 5.实现模型
def net(X):X = X.reshape((-1, num_inputs))#将输入X拉成二维矩阵，即batch_size×num_inputs（这里把特征拉成一维）H = relu(X @ W1 + b1)# 隐藏层return (H @ W2 + b2)# 输出层# 6.训练过程
num_epochs, lr = 10, 0.1
updater = torch.optim.SGD(params, lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, updater)

六、Pytorch版代码：

import torch
from torch import nn
from d2l import torch as d2l# 1.网络架构
net = nn.Sequential(nn.Flatten(),# 将输入数据展平nn.Linear(784, 256),# 隐藏层为全连接层nn.ReLU(),# 隐藏层输出需经过激活函数nn.Linear(256, 10)# 输出层也是全连接层)
# 2.初始化参数
def init_weights(m):if type(m) == nn.Linear:nn.init.normal_(m.weight, std=0.01)net.apply(init_weights);# 3.训练过程
batch_size, lr, num_epochs = 256, 0.1, 10
loss = nn.CrossEntropyLoss()
trainer = torch.optim.SGD(net.parameters(), lr=lr)train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)