神经网络知识点整理

一、深度学习基础与流程

二、神经网络基础组件

三、卷积神经网络（CNN）编辑

四、循环神经网络（RNN）与LSTM

五、优化技巧与调参

六、应用场景与前沿编辑

七、总结与展望编辑

一、深度学习基础与流程

机器学习流程
- 数据获取：收集结构化或非结构化数据（如CIFAR-10数据集，含5万张32x32训练图像、10类标签）。
- 特征工程：
  - 文本数据：分词、词袋模型（BOW）、N-Gram。
  - 图像数据：标准化（均值/方差）、边缘检测（传统方法如Sobel算子）。
- 模型构建：选择算法（如线性回归、K近邻、神经网络），定义损失函数与优化目标。
- 评估与应用：划分训练集、验证集、测试集，使用交叉验证调参，部署模型至实际场景。
特征工程核心作用
- 数据特征决定模型上限：例如图像分类中，边缘特征（传统方法）或深度特征（卷积网络）的提取。
- 预处理技术：
  - 标准化： $X_{norm} = \frac{X-\mu}{\sigma}$
  - 缺失值处理：删除或填充（均值/中位数）。
- 特征表示：
  - 文本：TF-IDF向量、词嵌入（Word2Vec）。
  - 图像：像素矩阵、颜色通道分离（RGB）。

二、神经网络基础组件

线性函数与得分计算
- 公式：
  $f(x,W)=Wx+b \quad$ （输入 $x \in \mathbb{R}^d$ ,权重 $W \in \mathbb{R}^{k \times d}$ ）
- 示例：CIFAR-10分类任务中，输入为3072维（32x32x3），输出10类得分，权重矩阵大小为 10×307210×3072。
损失函数（Loss Function）
- 多类SVM损失（Hinge Loss）：
  $L_i = \sum_{j \neq y_i} \max(0, s_j - s_{y_i} + 1)$
- 计算示例：若真实类别得分 $s_{y_i} = 3.2$ ，其他类别得分 $s_j = 5.1, -1.7$ ，则损失为 $\max(0, 5.1 - 3.2 + 1) + \max(0, -1.7 - 3.2 + 1) = 2.9$ 。
- 交叉熵损失（Softmax）：
  $Li=-\log\left(\frac{e^{s_{y_i}}}{\sum_j e^{s_j}}\right)$
- 输出概率化：Softmax将得分转换为概率分布（归一化指数函数）。
梯度下降与反向传播
- 梯度下降类型：
  
  类型公式特点
  批量梯度下降 $\theta_j := \theta_j - \alpha\frac{1}{m}\sum_{i=1}^m(h_0(x^{(i)}) - y^{(i)}x_j^{(i)})$ 全局最优但计算量大
  随机梯度下降 $\theta_j := \theta_j + \alpha(y^{(i)} - h_\theta(x^{(i)}))x_j^{(i)}$ 高效但噪声大
  小批量梯度下降 $\theta_j := \theta_j - \alpha\frac{1}{B}\sum_{k=1}^B(h_\theta(x^{(k)}) - y^{(k)}x_j^{(k)})$ 平衡效率与稳定性（B=32/64）
- 反向传播：
  - 链式法则：逐层计算梯度，例如Sigmoid激活函数的导数为 $\frac{\partial z}{\partial x} = \sigma(x)(1-\sigma(x))$
  - 计算图分解：将复杂运算拆分为加法门、乘法门、MAX门等基本单元，分别计算局部梯度。

类型	公式	特点
批量梯度下降	$\theta_j := \theta_j - \alpha\frac{1}{m}\sum_{i=1}^m(h_0(x^{(i)}) - y^{(i)}x_j^{(i)})$	全局最优但计算量大
随机梯度下降	$\theta_j := \theta_j + \alpha(y^{(i)} - h_\theta(x^{(i)}))x_j^{(i)}$	高效但噪声大
小批量梯度下降	$\theta_j := \theta_j - \alpha\frac{1}{B}\sum_{k=1}^B(h_\theta(x^{(k)}) - y^{(k)}x_j^{(k)})$	平衡效率与稳定性（B=32/64）

三、卷积神经网络（CNN）

核心操作与组件
- 卷积层：
  - 功能：提取局部特征，参数共享减少计算量。
  - 输出尺寸计算：
    $H_{out} = \frac{H_{in} - F + 2P}{S} + 1$ （F: 卷积核尺寸, P: 填充, S: 步长）
  - 示例：输入32x32x3，使用10个5x5x3卷积核（步长1，填充2），输出32x32x10。
- 池化层：
  - 最大池化：取窗口内最大值，减少特征图尺寸（如2x2池化，步长2，尺寸减半）。
  - 平均池化：取窗口内平均值，保留整体信息。
- 激活函数：
  
  类型公式特点
  ReLU $f(x) = max(0,x)$ 缓解梯度消失，计算高效
  Sigmoid $f(x) = \frac{1}{1+e^{-x}}$ 输出概率（0~1），易饱和
经典网络架构
- AlexNet：
  - 结构：5卷积层 + 3全连接层。
  - 创新点：首次使用ReLU、Dropout、GPU加速训练。
  - 参数示例：第一层卷积核11x11，步长4，输出55x55x96。
- VGGNet：
  - 核心思想：堆叠3x3小卷积核（参数量更少，非线性更强）。
  - 感受野计算：3层3x3卷积等效于1层7x7卷积，参数量减少33%。
- ResNet：
  - 残差块：解决深层网络退化问题，公式 $H(x) = F(x) + x$ 。
  - 优势：允许训练数百层网络，ImageNet Top-5错误率降至3.57%。
CNN优势
- 参数共享：同一卷积核在整张图像滑动，显著降低参数量。
- 平移不变性：特征检测不受位置影响。
- 层次化特征：
  - 浅层：边缘、纹理（如Gabor滤波器效应）。
  - 深层：语义信息（如物体部件、类别）。

类型	公式	特点
ReLU	$f(x) = max(0,x)$	缓解梯度消失，计算高效
Sigmoid	$f(x) = \frac{1}{1+e^{-x}}$	输出概率（0~1），易饱和

四、循环神经网络（RNN）与LSTM

RNN基础
- 结构：隐藏状态 ℎ𝑡ht 传递时序信息。
  $h_t = \sigma(W_hh_{t-1} + W_xx_t + b)$
- 应用场景：文本生成、时间序列预测、机器翻译。
- 缺陷：梯度消失/爆炸，难以捕捉长期依赖。
长短期记忆网络（LSTM）
- 核心门控机制：
  
  门类型 公式功能
  遗忘门 $f_t = \sigma(W_f[h_{t-1},x_t] + b_f)$ 决定丢弃哪些历史信息
  输入门 $i_t = \sigma(W_i[h_{t-1},x_t] + b_i)$ 更新细胞状态的新信息
  输出门 $o_{t}=\sigma\left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right)$ 控制当前隐藏状态的输出
- 细胞状态更新：
  $C_{t}=f_{t} \odot C_{t-1}+i_{t} \odot \tanh \left(W_{C}\left[h_{t-1}, x_{t}\right]+b_{C}\right)$
- 优势：通过细胞状态长期记忆关键信息，缓解梯度消失。

门类型	公式	功能
遗忘门	$f_t = \sigma(W_f[h_{t-1},x_t] + b_f)$	决定丢弃哪些历史信息
输入门	$i_t = \sigma(W_i[h_{t-1},x_t] + b_i)$	更新细胞状态的新信息
输出门	$o_{t}=\sigma\left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right)$	控制当前隐藏状态的输出

五、优化技巧与调参

数据预处理
- 标准化：零均值化（X -= np.mean(X, axis=0)）和归一化（X /= np.std(X, axis=0)）。
- 数据增强：
  - 图像：旋转、裁剪、加噪声。
  - 文本：同义词替换、随机删除。
参数初始化
- Xavier初始化：适应激活函数，保持输入输出方差一致。
  $W\sim\mathcal{N}\left(0,\sqrt{\frac{2}{n_{in}+n_{out}}}\right)$
- He初始化：专为ReLU设计，方差为 $\frac{2}{n_{in}}$ 。
正则化技术
- Dropout：训练时随机丢弃神经元（如丢弃率0.5），减少过拟合。
- L2正则化：惩罚大权重，损失函数添加 $\lambda\sum W_{ij}^{2}$ 。
- 早停法：监控验证集损失，连续多次未改善则终止训练。
超参数选择
- 学习率：初始值常设为0.001，配合学习率衰减（如每10轮减半）。
- 批量大小：权衡内存与梯度稳定性（常用32/64/128）。

六、应用场景与前沿

计算机视觉
- 图像分类：ResNet在ImageNet上Top-5错误率低于5%。
- 目标检测：Faster R-CNN（两阶段）、YOLO（单阶段实时检测）。
- 图像生成：GAN生成逼真图像，StyleGAN实现可控生成。
自然语言处理
- 机器翻译：Transformer模型（如BERT、GPT-3）取代RNN。
- 情感分析：LSTM捕捉上下文依赖，BERT微调实现高精度。
跨领域应用
- 医疗影像：CNN辅助诊断肺结节、视网膜病变。
- 自动驾驶：CNN处理实时路况，LSTM预测车辆轨迹。

七、总结与展望

当前挑战
- 计算资源需求：大模型训练依赖高性能GPU/TPU集群。
- 可解释性：黑箱模型决策过程难以解释（如医疗领域）。
未来方向
- 轻量化模型：MobileNet、EfficientNet提升移动端部署效率。
- 自监督学习：利用无标注数据预训练（对比学习、掩码语言模型）。
- 多模态融合：联合处理图像、文本、语音（如CLIP、DALL-E）。