NLP CH3复习

CH3

3.1 几种损失函数

3.2 激活函数性质

3.3 哪几种激活函数会发生梯度消失

3.4 为什么会梯度消失

3.5 如何解决梯度消失和过拟合

3.6 梯度下降的区别

3.6.1 梯度下降（GD）

全批量：在每次迭代中使用全部数据来计算损失函数的梯度。
计算成本高：对于大数据集来说，每次迭代的计算成本非常高。
稳定收敛：由于每次都利用全部数据，因此梯度的估计非常准确，收敛路径平滑。

3.6.2 随机梯度下降（SGD）

单个样本：在每次迭代中随机选择一个数据样本来计算梯度。
计算成本低：每次只处理一个样本，大大减少了计算量。
收敛波动大：由于每次只用一个样本更新，梯度估计的方差较大，导致收敛过程中有较多波动。

3.6.3 Mini-batch梯度下降

小批量样本：在每次迭代中使用一小部分数据样本（例如32或64个样本）来计算梯度。
计算成本适中：平衡了全批量的计算效率和随机梯度的更新速度。
收敛相对稳定：小批量的使用减少了梯度估计的方差，使得收敛过程比随机梯度下降更稳定，但又比全批量梯度下降更灵活。

3.7 DNN

3.7.1 反向传播算法过程

将输出误差以某种形式反传给各层所有的单元，各层按本层误差修正各单元连接权值。

3.7.2 训练步骤

3.8 CNN

3.8.1 CNN的组成

由卷积层、子采样层、全连接层交叉堆叠而成

3.8.2 对比DNN

3.9 GNN

3.9.1 基本GNN和GCN的公式对比

3.9.1.1 基本GNN的公式

$h_v^k = \sigma \left( W_k \sum_{u \in \mathcal{N}(v)} \frac{h_u^{k-1}}{|\mathcal{N}(v)|} + B_k h_v^{k-1} \right)$

核心思想：
- 聚合节点 $v$ 的邻居节点特征 $h_u^{k-1}$ 的平均值。
- 使用两个不同的权重矩阵 $W_k$ 和 $B_k$ 分别对邻居特征和节点自身特征进行线性变换。
- 通过激活函数 $\sigma$ （例如 ReLU 或 tanh）引入非线性。
特点：
- 对所有邻居进行简单的平均（即 $\frac{1}{|\mathcal{N}(v)|}$ ），没有对邻居节点的重要性加权。
- 参数共享较少，特征变换对邻居和节点自身分开处理。

3.9.1.2 GCN的公式

$h_v^k = \sigma \left( W_k \sum_{u \in \mathcal{N}(v) \cup \{v\}} \frac{h_u^{k-1}}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}} \right)$

改进点：
1. 归一化：
  - 替代简单的平均聚合，GCN引入对称归一化因子 $\frac{1}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}}$ ，减小高度节点（高度数节点）对结果的影响。
2. 参数共享：
  - 同一权重矩阵 $W_k$ 用于邻居特征和节点自身特征变换，减少参数数量，提高模型泛化能力。
3. 自环（Self-loop）：
  - 邻域中加入节点自身（即 $\mathcal{N}(v) \cup \{v\}$ ），保证每层节点都能保留自身信息。
特点：
- 更好的参数共享，减少了过拟合的风险。
- 归一化权重避免了高度数节点的特征主导问题。

3.9.2 GNN池化的概念

池化可以理解为图卷积过程中特征和节点的降维操作。以下是两种池化方式的相关描述：

3.9.2.1 全局池化

汇总整个图的节点特征，用于生成固定维度的图表示。
常见方式：
- 平均池化：取所有节点特征的平均值。
- 最大池化：取节点特征的最大值。
- 加权池化：根据任务需求对节点特征加权后聚合。

3.9.2.2 局部池化

在每一层中，通过选择部分重要节点，逐层减少图中节点的数量，同时保留主要的结构信息。
常见方式：
- Top- $k$ 池化：根据节点重要性评分选择得分最高的节点。
- 可微分池化（DiffPool）：通过学习分配矩阵动态生成池化结果。

3.9.3 GCN的改进特点

参数共享（More parameter sharing）：
- GCN使用相同的权重矩阵 $W_k$ 对邻居节点和自身节点的特征进行线性变换。
- 减少参数数量，提升模型训练稳定性。
削弱高度节点的影响（Down-weights high degree neighbors）：
- 通过对称归一化因子 $\frac{1}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}}$ ，减小度数大的节点对目标节点的特征贡献。
- 防止高度数节点主导聚合特征，造成模型偏差。

3.9.4 总结

基本GNN：通过简单平均的方式聚合邻居特征，参数较多，但未对邻居节点的贡献权重进行优化。
GCN：引入对称归一化和参数共享机制，使模型更稳定、高效，同时减少过拟合。
GNN池化：可以进一步通过全局或局部池化操作提取图或节点的高层次特征，适应更复杂的任务需求。

3.9.5 邻接节点个数不确定如何解决？

邻居信息聚合：
- 核心思想：将目标节点的特征更新为其自身特征和邻居特征的组合。
参数共享：
- GNN采用共享的权重矩阵（如图中的 $W_k$ 和 $B_k$ ），即在同一层中所有节点使用相同的参数。
邻接节点特征聚合：
- 对每个节点的邻域进行聚合，生成一个固定维度的邻域表示（如 $W_kh^{k-1}$ ）。

实心节点（蓝色圆点）代表的是实心结点（实际节点），它们是对应的实心结点的邻接结点聚集。

在原始图结构(左图)中，每个节点都有其自然的邻接关系(通过灰色线连接)
对于层次 $h^k$ 到 $h^{k-1}$ 之间的信息传递：
- 设定了锚点（实心节点）
- 使用注意力机制或聚合函数（图中通过 $W_k$ 和 $B_k$ 表示）来学习和聚集信息
- 将相邻节点的信息聚集到这些锚点上
具体的聚集过程：
- 通过权重矩阵 $W_k$ 来计算注意力分数或重要性权重
- 使用 $B_k$ 来转换或投影特征
- 最终将邻域节点的信息加权聚合到固定数量的锚点上

3.9.6 GNN训练，卷积步骤

在最后一层（K层）得到每个结点的表示后，可以根据任务将其代入任何损失函数，然后用梯度下降法训练参数。

3.10 RNN

DNN、CNN 输入、输出定长；处理输入、输出变长问题效率不高。而自然语言处理中的语句通常其长度不固定。
单一DNN、CNN 无法处理时序相关序列问题

RNN核心思想：

将处理问题在时序上分解为一系列相同的“单元”，单元的神经网络可以在时序上展开，且能将上一时刻的结果传递给下一时刻，整个网络按时间轴展开。即可变长。

3.10.1 训练中的问题以及解决方式

会出现和深度前馈神经网络类似的梯度消失问题。在训练循环神经网络时，更经常出现的是梯度消失问题，训练较难

距当前节点越远的节点对当前节点处理影响越小，无法建模长时间的依赖

3.10.2 BPTT和BP的区别

参考链接

3.10.3 LSTM, GRU

3.10.4 设计题参考结构

补充

反向传播算法中第 L-1 层的误差项表达式：

$\delta^{(L-1)} = \sigma'(Z^{(L-1)}) \cdot (W^{(L)})^{\top} \delta^{(L)}$

其中：

$\sigma'$ 表示激活函数的导数
$Z^{(l)}$ 是第 l 层的加权输入
$W^{(l)}$ 是第 l 层的权重矩阵
$\delta^{(l)}$ 是第 l 层的误差项

推导步骤：

前向传播定义
第 l 层的输出 $A^{(l)}$ 表示为：
$A^{(l)} = \sigma(Z^{(l)}) = \sigma(W^{(l)}A^{(l-1)} + b^{(l)})$
损失函数定义
使用均方误差(MSE)作为损失函数 J：
$\frac{1}{2} \|A^{(L)} - Y\|^2$
计算输出层误差项 $\delta^{(L)}$ ：
$\delta^{(L)} = \frac{\partial J}{\partial Z^{(L)}} = (A^{(L)} - Y) \cdot \sigma'(Z^{(L)})$
递推计算隐藏层误差项
对于第 l 层 (l = L-1, L-2, …, 1)：
$\delta^{(l)} = \frac{\partial J}{\partial Z^{(l)}} = (W^{(l+1)})^{\top} \delta^{(l+1)} \cdot \sigma'(Z^{(l)})$

具体到 l = L-1：
$\delta^{(L-1)} = (W^{(L)})^{\top} \delta^{(L)} \cdot \sigma'(Z^{(L-1)})$

通过链式法则详细推导：

误差项 $\delta^{(l)}$ 可表示为：
$\delta^{(l)} = \frac{\partial J}{\partial Z^{(l)}} = \frac{\partial J}{\partial A^{(l)}} \cdot \frac{\partial A^{(l)}}{\partial Z^{(l)}}$
其中：
- $\frac{\partial A^{(l)}}{\partial Z^{(l)}} = \sigma'(Z^{(l)})$
- $\frac{\partial J}{\partial A^{(l)}} = (W^{(l+1)})^{\top} \delta^{(l+1)}$
最终得到第 L-1 层的误差项：
$\delta^{(L-1)} = \sigma'(Z^{(L-1)}) \cdot (W^{(L)})^{\top} \delta^{(L)}$