循环神经网络 - 长短期记忆网络

在之前的博文中，我们介绍了循环神经网络的长程依赖问题及改进方案，可以参考：循环神经网络 - 长程依赖问题及改进方案-CSDN博客

但是改进方案只是可以缓解梯度消失，并不能彻底解决梯度爆炸问题和记忆容量(Memory Capacity)问题。

长短期记忆网络(Long Short-Term Memory Network，LSTM)是循环神经网络的一个变体，可以有效地解决简单循环神经网络的梯度爆炸或消失问题。

在普通 RNN 中，由于每一步的隐藏状态只通过简单的递归更新，长时间以来传递的梯度可能会迅速消失或爆炸，导致模型无法捕捉长距离依赖。LSTM 通过引入记忆单元 c_t 和门控机制，将信息在时间步之间直接传递，且引入了“跳跃”连接（将 c_{t-1} 直接影响 ct 经过线性组合而非多次非线性变换），这样就能更稳定地传递梯度信息，捕捉长程依赖。具体来说：

遗忘门 控制过去的记忆保留程度；
输入门与候选记忆 决定如何加入新信息；
输出门 决定如何输出对后续步骤有用的信息。

这种设计有效减弱了反向传播过程中梯度消失或爆炸的问题，使得 LSTM 能够记住和利用长时间跨度中的关键信息，这正是许多语言模型、语音处理和其他序列数据任务中的核心需求。

本文，我们来认识长短期记忆网络的相关概念，探究一下其解决梯度爆炸或消失的原理。

长短期记忆网络（LSTM）的内部状态主要指其“记忆细胞”（cell state，通常记为 c_t）以及与之相关的隐藏状态（hidden state，通常记为 h_t）。这两个状态共同决定了 LSTM 如何存储、传递和更新信息，使其能够捕获长程依赖。下面通过语言描述 LSTM 内部状态的构成、更新机制及其关键作用。

1. 内部状态的构成

记忆单元（Cell State c_t）
记忆单元是 LSTM 的核心，它像一条传送带，沿着整个序列传递信息。其主要作用是保持长期信息，并且通过特定的门控机制有选择地“遗忘”或者“保留”信息。由于这种传递过程主要依靠乘法操作（例如和遗忘门 f_t 相乘），可以在一定程度上减缓梯度消失的问题。
隐藏状态（Hidden State h_t）
隐藏状态可以被看作是当前时刻对外的输出，也是在当前时间步经过非线性激活（通常是 tanh⁡）处理后的记忆状态。它既包含了长期记忆 c_t 的信息，也反映了对当前输入的即时响应。隐藏状态经过输出门 o_t 的调制之后，是最终传递给下一层或后续运算的信号。

2. 内部状态的更新机制

LSTM 通过三个门来更新内部状态，它们分别是：

遗忘门（Forget Gate）
遗忘门决定了保留上一时刻记忆单元 c_{t-1} 中哪些信息。
数学表达：

其中 σ 是 sigmoid 函数，其输出在 [0,1] 之间。输出值越接近 1，表示对应维度的信息越应该保留，反之则“遗忘”。
输入门（Input Gate）
输入门决定了当前输入 x_t 中哪些新信息以及通过候选记忆将加入到记忆单元中。
数学表达：
记忆单元更新
最后，新的记忆单元 c_t 通过结合遗忘门与输入门的作用得到更新：

这里“⊙”表示逐元素相乘。这意味着，上一时刻的记忆经过遗忘门滤波后和新生成的信息按比例混合，从而构成当前的记忆单元。
输出门（Output Gate）
输出门决定了如何从记忆单元中提取信息生成当前的隐藏状态：

最终得到隐藏状态：

3. 举例说明

设想一个简单的文本生成任务——例如生成一句话。假设模型需要捕获长句子中前后字符之间的依赖关系。在处理输入“今天天气很好”时：

当模型接收到“今天”时，会在记忆单元 c_t 中保存与“今天”相关的信息（比如时间概念）。
接下来，当输入“天气”时，遗忘门 f_t 控制是否保留“今天”的信息，同时输入门 i_t 选择性地将与“天气”相关的新特征加入记忆单元。
当进一步输入“很好”时，记忆单元中的“今天”和“天气”信息经由输出门调制，影响最终隐藏状态 h_t 的计算，进而帮助模型生成连贯的输出。

在这个过程中，整个句子中远距离（“今天”与“很好”之间）的依赖通过记忆单元传递，LSTM 的三个门结构允许模型有选择地更新和维持这些信息。尽管内部使用的激活函数（如 sigmoid 和 tanh⁡）本身很简单，但通过逐层的线性变换与非线性激活的复合，LSTM 能够捕捉和表达复杂的语义依赖关系，支持长程信息的有效传递。

4. 关键理解

记忆单元 c_t 是信息的长期存储器，可以跨越多个时间步稳定传递关键信息。
门控机制（遗忘门、输入门、输出门）决定了信息如何在各个时间步之间选择性地保留或更新。
隐藏状态 h_t 则是经过记忆单元筛选和调制后的信息，供下一层或下一时间步使用。

5. 对于候选记忆的理解

在长短期记忆网络（LSTM）中，“候选记忆”指的是在当前时间步下，根据输入和前一隐藏状态生成的一组新信息，用来在更新记忆单元时候选加入到长期记忆中的数据。它通常用符号表示，计算公式为：

这里，表示将前一时刻的隐藏状态和当前输入拼接在一起，经过一个线性变换（由权重矩阵 W_c 和偏置 b_c 定义）后，再通过 tanh⁡ 激活函数映射到区间 [−1,1] 内，就得到了“候选记忆”。

为什么需要候选记忆？

候选记忆的作用在于：

提供新信息的备选项：当前时间步的输入常常携带有新的信息，候选记忆就是对这些新信息的一种初步加工和表示。但新信息不是全部都适合直接加入到长期记忆中。
由输入门决定是否更新：在 LSTM 中，还有一个输入门（Input Gate），其计算公式为：

输入门 i_t 的值（介于0和1之间）将会与候选记忆逐元素相乘，形成对记忆单元的增量更新：

这意味着，对于候选记忆中的每个元素，如果输入门对应的数值较大（接近1），那么该部分候选信息将被更多地写入到长期记忆；如果较小（接近0），则该部分新信息基本被忽略。

举例说明

假设你正利用 LSTM 处理一句话："我爱自然语言处理"。我们来看一下某个时间步的情况：

前一时刻隐含状态h_{t-1}
假设在处理到“爱”这个词时，隐藏状态已经捕捉到了前面“我爱”这部分的语义信息，即可以表示为 h_{t-1}。
当前输入 x_t
当前输入为“自然语言处理”中某个字符或词的表示，这个表示包含了与当前新信息相关的语义特征。
候选记忆计算

这里，0.8 可能表示当前输入中对于“自然”这个概念的一个强烈信号，-0.3 表示某些信息的负面特征，而 0.4 表示另一个中等程度的特征。
输入门的作用
同时，输入门 i_t 计算出的向量决定了候选记忆哪些部分真正被写入记忆单元。如果 i_t 计算得到：

则实际更新记忆单元的增量就是逐元素相乘：

这表示，记忆单元在这一时刻将吸收主要来自候选记忆的 0.72 和 0.28 两个分量，而将 -0.06 的新信息（可视为低权重或噪声）几乎忽略掉。
整体更新
最终，记忆单元 c_t 的更新会结合上一时刻保留的信息（由遗忘门控制）与这一时刻更新的信息：

这样，就构成了 LSTM 内部记忆状态的动态更新。