长短期记忆网络(LSTM)相较于传统循环神经网络(RNN)的核心改进在于通过引入记忆单元(cell state)和门机制(gating mechanism)来有效缓解梯度消失与梯度爆炸问题,从而更好地捕捉长距离依赖关系 。在其网络结构中,信息通过输入门(input gate)、遗忘门(forget gate)和输出门(output gate)进行有选择的流入、保留与输出,同时记忆单元内部还包含输入调制门(input modulation gate)以丰富细粒度控制 。在前向计算过程中,LSTM 单元依次计算各门的激活(sigmoid)与候选状态(tanh),然后更新记忆单元并生成隐藏状态;这一流程可借助cuDNN、GPU 并行、张量核加速等底层库大幅提升吞吐 。反向传播时,LSTM 通过**反向传播穿越时间(BPTT)**针对每个门和状态计算梯度,有效地将误差信号传递到旧时刻,从而完成参数更新 。
模型篇
LSTM 相对 RNN 的主要改进
- 缓解梯度消失与爆炸:传统 RNN 在处理长序列时,梯度经多次连乘后会迅速衰减或增大,