神经网络 torch.nn---nn.LSTM()

torch.nn - PyTorch中文文档 (pytorch-cn.readthedocs.io)

LSTM — PyTorch 2.3 documentation

LSTM层的作用

LSTM层:长短时记忆网络层，它的主要作用是对输入序列进行处理，对序列中的每个元素进行编码并保存它们的状态，以便后续的处理。

LSTM 是一种特殊的 RNN，它通过引入门控机制来解决传统 RNN 的长期依赖问题。

我们假设：h为LSTM单元的隐藏层输出，c为LSTM内存单元的值，x为输入数据。

LSTM 的结构包含以下几个关键组件：

1、输入门（input gate）：决定当前时间步的输入信息对细胞状态的影响程度。

2、遗忘门（forgetgate）：决定上一个时间步的细胞状态对当前时间步的影响程度。

3、细胞状态（cell state）：用于在不同时间步之间传递和存储信息。

4、输出门（output gate）：决定细胞状态对当前时间步的输出影响程度。

5、隐藏状态（hiddenstate）：当前时间步的输出，也是下一个时间步的输入。

nn.LSTM

计算公式

对输入序列的每个元素，LSTM的每层都会执行以下计算：

h_t是时刻t的隐状态,
c_t是时刻t的细胞状态，
x_t是上一层的在时刻t的隐状态或者是第一层在时刻t的输入。
i_t, f_t, g_t, o_t分别代表输入门，遗忘门，细胞和输出门。

参数说明:

torch.nn.LSTM(input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0.0, bidirectional=False, proj_size=0, device=None, dtype=None)

input_size – 输入x的特征数量。
hidden_size – 隐层的特征数量。
num_layers – RNN的层数。
nonlinearity – 激活函数。指定非线性函数使用tanh还是relu。默认是tanh。
bias – 是否使用偏置。
batch_first – 如果True的话，那么输入Tensor的shape应该是[batch_size, time_step, feature],输出也是这样。默认是 False，就是这样形式，(seq(num_step), batch, input_dim)，也就是将序列长度放在第一位，batch 放在第二位
dropout – 默认不使用，如若使用将其设置成一个0-1的数字即可。如果值非零，那么除了最后一层外，其它层的输出都会套上一个dropout层。
是否使用双向的 rnn，默认是 False

输入：input, (h_0, c_0)

input_shape = [时间步数, 批量大小, 特征维度] = [num_steps(seq_length), batch_size, input_dim]=input (seq_len, batch, input_size)保存输入序列特征的tensor。
h_0是shape=(num_layers*num_directions,batch_size,hidden_size)的张量，保存着batch中每个元素的初始化隐状态的Tensor。其中num_layers就是LSTM的层数。如果bidirectional=True,num_directions=2,否则就是１，表示只有一个方向。
c_0 是shape=(num_layers*num_directions,batch_size,hidden_size)的张量, 保存着batch中每个元素的初始化细胞状态的Tensor。h_0,c_0如果不提供，那么默认是０。

输出：output, (h_n, c_n)

output的shape=(seq_length,batch_size,num_directions*hidden_size),(时间步数, 批量大小, 隐藏单元个数)。保存最后一层的输出的Tensor。
h_n (num_layers * num_directions, batch, hidden_size): Tensor，保存着LSTM最后一个时间步的隐状态。
c_n (num_layers * num_directions, batch, hidden_size): Tensor，保存着LSTM最后一个时间步的细胞状态。