lstm原始论文_有序的神经元—

lstm原始论文_有序的神经元——ON-LSTM模型浅析

尽管最近出现的Transformer系列的模型在nlp领域内很流行，但RNN仍然有着重要的地位。本文介绍的模型来自于ICLR 2019的最佳论文之一，它针对自然语言具有语法分层的特点，对原有的LSTM模型的结构做出了改进，使得新模型不仅具有更好的性能，还能够无监督地从语料文本中学习到句子的语法结构。

LSTM与ON-LSTM

先介绍一下该模型的出发点，自然语言虽然从表面来看呈现出来的是序列形式，但其实句子的结构并不是连续的序列，而是树状结构，如下图所示。因此如果我们能够设计一种可以考虑到句子的语法结构的模型，那么就有可能在nlp任务中表现的更好。

先来看原始的LSTM模型，如下所示，其中

分别是遗忘门和输入门，可以看出它们通过对于

的更新来实现对于历史信息

和当前输入信息

的记忆与忘记。

LSTM流程图（来自参考资料[2]）

在原始LSTM中，更新的方式是通过遗忘门和输入门来完成的，即

。而ON-LSTM做出改进的地方就在这里，它通过语法层次来控制哪些信息需要记忆或忘记，对于语法层次较高的内容（语法树中更靠近根节点的内容），它们影响的范围更大，对于这些信息，模型应该保留较长的时间；而对于层次较低的，它们对之后内容影响较小，模型应该尽快忘记它们，以免这些信息干扰后面的过程。

有序的神经元

为了达到这样的目的，首先我们就需要对信息进行语法分层，对神经元按照语法层次进行排序，语法层次较高的信息储存在上面的神经元中，较低的则储存在下面的神经元，然后根据层次的不同，采用不同的更新方式。如下图所示，对于句子中较高层次的信息S，则位于cell states的上面的维度，这类信息的更新频率不应该很快；而对于底层信息如N和V，它们位于cell states的下部，这些信息应该较快地进行更新。这样，我们就能通过cell stats的维度的高低来将信息中不同语法层次的内容分开，从而实现了有序的神经元。

完成了对cell states的排序之后，我们接下来就是划分区间，以便模型按照区间的不同实现不同的更新方式。为了实现区间的划分，模型用到了两个整数

，它们分别用来表示历史信息的最低层次和当前信息的最高层次，如下图所示。

区间划分（来自参考资料[3]）

对于上面的区间，有如下的更新规则：

当
时，两区间有交叠。对于交叠的部分，采用原始LSTM的方式进行更新；对于高于
的部分，
只保留原来的历史信息；对于低于
的部分，
只保留当前输入的信息。
当
时，两区间没有交叠。对于没有交叠的部分，直接设其为0；而对于大于
和小于
的部分，分别只保留历史信息和当前输入信息。

更新规则（来自参考资料[3]）

可以看出，其实模型在这里认为高层次的语法信息主要是来自于历史信息，而低层次的主要来自当前输入信息，而这也比较符合人们的直观印象，对于一个新的输入，它对于语法信息的影响往往局限于一个较低的层次，高层次的信息（如句子或者短语信息）仍然来自于历史信息，只有当一个句子或者短语完结的时候，历史信息的影响变小，这时新的输入才有可能影响较高语法层次的信息。而这样也就使得高语法层次的信息的更新频率较低，大多时候是保持不变，而低语法层次的信息则随着当前的输入在一直变化。

上面是区间划分的思想，而具体的实现过程如下：

定义向量

定义函数

可以得到

它们表示了历史信息和当前信息的影响范围，可以看作窗口函数，也就起到了区间划分的作用。这两个向量需要通过模型学习得到，但是如果直接去学习

这样的one hot向量，会导致更新过程不可导，这就会比较麻烦，因此我们对它做一些

“软化”，用

函数来表示one hot向量，输入历史信息

和当前输入信息

，通过神经网络来对

进行预测，则有

得到