文章目录
- 1.Introduction
 - 2 model
 - 2.1 LSTM
 - 2.2BI-LSTM
 - BPTT
 
- 2.3 CRF
 - 2.4 LSTM-CRF
 - 参考文献
 
本篇论文介绍了LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络,比较将它们用于自然语言处理的性能与准确率。重点介绍了BI-LSTM-CRF网络。
1.Introduction
- 序列标记 
- 包括词性标记(POS)、
 - 分块标记和
 - 命名实体识别(NER)
 
 - 本文以前 
- 统计模型 
- Hidden Markov Models (HMM),
 - Maximum entropy Markov models (MEMMs) (McCallum et al.,2000), and
 - Conditional Random Fields (CRF)(Lafferty et al., 2001)。
 
 - 神经网络 
- 基于卷积网络的模型(Collobert et al., 2011) 
- Conv-CRF等模型,因为它包含一个卷积网络和CRF层输出(这个词的句子级别loglikelihood (SSL)是用于原始论文)。
 - Conv-CRF模型产生了有前景的结果序列标记任务。
 
 - 在演讲语言理解社区, 
- 递归神经网络(Mesnil et al ., 2013;Yao et al ., 2014)和
 - 基于卷积网(Xu and Sarikaya, 2013)最近提出的模型。
 
 - 其他相关工作包括(Graves et al ., 2005;Graves et al ., 2013)提出了一个双向递归神经网络语音识别。
 
 - 基于卷积网络的模型(Collobert et al., 2011) 
 
 - 统计模型 
 - 贡献 
- 1)系统比较了上述模型在NLP标记数据集上的性能;
 - 2)首次将双向LSTM CRF (BI-LSTM-CRF)模型应用于NLP基准序列标记数据集。 
- 由于具有双向LSTM组件,该模型可以使用过去和未来的输入特性。
 - 此外,由于有一个CRF层,该模型可以使用句子级标记信息。
 - 我们的模型可以在POS、chunking和NER数据集上产生最先进(或接近)的精度;
 
 - 3)与之前的观察结果相比,我们发现BI-LSTMCRF模型具有较强的鲁棒性,对嵌入字的依赖性较小(Collobert et al., 2011)。它可以产生准确的标签性能,而不必借助于文字嵌入。
 
 
2 model
2.1 LSTM

- 长期短期内存网络LSTM与RNN是一样的,只是隐藏层更新被专门构建的内存单元所取代。因此,他们可能更善于发现和利用数据中的长期依赖关系。
 
2.2BI-LSTM

BPTT
对展开网络随时间的前向和后向传递与常规网络前向和后向传递的方式类似,不同之处在于我们需要对所有时间步长展开隐藏状态。我们还需要在数据点的开始和结束处进行特殊处理。在我们的实现中,我们对整个句子执行前向和后向操作,只需要在每个句子的请求处将隐藏状态重置为0。我们有批处理实现,可以同时处理多个句子。
2.3 CRF
- 精度高
 - 利用相邻标签信息预测当前标签有两种不同的方法。 
- 第一种方法是预测每次标记的分布,然后使用类波束解码来寻找最优的标签序列。 
- 最大熵分类器(Ratnaparkhi, 1996)和
 - 最大熵马尔可夫模型(MEMMs) (McCallum等,2000)的工作属于这一类
 
 - 第二个是关注句子水平不是个人的位置,从而导致条件随机域(CRF)模型(Lafferty et al., 2001)(图5)。请注意,输入和输出直接连接,而不是LSTM和双向LSTM网络记忆细胞/复发性组件使用
 - 这两种使用标记信息的方法之间的关系与使用输入特性的两种方法相似
 
 - 第一种方法是预测每次标记的分布,然后使用类波束解码来寻找最优的标签序列。 
 
2.4 LSTM-CRF
- CRF层由连接连续输出层的线表示。
 - CRF的传递函数(传输矩阵)是参数
 - 有了这样一个层(CRF层),我们可以有效地使用过去和未来的标签来预测当前的标签,与通过双向LSTM网络使用过去和未来的输入特性相似
 - 动态规划(Rabiner, 1989)可以有效地用于计算[A]i,j(转移矩阵)和推理的最佳标签序列。详见(Lafferty et al., 2001)。
 - BILSTM-CRF模型 
- 可以有效地使用过去和未来的输入特性,这得益于双向LSTM组件。
 - CRF层:使得它还可以使用句子级标记信息。
 - 较强的鲁棒性,
 - 对嵌入字的依赖性较小。
 - BI-LSTMCRF模型可以在POS、分块和NER数据集上产生最先进(或接近)的准确性。此外,与之前的观察结果相比,该算法具有
 
 - 输入:单词、拼写、上下文特征
 - 由于删除了拼写和上下文特征,CRF模型的性能显著下降。CRF模型严重依赖工程特性来获得良好的性能
 - 另一方面,基于LSTM的模型,特别是BI-LSTM和BI-LSTM-CRF模型具有更强的鲁棒性,并且受工程特性去除的影响更小。
 
参考文献
Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer Science, 2015.
 https://blog.csdn.net/u012485480/article/details/80425445