文章目录
- abstract
- 1.introduction
- 2.Model
- 2.1 Transition System
- 2.2 全局和局部归一化
- 3.训练
- 3.2标签偏差问题
abstract
介绍了一种基于全局规范化转换的神经网络模型,该模型实现了最先进的词性标注、依存分析和句子压缩结果。我们的模型是一个简单的前馈神经网络,它运行在一个特定于任务的转换系统上,但与递归模型相比,它的准确性更好。我们讨论了全局规范化相对于局部规范化的重要性:一个关键的观点是,标签偏差问题意味着全局规范化模型可以比局部规范化模型更严格地表达。
- 基于全局规范化转换的神经网络模型
- 前馈神经网络
- 全局规范化模型可以解决标签偏差问题
- 标签偏差问题(标签不均衡造成的,使得模型倾向于标注同一个标签)/不考虑上下文的棱模两可的情况。
- 这个问题是:在训练语料中,a转移b的概率,大于a转移到c的概率,造成在进行测试时,始终只能出现a到b状态。
- lstm_crf中也遇到过,参考资料,我加上了个tanh层就好了(大概也类似于全局规范化的感觉)。
- crf可以解决标签偏置问题,但是貌似transition偏差过大的情况还是无法解决,所以加个tanh收缩一下?这种感觉大概?
1.introduction
- lstm很有效
- 本文证明了:全局最优化的前馈神经网络可以达到比lstm更好的效果
- 本文model使用transition system (Nivre, 2006)和特性嵌入(Chen and Manning (2014).)
- 集束搜索
- CRF(全局归一化)
- 梁推断beam inference
- early updates
- loss:CRF的loss反传
- 反传时,训练全部参数
- 全局好于局部
我们不使用任何递归式,而是使用束搜索来维持多个假设,并引入条件随机域(CRF)目标的全局归一化(Bottou et al., 1997;勒昆等,1998;Lafferty等人,2001;为了克服局部规范化模型所遭受的标签偏差问题。由于我们使用梁推断,我们通过对梁中的元素求和来近似配分函数,并使用早期的更新(Collins和Roark, 2004;周等,2015)。我们基于这个近似全局归一化计算梯度,并基于CRF损耗对所有神经网络参数进行完整的反向传播训练。
在第3节中,我们将重新讨论标签偏差问题,以及全局规范化模型比局部规范化模型更严格地表达的含义。前向功能可以部分地缓解这种差异,但不能完全弥补这一点,我们稍后再回来。为了实证地证明全局规范化的有效性,我们评估了我们的模型在词性标注、语法依赖解析和句子压缩(第4节)方面的效果。特别是在《华尔街日报》(the Wall Street Journal)的依赖关系分析中,我们获得了94.61%的未标记依赖评分,这是有史以来发表得最好的一次。
正如在第5节中更详细地讨论的,我们还优于以前用于基于神经网络转换的解析的结构化训练方法。我们的烧蚀实验表明,我们的性能优于Weiss等人(2015)和Alberti等人(2015),因为我们对所有的模型参数进行了全局反向传播训练,而他们在训练模型的全局部分时固定了神经网络参数。
我们也超过了Zhou等人(2015),尽管使用了更小的光束。为了进一步说明标签偏差问题,我们提供了一个句子压缩的例子,其中局部模型完全失败。然后,我们演示了一个没有任何前向特性的全局规范化解析模型几乎与我们的最佳模型一样准确,而局部规范化模型在准确性上损失了10%以上的绝对准确性,因为它不能有效地合并可用的证据。
最后,我们提供了一个名为SyntaxNet的方法的开源实现,我们将其集成到流行的TensorFlow2框架中。我们还提供了一个预先培训的、最先进的英语依赖解析器,名为“Parsey McParseface”,我们对它进行了调优,以平衡速度、简单性和准确性。
2.Model
我们的模型的核心是一个基于增量转换的解析器(Nivre, 2006)。要将其应用于不同的任务,我们只需要调整转换系统和输入特性。
2.1 Transition System
2.2 全局和局部归一化
- ZL是局部归一化
- 用集束搜索来找上面最大化的解
- CRF:(全局归一化)
3.训练
- 再用上beam-search和early-update
3.2标签偏差问题
直观地说,我们希望该模型能够修改在搜索过程中做出的早期决策,当稍后的证据可用时,可以排除早期决策不正确的可能性。乍一看,与波束搜索或精确搜索相结合使用的局部规范化模型似乎能够修改早期的决策。然而,标签偏差问题(见Bottou (1991), Collins(1999)第222-226页,Lafferty et al. (2001), Bottou and LeCun (2005), Smith and Johnson(2007))意味着局部规范化模型修改早期决策的能力非常弱。
本节通过证明全局规范化模型比局部规范化模型更严格地表达性,给出了关于标签偏差问题的正式观点。这个定理最初是由史密斯和约翰逊(2007)提出的。
作为证据的这个例子清楚地说明了标签偏差问题
全局模型可以比局部模型更严格地表达,考虑一个标记问题,其中的任务是将输入序列x1:n映射到决策序列d1:n。首先,考虑一个局部规范化模型,在对决策di进行评分时,我们将评分函数限制为仅访问第一个i输入符号x1:i。我们将很快回到这个限制。得分函数ρ否则会是一个元组的任意函数
- 标两种标签都可以的情况下,局部归一化无法解决,但是全局归一化可以考虑上下文得到正确答案。