论文学习21-Globally Normalized Transition-Based Neural Networks(2016,标签偏差问题

文章目录

  • abstract
  • 1.introduction
  • 2.Model
    • 2.1 Transition System
    • 2.2 全局和局部归一化
  • 3.训练
    • 3.2标签偏差问题

abstract

介绍了一种基于全局规范化转换的神经网络模型,该模型实现了最先进的词性标注、依存分析和句子压缩结果。我们的模型是一个简单的前馈神经网络,它运行在一个特定于任务的转换系统上,但与递归模型相比,它的准确性更好。我们讨论了全局规范化相对于局部规范化的重要性:一个关键的观点是,标签偏差问题意味着全局规范化模型可以比局部规范化模型更严格地表达。

  • 基于全局规范化转换的神经网络模型
  • 前馈神经网络
  • 全局规范化模型可以解决标签偏差问题
  • 标签偏差问题(标签不均衡造成的,使得模型倾向于标注同一个标签)/不考虑上下文的棱模两可的情况。
    • 这个问题是:在训练语料中,a转移b的概率,大于a转移到c的概率,造成在进行测试时,始终只能出现a到b状态。
    • lstm_crf中也遇到过,参考资料,我加上了个tanh层就好了(大概也类似于全局规范化的感觉)。
    • crf可以解决标签偏置问题,但是貌似transition偏差过大的情况还是无法解决,所以加个tanh收缩一下?这种感觉大概?

1.introduction

  • lstm很有效
  • 本文证明了:全局最优化的前馈神经网络可以达到比lstm更好的效果
  • 本文model使用transition system (Nivre, 2006)和特性嵌入(Chen and Manning (2014).)
    • 集束搜索
    • CRF(全局归一化)
    • 梁推断beam inference
    • early updates
    • loss:CRF的loss反传
    • 反传时,训练全部参数
  • 全局好于局部

我们不使用任何递归式,而是使用束搜索来维持多个假设,并引入条件随机域(CRF)目标的全局归一化(Bottou et al., 1997;勒昆等,1998;Lafferty等人,2001;为了克服局部规范化模型所遭受的标签偏差问题。由于我们使用梁推断,我们通过对梁中的元素求和来近似配分函数,并使用早期的更新(Collins和Roark, 2004;周等,2015)。我们基于这个近似全局归一化计算梯度,并基于CRF损耗对所有神经网络参数进行完整的反向传播训练。
在第3节中,我们将重新讨论标签偏差问题,以及全局规范化模型比局部规范化模型更严格地表达的含义。前向功能可以部分地缓解这种差异,但不能完全弥补这一点,我们稍后再回来。为了实证地证明全局规范化的有效性,我们评估了我们的模型在词性标注、语法依赖解析和句子压缩(第4节)方面的效果。特别是在《华尔街日报》(the Wall Street Journal)的依赖关系分析中,我们获得了94.61%的未标记依赖评分,这是有史以来发表得最好的一次。
正如在第5节中更详细地讨论的,我们还优于以前用于基于神经网络转换的解析的结构化训练方法。我们的烧蚀实验表明,我们的性能优于Weiss等人(2015)和Alberti等人(2015),因为我们对所有的模型参数进行了全局反向传播训练,而他们在训练模型的全局部分时固定了神经网络参数。
我们也超过了Zhou等人(2015),尽管使用了更小的光束。为了进一步说明标签偏差问题,我们提供了一个句子压缩的例子,其中局部模型完全失败。然后,我们演示了一个没有任何前向特性的全局规范化解析模型几乎与我们的最佳模型一样准确,而局部规范化模型在准确性上损失了10%以上的绝对准确性,因为它不能有效地合并可用的证据。
最后,我们提供了一个名为SyntaxNet的方法的开源实现,我们将其集成到流行的TensorFlow2框架中。我们还提供了一个预先培训的、最先进的英语依赖解析器,名为“Parsey McParseface”,我们对它进行了调优,以平衡速度、简单性和准确性。

2.Model

我们的模型的核心是一个基于增量转换的解析器(Nivre, 2006)。要将其应用于不同的任务,我们只需要调整转换系统和输入特性。

2.1 Transition System

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

2.2 全局和局部归一化

在这里插入图片描述
在这里插入图片描述

  • ZL是局部归一化
  • 用集束搜索来找上面最大化的解
  • CRF:(全局归一化)
    在这里插入图片描述
    在这里插入图片描述

3.训练

在这里插入图片描述

  • 再用上beam-search和early-update
    在这里插入图片描述

3.2标签偏差问题

直观地说,我们希望该模型能够修改在搜索过程中做出的早期决策,当稍后的证据可用时,可以排除早期决策不正确的可能性。乍一看,与波束搜索或精确搜索相结合使用的局部规范化模型似乎能够修改早期的决策。然而,标签偏差问题(见Bottou (1991), Collins(1999)第222-226页,Lafferty et al. (2001), Bottou and LeCun (2005), Smith and Johnson(2007))意味着局部规范化模型修改早期决策的能力非常弱。
本节通过证明全局规范化模型比局部规范化模型更严格地表达性,给出了关于标签偏差问题的正式观点。这个定理最初是由史密斯和约翰逊(2007)提出的。
作为证据的这个例子清楚地说明了标签偏差问题
全局模型可以比局部模型更严格地表达,考虑一个标记问题,其中的任务是将输入序列x1:n映射到决策序列d1:n。首先,考虑一个局部规范化模型,在对决策di进行评分时,我们将评分函数限制为仅访问第一个i输入符号x1:i。我们将很快回到这个限制。得分函数ρ否则会是一个元组的任意函数
在这里插入图片描述

  • 标两种标签都可以的情况下,局部归一化无法解决,但是全局归一化可以考虑上下文得到正确答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481546.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推翻单一干细胞理论:哺乳动物大脑中发现了第二种干细胞

来源:生物通在成年哺乳动物的大脑中,神经干细胞保证了新的神经细胞,即神经元的不断形成。这个过程被称为成年神经发生,帮助鼠维持它们的嗅觉。一个研究小组最近在鼠大脑中发现了第二种干细胞群,它主要参与成年鼠嗅球中…

论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)

文章目录abstract1.introduction1.1 dense connectionGCN1.2 效果突出1.3 contribution2.Attention Guided GCNs2.1 GCNs2.2 Attention Guided Layer2.3 Densely Connected Layer2.4 线性层2.5 AGGCN for RE3.实验3.1 数据集3.2 设置3.3 n-ary3.4 句子级4.ablation Study4.相关…

Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

编译 | 沈祥振审稿 | 夏忻焱今天为大家介绍的是来自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇关于人工智能对于基因组学的可解释性的研究的综述。基于深度学习的人工智能(AI)模型现在代表了基因组学研究中进行功能预测…

复杂系统的逆向工程——通过时间序列重构复杂网络和动力学

导语蛋白质相互作用网络、生态群落、全球气候系统……很多复杂系统都可以抽象为一个相互作用的网络和其上的动力学。传统的研究主要关注在如何构建网络动力学模型,从而产生和实验观测数据具有相似统计特征的结果。所谓的复杂系统逆向工程,就是反其道而行…

关系提取论文总结

文章目录1.模型总结1.1 基于序列的方法1.2 dependency-based(基于依赖的)(有图)1.2.2 句间关系抽取1.5 自动学习特征的方法1.4 联合抽取模型1.6 RNN/CNN/GCN用于关系提取1.7 远程监督1.8句子级关系提取1.9MCR(阅读理解&#xff09…

邬贺铨:“物超人”具有里程碑意义,五方面仍需发力

来源:人民邮电报作者:邬贺铨我国正式迈入“物超人”时代。据工业和信息化部最新数据显示,截至8月末,我国三家基础电信企业发展移动物联网终端用户16.98亿户,成为全球主要经济体中率先实现“物超人”的国家。“物超人”…

深度:计算机的本质到底是什么?

来源:图灵人工智能来源:www.cnblogs.com/jackyfei/p/13862607.html作者:张飞洪 01 抽象模型庄子说过吾生有崖,知无涯。以有限的生命去学习无尽的知识是很愚蠢的。所以,学习的终极目标一定不是知识本身,因为…

中科大郭光灿院士团队发PRL,量子力学基础研究取得重要进展

来源:FUTURE | 远见选编:FUTURE | 远见 闵青云 中国科学技术大学郭光灿院士团队在量子力学基础研究方面取得重要进展。该团队李传锋、黄运锋等人与西班牙理论物理学家合作,实验验证了基于局域操作和共享随机性(LOSR, Local operat…

论文阅读课2-Inter-sentence Relation Extraction with Document-level (GCNN,句间关系抽取,ACL2019

文章目录abstract1.introduction2.model2.1输入层2.2构造图2.3 GCNN层2.4MIL-based Relation Classification3.实验设置3.1 数据集3.2 数据预处理3.3 基线模型3.4 训练3.5结果4.相关工作4.1 句子间关系抽取4.2 GCNN5. 结论相关博客Sahu, S. K., et al. (2019). Inter-sentence …

量子并不总意味着小尺度,量子物理学家用它探索系外行星生命

来源:机器之心除了量子计算,量子物理学的应用范畴还很广。近日,美国东北大学物理学教授 Gregory Fiete 探讨了量子研究的广泛应用。量子物理学家研究的世界与普通人每天生活的世界是同一个,唯一的区别是它被科学家「缩放」到了无法…

论文阅读课3-GraphRel: Modeling Text as Relational Graphs for(实体关系联合抽取,重叠关系,关系之间的关系,自动提取特征)

文章目录abstract1.Introduction2.相关工作3.回顾GCN4.方法4.1第一阶段4.1.1 Bi-LSTM4.1.2 Bi_GCN4.1.3 实体关系抽取4.2 第二阶段4.2.1 构建关系权图4.3训练4.4 inference5.实验5.1 settings5.1.1数据集5.2 baseline and evaluation metrics5.3 Quantitative Results5.4 细节分…

大脑是如何编码外界各种信息的?

来源:知乎链接:https://www.zhihu.com/question/532956044/answer/2494267009大脑将外部信息编码成心智模型。编码方式分为三种神经链接、语言逻辑和数学。心智模型理论是成型于上世纪九十年代的认知科学理论,代表人物就是著名学者史蒂芬平克…

论文阅读课4-Long-tail Relation Extraction via Knowledge Graph Embeddings(GCN,关系抽取,2019,远程监督,少样本不平衡,2注意

文章目录abstract1.introduction2.相关工作2.1 关系提取2.2 KG embedding2.3 GCNN3. 方法3.1符号3.2框架3.2.1 Instance Encoder3.4 Relational Knowledge Learning through KG Embeddings and GCNs.3.5 knowledge-aware attention4.实验4.1 数据集4.3 result4.4 长尾关系的处理…

用机器学习建立的数字「鼻子」表明,我们的嗅觉既反映了芳香分子的结构,也反映了产生它们的代谢过程...

来源:ScienceAI编辑:萝卜皮Alex Wiltschko 十几岁时就开始收集香水。他的第一瓶是 Azzaro Pour Homme,这是他在 T.J. Maxx百货的货架上发现的一款永恒的古龙水。他从《Perfumes: The Guide》中认出了这个名字,这本书对香气的诗意描…

论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集

文章目录abstract1.Introduction2.数据收集3.数据分析4.基线设置5.实验Yao, Y., et al. (2019). DocRED A Large-Scale Document-Level Relation Extraction Dataset. Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics.基线docRED数据…

74位图灵奖得主背景显示:大多数没有主修计算机专业,也并非高引用计算机科学家...

来源:中小学信息学竞赛计算机科学是世界上发展最快的学科之一,计算机科学的发展直接影响着人们的生活,并有可能从根本上改变传统的生活方式。图灵奖作为计算机领域的最高奖项,一直被誉为“计算机界的诺贝尔奖”,截止20…

Meta最新款VR头显体验者亲述:Quest Pro更漂亮、更有趣,但戴久了,脑袋疼!

来源:AI前线作者:Rachel Metz编译:核子可乐、冬梅价值一万多块的 VR 头显设备,你会买吗?声明:本文为 InfoQ 翻译,未经许可禁止转载。当地时间 10 月 11 日,元宇宙公司 Meta 召开了一…

文献阅读6-Entity-Relation Extraction as Multi-turn Question Answering(实体关系联合抽取,层次标签依赖关系,multi-turn QA)

文章目录abstract1.Introduction3.相关工作2.2MRC(机器阅读理解)2.3 非QA->QA3.数据集和任务3.1别人的数据集3.2我们建立的数据集RESUME4.Model4.1概述4.2生成问题4.3通过MRC来获取答案范围4.4 强化学习5.实验5.1RESUME结果5.2 其他结果6 Ablation Studies6.2问题…

论文阅读课7-使用句子级注意力机制结合实体描述的远程监督关系抽取(APCNN+D)2017

文章目录abstract1. Introduction2.方法3.训练4.实验4.1数据集4.2 评价指标4.3实验结果和分析4.3.1参数设置4.3.2 baseline4.3.3 conclusion5.相关工作5.1监督学习5.2远程监督学习Ji, G., et al. (2017). Distant Supervision for Relation Extraction with Sentence-Level Att…

Cell经典回顾:机器学习模型揭示大脑怎样整合空间记忆与关系记忆

导语人类等高等动物能够做出复杂推理、整合新知识以控制行为,其神经机制离不开海马-内嗅系统对于空间记忆和关系记忆的调控。来自牛津大学的学者于2020年在Cell杂志发表文章,通过分解和重组的方法构建了一套框架(TEM模型)&#xf…