论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习

文章目录

  • 1. introduction
  • 2.相关工作
  • 3.Model
    • 3.1 Joint learning as head selection
    • 3.2 AT
  • 4.实验设置
  • 5.结果
  • 6.总结

  • 实体关系抽取模型
  • 对抗学习.
    论文链接
    code
    Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” arXiv preprint arXiv:1808.06876.

1. introduction

  • 稳定性差
    • 许多神经网络方法最近被用于各种自然语言处理(NLP)任务,如解析(Zhang et al., 2017)、词性标注(Lample et al., 2016)、关系提取(dos Santos et al., 2015)、翻译(Bahdanau et al., 2015)和联合任务(Miwa and Bansal, 2016)。
    • 然而,Szegedy等人(2014)观察到将小尺度扰动输入这样的模型可能会导致不正确的决策(并且有很高的可信度)。
  • 使用对抗模型
    • Goodfellow et al.(2015)提出了将对抗训练(AT)(用于图像识别)作为一种正则化方法,该方法使用干净的和对抗的混合实例来增强模型的鲁棒性。
    • 尽管AT最近已被应用于NLP任务(如文本分类(Miyato et al., 2017)),但就我们所知,这篇论文是首次尝试研究AT在两个相关任务的联合设置下的正则化效果。
  • 从基线联合模型开始
    • 笔记:基线模型
    • 论文:Joint entity recognition and relation extraction as a multi-head selection problem
    • code:code
  • 本文的核心贡献:在于将AT作为联合提取任务的训练过程的扩展(第3.2节)。

2.相关工作

  • 联合实体和关系提取:

    • 联合模型(Li and Ji, 2014;Miwa和Sasaki(2014)提出了一种基于手动提取特征的方法,用于同时执行命名实体识别(NER)和关系提取子任务。
    • 缺点:这些方法依赖于NLP工具的可用性(例如,POS标记器)或手动设计的特性,从而导致额外的复杂性。
    • 神经网络方法已经被用来克服这一特征设计问题,通常涉及到RNNs和CNNs (Miwa和Bansal,2016; Zheng et al., 2017).)
      • 具体而言,Miwa和Bansal(2016)以及Li等人(2017)将双向树状结构的RNNs应用于不同的上下文(即捕获语法信息(使用外部依赖解析器)。
      • Gupta等人(2016)提出使用各种手动提取的特征和RNNs。
      • Adel和Sch utze(2017)解决了实体分类的简单问题(假设给出了实体边界EC),而不是NER,他们复制实体周围的上下文,将实体对提供给关系提取层。
      • Katiyar和Cardie(2017)仔细研究了RNNs,但没有考虑到关系标签并不相互排斥。
      • 最后,Bekoulis等人(2018a)在联合模型中使用LSTMs一次只提取一个关系,但增加了NER部分的复杂性。
      • 我们的基线模型支持同时从相同的输入中提取多个关系。然后,我们使用对抗性训练进一步扩展这个强基线。
  • 对抗性训练(AT)

    • (Goodfellow等,(2015)提出了AT使分类器在图像识别环境下对输入扰动具有更强的鲁棒性。
    • 在NLP的背景下,针对不同的任务提出了几个变体,如文本分类(Miyato et al., 2017)、关系提取(Wu et al., 2017)和词性标注(Yasunaga et al., 2018)。
    • AT被认为是一种正则化方法。
      • 不像其他的正则化方法。, dropout (Srivastava et al., 2014), word dropout (Iyyer et al., 2015)引入随机噪声,
      • AT产生扰动,这些扰动是很容易被模型错误分类的例子的变体。

3.Model

3.1 Joint learning as head selection

  • 基线模型(详见前文Joint entity recognition and relation extraction as a multi-head selection problem
    在这里插入图片描述

3.2 AT

  • 目的:对扰动更稳定
  • 我们利用AT (Goodfellow et al., 2015)的思想作为正则化方法,使我们的模型对输入扰动具有鲁棒性。具体来说,
  • 反例的生成:我们通过在连接词表示的层次上添加一些噪声来生成原示例的变体(Miyato et al., 2017)。这与Goodfellow等(2015)提出的提高图像识别分类器鲁棒性的概念类似。
    • 我们生成一个敌对的例子通过添加最坏扰动ηadv原嵌入w最大化损失函数
    • 在这里插入图片描述
    • 因为2很棘手,所以用近似定义ηadv=ϵg/∣∣g∣∣\eta_{adv}=\epsilon g/||g||ηadv=ϵg/g
      • g=▽wLJOINT(w;θ^)g=▽_wL_{JOINT}(w;\hat{\theta})g=wLJOINT(w;θ^)
      • ϵ=αD−−当超参数,D是词嵌入的维度\epsilon=\alpha\sqrt{D}--当超参数,D是词嵌入的维度ϵ=αDD.
  • 最终损失函数为:原+反例
    • LJOINT(w;θ^)+LJOINT(w+ηadv;θ^)L_{JOINT}(w;\hat{\theta})+L_{JOINT}(w+\eta_{adv};\hat{\theta})LJOINT(w;θ^)+LJOINT(w+ηadv;θ^)

4.实验设置

  • 实验设置
    • 交叉验证
    • 早停
    • 和以前工作相同的嵌入
    • 相同的数据集下和以前工作相同的处理
    • adam优化器
      • α,dropout,best-epoch,学习率
  • 超参数
    • α:{5e−2,1e−2,1e−3,1e−45e^{-2},1e^{-2},1e^{-3},1e^{-4}5e21e21e31e4}–扰动
      • 更大的α值(即。在我们的早期实验中,较大的扰动会导致一致性的性能下降。这可以从增加噪音会改变句子内容这一事实来解释,Wu et al.(2017)也报道了这一现象。
  • ACE04数据集:五折交叉验证 * 具体来说,我们遵循Miwa和Bansal(2016)为ACE04数据集定义的5倍交叉验证(Doddington et al., 2004)。
  • 对于CoNLL04 (Roth和Yih, 2004) EC任务(假设给出了边界),我们使用与Gupta等人(2016)相同的分割;Adel和Sch¨utze(2017)。
  • NER * 10折交叉验证
  • 对于荷兰房地产分类,DREC (Bekoulis et al., 2017)数据集,我们使用训练-测试分割如在Bekoulis et al. (2018a)。
  • 对于不良药物事件,ADE (Gurulingappa et al., 2012),我们进行了与Li et al.(2017)类似的10倍交叉验证。
  • 为了获得不受输入嵌入影响的可比结果,我们使用了以前工作的嵌入。我们在所有的实验中都采用了提前停止的方法。我们使用Adam优化器(Kingma和Ba,2015)并修复超参数(即α,dropout,best-epoch,学习率)验证集。
  • 三种类型的评估
    • S(strict)
      • 如果实体边界和实体类型都是正确的,我们就将实体评为正确的(ACE04, ADE, CoNLL04, DREC)
    • B(边界)
      • 如果实体边界是正确的,而没有考虑实体类型(DREC),则我们将实体视为正确的
    • R(relaxed)
      • 如果为组成实体的令牌分配了至少一个正确类型,则认为多令牌实体是正确的,假设边界是已知的(CoNLL04),以比较以前的作品。在所有情况下,当关系类型和参数实体都正确时,关系被认为是正确的。

5.结果

在这里插入图片描述

在这里插入图片描述

表1显示了我们的实验结果。数据集的名称在第一列中显示,而模型在第二列中列出。提出的模型如下:
(i)基线:图1所示的具有CRF层和sigmoid损失的基线模型, (ii)基线EC:具有用于EC的softmax层的模型,
(iii)基线(EC) + AT:使用AT的基线正则化。
最后三列显示两个子任务的F1结果及其平均性能。粗体值表示只使用自动提取的特征的模型的最佳结果。

  • 这些自动提取的特征之所以表现出性能改进,主要是因为共享的LSTM层学会了在单个模型中自动生成实体及其对应关系的特征表示。
  • 这种看似很小的性能提升主要是由于NER组件的性能收益有限,这与NER使用神经网络的最新进展相一致,神经网络也报告了类似的小收益
  • 这可能表明在联合模型的上下文中,数据集的大小和对抗性训练的好处之间存在相关性,但这需要在未来的工作中进行进一步的研究。

6.总结

我们提出了将对抗性训练用于实体识别和关系提取的联合任务。

  • 本研究的贡献有两方面:
    • (i)研究AT作为一种多上下文基线联合模型的正则化方法的一致性有效性,以及
    • (ii)大规模的实验评估。
  • AT分别提高了每个任务的结果,以及基线联合模型的整体性能,同时在训练过程的第一个阶段就已经达到了高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481578.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【前沿技术】美国脑计划2.0!投5亿美元,绘制史上最全人脑地图

来源:智能研究院【新智元导读】今天,脑科学计划宣布启动的「细胞图谱网络项目」,目标是绘制世界上最全面的人类大脑细胞图谱。这种雄心,堪比当年的人类基因组计划。今天,美国国立卫生研究院(NIH&#xff09…

HMM总结

文章目录4.HMM-->CRF4.1 HMM--是个序列4.1.1 推断问题(evaluate)4.1.2 viterbi decoding解码4.1.3 学习,参数估计4.1.4计算实例4.1.5 EM(baum-welch算法)的上溢出和下溢出概率图模型code4.HMM–>CRF 4.1 HMM–是个序列 x-观测到的条件…

南科大本科生在《物理评论快报》发文,实现由不定因果序驱动的量子冰箱

来源:FUTURE远见选编:FUTURE | 远见 闵青云 近日,南方科技大学物理系师生在实验中实现了由不定因果序驱动的量子冰箱。相关成果以「Experimental realization of a quantum refrigerator driven by indefinite causal orders」为题发表在《物…

论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(CRF

文章目录abstract1.introduction1.2 条件模型2.标签偏差问题3.CRF提出条件随机场CRF abstract 我们提出了条件随机场,这是一个建立概率模型来分割和标记序列数据的框架。相对于隐马尔可夫模型和随机语法,条件随机场在这类任务中有几个优势,…

杨振宁六大数理工作赏析 | 祝贺杨先生百岁华诞

来源:返朴撰文:林开亮我的物理学界同事大多对数学采取功利主义的态度。也许因为受我父亲的影响,我较为欣赏数学。我欣赏数学家的价值观,钦佩数学的优美和力量:它既有战术上的随机应变,又有战略上的深谋远虑…

论文学习13Reconstructing the house from the ad: Structured prediction on real estate classifieds(实体关系抽取)

文章目录abstractIntroduction2. 相关工作3.房地产结构预测3.1问题形式化3.2 结构预测模型3.2.1 序列标注问题3.2.2 part-of tree constructLocally trained model (Threshold/Edmonds)Globally trained model (MTT)Transition-based dependency parsing (TB)4.实验5.pipeline总…

优化|深度学习或强化学习在组合优化方面有哪些应用?

来源:图灵人工智能前 言深度强化学习求解组合优化问题近年来受到广泛关注,是由于其结合了强化学习(Reinforcement learning)强大的决策(decision-making)能力和深度学习(deep learning)的各种模型(RNN、Transformer、GNN等等)强大的信息提取表征能力(r…

论文学习14-End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures(端到端实体关系抽取)

文章目录abstract1.introduction2.相关工作3.model3.1嵌入层3.2 序列层3.3实体检测3.4 依赖层3.5 Stacking Sequence and Dependency Layers3.6关系分类3.7 训练4 实验总结本文:Miwa, M. and M. Bansal “End-to-End Relation Extraction using LSTMs on Sequences …

人工智能在基因组学市场增长机会以及整个基因组学领域的最新技术

来源:ScienceAI编译:萝卜皮人工智能等最新技术浪潮已经触及几乎所有行业和企业的海岸。基因组学领域也不例外。在 2020-2030 年的评估期内,最新技术在基因组学领域的日益普及将被证明是基因组学市场人工智能的主要增长贡献者。基因组学可以定…

论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)

文章目录abstract1 introduction2.方 法2.1实体关系表(Figure-2)2.2 The Table Filling Multi-Task RNN Model2.3 Context-aware TF-MTRNN model2.4 Piggybacking for Entity-Relation Label Dependencies2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)3.Mode…

【Brain】大脑里也有个Transformer!和「海马体」机制相同

来源: 墨玫人工智能【导读】Transformer模型性能强的原因是模拟了人脑?我不能创造的,我也不理解。——费曼想要创造人工智能,首先要理解人类的大脑因何有智能。随着神经网络的诞生及后续的辉煌发展,研究者们一直在为神…

CRF总结

文章目录计算下Z(矩阵)1.1 一般参数形式1.2 简化形式Z1.3 矩阵形式1.3.2 Z2.维特比算法3.前向算法4.后向算法5.使用前向后向的概率计算6.期望计算7.参数估计(学习)7.1 梯度上升参考文献CRF 是无向图模型code 它是一个判别式模型建…

CAAI名誉理事长李德毅院士谈机器的生命观

来源:图灵人工智能2022年9月28日上午,为促进人工智能产、学、研、经、用的发展,助力余杭区人民政府建设杭州市人工智能创新发展区,由中国人工智能学会主办的会士系列讲坛—第一期通过线上的形式在余杭区未来科技城成功举办。本次活…

论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017)

文章目录abstract1. Introduction2. 相关工作3. Model3.1 Multi-layer Bi-directional Recurrent Network3.2实体检测3.3 attention model3.4 关系检测3.5双向编码4.训练5.实验5.2 evaluation metrics5.3 基线和以前的模型5.4 超参数6.结果Katiyar, A. and C. Cardie (2017). G…

困局中的英伟达:进一步是鲜花,退一步是悬崖

来源: AI前线整理:王强、冬梅看看最近几个月的股价,英伟达的投资者肯定不怎么开心:但如果把时间拉长到 5 年,我们看到的故事似乎又不一样了:2020 年底显然是是一个转折点。很多游戏玩家还清楚地记得&#x…

论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017

文章目录abstract1.Introduction2.相关工作3.Model全局归一化层(使用线性链CRF)4.实验和分析4.3实验结果总结Adel, H. and H. Schtze “Global Normalization of Convolutional Neural Networks for Joint Entity and Relation Classification.”abstract CNNCRF&g…

特斯拉AI日点不燃仿人机器人的市场热情

来源:科技智谷编辑:Light"仿人机器人的巨大市场蓝海能否兑现,核心还要看产品量产和成本控制。近期,沉寂已久的仿人机器人市场终于迎来了它的“春晚”——特斯拉AI日。根据外媒报道,在9月30日(北京时间…

LSTM(序列标注,自实现)

文章目录1.LSTM1.1 单独计算单层LSTM-cell单层LSTMBPTT2.序列标注使用pytorch实现序列标注自实现lstmimport torchimport torch.nn as nndef prepare_sequence(seq, to_ix):idxs [to_ix[w] for w in seq]return torch.tensor(idxs, dtypetorch.long)training_data [("Th…

Science最新:Jeff Gore团队揭示复杂生态系统中涌现的相变

来源:集智俱乐部作者:胡脊梁编辑:邓一雪导语生态学致力于理解自然生态系统中的多样化的物种和复杂的动力学行为,然而科学家长期缺乏描述和预测生物多样性和生态动力学的统一框架。MIT物理系的胡脊梁和Jeff Gore等科学家结合理论和…

强化学习发现矩阵乘法算法,DeepMind再登Nature封面推出AlphaTensor

来源:机器之心 微信公众号DeepMind 的 Alpha 系列 AI 智能体家族又多了一个成员——AlphaTensor,这次是用来发现算法。数千年来,算法一直在帮助数学家们进行基本运算。早在很久之前,古埃及人就发明了一种不需要乘法表就能将两个数…