论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE)

文章目录

  • abstrac
  • 1.Introduction
  • 2 Transformer Language Model
    • 2.1 Transformer-Decoder
    • 2.2 Unsupervised Pre-training of Language Representations
  • 3 Multi-Instance Learning with the Transformer
    • 3.1 Distantly Supervised Fine-tuning on Relation Extraction
    • 3.2input represent
  • 4.实验
    • 4.2pre-train
    • 4.3参数
  • 5.Result
    • 5.1 Held-out Evaluation
  • 6.相关工作

Alt, C., et al. (2019). Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics: 1388–1398.
code

abstrac

远程监督的关系提取被广泛用于从文本中提取关系事实,但是却带有嘈杂的标签。当前的关系提取方法试图通过多实例学习并通过提供支持的语言和上下文信息来减轻噪声,以更有效地指导关系分类。在获得最新结果的同时,我们观察到这些模型偏向于以高精度识别有限的一组关系,而忽略了那些长尾巴的关系。为了解决这一差距,我们利用了预训练的语言模型OpenAI生成式预训练的变压器(GPT)(Radford et al。,2018)。GPT和类似的模型已经显示出可以捕获语义和句法特征,并且还捕获了大量的“常识”知识,我们假设这些知识是识别更多种关系的重要特征。通过将GPT扩展到远程监督的设置,并在NYT10数据集上对其进行微调,我们显示出它可以预测具有较高置信度的更多不同类型的关系。手动和自动评估我们的模型表明,它在NYT10数据集上达到了0.422的最新AUC评分,并且在更高的召回水平下表现尤其出色。

  • 远程监督
    • 问题:有噪音,知识库不完整
    • 解决:多实例学习+语言和上下文信息
    • 问题:多实例倾向于识别多的关系,而忽略long-tail的关系
    • 解决:本文(使用GPT
  • 预训练GPT
    • the OpenAI Generative Pre-trained Transformer
    • 类似的模型:
      • 可以捕获语义
      • 捕获句法特征
      • 捕获常识
  • 本文:DISTRE
    • 假设:这些知识是识别更多关系的重要特征
      • 我们假设,经过预训练的语言模型可为远程监督提供更强的信号,并基于无监督的预训练中获得的知识更好地指导关系提取。用隐式特征替换显式语言和辅助信息可改善域和语言的独立性,并可能增加公认关系的多样性。
    • 做法:将GPT扩展到远程监督
      • 选择性注意机制+GPT
        • 选择性注意机制:用以处理多实例
          • 这样可以最大程度地减少显式特征提取,并减少错误累积的风险。
      • self-attention的体系结构允许模型有效地捕获远程依赖关系
      • 而语言模型则可以利用有关在无监督的预训练过程中获得的实体与概念之间的关系的知识。
    • 数据集:NYT10
    • 本文贡献
      • 通过汇总句子级别的信息并有选择地关注以产生袋子级别的预测(第3节),我们将GPT扩展为处理远程监管数据集的袋子级别,多实例训练和预测。
      • 我们在NYT10数据集上评估了精细调整的语言模型,并证明了它与RESIDE(Vashishth等人,2018)和PCNN + ATT(Lin等人,2016)相比,在持续评估中(§4,§5.1)获得了最新的AUC。
      • 我们通过对排名预测进行手动评估来跟踪这些结果,这表明我们的模型预测了一组更多样化的关系,并且在较高的召回水平下表现尤其出色(第5.2节)。

1.Introduction

关系提取(RE)被定义为识别文本中提到的概念之间的关系的任务,是许多自然语言处理应用程序的重要组成部分,例如知识库(Ji和Grishman,2011)和问题解答(Yu等)。 。,2017)。远程监管(Mintz等人,2009; Hoffmann等人,2011)是一种流行的方法,可通过将文本中的实体元组与知识库中的已知关系实例对齐来启发式地生成用于训练RE系统的标记数据,但会产生嘈杂的标记和不完整的知识库信息(Min等人,2013; Fan等人,2014)。图1显示了三个标记有现有KB关系的句子的示例,其中两个是误报,实际上并未表达该关系。
在这里插入图片描述
当前最先进的RE方法试图通过应用多实例学习方法(Mintz等,2009; Surdeanu等,2012; Lin等,2016)并通过明确指导模型来应对这些挑战提供的语义和句法知识,例如词性标签(Zeng等,2014)和依存关系解析信息(Surdeanu等,2012; Zhang等,2018b)。最近的方法还利用辅助信息,例如释义,关系别名和实体类型(Vashishth et al。,2018)。但是,我们注意到这些模型通常偏向于以高精度识别有限的一组关系,而忽略了长尾关系(请参见5.2节)。

  • 当前远程监督:
    • 多实例学习:(Mintz等,2009; Surdeanu等,2012; Lin等,2016)
    • 通过明确指导模型来应对这些挑战提供的语义和句法知识,
      • 例如词性标签(Zeng等,2014)和
      • 依存关系解析信息(Surdeanu等,2012; Zhang等,2018b)。
    • 最近的方法还利用辅助信息,例如
      • 释义,关系别名和实体类型(Vashishth et al。,2018)

深度语言表示,例如由Transformer(Vaswani等人,2017)通过语言建模(Radford等人,2018)学到的内容已被证明仅通过无监督的预训练即可隐式捕获文本的有用语义和句法属性(Peters等人, 2018年),如在各种自然语言处理任务上的先进表现所证明的那样(Vaswani等人,2017; Peters等人,2018; Radford等人,2018; Devlin等人, 2018),包括监督关系提取(Alt等人,2019)。Radford等。 (2019年)甚至发现语言模型在回答开放域问题时表现出色,而无需接受实际任务的培训,这表明它们捕获了数量有限的“常识”知识。

  • 我们假设,经过预训练的语言模型可为远程监督提供更强的信号,并基于无监督的预训练中获得的知识更好地指导关系提取。用隐式特征替换显式语言和辅助信息可改善域和语言的独立性,并可能增加公认关系的多样性。

在本文中,我们介绍了一种用于关系提取的远程监督变压器(DISTRE)。我们通过选择性注意机制扩展了标准的Transformer体系结构,以处理多实例学习和预测,这使我们可以直接在远程监督的RE任务上微调预训练的Transformer语言模型。这样可以最大程度地减少显式特征提取,并减少错误累积的风险。另外,自我专注的体系结构允许模型有效地捕获远程依赖关系,而语言模型则可以利用有关在无监督的预训练过程中获得的实体与概念之间的关系的知识。与竞争基准模型相比,我们的模型在NYT10数据集上的最新AUC得分达到0.422,并且在较高的召回水平下表现尤其出色。我们选择GPT作为我们的语言模型是因为它的微调效率和合理的硬件要求,相比于基于LSTM的语言模型(Ruder和Howard,2018; Peters等,2018)或BERT(Devlin等,2018)。

  • 本文贡献
    • 通过汇总句子级别的信息并有选择地关注以产生袋子级别的预测(第3节),我们将GPT扩展为处理远程监管数据集的袋子级别,多实例训练和预测。
    • 我们在NYT10数据集上评估了精细调整的语言模型,并证明了它与RESIDE(Vashishth等人,2018)和PCNN + ATT(Lin等人,2016)相比,在持续评估中(§4,§5.1)获得了最新的AUC。
    • 我们通过对排名预测进行手动评估来跟踪这些结果,这表明我们的模型预测了一组更多样化的关系,并且在较高的召回水平下表现尤其出色(第5.2节)。

2 Transformer Language Model

  • 介绍:the Transformer language model as introduced by Radford et al. (2018).
    • 我们首先定义变压器解码器(第2.1节),
    • 然后介绍如何通过语言建模目标函数学习上下文表示(第2.2节)。

2.1 Transformer-Decoder

在这里插入图片描述

图2中所示的Transformer-Decoder(Liu等人,2018a)是原始Transformer的仅解码器变体(Vaswani等人,2017)。像原始的Transformer一样,该模型在多层(即Transformer块)上重复编码给定的输入表示形式,包括遮盖的多头自我注意,然后进行位置前馈操作。与原始解码器块相反,此版本不包含任何形式的非屏蔽自我关注,因为没有编码器块。形式化如下:

  • Transformer-Decoder(Liu等人,2018a)
    • 原始Transformer的仅解码器变体(Vaswani等人,2017)
    • 在多层(即Transformer块)上
      • 重复编码给定的输入表示形式,包括
        • masked的多头自我注意,
      • 然后进行位置前馈操作
    • 与origin不同:不包含任何形式的非屏蔽自我关注,因为没有编码器块
    • h0=TWe+Wphl=tf_block(hl−1),∀l∈[1,L]h_0=TW_e+W_p\\ h_l=tf\_block(h_{l-1}) ,\forall l\in[1,L]h0=TWe+Wphl=tf_block(hl1),l[1,L]
      • T :is a matrix of one-hot row vectors of the token indices in the sentence
      • We:word embedding
      • Wp:position embedding

2.2 Unsupervised Pre-training of Language Representations

  • 目标函数:极大似然估计
    • L1(C)=ΣilogP(ci∣ci−1,...,ci−k;θ)L_1(C)=\Sigma_i log P(c_i|c_{i-1},...,c_{i-k};\theta)L1(C)=ΣilogP(cici1,...,cik;θ)
      • C–语料,
      • k-窗口尺寸
    • P(C)=softmax(hLWeT)P(C)=softmax(h_LW_e^T)P(C)=softmax(hLWeT)

3 Multi-Instance Learning with the Transformer

3.1 Distantly Supervised Fine-tuning on Relation Extraction

  • D={(xi,headi,taili,ri)}i=1Nxi−tokenheadi,taili−−头实体和尾实体D=\{(x_i,head_i,tail_i,r_i)\}_{i=1}^N\\x_i-token\\head_i,tail_i--头实体和尾实体D={(xi,headi,taili,ri)}i=1Nxitokenheadi,taili
  • 标签r不可靠,所以用bag_level
  • bag:S=(x1,x2,...,xn)−−有同样的r(head,tail)的一组句子S=(x_1,x_2,...,x_n)--有同样的r(head,tail)的一组句子S=(x1,x2,...,xn)r(head,tail)
    • 包的表达式:s=Σi=1nαisi,si是xi的表达(hL)s=\Sigma_{i=1}^n \alpha_is_i,s_i是x_i的表达(h_L)s=Σi=1nαisi,sixihL)
      • αi=exp(sir)Σj=1nexp(sjr)\alpha_i=\frac{exp(s_ir)}{\Sigma_{j=1}^nexp(s_jr)}αi=Σj=1nexp(sjr)exp(sir)
  • P(l∣S,θ)=softmax(Wrs+b)L2(D)=Σi=1∣S∣logP(li∣Si,θ)L(D)=λ∗L1(D)+L2(D)P(l|S,\theta)=softmax(W_rs+b)\\ L_2(D)=\Sigma_{i=1}^{|S|} log P(l_i|S_i,\theta)\\ L(D)=\lambda*L_1(D)+L_2(D)P(lS,θ)=softmax(Wrs+b)L2(D)=Σi=1SlogP(liSi,θ)L(D)=λL1(D)+L2(D)

3.2input represent

在这里插入图片描述

我们的输入表示形式(参见图3)将每个句子编码为标记序列。为了利用子词信息,我们使用

  • 字节对编码(BPE)对输入文本进行标记化(Sennrich et al。,2016)。
    • BPE算法创建以单个字符开头的子单词标记的词汇表。
    • 然后,该算法将最频繁出现的令牌迭代合并到新令牌中,直到达到预定的词汇量为止。
    • 对于每个令牌,我们通过将相应的令牌嵌入和位置嵌入相加来获得其输入表示。

虽然该模型在纯文本句子上进行了预训练,但是关系提取需要结构化的输入,即句子和关系参数。为了避免特定于任务的体系结构更改,我们采用类似于Radford等人的遍历样式方法。 (2018)。特定于任务的结构化输入被转换为有序序列,无需架构更改即可直接输入模型。图3直观地显示了输入格式。它从头和尾实体的标记开始,由定界符分隔,然后是包含实体对的句子的标记序列,并以特殊的分类标记结束。分类令牌向模型发出信号,以生成用于关系分类的句子表示。由于我们的模型是从左到右处理输入的,因此我们将关系参数添加到开头,以在处理句子的标记序列时将注意力机制偏向于标记表示。

  • traversal-style approach similar to Radford et al. (2018).
    • 纯文本–>有序序列:避免结构更改

4.实验

  • 数据集:NYT10
    • 其中2005-2006年用于培训,
    • 2007年用于测试
  • baseline:
    • PCNN + ATTN(Lin等人,2016)
      • 将每个输入语句分成实体对的左,中和右部分,然后进行卷积编码和选择性注意,以袋级表示形式通知关系分类器。
    • RESIDE(Vashishth等人,2018)
      • RESIDE使用双向门控循环单元(GRU)编码输入语句,然后
      • 使用图卷积神经网络(GCN)编码显式提供的依存关系分析树信息。
      • 然后,将其与命名实体类型信息组合在一起,以获得可以通过选择性注意进行汇总并转发给关系分类器的句子表示。

4.2pre-train

  • we reuse the language model3 published by Radford et al. (2018) for our experiments.
    • 该模型在BooksCorpus上进行了训练(Zhu等人,2015年),其中包含约7,000种未出版的书籍,总共有超过8亿个单词的不同体裁。该模型由具有12个关注头和768维状态的解码器块以及3072维状态的前馈层组成。我们重用了该模型的字节对编码词汇byte-pair encoding,但使用任务特定的令牌(例如,开始,结束,定界符)对其进行了扩展。

4.3参数

  • adam
  • β1=0.9β2=0.999batchsize=8lr=6.25e−5,使用lrdecayattentiondropout=0.1classifierdropout=0.2epoches=3\beta_1=0.9\\\beta_2=0.999\\batch_size=8\\lr=6.25e^{-5},使用lr_decay\\attention_dropout=0.1\\classifier_dropout=0.2\\epoches=3β1=0.9β2=0.999batchsize=8lr=6.25e5,使lrdecayattentiondropout=0.1classifierdropout=0.2epoches=3

5.Result

在这里插入图片描述

5.1 Held-out Evaluation

在这里插入图片描述

  • 这表明PCNN模型对短模式和简单模式的排名高于参数之间距离较大的更复杂模式。
    在这里插入图片描述

在这里插入图片描述

6.相关工作

  • 关系提取RE中的初始工作使用统计分类器或基于内核的方法,结合离散的句法特征,
    • 例如词性和命名实体标签,形态特征和WordNet上位词(Mintz等,2009; Hendrickx等。 ,2010)。
  • 这些方法已被基于序列的方法所取代,包括
    • 递归(Socher等人,2012; Zhang和Wang,2015)和
    • 卷积神经网络(Zeng等人,2014,2015)。
  • 因此,离散特征已被单词和句法特征的分布式表示所取代(Turian等,2010; Pennington等,2014)。
  • 徐等。 (2015a,b)将最短依赖路径(SDP)信息集成到基于LSTM的关系分类模型中。
  • 考虑到SDP对于关系分类很有用,因为它专注于句子中的动作和主体(Bunescu和Mooney,2005年; Socher等人,2014年)
  • 。张等。 (2018b)通过将修剪和图卷积的组合应用于依赖树,为TACRED数据集上的关系提取建立了新的技术。
  • 最近,Verga等人。 (2018)通过自定义架构扩展了Transformer架构,用于受监管的生物医学命名实体和关系提取。相比之下,我们微调了预训练的语言表示,只需要远距离监督的注释标签。
  • 远程监督关系提取早期远程监督方法
    • (Mintz等,2009)使用多实例学习(Riedel等,2010)和
    • 多实例多标签学习(Surdeanu等,2012; Hoffmann等, (2011)建立模型,假设每个关系实例至少可以正确表达一个关系。
    • 随着神经网络的日益普及,
      • PCNN(Zeng等,2014)成为使用最广泛的架构,扩展了多实例学习(Zeng等,2015),
      • 选择性注意(Lin等,2016; Han等,2018),
      • 对抗训练(Wu等,2017; Qin等,2018),
      • 噪声模型(Luo等,2017)和
      • 软标签(Liu等,2017; Wang等)等(2018)。
    • 最近的工作表明
      • 图卷积(Vashishth等人,2018)和
      • 胶囊网络(Zhang等人,2018a),先前应用于监督环境(Zhang等人,2018b),也适用于远距离监督环境。
    • 此外,语言和语义背景知识对完成任务很有帮助,但建议的系统通常依赖于显式功能,例如
      • 依赖关系树,命名实体类型和关系别名(Vashishth等人,2018; Yaghoobzadeh等人,2017) )或
      • 任务和领域特定的预训练(Liu等人,2018b; He等人,2018),而
      • distre仅依赖于语言模型在无监督的预训练过程中捕获的特征。
  • 语言表示形式和迁移学习深度语言表示形式已被证明是无监督预训练的有效形式。
    • 彼得斯等。 (2018)引入了来自语言模型(ELMo)的嵌入,这是一种通过训练双向LSTM来优化不相交的双向语言模型目标来学习上下文化单词表示的方法。他们的结果表明,用上下文化的词表示代替静态的预训练词向量(Mikolov等,2013; Pennington等,2014)可显着提高各种自然语言处理任务的性能,例如语义相似性,共指解析和语义。角色标签。
    • Ruder和Howard(2018)发现无监督语言建模学习的语言表示形式可以显着提高文本分类性能,防止过度拟合并提高样本效率。
    • Radford等。 (2018)证明了我们的模型所基于的通用域预训练和任务特定的微调在几个问题回答,文本分类,文本蕴涵和语义相似性任务上取得了最新的成果。
    • Devlin等。 (2018)通过引入空位填充目标来共同训练双向语言模型,进一步扩展了语言模型的预训练。最近(Radford等人,2019)发现,语言模型的大小显着增加,可以更好地将其推广到下游任务,同时仍然不足以容纳大型文本语料库。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481522.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Meta半年亏损57.7亿美元也要搞元宇宙,听听扎克伯格自己是怎么说的

来源:科技智谷编辑:Light"这可能是世界上最烧钱的梦。元宇宙就是未来,VR就是下一代PC。2022年10月12日,全球VR巨头Meta召开一年一度的Meta Connect大会2022。本次大会, Meta发布了旗下最新的虚拟现实头显——Ques…

文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)

文章目录Abstract1.Introduction2. 相关工作2.2 Entity-aware Relation Extraction3.提出的模型3.1 Solution Framework3.1 data collection module3.3 Joint Learning of Word and Entity Embeddings3.4 N-gram Based Attention Model训练3.5 Triple Generation4.实验4.1 超参…

张益唐被曝已证明黎曼猜想相关问题,震动数学界

来源:金磊 Alex 发自 凹非寺量子位 | 公众号 QbitAIBreaking News!网传数学家张益唐,已经攻克了朗道-西格尔零点猜想(Landau-Siegel Zeros Conjecture)。而这则消息,据说是张益唐在参加北京大学校友Zoom线上…

论文阅读课11-TEMPROB:Improving Temporal Relation Extraction with a Globally Acquired Statistical Resource

文章目录abstract1.Introduction2.相关工作3 TEMPROB: A Probabilistic Resource for TempRels3.1 事件抽取3.2TempRel提取3.2.1 features3.2.2 learning3.3 Interence3.4 corpus3.5有趣的统计3.6 极端情况3.7 下列事件的分布4.实验4.1 Quality Analysis of TEMPROB4.2 Improvi…

机器学习也将解决量子问题

来源:IEEE电气电子工程师作者:CHARLES Q. CHOI当量子计算机执行可能导致下一代电池或新药的复杂物理和化学模拟时,它可能比任何传统超级计算机强大得多。然而,可能需要很多年才能实现实用和广泛的量子计算。现在,一项新…

Nature重磅:人鼠混合大脑问世,‘大脑类器官’研究再添新进展

一句“我思故我在”解释了大脑的重要性。随着全球老龄化的加剧,神经退行性疾病的发病率也随之增加。“老年痴呆”、“帕金森”等神经退行性疾病更是和癌症一样,成为数不多流传在街头巷尾的“医学名词”。从近代科学诞生一来,人类对于大脑的研…

文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL,时间关系,时间持续时间,数据集,语义框架,常识)

文章目录abstract1.Introduction2 背景3.数据收集4.Model5.实验6.result7 Model Analysis and TimelinesVashishtha, S., et al. (2019). Fine-Grained Temporal Relation Extraction. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics…

Gartner发布2023年十大战略技术趋势,元宇宙等技术上榜

来源:Gartner整理:刘燕10 月 18 日,InfoQ 获悉,Gartner 发布了企业机构在 2023 年需要探索的十大战略技术趋势。Gartner 杰出研究副总裁 Frances Karamouzis 表示:“为了在经济动荡时期增加企业机构的盈利,…

文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)

文章目录Abstract1.Introduction2.相关工作3 Adversarial Learning for Distant Supervision3.1 Pre-Training Strategy3.2 Generative Adversarial Training for Distant Supervision Relation Extraction3.3 Cleaning Noisy Dataset with Generator4.实验4.2 Training Proces…

Science复活远古“蛋白质”,揭示光合作用的“昨天、今天和明天”

来源:生物通复活数十亿年前的酶,揭示了光合作用如何适应氧气的增加。两个Rubisco配合物相互作用的冷冻电子显微镜图像。如果溶解度所必需的亚基缺失,单个的酶复合体就会以这种方式相互作用,形成线状结构,即所谓的原纤维…

文献阅读课14-DIAG-NRE: A Neural Pattern Diagnosis Framework for远程监督关系抽取,模式标注去噪自动化,FN,FP,RL

文章目录abstract1. Introduction2.相关工作3.方法3.1 NRE Models3.2 Pattern Extraction3.3 Pattern Refinement3.4 Weak Label Fusion(WLF)4 Experiments4.1 Experimental Setup4.2 Performance Comparisons4.3 Pattern-based Diagnostic Results4.4 Incremental Diagnosis4.…

“神经网络”的逆袭:图解 80 年 AI 斗争史

转自量子位 | 公众号 QbitAI晓查 发自 凹非寺 有人的地方,就有斗争。华山派有“剑宗”和“气宗”,相互斗了几十年。人工智能界也有“山头”,AI两大派系的斗争早在第一台电子计算机问世前就已经开始了。△ 有三名法国人把两派的势力对决画成图…

文献阅读15-OntoILPER:A logic-based relational learning approach关系抽取,NER+RE

文章目录abstract1.Introduction2.2. Supervised Machine Learning Approaches to Relation Extraction2.1. Statistical Learning Approach2.1.1 Feature-based approaches to RE2.1.2 Kernel-based approaches to RE2.2. Relational Learning Approach2.2.1. Inductive Logic…

人类反超 AI:DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后,数学家再次刷新...

来源:图灵人工智能作者:李梅、施方圆编辑:陈彩娴10 月 5 日,AlphaTensor 横空出世,DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题,即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数…

前沿进展:宏观麦克斯韦妖背后的热力学几何原理

导语热力学强烈限制了静态宏观热扩散系统中的热流动方向,使用时空调制系统能够克服这种限制。近日,科学家提出了时空驱动热扩散的一般理论,揭示了宏观驱动热扩散中潜在的由冷到热的几何热泵效应以及实现热非互易性的限制条件,并实…

文献阅读课16-J-REED: Joint Relation Extraction and Entity Disambiguation,关系抽取实体消歧联合模型,概率图CRF,2017

文章目录abstract1. INTRODUCTION & RELATED WORK2 DOCUMENT PROCESSING3 RELATION PATTERN MINING4 RELATION PATTERN LABELING5 JOINT MODEL6 EXPERIMENTS6.1 Corpora6.2 Systems under Comparison6.3 Experiments on Relation Pattern Extraction6.4 Experiments on Ent…

用 AI 预测 AI,它的未来会是什么?

来源:学术头条人工智能,开始解决越来越多人类尚未解决的问题,且取得了不错的成果。然而,在过去几年中,人工智能领域的科学研究数量呈指数级增长,使得科学家们和从业者们很难及时跟踪这些进展。数据显示&…

文献阅读课17-利用实体BIO标签嵌入和多任务学习进行不平衡数据关系提取,一个句子多关系多实体,ACL2019

文章目录abstract1 Introduction2. Proposed Approach3.实验3.1数据准备3.2 Experiment Settings3.4 分析3.4.1 BIO embedding3.4.2 Effect of Positive/Negative Instance Ratio3.4.3 Effect of Loss Function w/o Multi-tasking4 Related work5 结论Ye, W., et al. (2019). E…

【Brain】登上国际顶刊 PNAS!科学家从理论计算机出发,提出了一个意识模型——「有意识的图灵机」...

来源:墨玫人工智能编译:AI 科技评论组编辑:陈彩娴深度学习三巨头之一的Yoshua Bengio也点头称赞。5月下旬,国际顶刊《美国国家科学院院刊》(PNAS)发表了一篇其于去年10月接收审核的工作,研究非常…

72名图灵奖获得者的成就

来源:图灵教育从“图灵机”到“图灵测试”,从破译德军的 Enigma 到自杀之谜,图灵一生都是传奇,关于图灵的故事我们不在这里赘述,感兴趣的读者请看文末推荐阅读。今天我们更想聊聊,计算机领域最高奖项 —— …