论文阅读课4-Long-tail Relation Extraction via Knowledge Graph Embeddings(GCN,关系抽取,2019,远程监督,少样本不平衡,2注意

文章目录

  • abstract
  • 1.introduction
  • 2.相关工作
    • 2.1 关系提取
    • 2.2 KG embedding
    • 2.3 GCNN
  • 3. 方法
    • 3.1符号
    • 3.2框架
      • 3.2.1 Instance Encoder
    • 3.4 Relational Knowledge Learning through KG Embeddings and GCNs.
    • 3.5 knowledge-aware attention
  • 4.实验
    • 4.1 数据集
    • 4.3 result
    • 4.4 长尾关系的处理
    • 4.5 ablation

Zhang, N., et al. (2019). Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks. NAACL.
大概是本文code

abstract

我们提出了一种用于长尾不平衡数据的远程监督关系提取方法。这里的挑战是为类分布尾部的类学习精确的few-shot模型,因为这些类的可用数据很少。受在尾巴的数据和在顶部的数据之间丰富的语义关联的启发,我们利用分布顶部数据丰富的类的知识来提高尾部数据贫乏类的性能。首先,我们提出利用知识图嵌入的类标签间的隐式关系知识,利用图卷积网络学习显式关系知识。其次,通过粗到细的知识感知注意机制,将关联知识集成到关联抽取模型中。我们展示了一个大型基准数据集的结果,它表明我们的方法明显优于其他基线,特别是在长尾关系方面。

  • 用于:长尾不平衡数据
    • long-tail:指的是类似正态分布的尾巴那一部分,也就是可用数据少
  • 方法:远程监督
  • 挑战:
    • long-tail的可用数据少
      • 目前的远程监督方法都忽略了这个,所以难以从文本中提取全面的信息
      • long-tail不容忽略:NYT中70%都是(Riedel et al., 2010; Lei et al., 2018)
      • 如何在训练实例有限的情况下来学习?
  • 启发:long-tail数据和分布顶部的数据之间有丰富的语义关联
  • 解决:可以用顶部数据来提高尾部数据的performance
    • 如果语义上相似,就可以转换
    • 这样可以增强RE,缩小潜在的搜索空间,减少关系之间的不确定性(Ye et al., 2017)
    • eg:如果一对实体包含/人/死者/死亡地点(多),很有可能包含/人/死者/埋葬地点(少)。
    • 存在两个问题
      • 关系知识的学习:也可能导致负迁移
      • 利用关系知识:
        • 将关系知识集成到现有的RE模型也是一个挑战
  • 做法
    • 编码器(Instance Encoder):
      • 首先使用CNN(Zeng et al。,2014,2015)编码
      • 输入:一个实例及其实体提及对
      • 语义编码为一个向量
    • 关系知识学习(Relation Knowledge Learning):
      • 预训练的嵌入:以知识图谱的嵌入来学习隐式关系知识
        • (Yang et al。,2015):语义相近,嵌入相近
        • 使用 TransE (Bordes et al., 2013)
        • 将通用的消息传递推理算法与神经网络的对应算法进行同化–>得到更好的嵌入
      • 利用图卷积网络学习显式关系知识
        • KGs:有多对一关系,数据稀疏–无足够的关系信号
        • 用GCN来学习
      • 输出:concate(GCN输出,KG embedding)
    • knowledge-aware attention
      • 以从粗到细的注意力机制将关系知识和编码句子注入到model中
      • 目标:选择与信息圈圈匹配的最informative instance
  • 好处
    • 关系知识:
      • 为关系预测提供了更多信息
      • 为attention提供参考–提高long-tail的性能

1.introduction

关系抽取是信息抽取中的一项重要工作,其目的是根据两个给定实体之间的相关上下文提取它们之间的关系。由于能够提取文本信息,并使许多NLP应用程序(如信息检索、对话生成和问题回答)受益,因此重新吸引了许多研究人员。

  • 传统的监督模型在这项任务中得到了广泛的探索(Zelenko et al., 2003;Zeng等,2014);然而,他们的表现在很大程度上取决于培训数据的规模和质量。
  • 远程监督方法(Distant supervision,DS)
    • 用于:构架大规模数据
    • (Mintz et al., 2009)提出
      • KGs与文本对齐,来自动标记训练实例
    • (Wu et al., 2017;Feng等,2018)

为了构建大规模的数据,(Mintz et al., 2009)提出了一种新的远程监控(distance supervision, DS)机制,通过将现有的知识图(knowledge graphs, KGs)与文本对齐,来自动标记训练实例。DS使RE模型能够在大型培训语料库上工作,因此成为RE最近的主要方法(Wu et al., 2017;冯等,2018)。虽然这些DS模型在公共关系上取得了良好的效果,但当某些关系的训练实例较少时,其性能仍然会急剧下降。从经验上看,DS可以自动标注足够数量的训练数据;然而,这些数据通常只覆盖关系的有限部分。许多关系都是长尾关系,数据仍然不足。目前的DS模型忽略了长尾关系问题,难以从纯文本中提取出全面的信息。

  • 目前的远程监督方法都忽略了long-tail,所以难以从文本中提取全面的信息
  • long-tail不容忽略:NYT中70%都是(Riedel et al., 2010; Lei et al., 2018)

处理长尾非常困难,因为可用的训练示例很少。因此,将知识从数据丰富且语义相似的头类转移到数据贫乏的尾类是很自然的(Wang et al., 2017)。例如,长尾关系/人/死者/埋葬地和头关系/人/死者/死亡地属于同一分支/人/死者/*,如图2所示。它们在语义上是相似的,利用head关系知识并将其转换为长尾关系是有益的,从而提高了总体性能。换句话说,一个实体元组的长尾关系可以有类关系和头关系,在预测未知关系时,可以利用这类关系增强RE,缩小潜在的搜索空间,减少关系之间的不确定性(Ye et al., 2017)。如果一对实体包含/人/死者/死亡地点,很有可能包含/人/死者/埋葬地点。如果能将两种关系之间的关系知识结合起来,提取出头部关系,将为长尾关系的预测提供依据。

  • 分布顶部的关系–>long-tail的关系
    • 如果语义上相似,就可以转换
    • 这样可以增强RE,缩小潜在的搜索空间,减少关系之间的不确定性(Ye et al., 2017)
    • eg:如果一对实体包含/人/死者/死亡地点(多),很有可能包含/人/死者/埋葬地点(少)。
    • 存在两个问题
      • 关系知识的学习:也可能导致负迁移
      • 利用关系知识:
        • 将关系知识集成到现有的RE模型也是一个挑战
    • 如何做
      • 利用KGembedding->提取隐式
        • (Yang et al。,2015):语义相近,嵌入相近
      • 和GCN->明确的关系表示
        • KGs:有多对一关系,数据稀疏–无足够的关系信号
        • 用GCN来学习

然而,存在两个问题:(1)关系知识的学习:语义相似的类可能包含更多的关系信息,促进迁移,而不相关的类(如/location/location/contains和/people/family/country)通常包含较少的关系信息,可能导致负迁移。(2)利用关系知识:将关系知识集成到现有的RE模型是一个挑战。
为了解决学习关系知识的问题,如(Lin et al。,2016; Ye et al。,2017)所示,我们使用类嵌入来表示关系类,并利用KG嵌入和图卷积网络(GCN)来提取隐式和明确的关系知识。具体而言,之前的研究(Yang et al。,2015)已经表明,语义相似关系的嵌入在潜在空间中彼此靠近。例如,关系/人/人/地方生活和/人/人/国籍更相关,而关系/人/人/职业与前两个关系的相关性较小。因此,利用KG的这些知识是很自然的。但是,由于KGs内存在多对一关系,因此每个班级的相关资料可能会分散。换句话说,类之间可能没有足够的关系信号。因此,我们利用GCN来学习明确的关系知识。

为了解决利用关系知识的问题,我们首先使用卷积神经网络(Zeng et al。,2014,2015)来编码句子;然后引入粗略到知识的关注机制,将关系知识与编码句子结合到包表示向量中。关系知识不仅为关系预测提供了更多信息,而且为关注模块提供了更好的参考信息,以提高长尾类的性能。

2.相关工作

2.1 关系提取

  • 关系提取。
    • 监督模型
      • 监督的RE模型(Zelenko等人,2003; GuoDong等人,2005; Mooney和Bunescu,2006)需要足够数量的注释数据用于训练,这是耗时的。
    • 远程监督模型
      • (Mintz等,2009)提出了DS来自动标记数据。DS不可避免地伴随着错误的标签问题。
      • 为了缓解噪声问题,(Riedel等人,2010; Hoffmann等人,2011)提出了多实例学习(MIL)机制。
      • 最近,神经模型已被广泛用于RE;
        • 这些模型可以准确地捕获文本关系,而无需进行明确的语言分析(Zeng等,2015; Lin等,2016; Zhang等,2018a)。
        • 为了进一步提高性能,一些研究将外部信息(Zeng等人,2017年;Ji等人,2017年; Han等,2018)和先进的培训策略(Ye等,2017年;刘等人。 2017; Huang和Wang,2017; Feng等,2018; Zeng等,2018; Wu等,2017; Qin等,2018)结合起来。
          • 这些工作主要采用DS制作大规模数据集,降低DS引起的噪声,不论长尾关系的影响如何。
      • 考虑long-tail的:
        • (Gui等,2016; Lei等,2018; Han等,2018b)。
          • Gui et al。,2016)提出了一种基于解释的方法,
          • (Lei et al。,2018)则使用了外部知识(逻辑规则)。
          • 这些研究孤立地处理每个关系,而不管关系之间的丰富语义相关性。
          • (Han et al。,2018b)提出了RE的分层关注方案,特别是对于长尾关系。
          • Zhang, N., et al. (2019):与这些方法不同,我们利用来自KG和GCN的隐式和显式关系知识,而不是数据驱动的学习参数空间,其中类似关系可能具有不同的参数,阻碍了长尾类的泛化。

2.2 KG embedding

  • 知识图嵌入。
    • 最近,已经提出了几种KG嵌入模型。
    • 这些方法学习实体和关系的低维矢量表示(Bordes等,2013; Wang等,2014; Lin等,2015)。
    • TransE(Bordes等,2013)是最广泛使用的模型之一,它将关系视为在同一低维超平面上从头部实体到尾部实体的转换。
    • 受到KGs丰富知识的启发,最近的作品(Han et al。,2018a; Wang et al。,2018; Lei et al。,2018)在KGs的指导下扩展了DS模型。
      • 然而,这些作品忽视了关系之间的丰富关联。
      • 已经研究了关系结构(关系知识)对于KG完成非常有效(Zhang等,2018b)。
      • Zhang, N., et al. (2019):据我们所知,这是第一次考虑使用KGs for RE的类(关系)的关系知识。

2.3 GCNN

  • GCNN

    • GCN将CNN泛化到高维空间中(超出二维和一维空间)。
    • (Defferrard等,2016)开发了光谱方法来执行有效的图形卷积。
    • (Kipf和Welling,2016)假设图形结构在输入实例上是已知的,并且将GCN应用于半监督学习。
    • 通过(Schlichtkrull等,2018)将GCN应用于关系数据(例如,链接预测)。
    • GCN还在其他NLP任务中取得了成功,例如
      • 语义角色标记(Marcheggiani和Titov,2017),
      • 依赖性解析(Strubell和McCallum,2017)和
      • 机器翻译(Bastings等,2017)。
  • 两项相似的工作

    • (Chen et al。,2017)在结构化标签空间上使用GCN。然而,他们的实验不处理长尾标签并且没有引入attention,而是使用平均字向量来表示每个文档。
    • (Rios和Kavuluru,2018)通过利用带有GCN的结构化标签空间提出了一种few-shot和zero-shot文本分类方法。但是,他们在标签图中使用了GCN,而我们在标签的层次结构图中使用了GCN。
  • few-shot:少样本学习

  • zero-shot:0样本学习

3. 方法

3.1符号

  • 遵循MIL,分为多个实体对包
    • 每个包Shi,ti=s1,s2,...包含多个实例(都是hi,ti这俩提及对的)s=w1,w2,...S_{h_i,t_i}={s_1,s_2,...}包含多个实例(都是h_i,t_i这俩提及对的)\\ s={w_1,w_2,...}Shi,ti=s1,s2,...hi,tis=w1,w2,...

3.2框架

在这里插入图片描述

3.2.1 Instance Encoder

给定实例提到两个实体,我们将原始实例编码为连续的低维向量x,其由嵌入层和编码层组成。嵌入图层。嵌入层用于将实例中的离散单词映射到连续输入嵌入中。给定实例s,我们将实例中的每个单词映射到嵌入的实值预训练Skip-Gram(Mikolov等,2013)。我们采用以下位置嵌入(Zeng et al。,2014)。对于每个单词,我们将它与两个实体的相对距离嵌入到两个维向量中。然后,我们将单词嵌入和位置嵌入连接起来,以实现每个单词的最终输入嵌入,并收集实例中的所有输入嵌入。因此,我们获得了为编码层准备好的嵌入序列。

  • Instance Encoder
    • 输入:实例s={w1,w2,…}和他的两个提及hi,ti
    • 输出:连续的低纬向量x
    • 嵌入层
      • 给定实例s
      • word embedding:
        • 每个单词,映射到skip-gram的嵌入上(Mikolov et al., 2013)
      • position embedding
        • (Zeng et al。,2014)
        • 每个单词:它与两个实体的相对距离嵌入到两个dp维的想两种
      • 两个嵌入连接起来–>每个单词的最终输入
    • 编码层
      • 输入:上面得到的嵌入
      • 方法(两个):
        • CNN(Zeng et al。,2014)
        • PCNN(Zeng et al。,2015)
        • 其他也可,但卷积效果最好
      • 输出:嵌入的组合–实例嵌入

编码层。编码层旨在将给定实例的输入嵌入组合成其对应的实例嵌入。在这项研究中,我们选择两个卷积神经架构CNN(Zeng et al。,2014)和PCNN(Zeng et al。,2015)将输入嵌入编码到实例嵌入中。其他神经架构,如递归神经网络(Zhang和Wang,2015)也可以用作句子编码器。由于之前的工作表明卷积和循环体系结构都可以实现可比较的最先进性能,因此我们在本研究中选择了卷积体系结构。请注意,我们的模型独立于编码器选择,因此可以很容易地适应其他编码器架构。

3.4 Relational Knowledge Learning through KG Embeddings and GCNs.

  • 给定:
    • 预先训练的KG嵌入
    • 预定义的类(关系)层次结构,
  • 我们首先
    • 利用KGs得到隐式关系知识
    • 初始化层次结构标签图;
      • KG的基本关系(叶子)
        • 其向量表示,可由TransE的KG嵌入来初始化
          • 也可用其他
      • 泛化得到更高级的关系集合(通常包含多个子关系(在基本几何中的))
        • 非叶子的向量:可用所有子节点的向量平均得到
      • 树结构的
      • 生成过程:递归
      • 父节点:虚拟的
      • 方法:k-means,层次聚类
  • GCN:
    • 由于KG中的一对多关系和不完整性,KG嵌入每个标签所获得的隐含相关信息是不够的。
    • 然后我们应用两层GCN来学习标签空间中明确的细粒度关系知识。
    • 输入:KGs的预训练关系嵌入vimplicitv^{implicit}vimplicit
    • 第i个标签:组合其父母和子女的标签得到
      • vi1=f(W1vi+Σj∈pWp1vj∣p∣+Σj∈cWc1vj∣c∣+bg1)v_i^1=f(W^1v_i+\Sigma_{j\in p}\frac{W_p^1v_j}{|p|}+\Sigma_{j\in c}\frac{W_c^1v_j}{|c|}+b_g^1)vi1=f(W1vi+ΣjppWp1vj+ΣjccWc1vj+bg1)
      • 第二层同上,得到vexplicit,vimplicitv^{explicit},v^{implicit}vexplicit,vimplicit
    • 输出:qr=vexplicit∣∣vimplicitq_r=v^{explicit}||v^{implicit}qr=vexplicitvimplicit–concate–>每一层的,每个节点都有一个q

3.5 knowledge-aware attention

传统上,PCNN / CNN的输出层将学习通过交叉熵损失优化的标签特定参数。然而,标签特定参数空间对于每个关系是唯一的,与长尾相关联的矩阵在训练期间只能暴露于非常少的事实,导致不良的泛化。相反,我们的方法尝试将句子向量与其对应的类嵌入进行匹配,而不是学习标签特定的注意参数。实质上,这成为一个检索问题。类嵌入的相关信息包含标签之间长尾的有用关系知识。

  • 问题:
    • CNN,loss=交叉熵–ok
    • 但long-tail,所以泛化不良
  • 解决
    • 将句子向量与对应的类嵌入匹配
    • 成为检索问题
      • 根据他们的类型来组合这些class embedding(依据层次图)
      • 得到关系表示公式:ek=Ws(tanh[sk;qri])+bs;[sk;qri]是垂直链接αki=exp(ek)Σj=1mexp(ej)rh,ti=ATT(qri,s1,s2,...,sm)e_k=W_s(tanh[s_k;q_{r^i}])+b_s;[s_k;q_{r^i}]是垂直链接\\ \alpha_k^i=\frac{exp(e_k)}{\Sigma_{j=1}^m exp(e_j)}\\ r_{h,t}^i=ATT(q_r^i,{s1,s2,...,sm})ek=Ws(tanh[sk;qri])+bs;[sk;qri]αki=Σj=1mexp(ej)exp(ek)rh,ti=ATT(qri,s1,s2,...,sm)
    • 然后,我们需要在不同层上组合关系表示–还是注意力机制
      • gi=Wgtanh(rh,t)βi=exp(gi)Σj=0L−1exp(gj)rh,r=Concat(β0rh,t0,...,βL−1rh,tL−1)g_i=W_gtanh(r_{h,t})\\ \beta_i=\frac{exp(g_i)}{\Sigma_{j=0}^{L-1}exp(g_j)}\\ r_{h,r}=Concat(\beta_0r_{h,t}^0,...,\beta_{L-1}r_{h,t}^{L-1})gi=Wgtanh(rh,t)βi=Σj=0L1exp(gj)exp(gi)rh,r=Concat(β0rh,t0,...,βL1rh,tL1)
    • 概率:P(r∣h,t,Sh,t)=exp(Mrh,t)Σr′∈Rexp(Mrh,t′)P(r|h,t,S_{h,t})=\frac{exp(Mr_{h,t})}{\Sigma_{r'\in R}exp(Mr'_{h,t})}P(rh,t,Sh,t)=ΣrRexp(Mrh,t)exp(Mrh,t)

4.实验

4.1 数据集

  • NYT
    • 数据集有53个关系,包括N A关系,表示实例关系不可用。训练集有522611个句子,281270个实体对和18252个关系事实。在测试集中,有172448个句子,96678个实体对和1950个关系事实。在训练和测试集中,我们将超过120个单词的句子截断为120个单词。
  • evaluation
    • P-R曲线
    • precision@N
  • 应用dropout

4.3 result

在这里插入图片描述

  • 比对
    • +KATT :OpenNRE
    • +HATT:分层注意力方法(Han et al。,2018b)
    • +ATT:(Lin et al。,2016)一般的加注意力方法
    • +ATT + ADV是通过在实例嵌入中添加小的对抗扰动来降噪的注意方法(Wu et al。,2017),
    • +而+ ATT + SL是使用软件的基于注意力的模型 - 标签方法,以减轻实体对层面错误标签问题的副作用(Liu et al。,2017)。
  • 结果
    • 如图所示,我们的方法在所有基于注意力的模型中实现了最佳结果。
    • 即使与采用复杂的去噪方案和额外信息的PCNN + HATT,PCNN + ATT + ADV和PCNN + ATT + SL相比,我们的模型仍然更有优势。
    • 这表明我们的方法可以利用KG和GCN之间丰富的关系,从而提高性能。我们相信,通过采用对抗性培训和强化学习等其他机制,我们的模型可以进一步提高,这将成为我们未来工作的一部分

4.4 长尾关系的处理

在这里插入图片描述

从表1中显示的结果,我们观察到对于CNN和PCNN模型,我们的模型优于普通注意模型和HATT模型。尽管与普通ATT方法和HATT方法相比,我们的KATT方法在长尾关系方面取得了更好的结果,但所有这些方法的结果仍然远远不能令人满意。这表明远程监督的RE模型仍然受到长尾关系问题的困扰,这可能需要额外的方案和额外的信息来解决这个问题。

  • 并不能完全解决这个问题

4.5 ablation

在这里插入图片描述

w / o hier是没有粗略关注的方法(仅利用层次标签图的底部节点嵌入),这意味着没有从其更高级别类别的知识转移;
没有GCN的方法没有GCN,这意味着没有明确的关系知识;
Word2vec是使用预训练SkipGram(Mikolov等,2013)嵌入来初始化节点的方法;
并且没有KG是使用随机嵌入来初始化节点的方法,这意味着没有来自KG的先前关系知识。

  • 从表2中的评估结果可以看出,在没有粗略注意的情况下性能略有下降,这证明来自较高节点的知识转移是有用的。我们还注意到,如果没有KG或使用字嵌入,性能会略有下降,而且当我们删除GCN时性能会显着下降。这是合理的,因为GCN可以在关系标签之间学习更明确的相关性,从而提高长尾关系的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481533.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用机器学习建立的数字「鼻子」表明,我们的嗅觉既反映了芳香分子的结构,也反映了产生它们的代谢过程...

来源:ScienceAI编辑:萝卜皮Alex Wiltschko 十几岁时就开始收集香水。他的第一瓶是 Azzaro Pour Homme,这是他在 T.J. Maxx百货的货架上发现的一款永恒的古龙水。他从《Perfumes: The Guide》中认出了这个名字,这本书对香气的诗意描…

论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集

文章目录abstract1.Introduction2.数据收集3.数据分析4.基线设置5.实验Yao, Y., et al. (2019). DocRED A Large-Scale Document-Level Relation Extraction Dataset. Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics.基线docRED数据…

74位图灵奖得主背景显示:大多数没有主修计算机专业,也并非高引用计算机科学家...

来源:中小学信息学竞赛计算机科学是世界上发展最快的学科之一,计算机科学的发展直接影响着人们的生活,并有可能从根本上改变传统的生活方式。图灵奖作为计算机领域的最高奖项,一直被誉为“计算机界的诺贝尔奖”,截止20…

Meta最新款VR头显体验者亲述:Quest Pro更漂亮、更有趣,但戴久了,脑袋疼!

来源:AI前线作者:Rachel Metz编译:核子可乐、冬梅价值一万多块的 VR 头显设备,你会买吗?声明:本文为 InfoQ 翻译,未经许可禁止转载。当地时间 10 月 11 日,元宇宙公司 Meta 召开了一…

文献阅读6-Entity-Relation Extraction as Multi-turn Question Answering(实体关系联合抽取,层次标签依赖关系,multi-turn QA)

文章目录abstract1.Introduction3.相关工作2.2MRC(机器阅读理解)2.3 非QA->QA3.数据集和任务3.1别人的数据集3.2我们建立的数据集RESUME4.Model4.1概述4.2生成问题4.3通过MRC来获取答案范围4.4 强化学习5.实验5.1RESUME结果5.2 其他结果6 Ablation Studies6.2问题…

论文阅读课7-使用句子级注意力机制结合实体描述的远程监督关系抽取(APCNN+D)2017

文章目录abstract1. Introduction2.方法3.训练4.实验4.1数据集4.2 评价指标4.3实验结果和分析4.3.1参数设置4.3.2 baseline4.3.3 conclusion5.相关工作5.1监督学习5.2远程监督学习Ji, G., et al. (2017). Distant Supervision for Relation Extraction with Sentence-Level Att…

Cell经典回顾:机器学习模型揭示大脑怎样整合空间记忆与关系记忆

导语人类等高等动物能够做出复杂推理、整合新知识以控制行为,其神经机制离不开海马-内嗅系统对于空间记忆和关系记忆的调控。来自牛津大学的学者于2020年在Cell杂志发表文章,通过分解和重组的方法构建了一套框架(TEM模型)&#xf…

论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

文章目录Abstract1.Introduction2.相关工作3. 方法3.1 输入3.1.1 字符级别表示3.1.2单词级表示3.2encoder3.2.1 base lattice LSTM encoder3.2.2 MG lattice LSTM encoder3.3 关系分类器4.实验4.1数据集4.1.2 评估4.1.2 超参数设置4.2lattice的作用4.3词义表示的影响4.4最终结果…

黑客帝国「缸中之脑」真的可以,这100万个「活体人脑细胞」5分钟学会打游戏...

来源:FUTURE | 远见 闵青云 选编既然生物神经元如此高效,为什么不拿来用呢?最新版本的《黑客帝国》还有两天才会上映,但最近的一些科技进展总让我们觉得,导演描述的世界似乎离我们越来越近了。其中一个进展来自前段时间…

Nature发布迄今为止规模最大的全基因组关联研究,揭示了基因与身高的关系

来源:生物通一个国际研究团队已经确定了超过12000个影响一个人身高的基因变异。这项发表在10月12日《自然》杂志上的研究是迄今为止最大规模的全基因组关联研究,使用了来自281项贡献研究的500多万人的DNA。它填补了我们在理解基因差异如何导致身高差异方…

论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE)

文章目录abstrac1.Introduction2 Transformer Language Model2.1 Transformer-Decoder2.2 Unsupervised Pre-training of Language Representations3 Multi-Instance Learning with the Transformer3.1 Distantly Supervised Fine-tuning on Relation Extraction3.2input repre…

Meta半年亏损57.7亿美元也要搞元宇宙,听听扎克伯格自己是怎么说的

来源:科技智谷编辑:Light"这可能是世界上最烧钱的梦。元宇宙就是未来,VR就是下一代PC。2022年10月12日,全球VR巨头Meta召开一年一度的Meta Connect大会2022。本次大会, Meta发布了旗下最新的虚拟现实头显——Ques…

文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)

文章目录Abstract1.Introduction2. 相关工作2.2 Entity-aware Relation Extraction3.提出的模型3.1 Solution Framework3.1 data collection module3.3 Joint Learning of Word and Entity Embeddings3.4 N-gram Based Attention Model训练3.5 Triple Generation4.实验4.1 超参…

张益唐被曝已证明黎曼猜想相关问题,震动数学界

来源:金磊 Alex 发自 凹非寺量子位 | 公众号 QbitAIBreaking News!网传数学家张益唐,已经攻克了朗道-西格尔零点猜想(Landau-Siegel Zeros Conjecture)。而这则消息,据说是张益唐在参加北京大学校友Zoom线上…

论文阅读课11-TEMPROB:Improving Temporal Relation Extraction with a Globally Acquired Statistical Resource

文章目录abstract1.Introduction2.相关工作3 TEMPROB: A Probabilistic Resource for TempRels3.1 事件抽取3.2TempRel提取3.2.1 features3.2.2 learning3.3 Interence3.4 corpus3.5有趣的统计3.6 极端情况3.7 下列事件的分布4.实验4.1 Quality Analysis of TEMPROB4.2 Improvi…

机器学习也将解决量子问题

来源:IEEE电气电子工程师作者:CHARLES Q. CHOI当量子计算机执行可能导致下一代电池或新药的复杂物理和化学模拟时,它可能比任何传统超级计算机强大得多。然而,可能需要很多年才能实现实用和广泛的量子计算。现在,一项新…

Nature重磅:人鼠混合大脑问世,‘大脑类器官’研究再添新进展

一句“我思故我在”解释了大脑的重要性。随着全球老龄化的加剧,神经退行性疾病的发病率也随之增加。“老年痴呆”、“帕金森”等神经退行性疾病更是和癌症一样,成为数不多流传在街头巷尾的“医学名词”。从近代科学诞生一来,人类对于大脑的研…

文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL,时间关系,时间持续时间,数据集,语义框架,常识)

文章目录abstract1.Introduction2 背景3.数据收集4.Model5.实验6.result7 Model Analysis and TimelinesVashishtha, S., et al. (2019). Fine-Grained Temporal Relation Extraction. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics…

Gartner发布2023年十大战略技术趋势,元宇宙等技术上榜

来源:Gartner整理:刘燕10 月 18 日,InfoQ 获悉,Gartner 发布了企业机构在 2023 年需要探索的十大战略技术趋势。Gartner 杰出研究副总裁 Frances Karamouzis 表示:“为了在经济动荡时期增加企业机构的盈利,…

文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)

文章目录Abstract1.Introduction2.相关工作3 Adversarial Learning for Distant Supervision3.1 Pre-Training Strategy3.2 Generative Adversarial Training for Distant Supervision Relation Extraction3.3 Cleaning Noisy Dataset with Generator4.实验4.2 Training Proces…