文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)

文章目录

  • Abstract
  • 1.Introduction
  • 2.相关工作
  • 3 Adversarial Learning for Distant Supervision
    • 3.1 Pre-Training Strategy
    • 3.2 Generative Adversarial Training for Distant Supervision Relation Extraction
    • 3.3 Cleaning Noisy Dataset with Generator
  • 4.实验
    • 4.2 Training Process of DSGAN
    • 4.3 Quality of Generator
    • 4.4 Performance on Distant Supervision Relation Extraction
  • 5.结论

Qin, P., et al. (2018). DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).

Abstract

远程监督可以有效地标记关系提取的数据,但是受到噪声标记问题的困扰。最近的作品主要执行软袋级降噪策略,以找到句子包中相对较好的样本,与在句子级别做出假阳性样本的硬判决相比,这是次优的。在本文中,我们介绍了一个名为DSGAN的对抗性学习框架,用于学习一个句子级的真正生成器。受Generative Adversarial Networks的启发,我们将生成器生成的正样本视为负样本来训练鉴别器。获得最佳发生器,直到鉴别器的辨别能力下降最大。我们采用生成器来过滤远程监督训练数据集,并将误报实例重新分配到负集中,从而为关系分类提供清洁的数据集。实验结果表明,与现有技术系统相比,该策略显着提高了远程监督关系提取的性能。

  • 关系抽取
    • 已知文本中实体,对句子中存在的实体对的关系进行预测
    • 远程监督
    • 使用句子包
      • (h,r,t)三元组的句子分在一个包中
      • 远程监督存在噪音
      • 以GAN来去除噪音,获得噪音低的包
        • 生成器:找到句子中好的样本
        • 判别器:将生成器产生的样本视作负样本来训练
          在这里插入图片描述

1.Introduction

由于现实世界中存在大量事实,因此非常昂贵,并且人类注释器几乎不可能对训练数据集进行注释以满足各行各业的需求。这个问题越来越受到关注。 Fewshot学习和零镜头学习(Xian et al。,2017)尝试用很少的标记数据预测看不见的类,甚至没有标记数据。不同的是,远程监督(Mintz et al。,2009; Hoffmann et al。,2011; Surdeanu et al。,2012)是为了与远程监督(DS)之间看不见的关系,从纯文本中有效地生成关系数据。然而,它自然会带来一些缺陷:由此产生的远程监督训练样本通常非常嘈杂(如图1所示),这是阻碍性能的主要问题(Roth等,2013)。大多数当前最先进的方法(Zeng et al。,2015; Lin et al。,2016)在实体对的句子包中进行去噪操作,并将此过程整合到远程监管关系中。 。实际上,这些方法可以过滤大量的噪声样本;然而,他们忽略了一个实体对的所有句子都是假阳性的情况,这也是远程监管数据集中的常见现象。在这种考虑下,一个独立而准确的句子级降噪策略是更好的选择。
在本文中,我们设计了一个对抗性学习过程(Goodfellow等,2014; Radford等,2015),以获得一个句子级生成器,它可以识别来自嘈杂的远程监督数据集的真实阳性样本,而无需任何监督信息。在图1中,假阳性样本的存在使得DS决策边界不是最理想的,因此阻碍了关系提取的性能。然而,就数量而言,真阳性样本仍占据大部分比例;这是我们方法的先决条件。给定具有DS数据集决策边界的鉴别器(图1中的棕色决策边界),生成器尝试从DS正数据集生成真正的正样本;然后,我们为生成的样本分配负标签,其余样本分配正标签以挑战鉴别器。在这种对抗性设置下,如果生成的样本集包含更多真实的阳性样本,并且剩余集合中剩余更多的假阳性样本,则鉴别器的分类能力将下降得更快。根据经验,我们证明了我们的方法在各种基于深度神经网络的模型中带来了一致的性能提升,在广泛使用的纽约时报数据集上实现了强大的性能(Riedel等,2010)。我们的贡献是三方面的:

  • 标注困难
    • few-shot:通过少量标注来预测不可见的类
    • zero-shot:无标注来预测不可见的类
    • 远程监督:
      • 噪声大
        • 去噪
        • 以前:在实体对的句子包中去噪
          • 忽略了实体对的所有句子均是假阳性FP的可能
            • 假阳性:预测为真,实际为假
            • 在远程监督中很常见
        • 解决:独立而准确的句子级去噪

2.相关工作

为了解决上述数据稀疏性问题,Mintz等人。 (2009)首先通过远程监督将未标记的文本语料库与Freebase对齐。然而,远程监督不可避免地受到错误的标签问题的困扰。早期的工作不是明确地去除噪声实例,而是打算抑制噪声。Riedel等。 (2010)在关系抽取中采用多实例单标签学习;霍夫曼等人。 (2011年)和Surdeanu等人。 (2012)模型远程监督关系提取作为多实例多标签问题。
最近,已经提出了一些基于深度学习的模型(Zeng等人,2014; Shen和Huang,2016)来解决关系提取问题。当然,有些作品试图通过深度学习技术来缓解错误的标注问题,并将它们的去噪过程集成到关系提取中。曾等人。 (2015)选择一个最合理的句子来表示实体对之间的关系,这不可避免地错过了一些有价值的信息。林等人。 (2016)计算一个实体对的所有句子的一系列软注意权重,不正确的句子可以减权;基于同样的想法,Ji等人。 (2017)将有用的实体信息带入注意力量的计算中。然而,与这些软注意权重分配策略相比,在关系提取之前识别来自远程监督数据集的真实阳性样本是更好的选择。Takamatsu等。 (2012)基于从许多NLP工具中提取的语言特征构建噪声滤波策略,包括NER和依赖树,这不可避免地会遇到错误传播问题;而我们只是利用字嵌入作为输入信息。在这项工作中,我们学习了一个真正的识别器(生成器),它独立于实体对的关系预测,因此它可以直接应用于任何现有的关系提取分类器之上。然后,我们将假阳性样本重新分配到负集中,以便充分利用远程标记的资源。

  • 远程监督
    • Mintz et al. (2009) 提出:对齐
    • 噪音
      • 早期:抑制噪音
        • Riedel et al. (2010) :多实例单标签学习
        • Hoffmann et al. (2011) and Surdeanu et al. (2012) :多实例多标签
      • 深度学习:将深度学习去噪集成到关系抽取中
        • Zeng et al. (2015) :句子包里挑一个
          • 错过了有价值的信息
        • Lin et al. (2016):soft attention
          • 给包中的句子加权
        • Ji et al. (2017):attention中包含了实体信息
      • 在关系抽取之前,分辨出真假样本:
        • Takamatsu et al. (2012) :噪声滤波器
          • 使用NER和依赖树的语言特征
          • 难以避免错误传递
        • 本文:仅使用word embedding

3 Adversarial Learning for Distant Supervision

在这里插入图片描述

在本节中,我们将介绍一种对抗性学习流程,以获得一个强大的生成器,该生成器可以在没有任何监督信息的情况下从嘈杂的远程监督数据集中自动发现真正的正样本。我们的对抗性学习过程概述如图2所示。给定一组远程标记的句子,生成器试图从中生成真正的正样本;但是,这些生成的样本被视为负样本以训练鉴别器。因此,当完成扫描DS阳性数据集一次时,生成器发现的真实阳性样本越多,鉴别器获得的性能就越明显。在对抗训练之后,我们希望获得一个强大的发生器,它能够迫使鉴别器最大程度地丧失其分类能力。
在下一节中,我们描述了发生器和鉴别器之间的对抗性训练管道,包括训练前策略,目标函数和梯度计算。由于生成器涉及离散采样步骤,因此我们引入了一种策略梯度方法来计算发电机的梯度。

  • DSGAN
    • 目标:区分句子是不是好样本
      • 只对标注为T的样本做区分,将FP重新归于负类
    • 假设:标注为真的样本,多数为TP
    • 生成器:区分句子是TP还是FP,无需监督
      • 策略梯度:因为涉及离散采样
    • 输入:word-embedding
    • 判别器:
      • 将生成器生成的样本标注为F
      • 原来的样本,标注为T
      • 训练判别器
      • 如果生成集合中,TP多,而剩余集合中FP多,则鉴别器分类能力下降的很快
    • 贡献
      • 我们是第一个考虑对抗性学习去噪远程监督关系提取数据集的人。
      • 我们的方法是句子级和模式诊断,因此它可以用作任何关系提取器(即插即用技术)。
      • 我们证明我们的方法可以在没有任何监督信息下生成一个干净的数据集,从而提高最近提出的神经关系提取器的性能。

3.1 Pre-Training Strategy

  • GANs:
    • 预训练:生成器和判别器
      • 必须
      • 目标:得到更好的初始化参数,容易收敛
      • 判别器:远程监督数据集的positive set P和negtive set NDN^DND
      • 生成器:
        • 预训练到精度达到90%
        • 使用P和另一个negtive set NGN^GNG
        • 让生成器对P过拟合
          • 目标:让生成器在训练过程开始时错误地给出所有有噪声的DS的阳性样本高概率
            • 之后会通过对抗学习降低FP的这个概率

3.2 Generative Adversarial Training for Distant Supervision Relation Extraction

DSGAN的生成器和鉴别器都由简单的CNN建模,因为CNN在理解句子方面表现良好(Zeng et al。,2014),并且它具有比基于RNN的网络更少的参数。对于关系提取,输入信息由句子和实体对组成;因此,作为共同背景(Zeng et al。,2014; Nguyen and Grishman,2015),我们使用字嵌入和位置嵌入将输入实例转换为连续的实值向量。

  • 网络
    • CNN:
      • 参数比RNN少
      • 语言理解能力强
    • 输入:句子+实体对
      • 使用:word embedding + position embedding
  • 生成器
    • 与计算机视觉的区别
      • 不用生成全新的句子(图),只需要从集合中判别出TP即可
    • 是“从概率分布中抽样 ”的离散的GANs
  • 句子sjs_jsj是TP的概率
    • 生成器:PG(sj)P_G(s_j)PG(sj)
    • 判别器:PD(sj)P_D(s_j)PD(sj)
  • 1个epoch扫描一次P
  • 更有效的训练+更多反馈
    • P–>划分成N个batch
    • 处理完一个batch,更新一次参数θG,θD\theta_G,\theta_DθG,θD
  • 目标函数
    • 生成器
      • 对一个batchBiB_iBi,生成器得到他的概率分布{PG(sj)}j=1,...,∣Bi∣\{P_G(s_j)\}_{j=1,...,|B_i|}{PG(sj)}j=1,...,Bi
      • 依据这个概率分布采样,得到集合T
      • T={sj},sjPG(sj),j=1,2,...,∣Bi∣T=\{s_j\},s_j~P_G(s_j),j=1,2,...,|B_i|T={sj},sj PG(sj),j=1,2,...,Bi–对G而言是正样本
      • PG(sj)P_G(s_j)PG(sj)大的,是生成器视为正例的句子,但对判别器而言是负例
      • 为了挑战判别器,损失函数(最大化):LG=Σsj∈TlogpD(sj)L_G=\Sigma_{s_j\in T}logp_D(s_j)LG=ΣsjTlogpD(sj)
        • LG=Σsj∈TlogpG(sj)L_G=\Sigma_{s_j\in T}logp_G(s_j)LG=ΣsjTlogpG(sj)–感觉应该是G,原文是D
    • 判别器:
      • 样本:
        • T:对D而言是负样本
        • F=Bi−TF=B_i-TF=BiT:正样本
      • 损失:
        • 与二分类相同
        • LD=−(Σsj∈(Bi−T)logpD(sj)+Σsj∈Tlog(1−pD(sj)))L_D=-(\Sigma_{s_j\in(B_i-T)}log p_D(s_j)+\Sigma_{s_j\in T}log(1-p_D(s_j)))LD=(Σsj(BiT)logpD(sj)+ΣsjTlog(1pD(sj)))(最小化)
        • 可以用任何梯度的方法优化
        • epoch:
          • 与先前工作中的鉴别器的常见设置不同,
          • 我们的鉴别器在每个epoch开始时加载相同的预训练参数集
            • 原因1:想要的是强大的生成器而不是判别器
            • 原因2:生成器只采样,不生成全新的数据
              • 所以,判别器相对容易崩溃
          • 假设:一个判别器在一个epoch内具有最大的性能下降时,就会产生最稳定的生成器
    • 为保证前提条件相同,每个epoch的B相同(batch划分相同)

在这里插入图片描述

  • 优化
    • 生成器:
      • 目标:从参数化概率分布中最大化样本的给定函数的期望。(类似一步强化学习)
      • 训练:策略梯度策略
        • 类比到强化学习中
          • sjs_jsj:状态
          • PG(sj)P_G(s_j)PG(sj):策略
          • 奖励:(两个角度来定义)
            • 从对抗训练角度,希望判别器判别生成器生成的为1(但对判别器来说,标注为0)
              • r1=1∣T∣Σsj∈TpD(sj)−b1r_1=\frac{1}{|T|}\Sigma_{s_j\in T}p_D(s_j)-b_1r1=T1ΣsjTpD(sj)b1,b1:可以减小方差
            • 来自NDN^DND的预测概率的平均值
              • p~=1∣ND∣Σsj∈NDpD(sj)\tilde{p}=\frac{1}{|N^D|}\Sigma_{s_j\in N^D}p_D(s_j)p~=ND1ΣsjNDpD(sj)
              • NDN^DND:参与判别器的预训练过程,但不参与对抗训练过程
                • 当判别器的分类能力降低,NDN^DND判别为0的准确率逐渐下降–>p~\tilde{p}p~增加了–>生成器更好
              • r2=η(p~ik−b2),b2=maxp~im,m=1,...,k−1r_2=\eta(\tilde{p}_i^k-b_2),b_2=max{\tilde{p}_i^m},m=1,...,k-1r2=η(p~ikb2),b2=maxp~im,m=1,...,k1
        • 梯度:∇θDLG=Σsj∈BiEsj−pG(sj)r∇θGlogpG(sj)=1∣T∣Σsj∈Tr∇θGlogpG(sj)\nabla_{\theta_D}L_G\\=\Sigma_{s_j\in B_i}E_{s_j-p_G(s_j)}r\nabla_{\theta_G}log p_G(s_j)\\=\frac{1}{|T|}\Sigma_{s_j\in T}r\nabla_{\theta_G}log p_G(s_j)θDLG=ΣsjBiEsjpG(sj)rθGlogpG(sj)=T1ΣsjTrθGlogpG(sj)

3.3 Cleaning Noisy Dataset with Generator

  • 上面训练得到的生成器–当做二分类器
    • 过滤噪声样本
    • 为了达到数据的最大利用率:
      • 实体对的句子包中所有句子均被认定为FP,则该实体对将被分配到负集中
      • 这样,远程监督训练集的规模不变
      • (??负集啥意思,认为他俩没关系?)

在我们的对抗学习过程之后,我们获得一个关系类型的生成器;这些生成器具有为相应的关系类型生成真阳性样本的能力。因此,我们可以采用发生器来过滤来自远程监控数据集的噪声样本。简单而明确地,我们将发电机用作二元分类器。为了达到数据的最大利用率,我们制定了一个策略:对于具有一组带注释的句子的实体对,如果所有这些句子被我们的生成器确定为假阴性,则该实体对将被重新分配到负集中。在这一战略下,远程监督训练集的规模保持不变。

4.实验

本文提出了一种对抗性学习策略,用于从嘈杂的远程监督数据集中检测真实的阳性样本。由于缺乏有监督的信息,我们定义了一个发生器,通过与鉴别器竞争来启发式学习识别真正的阳性样本。因此,我们的实验旨在证明我们的DSGAN方法具有此功能。为此,我们首先简要介绍数据集和评估指标。从经验上讲,对抗性学习过程在某种程度上具有不稳定性;因此,我们接下来说明我们的对抗训练过程的趋同。最后,我们从两个角度证明了我们的发电机的效率:生成的样本的质量和广泛使用的远程监督关系提取任务的性能。

  • 实验目标:
    • 证明我们的DSGAN方法具有此功能(区分FP和TP)
    • 证明我们的对抗训练收敛了
    • 效率好
      • 生成样本的质量
      • 对远程监督关系提取任务性能的提升
  • 数据集
    • Reidel dataset(Riedel et al。,2010)
      • Freebase的三元组+NYT的句子
    • 测试:held-out evaluation
      • 它构建了一个测试集,其中实体对也从Freebase中提取。
      • 同样,从测试文章中发现的关系事实会自动与Freebase中的关联事实进行比较
  • word embedding:word embedding matrix by Lin et al. (2016)
  • position embedding:最大距离-30和30
  • CNN:简单的cnn
  • 超参数
    在这里插入图片描述

由于缺少相应的标记数据集,因此没有地面实况测试数据集来评估远程监督关系提取系统的性能。在这种情况下,以前的工作采用保持评估来评估他们的系统,这可以提供精确的近似测量,而不需要昂贵的人工评估。它构建了一个测试集,其中实体对也从Freebase中提取。同样,从测试文章中发现的关系事实会自动与Freebase中的关联事实进行比较。

4.2 Training Process of DSGAN

在这里插入图片描述

由于对抗性学习被广泛认为是一种有效但不稳定的技术,因此我们在这里说明了培训过程中的一些属性变化,以此表明我们提出的方法的学习趋势。我们使用3种关系类型作为例子:/ business / person / company,/ people / person / place living和/ location / neighborhood / neighborhood of。因为它们来自Reidel数据集的三个主要类别(商务,人员,位置),并且它们都具有足够的远程监督实例。图3中的第一行显示了训练期间鉴别器的分类能力变化。

  • 本文对抗训练的收敛性
    • 对抗训练过程中判别器在NDN^DND上精度下降(不用NDN^DND进行对抗训练了)
    • 每个epoch从同一起点开始

在这里插入图片描述

精度由负set4NDN^DND 计算得出。在对抗性学习开始时,鉴别器在NDN^DND上表现良好;此外,在对抗训练期间不使用NDN^DND。因此,NDN^DND的准确度是反映鉴别器性能的标准。在早期时期,来自发生器的生成样本提高了准确性,因为它没有挑战鉴别器的能力;然而,随着训练时期的增加,这种准确性逐渐降低,这意味着鉴别器变得更弱。这是因为发电机逐渐学会在每个袋子中产生更准确的真阳性样品。在提议的对抗性学习过程之后,发生器足够强大以使鉴别器崩溃。图4给出了更准确的趋势显示趋势。请注意,每个呈现的关系类型都存在准确性下降的临界点。这是因为我们给发生器挑战鉴别器的机会只是一次扫描噪声数据集;当发电机已经足够稳健时,就会产生这个临界点。因此,当模型达到临界点时,我们会停止训练过程。总之,我们的发电机的能力可以稳步增加,这表明DSGAN是一种强大的对抗性学习策略。

4.3 Quality of Generator

  • 图三可见:
    • 训练得快,容易收敛,拟合度高–>则数据质量好
    • 随机选择的正集<用预训练的生成器选择的<DSGAN选择的正集
    • 与训练的生成器无法提供FP和TP之间的界限

由于缺乏监督信息,我们从另一个角度验证发电机的质量。结合图1,对于一种关系类型,真阳性样本必须具有明显更高的相关性(紫色圆圈簇)。因此,具有更多真阳性样本的阳性集更容易训练;换句话说,收敛速度更快,训练集的拟合度更高。基于此,我们在图3的第二行中给出了比较测试。我们从嘈杂的远程监督数据集P构建三个正数据集:随机选择的正集,正集基于预训练的发生器,正集基于DSGAN发生器。对于预训练的发生器,根据从高到低为正的概率选择正组。这三组具有相同的尺寸并伴有相同的负集。显然,DSGAN发生器的正设置产生了最佳性能,这表明我们的对抗性学习过程能够产生强大的真正正发生器。此外,预训练的发电机也具有良好的性能;然而,与DSGAN发生器相比,它不能提供误报和真阳性之间的界限。

4.4 Performance on Distant Supervision Relation Extraction

基于所提出的对抗性学习过程,我们获得了一个能够识别来自嘈杂的远程监督数据集的真实阳性样本的生成器。当然,远程监督关系提取的改进可以为我们的发电机提供直观的评估。我们采用3.3节中提到的策略来重新定位数据集。获得此重新分配的数据集后,我们将其应用于培训最新的最先进模型,并观察它是否为这些系统带来了进一步的改进。曾等人。 (2015年)和林等人。 (2016)是解决远程监管关系提取错误标注问题的有力模型。根据图5和图6中显示的比较,所有四个模型(CNN + ONE,CNN + ATT,PCNN + ONE和PCNN + ATT)实现了进一步的改进。

  • 使用DSGAN可以提升远程监督关系抽取的效果比基本模型好
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

即使曾等人。 (2015年)和林等人。 (2016)旨在减轻假阳性样本的影响,它们都只关注实体对的句子包中的噪声过滤。曾等人。 (2015)将至少一个多实例学习与深度神经网络相结合,仅提取一个活动句子来表示目标实体对;林等人。 (2016)将软注意权重分配给一个实体对的所有句子的表示,然后使用这些表示的加权和来预测目标实体对之间的关系。然而,根据我们对Riedel数据集的人工检查(Riedel et al。,2010),我们发现另一个假阳性案例,即特定实体对的所有句子都是错误的;但是上述方法忽略了这种情况,而所提出的方法可以解决这个问题。我们的DSGAN流水线与实体对的关系预测无关,因此我们可以采用我们的生成器作为真正的指标,在关系提取之前过滤嘈杂的远程监管数据集,这解释了图5和图6中这些进一步改进的起源。 。为了给出更直观的比较,在表2中,我们给出了每条PR曲线的AUC值,它反映了这些曲线下的面积大小。较大的AUC值反映出更好的性能。而且,从t检验评估的结果可以看出,所有p值都小于5e-02,因此改进是显而易见的。

5.结论

远程监督已成为关系提取的标准方法。然而,虽然它带来了便利,但它也在远程标记的句子中引入了噪音。在这项工作中,我们提出了第一个生成对抗性训练方法,用于鲁棒的远程监督关系提取。更具体地说,我们的框架有两个组成部分:一个产生真阳性的生成器,一个试图对正负数据样本进行分类的鉴别器。通过对抗训练,我们的目标是逐渐降低鉴别器的性能,而发生器在达到平衡时提高预测真阳性的性能。我们的方法是模型不可知的,因此可以应用于任何远程监督模型。根据经验,我们证明了我们的方法可以显着提高广泛使用的纽约时间数据集上许多竞争基线的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481513.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Science复活远古“蛋白质”,揭示光合作用的“昨天、今天和明天”

来源&#xff1a;生物通复活数十亿年前的酶&#xff0c;揭示了光合作用如何适应氧气的增加。两个Rubisco配合物相互作用的冷冻电子显微镜图像。如果溶解度所必需的亚基缺失&#xff0c;单个的酶复合体就会以这种方式相互作用&#xff0c;形成线状结构&#xff0c;即所谓的原纤维…

文献阅读课14-DIAG-NRE: A Neural Pattern Diagnosis Framework for远程监督关系抽取,模式标注去噪自动化,FN,FP,RL

文章目录abstract1. Introduction2.相关工作3.方法3.1 NRE Models3.2 Pattern Extraction3.3 Pattern Refinement3.4 Weak Label Fusion(WLF)4 Experiments4.1 Experimental Setup4.2 Performance Comparisons4.3 Pattern-based Diagnostic Results4.4 Incremental Diagnosis4.…

“神经网络”的逆袭:图解 80 年 AI 斗争史

转自量子位 | 公众号 QbitAI晓查 发自 凹非寺 有人的地方&#xff0c;就有斗争。华山派有“剑宗”和“气宗”&#xff0c;相互斗了几十年。人工智能界也有“山头”&#xff0c;AI两大派系的斗争早在第一台电子计算机问世前就已经开始了。△ 有三名法国人把两派的势力对决画成图…

文献阅读15-OntoILPER:A logic-based relational learning approach关系抽取,NER+RE

文章目录abstract1.Introduction2.2. Supervised Machine Learning Approaches to Relation Extraction2.1. Statistical Learning Approach2.1.1 Feature-based approaches to RE2.1.2 Kernel-based approaches to RE2.2. Relational Learning Approach2.2.1. Inductive Logic…

人类反超 AI:DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后,数学家再次刷新...

来源&#xff1a;图灵人工智能作者&#xff1a;李梅、施方圆编辑&#xff1a;陈彩娴10 月 5 日&#xff0c;AlphaTensor 横空出世&#xff0c;DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题&#xff0c;即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数…

前沿进展:宏观麦克斯韦妖背后的热力学几何原理

导语热力学强烈限制了静态宏观热扩散系统中的热流动方向&#xff0c;使用时空调制系统能够克服这种限制。近日&#xff0c;科学家提出了时空驱动热扩散的一般理论&#xff0c;揭示了宏观驱动热扩散中潜在的由冷到热的几何热泵效应以及实现热非互易性的限制条件&#xff0c;并实…

文献阅读课16-J-REED: Joint Relation Extraction and Entity Disambiguation,关系抽取实体消歧联合模型,概率图CRF,2017

文章目录abstract1. INTRODUCTION & RELATED WORK2 DOCUMENT PROCESSING3 RELATION PATTERN MINING4 RELATION PATTERN LABELING5 JOINT MODEL6 EXPERIMENTS6.1 Corpora6.2 Systems under Comparison6.3 Experiments on Relation Pattern Extraction6.4 Experiments on Ent…

用 AI 预测 AI,它的未来会是什么?

来源&#xff1a;学术头条人工智能&#xff0c;开始解决越来越多人类尚未解决的问题&#xff0c;且取得了不错的成果。然而&#xff0c;在过去几年中&#xff0c;人工智能领域的科学研究数量呈指数级增长&#xff0c;使得科学家们和从业者们很难及时跟踪这些进展。数据显示&…

文献阅读课17-利用实体BIO标签嵌入和多任务学习进行不平衡数据关系提取,一个句子多关系多实体,ACL2019

文章目录abstract1 Introduction2. Proposed Approach3.实验3.1数据准备3.2 Experiment Settings3.4 分析3.4.1 BIO embedding3.4.2 Effect of Positive/Negative Instance Ratio3.4.3 Effect of Loss Function w/o Multi-tasking4 Related work5 结论Ye, W., et al. (2019). E…

【Brain】登上国际顶刊 PNAS!科学家从理论计算机出发,提出了一个意识模型——「有意识的图灵机」...

来源&#xff1a;墨玫人工智能编译&#xff1a;AI 科技评论组编辑&#xff1a;陈彩娴深度学习三巨头之一的Yoshua Bengio也点头称赞。5月下旬&#xff0c;国际顶刊《美国国家科学院院刊》&#xff08;PNAS&#xff09;发表了一篇其于去年10月接收审核的工作&#xff0c;研究非常…

72名图灵奖获得者的成就

来源&#xff1a;图灵教育从“图灵机”到“图灵测试”&#xff0c;从破译德军的 Enigma 到自杀之谜&#xff0c;图灵一生都是传奇&#xff0c;关于图灵的故事我们不在这里赘述&#xff0c;感兴趣的读者请看文末推荐阅读。今天我们更想聊聊&#xff0c;计算机领域最高奖项 —— …

18-Gm-TransH:Group-Constrained Embedding of Multi-fold Relations in Knowledge Bases,嵌入,transH,n-ary

文章目录abstract1. introduction2 Related Work2.1 Binary Relation Embedding2.2 Multi-fold Relation Embedding3 Group-Constrained Embedding3.1 Framework3.2 Optimizing Method3.3 Proposed Model3.4 Complexity Analysis4.实验4.1 数据集4.2 Link Prediction4.3 Instan…

统计学权威盘点过去50年最重要的统计学思想

来源&#xff1a;量化研究方法作者&#xff1a;陈彩娴、Mr Bear编辑&#xff1a;青暮近日&#xff0c;图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important statistical ideas of the past 50 years?”&#xff08;过去50年中…

19-A Walk-based Model on Entity Graphs for Relation Extraction(句内多对,多关系,多元,2018ACL

文章目录abstract1.introduction2 Proposed Walk-based Model2.1 嵌入层2.2 Bidirectional LSTM Layer2.3 Edge Representation Layer2.4 Walk Aggregation Layer2.5 Classification Layer3.实验3.1数据集3.2 Experimental Settings5.结果6.相关工作6.总结Christopoulou, F., e…

CCCF精选 | 李德毅:机器如何像人一样认知——机器的生命观

如果上一代人工智能可以叫做计算机智能&#xff0c;硬核是算力、算法和数据的话&#xff0c;那么新一代人工智能应该是有感知、有认知、有行为、可交互、会学习、自成长的机器智能&#xff0c;其硬核是交互、学习和记忆&#xff0c;而量子认知机的落地应用&#xff0c;则可能是…

量子混沌:相互作用如何影响量子多体系统的局域化?

导语在量子系统中&#xff0c;相干性会打破单个粒子的遍历性&#xff0c;使之进入一种动态局域化状态。对于包含相互作用的量子多体系统&#xff0c;情况会是怎样呢&#xff1f;近日发表于 Nature Physics 的两项研究通过实验证明&#xff0c;相互作用会破坏量子多体系统的动态…

可能是全网最简明的量子纠缠科普

前两天有位朋友抱怨&#xff0c;说是看了很多学者关于量子纠缠的科普&#xff0c;但还是一头雾水&#xff0c;没有一个人真的讲明白的。我就上网搜了几个看。确实&#xff0c;大多数科普要么是光顾着讲爱因斯坦和波尔打嘴炮的历史了&#xff0c;不讲物理&#xff1b;要么讲着讲…

20-Joint entity and relation extraction based on a hybrid neural network(LSTM-ED+CNN),考虑长距离的实体标签之间的关

文章目录abstract1.introduction2.相关工作2.1. Named entity recognition2.2. Relation classification2.3 联合模型2.4. LSTM and CNN models On NLP3.模型3.1. Bidirectional LSTM encoding layer3.2. Named entity recognition (NER) module:LSTM decoder3.3. Relation cla…

牛津大学团队采用先进机器人技术,推动「人造肌腱」实际应用

你知道“肩袖撕裂”吗&#xff1f;它是肩关节炎疼痛的常见原因之一。作为肩袖撕裂损伤中最为常见的肌腱损伤&#xff0c;每年世界范围内的患者高达几千万人。该病痛给患者带来巨大疼痛&#xff0c;甚至导致肢体功能丧失&#xff0c;无法正常生活和工作&#xff0c;造成极大的家…

finetune与Bert

文章目录一&#xff1a;过拟合1.1 直接finetune1.2 layer finetune1.3ULMFiT2 Bert节省内存3 Bert蒸馏4.post train一&#xff1a;过拟合 1.1 直接finetune 容易过拟合 1.2 layer finetune 拷贝部分预训练参数&#xff0c;而其他随机初始化 两部分一同训练&#xff1a;提升…