论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention

文章目录

  • 1 当前不足
  • 2. 本文的想法
  • 3.相关工作
  • 4.KNET
    • 4.1encoder
    • 4.2类型预测
    • 4.3attention
  • 5.实验
  • 6.以后

Improving Neural Fine-Grained Entity Typing with Knowledge Attention

  • 用于:Fine-grained entity typing细粒度实体类型(它将实体划分为大量细粒度类型,更多类型,可能有层次嵌套)
  • 以前:关注上下文的复杂关联,忽略了在知识库中的丰富的背景知识
  • 本文:KBs+上下文+mention,attention

1 当前不足

  • 将mention和上下文分割开考虑,没考虑他们之间的联系
    • 实体上下文分离。现有的方法通常将实体提及(mention)和上下文单词编码为单独的特性,而不考虑它们之间的相关性。但是,可以直观地看出,每个上下文单词的重要性都受到相关实体的显著影响。例如,在盖茨和艾伦共同创立的微软成为最大的软件公司这句话中,当我们决定实体的类型时,上下文单词“公司”是很重要的,但是当我们决定盖茨的类型时,上下文单词“公司”就不那么重要了。
  • 没有想过用KBs
    • 背景知识是很重要的
    • 文本知识分离。知识库(KBs,也称为知识图),如YAGO、Freebase,以三元组(h、r、t)的形式提供了实体之间关系的丰富信息,其中h、t是头实体和尾实体,r是它们之间的关系。这些信息描述了实体之间的关系和交互,因此对实体类型很有帮助。例如,给定一个triple (USA, shared border with, Canada),可以推断,在某句话中,Canada很可能是一个国家。但是,在以前的w中,从来没有使用过关系信息。

2. 本文的想法

在这里插入图片描述
为了解决实体-上下文分离和文本-知识分离的问题,我们提出了KnowledgeAttention神经细粒度实体类型(KNET)。如图1所示,我们的模型主要由两部分组成。首先,我们建立一个神经网络来生成上下文和实体提及表示。其次,在实体提及的基础上,运用知识注意力关注重要的语境词,提高语境表达的质量。知识注意力的计算采用实体嵌入的方法,它从知识库的相关信息中学习,然后从文本中重构。考虑到我们将在测试中同时遇到in-KB和out- KB实体,我们提出了一个消除歧义的过程,不仅可以为in-KB实体提供精确的KB信息,还可以为out- KB实体提供有用的知识

  • 神经网络生成context和mention的表达
  • 在mention的基础上,从KB中拿出了mention的表达,来做context的attention权重
    • knowledge attention :基于mention+in-KB+out-KB
    • 内涵消歧过程
      • 给in-KB提供精确的KB信息
      • 给out-KB提供有用的知识

3.相关工作

  • Dong等人(2015)首次尝试探索只使用词嵌入作为特征的实体输入中的深度学习。此外,

  • Shimaoka等人(2016)为FET引入了一种基于注意力的长短时记忆(LSTM),

  • Shimaoka等人(2017)将手工制作的特征加入到基于注意力的神经模型中。

  • —》然而,这些神经模型遇到了实体-上下文分离和文本-知识分离的挑战。本文试图通过结合KBs的丰富信息来解决这些问题

  • KBs在之前的许多著作中都被考虑过(Del Corro et al. 2015;Ren等人2016a;Yaghoobzadeh和Schutze 2017)。然而,他们只考虑知识库中每个实体的类型信息,而忽略了丰富的关系信息(不同实体之间的关系),而这些信息恰好是知识库的重要组成部分。在本文中,我们使用知识表示学习将关系信息合并到实体类型中(详见下一小节)。

  • 之前

    • 只考虑了KB中的实体类型信息
    • 忽略了关系信息
  • 句子级别

    • Schutze (2015;2017)考虑体级神经实体类型。语料库级实体类型化旨在从大型语料库中推断出实体的全局类型,通常是通过聚合所有提到实体的句子的信息来实现的。相反,句子级实体类型化试图检测单个句子中提到的实体的局部类型,而相同的实体在不同的句子中可能具有不同的类型。我们的工作重点是句子级的实体类型。

4.KNET

  • 我们利用TransE来检查将KB的关系信息合并到实体类型中的有效性。
  • 目的:给定一个句子,其中包含一个提到的实体及其上下文,以及一组实体类型(分类法)T,我们的模型旨在预测该实体提到的每种类型的概率。

4.1encoder

特征向量x(输入),m-mention,c-上下文
在这里插入图片描述在这里插入图片描述在这里插入图片描述

  • m-各个mention的均值
    • 对于mention的embedding计算,就是取各自的embedding然后取平均。这里的embedding都是预训练的。
    • nm—实体mention的个数
  • c-上下文
    • 双向lstm的编码加权(attention)和

4.2类型预测

  • 多层感知机得到y(各个类型下的概率)
    在这里插入图片描述
  • >0.5为正,没有大于0.5则取最大的
  • 目标函数/loss(交叉熵)
    • 在这里插入图片描述

4.3attention

  • ali,aria_{l_i},a_{r_i}ali,ari

  • 1)Semantic attention:简单地将上下文表示本身作为注意查询,这是由(Shimaoka et al. 2017)提出的,将作为我们的基线方法

    • MLP(多层感知机)
    • l,r的计算相同
    • 所有实体共享
    • 2独立于1
    • 我们注意到,所有实体共享用于计算SA的相同MLP。因此,上下文词语的注意是独立于实体的。因此,SA很难关注那些与相应实体高度相关的上下文词。
      在这里插入图片描述
  • 2)mention attention:将实体提表示m作为注意查询,期望获取实体与上下文信息之间的语义关联

    • f是二次方程x2x^2x2,正定且可微
    • 在这里插入图片描述
  • 3)knowledge attention:将从外部KBs中学习到的实体表示形式作为注意查询,获取实体-上下文和实体-知识库的语义关联。

    • 用TransE,将关系嵌入到实体embedding中
    • 这里的e是上面mention中的相关实体–m的embedding,Wka是双线性参数
    • aiKA=f(eWKA[hi→hi←])a_i^{KA}=f(eW_{KA}\left[\begin{matrix}\overrightarrow{h_i}\\\overleftarrow{h_i}\end{matrix}\right])aiKA=f(eWKA[hihi])
    • 在测试中的knowledge attention:不知道KB与mention的哪个实体有对应,甚至可能是out-KB—用文本信息重建实体embedding(单向lstm)(测试时,不知道上面的e,上面的e是直接从KB得到的,这里需要重新构建)(也可以通过实体链接解决,但实体链接本身就不容易)
    • e^=tanh(W[mclcr])\hat{e}=tanh\left(W\left[\begin{matrix}m\\c_l\\c_r\end{matrix}\right]\right)e^=tanhWmclcr
    • 在训练时,我们同时学习e^\hat{e}e^通过损失函数
    • JKB(θ)=−Σ∣∣e−e^∣∣2J_{KB}(\theta)=-\Sigma||e-\hat{e}||^2JKB(θ)=Σee^2
  • knowledge attention (带消歧的)(KA+D)

    • 通过获得的mention的表面名称来减少候选实体
    • 想要确定mention到底对应实体的哪一个
      • :(1)我们通过匹配实体的表面名称来构建候选实体列表
        KBs和实体mention。
      • (2)计算text-reconstructed嵌入eˆ和在KBs候选实体表示之间的L2距离,并选择最小距离的候选实体
      • 如果KB中没有正确的实体(足够信任)就用近似值
        在这里插入图片描述

5.实验

  • 衡量:Micro-F1

  • (Shimaoka et al. 2017)之后,我们使用来自(Pennington, Socher, and Manning 2014)的预先训练好的词嵌入。

  • 我们使用Adam Optimizer (Kingma and Ba 2014)和

  • mini-batch of size B进行参数优化。

  • 我们还使用TransE from (Lin et al. 2015)的实现来获得实体嵌入。

  • overfittiong:在mention上用dropout

  • 因为训练集合和测试集的mention不同,测试集合mention不可见,而上下文并没有什么区别

  • 超参数的确定–对这些在一定范围内实验确定

    • 学习率
    • lstm隐藏层尺寸
    • 词向量size
    • 窗口尺寸L
    • batch size B
  • 结果

    • MA>SA:注意力有好处
    • 所有神经网络模型都比AFET好(AFET用了KB但没有用关系)
    • KA和KA+D最好,表明引入KB的有用性
    • KA+D>KA:消除歧义有用
    • KB-only<KA<KA+D:他不可单独工作
      在这里插入图片描述
  • 消歧的困难

    • 在KA+D中,对In - kb实体的消歧取决于不同的上下文环境。上下文要么提供关于实体属性的丰富而有用的信息,要么几乎不包含任何有用的提示。另一方面,消除kb外实体的歧义无疑是错误的。根据消歧过程是否正确,我们将测试集分为正确和错误两个子集,并探讨了各种方法的性能。
    • 在正确的子集中表现都挺好
    • 在错误的子集中表现差,但KA+D也还可以
      在这里插入图片描述

6.以后

  • 可以试图加上其他KRL的方法除了transE
  • 我们将在更复杂的实体类型分类(包含更多的类或更深层次结构)中检查KNET方法的有效性
  • 直接使用现有的实体连接工具将不可避免地引入噪声。在我们的模型中减少这种噪声并加入实体链接将是未来值得探索的有趣的事情
  • 现有的关于FET的工作已经使用了许多不同的数据集和分类法(Shimaoka et al. 2017),我们也将在各种数据集上进一步探索我们的模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481599.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习和因果如何结合?北交最新《深度因果模型》综述论文,31页pdf涵盖216篇文献详述41个深度因果模型...

来源&#xff1a;专知北京交通大学最新《深度因果模型》综述论文&#xff0c;31页pdf涵盖216页pdf详述41个深度因果模型&#xff0c;值得关注&#xff01;因果关系概念在人类认知中起着重要作用。在过去的几十年里&#xff0c;因果推理在计算机科学、医学、经济学和教育等许多领…

论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification

文章目录1.introduction2.相关工作3. 本文model3.1general model3.2 mention represent3.3 context model3.3.1 averaging encoder3.3.2 LSTM encoder3.3.3 Attention Encoder4. 实验在这项工作中&#xff0c;我们提出了一种新的基于注意的神经网络模型来完成细粒度实体类型分类…

脑机接口技术或将纳入美出口管制?技术成熟度与军用进展情况

来源&#xff1a; 学术plus 编译&#xff1a;学术plus高级观察员 TAO2022年9月&#xff0c;美国国会的下属机构政府问责局&#xff08;Government Accountability Office, GAO&#xff09;发布了题为《脑机接口》&#xff08;Brain-Computer Interfaces&#xff09;的焦点…

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平

来源&#xff1a;AI科技评论作者&#xff1a;黄楠编辑&#xff1a;陈彩娴9月21日&#xff0c;OpenAI 发布了一个名为「Whisper 」的神经网络&#xff0c;声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。「Whisper 」式一个自动语音识别&#xff08;ASR&#xff09;系…

论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching

文章目录摘要1.Introduction2. 介绍两个概念2.1 Dynamic Heterogeneous Network Model动态异构网络模型2.2 时间随机游走3NODE2BITS:基于散列的Emdedding框架3.1 采样时间随机游动和定义时间上下文3.2 基于多维特征的时态语境&#xff08;上下文3.3基于特征的上下文聚合和散列4…

谷歌科学家亲讲:具身推理如何实现?让大模型「说」机器人的语言

来源&#xff1a;智源社区整理&#xff1a;戴一鸣导读&#xff1a;机器人领域已经发展了三四十年&#xff0c;但应用方面的进展较慢。这是因为&#xff0c;机器人建立在这样一个假设上&#xff1a;工作环境是简单可控的。如果将机器人部署到稍微复杂一些的环境&#xff08;如家…

论文学习6-(M2DNE)Temporal Network Embedding with Micro- and Macro-dynamics

文章目录1 intorduction2. 相关工作3. 准备工作4.model4.2 Micro-dynamics Preserved Embedding4.2.1 分层时间关注4.3 Macro-dynamics Preserved Embedding4.3.1链接速率4.3.2 宏观约束联合5. 实验网络嵌入的目的是将节点嵌入到低维空间中&#xff0c;同时捕获网络的结构和属性…

蒲慕明院士:我们为什么要探索人脑的奥秘

来源&#xff1a;学习时报作者简介蒲慕明&#xff0c;1948年出生&#xff0c;中国科学院院士&#xff0c;美国科学院外籍院士&#xff0c;现任中国科学院脑科学与智能技术卓越创新中心学术主任&#xff0c;上海脑科学与类脑研究中心主任。他是国际著名的神经生物学家和生物物理…

论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)

文章目录Introduction2. 相关工作3. 本文的model3.1 Preliminaries3.2建立问题3.3闲鱼图上的异构卷积网络3.3.1Aggregation Sub-layer3.3.2 Time-related Sampling3.3.4将图形网络与文本分类模型相结合。3.4 GCN-based反垃圾邮件模式4.实验Introduction ppt 任务&#xff1a;…

新型AI芯片 其能效或是替代品的两倍

DAVID BAILLOT/UNIVERSITY OF CALIFORNIA SAN DIEGO来源&#xff1a;IEEE电气电子工程师在软件和硅中复制人脑是人工智能&#xff08;AI&#xff09;研究的长期目标。虽然神经形态芯片在能够同时运行多个计算方面取得了重大进展&#xff0c;并且既能计算也能存储数据&#xff0…

论文学习8-How Question Generation Can Help Question Answering over Knowledge Base(KBQA-知识问答)

文章目录abstract1.introduction2. our approach2.2 微调fine tuning3.Model3.1QA Model3.2QG modelabstract 本文研究了基于知识库的问答系统的性能改进问题生成技术。问题生成(question generation, QG)的任务是根据输入的答案生成相应的自然语言问题&#xff0c;而问答(ques…

1575万美元!2023科学突破奖揭晓,AlphaFold、量子计算等突破斩获殊荣

来源&#xff1a;FUTURE远见选编&#xff1a;FUTURE | 远见 闵青云 2022年9月22日&#xff0c;科学突破奖基金会宣布了2023科学突破奖&#xff08;Breakthrough Prize&#xff09;的获奖名单。科学突破奖有「科学界的奥斯卡」之称&#xff0c;它表彰在生命科学、基础物理学和数…

nlp4-语料库

文章目录1. 语料库2.建设中的问题3.典型语料库介绍1. 语料库 语料库(corpus) 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。基于语料库进行语言学研究&#xff0d;语料库语言学(corpus linguistics) 根据篇章材料对语言的研究称为语料库语言学不是新术语&#xff1a;…

费曼:任何伟大的科学成就,都源于思想自由

来源&#xff1a;群学书院理查德菲利普斯费曼&#xff08;Richard Phillips Feynman&#xff0c;1918-1988&#xff09;&#xff0c;美籍犹太裔物理学家&#xff0c;加州理工学院物理学教授&#xff0c;1965年诺贝尔物理奖得主。>>>>费曼1939年毕业于麻省理工学院&…

nlp5-n-gram/语言模型(数据平滑方法

文章目录1.句子的先验概率1.1 n-gram2. 参数估计3. 数据平滑3.1 数据平滑度方法3.1.1加1法3.1.2减1.句子的先验概率 这个联合概率太小了 窗口越大&#xff0c;共现的可能性越小参数多 解决&#xff1a;等价类 不看所有的历史信息只看部分历史信息&#xff0c;但看所有的历史等价…

《科学》:3.8亿年前的心脏,揭示生命演化历史

来源&#xff1a;学术经纬编辑 &#xff1a;药明康德内容微信团队一颗3.8亿年前的心脏&#xff0c;可以告诉我们什么&#xff1f;在一篇近期的《科学》论文中&#xff0c;由澳大利亚科廷大学领导的研究团队借助最新的研究工具&#xff0c;从一枚有颌鱼化石中揭示了清晰的心脏、…

论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF

文章目录1.Introduction2 model2.1 LSTM2.2BI-LSTMBPTT2.3 CRF2.4 LSTM-CRF参考文献本篇论文介绍了LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络&#xff0c;比较将它们用于自然语言处理的性能与准确率。重点介绍了BI-LSTM-CRF网络。1.Introduction 序列标…

从连接组学到行为生物学,AI 助力使从图像中提取信息变得更快、更容易

来源&#xff1a;ScienceAI编辑&#xff1a;白菜叶一立方毫米听起来并不多。但在人脑中&#xff0c;这一体积的组织包含约 50,000 条由 1.34 亿个突触连接的神经「线路」。Jeff Lichtman 想追踪所有这些。为了生成原始数据&#xff0c;他使用了一种称为串行薄层电子显微镜的协议…

论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型

文章目录abstract1.introduction2. 相关工作2.1 命名实体识别2.2 关系抽取2.3 实体关系联合抽取模型3.联合模型3.1 Embedding层3.2 bilstm--编码层3.3 命名实体识别3.4 多头选择的关系抽取模型3.5. Edmonds’ algorithmJoint entity recognition and relation extraction as a …

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

来源&#xff1a;AI科技评论作者&#xff1a;李梅、黄楠编辑&#xff1a;陈彩娴AI 作画很牛&#xff0c;但它并不理解图像背后的世界。自从 DALL-E 2 问世以来&#xff0c;很多人都认为&#xff0c;能够绘制逼真图像的 AI 是迈向通用人工智能&#xff08;AGI&#xff09;的一大…