论文浅尝 | GraphIE:基于图的信息抽取框架

笔记整理:吕欣泽,南京大学计算机科学与技术系,硕士研究生。


640?wx_fmt=png

论文连接:https://arxiv.org/pdf/1810.13083.pdf

发表会议:NAACL 2019

摘要

大多数现代信息提取(IE)系统都是作为顺序标记器实现的,并且只模拟本地依赖项。然而,非顺序的上下文是改进预测效果的有价值的信息来源。本文介绍GraphIE,一个在图上运行的信息抽取框架。该算法通过图形卷积网络在连接的节点之间传播信息,利用来改进单词级别的预测从,而生成更丰富的表示。本文评估了三个不同的任务:文本,社交媒体和视觉信息提取,结果一致地显示GraphIE 优于最先进的信息抽取模型。

模型介绍

1.     概览

最现代的信息提取(IE)系统通常被实现为顺序标记器。这样的模型有效地捕捉了在上下文中的本地关系,它们利用非本地和非顺序依赖的能力有限。然而,在许多应用程序中,这种依赖性可以大大减少标记的模糊性,从而提高整体提取性能。例如,从文档中提取实体时,各种类型的非本地情境信息,如共同引用和相同的提及可能提供有价值的线索。参见下图,其中非本地关系对于区分第二次提及的实体类型至关重要:华盛顿(即人,组织或地点)。

640?wx_fmt=png

本文提出了GraphIE,这是一个通过自动学习输入空间中本地和非本地依赖关系之间的交互来改进预测的框架。它将图网络和编码器-解码器集成在一起,构建了序列标记的体系结构。模型如下。

640?wx_fmt=png


2.     编码

一个句子表示为640?wx_fmt=png,每一个词640?wx_fmt=png被表示为一个向量640?wx_fmt=png,编码公式为如下,其中640?wx_fmt=png代表隐态,0 代表初始隐态为 0 向量,640?wx_fmt=png代表编码器的参数。

640?wx_fmt=png

图卷积网络过程为如下,其中 640?wx_fmt=png640?wx_fmt=png是要学习的权重,640?wx_fmt=png是节点 v_i 的度,640?wx_fmt=png640?wx_fmt=png组合得到第l层的表示640?wx_fmt=png

640?wx_fmt=png

3.     解码

解码时,隐态的获得如下,其中640?wx_fmt=png是图卷积网络的输出。

标记时使用CRF:

640?wx_fmt=png

标记时使用CRF:

640?wx_fmt=png

实验结果分析

1.     文本信息抽取

使用CoNLL-2003 和CHEMDNER 数据集,实验结果如下

640?wx_fmt=png


2.     社交媒体信息抽取

Twitter语料库里构造了两个数据集EDUCATION和JOB。实验结果如下。

640?wx_fmt=png


3.     视觉信息抽取

数据集来自病人病历,由于隐私原因无法公开。实验结果如下:

 640?wx_fmt=png



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479882.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

lambda函数+map函数的结合使用 list(map(lambda x: list(x)[0], X))

Q1:什么是lambda函数?怎么定义?有什么作用? 知识点:lambda 解析:lambda叫做匿名函数,是一种不需要提前对函数进行定义再使用的情况下就可以使用的函数 1 定义规则:冒号的左边是原函数…

好产品,懂人性

好的产品无一例外,懂人性 张小龙曾经说过,产品经理要懂得抓住用户的贪、嗔、痴,培养用户对产品的粘性,就是要让用户对你的产品产生贪、嗔、痴。 贪是贪婪,嗔是嫉妒,痴是执着。 人类的贪婪、嫉妒和执著培…

Pytorch 实现 MLP

torch.nn是专门为神经网络设计的模块化接口。nn构建于 Autograd之上,可用来定义和运行神经网络。 nn.functional,这个包中包含了神经网络中使用的一些常用函数,这些函数的特点是,不具有可学习的参数(如ReLU,pool&#…

LeetCode 104. 二叉树的最大深度

文章目录1. 题目信息2. 解题2.1 递归法2.2 按层遍历1. 题目信息 给定一个二叉树,找出其最大深度。 二叉树的深度为根节点到最远叶子节点的最长路径上的节点数。 说明: 叶子节点是指没有子节点的节点。 示例: 给定二叉树 [3,9,20,null,null,15,7]&…

谷歌重磅:可以优化自己的优化器!手动调参或将成为历史!?

文 | 小轶编 | 夕小瑶背景Google Brain团队发布的一篇最新论文在外网引发热议,或将成为Deep Learning发展历程上里程碑式的工作。它所讨论的,是所有AI行业者都要面对的——Deep Learning中的优化问题。也就是,如何更好地训练一个模型。深度模…

最全目标检测相关资料整理 (目标检测+数据增强+卷价神经网络+类别不均衡...)

1 小目标检测:综述:综述论文Augmentation for small object detection深度学习笔记(十)Augmentation for small object detection(翻译) 吴建明wujianning:小目标检测的增强算法 机器之心&#…

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。来源:NAACL 2018链接:https://www.aclweb.org/anthology/N18-1020问题背景与动机问题生成的目标是将知识图谱三元组作为输入,生成自然语…

阿里P8架构师谈:Restful、SOAP、RPC、SOA、微服务之间的区别

内容大纲: 1.介绍Restful、SOAP、RPC、SOA以及微服务 2.重点谈谈SOA与微服务的区别 3.以及为什么要使用微服务架构 什么是Restful Restful是一种架构设计风格,提供了设计原则和约束条件,而不是架构,而满足这些约束条件和原则的…

RuntimeError: Expected object of device type cuda but got device type cpu for argument #2 'target'

RuntimeError: Expected object of device type cuda but got device type cpu for argument #2 ‘target’ in call to _thnn_binary_cross_entropy_forward 出错误背景:Pytorch 中想使用 CUDA 对程序计算进行加速 错误的意思:object 的 device 类型期…

微服务系列:Dubbo与SpringCloud的Ribbon、Hystrix、Feign的优劣势比较

在微服务架构中,分布式通信、分布式事务、分布式锁等问题是亟待解决的几个重要问题。 Spring Cloud是一套完整的微服务解决方案,基于 Spring Boot 框架。确切的说,Spring Cloud是一个大容器(而不是一个框架)&#xff…

经典教材《统计学习导论》现在有了Python版

文 | 张倩源 | 机器之心《统计学习导论》很经典,但用的是 R 语言,没关系,这里有份 Python 版习题实现。斯坦福经典教材《The Element of Statistical Learning》(简称 ESL)被称为频率学派的统计学习「圣经」&#xff0…

安装tensorflow出现超时,找不到指定模+python 各个指定版本安装

安装tensorflow出现超时,找不到指定模块 https://www.jianshu.com/p/b886fd6db895 python 各个指定版本安装 https://pypi.org/project/tensorflow/1.14.0/#files

漆桂林 | 人工智能的浪潮中,知识图谱何去何从?

本文转载自公众号:AI科技大本营。近年来,随着人们对 AI 认知能力的积极探索,知识图谱因其表达能力强、拓展性好,基于知识进行推理等优势得到了学界与业界的高度关注。知识图谱,旨在描述客观世界概念、实体、事件及其之…

Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you

RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the ‘spawn’ start method 问题出现的背景:在一个使用 cuda 对模型训练进行加速的程序中,想要使用多进程对模型测试进行加速。 解决…

LeetCode 102. 二叉树的层次遍历(BFS)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个二叉树,返回其按层次遍历的节点值。 (即逐层地,从左到右访问所有节点)。 例如: 给定二叉树: [3,9,20,null,null,15,7],3/ \9 20/ \15 7 返回其层次遍历结果:[[3]…

阿里P8架构师谈:微服务Dubbo和SpringCloud架构设计、优劣势比较

本文主要围绕微服务的技术选型、通讯协议、服务依赖模式、开始模式、运行模式等几方面来综合比较Dubbo和Spring Cloud 这2种开发框架。架构师可以根据公司的技术实力并结合项目的特点来选择某个合适的微服务架构平台,以此稳妥地实施项目的微服务化改造或开发进程。 …

数码摄影(扫街)

快门速度: 快门速度是曝光控制的一个重要变量,能够控制光线进入的多少。 快门的速度越快,时间越短,通过的光线就越少,反之,则越多。 在很好光线下,1/125s就能清晰地捕捉到行走中的人物。 阴天…

基于百度开源项目LAC实现文本分词、词性标注和命名实体识别

文本分词、词性标注和命名实体识别都是自然语言处理领域里面很基础的任务,他们的精度决定了下游任务的精度,今天在查资料的时候无意间发现了一个很好玩的开源项目,具体查了一下才知道这是百度开源的一个主要用于词性标注和命名实体识别的项目…

论文浅尝 | 让“演进知识图谱”带你“瞻前顾后”看世界

本文转载自公众号:爱思美谱。 指导老师 | 傅洛伊 王新兵核心技术成员 | 刘佳琪导读在前面几期的内容中,小编已经为大家介绍了知识图谱的产生历史和基本概念。相信大家已经对知识图谱强大的信息结构化能力有所了解。但是,目前的大部分知识…

做过leader,会数仓,项目经验丰富,能值多少钱?

有个朋友,上个月准备从 Java 转做大数据,一个月过去了,一份面试都没约到,来问我怎么回事。我一看简历,期望年薪 40w,深度也不够,要大项目也没有。我们做大数据的,虽说是薪资高&#…