技术动态 | 知识图谱上的实体链接

本文转载自公众号:知识工场          


                                                                

1、什么是实体链接

实体链接(entity linking)就是将一段文本中的某些字符串映射到知识库中对应的实体上。比如对于文本“郑雯出任复旦大学新闻学院副院长”,就应当将字符串“郑雯”、“复旦大学”、“复旦大学新闻学院”分别映射到对应的实体上。在很多时候,存在同名异实体或者同实体异名的现象,因此这个映射过程需要进行消歧,比如对于文本“我正在读《哈利波特》”,其中的“《哈利波特》”应指的是“《哈利波特》(图书)”这一实体,而不是“《哈利波特》系列电影”这一实体。
当前的实体链接一般已经识别出实体名称的范围(一般称作mention),需要做的工作主要是实体(称作entity)的消歧。也有一些工作同时做实体识别和实体消歧,变成了一个端到端的任务。

2、实体链接的整体介绍

实体链接一般包括候选实体生成和候选实体排序两个过程。候选实体生成指对一个mention,找到所有可能的实体作为候选项。候选实体排序指利用某些特征,对候选实体进行排序。

其中候选实体的生成可以考虑以下几个因素:

  • 维基百科信息

    • 维基百科重定向页面

    • 维基百科消歧页面

    • 超链接的名称

  • Mention和实体名称的相似性

    • 缩写的相似性

    • 字符串的相似性

  • 上下文其他mention对应的实体

对于候选实体的排序,当前的排序方法主要包括 local disambiguation 和 global disambiguation两种。其中 local disambiguation 指对于一段文本中的多个 mention ,分别进行消歧。global disambiguation 指对于一段文本中的多个 mention 同时进行消歧,认为同一段文本中的实体具有较强的相互关联。这两种消歧分别对于 local score 和 global score 。
当前 local disambiguation 使用的特征主要包括 mention 和实体名称的相似性、mention 对应各实体的先验概率、mention 和实体的上下文的相似性。Global disambiguation 主要比较同一个文档下各实体间的 coherence ,使用的特征可以是超链接记录或上下文的相关性,衡量方法包括 context independent coherence、wikipedia link-based measure ( WLM ) 等。

接下来介绍几篇经典的论文

《Deep joint entity disambiguationwith local neural attention》- EMNLP 2017

该论文使用神经网络的方法来计算 local score 和 global score ,主要包括计算entity embeddings ,计算 local score 和 global score ,进行优化求解三个步骤。
Entity 的向量表示和 word 的向量表示属于同一个语义空间,是在基于 word2vec得到的 word embedding 的基础上 bootstrap 得到的。一个 entity 的向量会和高频共现的 word 更接近,具体的计算过程如下所示:

640?wx_fmt=png

Local score的计算即计算entity embedding和mention上下文的word embedding 的相关性程度,为了取得更好的结果,在这里使用了 attention 来获得更强的上下文单词信息:

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

Global score的计算即计算两两候选实体的embedding的相关性程度:

640?wx_fmt=png

整体的打分函数就是 local score 和 global score 的加和:

640?wx_fmt=png

但是,这是一个 NP-hard 的问题,作者针对打分函数与 CRF 形式上的相近性进行建模,将这个问题看作一个fully-connected pairwise CRF model , 利用 belief propagation 进行优化求解:

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

论文使用了多个数据集进行实验,结果如下:

640?wx_fmt=png

《ELDEN: improved entity linkingusing densified knowledge graphs》-NAACL 2018

这是一篇 state of the art 的论文。它指出现有的方法中,global score 的coherence 主要基于 entity embedding 进行计算,而许多 entity embedding 是基于 KG 中实体间的边来进行计算的,对于 KG 中稀疏的部分表现不好。因此该论文使用伪实体来填充 KG 中稀疏的部分。
具体来讲,论文中将维基百科中高频出现的 unigram 和 bi-gram 短语当做伪实体,然后利用其它 web 文本中的共现信息建立伪实体和其他实体间的边。整体过程如下图所示:

640?wx_fmt=png

该论文测试的数据集较少,但是取得了 state of the art 的效果:

640?wx_fmt=png

《Deeptype : multilingual entitylinking by neural type system evolution》-AAAI 2018

该论文的思路是将 type 作为约束,指导 entity linking 。这是因为在 kg 中,大多数实体都拥有 type 属性,而 type 属性的属性值往往存在于一个大的 type ontology 中。但是这个 type ontology 往往是非常大的,因此如何对这个 ontology的分支选择合适的 type 粒度,并应用到下游应用中是一个需要解决的问题。
对于这个问题的解决,该论文主要采取了两个步骤。首先,选定一个合适的 type system ,也就是确定分类器一共要分哪几个类。其次,基于这个 type system 优化文本分类器和实体链接模型。
Type system 的选择是基于两个标准进行的:learnability 和 oracle 。Learnability 用于找到分类器容易学习的 type , oracle 用于找到可以帮助提升 entity linking 效果的 type 。因此,寻找 type system 的优化目标如下所示:

640?wx_fmt=png

对于 type system 的搜索策略,该论文也测试了遗传算法、交叉熵方法等,其结果如下:

640?wx_fmt=png

Entity linking 的过程中,除了使用到了预测的 type ,还使用了 mention 对应entity 的先验概率:

640?wx_fmt=png

再观察上面的实验结果可以发现,该论文仅用了先验概率和 type 约束两个特征就取得了较好的效果。

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479591.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卖萌屋学术站开放注册啦!寻募种子用户,超多特权放出!

文:夕小瑶消失一个多月的小夕又突然出现啦!要问小夕最近业余时间在做什么,那就是跟小伙伴们开发学术站啦~(等...等再肝一版,小夕就继续给大家写文章(。 ́︿ ̀。)众所周知,卖萌屋学术…

LeetCode 11. 盛最多水的容器(双指针)

文章目录1. 题目信息2. 解题1. 题目信息 给定 n 个非负整数 a1,a2,…,an,每个数代表坐标中的一个点 (i, ai) 。 在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。 找出其中的两条线,…

WSDM Cup 2020检索排序评测任务第一名经验总结

1.背景 第13届“国际网络搜索与数据挖掘会议”(WSDM 2020)于2月3日在美国休斯敦召开,该会议由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会共同协调筹办,在互联网搜索、数据挖掘领域享有很高学术声誉。本届会议论文录用率仅约15%,并且WSDM历来注…

ltp︱基于ltp的无监督信息抽取模块

ltp︱基于ltp的无监督信息抽取模块:https://zhuanlan.zhihu.com/p/44890664 无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:事件抽取(三元组…

Eureka 简介和使用

Eureka 服务注册与发现服务注册与发现Eureka与Zookeeper的比较ZooKeeper保证CPEureka保证APEureka是什么?Eureka原理SpringBoot、Spring Cloud 和 Eureka 版本选择Eureka单机搭建搭建Eureka服务端搭建Eureka客户端的服务提供者搭建Eureka客户端的服务消费者Eureka集…

论文浅尝 | XQA:一个跨语言开放域问答数据集

论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生。Citation: Liu, J., Lin, Y., Liu, Z., & Sun, M. (2019,July). XQA: A Cross-lingual Open-domain Question Answering Dataset. InProceedings of the 57th Conference of the Associati…

深度CTR预估模型中的特征自动组合机制演化简史

文 | 杨旭东源 | 知乎众所周知,深度学习在计算机视觉、语音识别、自然语言处理等领域最先取得突破并成为主流方法。但是,深度学习为什么是在这些领域而不是其他领域最先成功呢?我想一个原因就是图像、语音、文本数据在空间和时间上具有一定的…

LeetCode 94. 二叉树的中序遍历(中序遍历)

文章目录1. 题目信息2. 解题2.1 递归2.2 循环,必须掌握1. 题目信息 给定一个二叉树,返回它的中序 遍历。 示例:输入: [1,null,2,3]1\2/3输出: [1,3,2]进阶: 递归算法很简单,你可以通过迭代算法完成吗? 来源:力扣&am…

想进美团不知道选哪个技术岗位?这里有一份通关秘籍!

春暖花开,美团春招已经启动,针对校招和社招开放了几千个职位,其中很大部分都是技术岗位。 随着互联网的高速发展,技术岗位在不断地细分,比如软件开发不仅分为前端和后端,前端会分为Web、iOS和Android三个方…

哈工大LTP本地安装及python调用

原文链接:https://blog.csdn.net/yangfengling1023/article/details/84559848 LTP即哈工大语言技术平台云,是基于云计算技术的中文自然语言处理服务平台 在线使用的网址:https://www.ltp-cloud.com/ github网址:https://github.c…

Nginx 简介和使用

Nginx简介Nginx发展介绍Nginx作者正向代理和反向代理概念网站代理服务器查看Nginx环境搭建下载安装前准备安装启动检测Nginx是否启动关闭重启Nginx核心配置文件说明Nginx主要功能1、静态网站部署2、负载均衡负载均衡概述负载均衡实现方式Nginx负载均衡策略负载均衡其他配置3、静…

论文浅尝 | 将文本建模为关系图,用于联合实体和关系提取

论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱、自然语言处理。链接:https://www.aclweb.org/anthology/P19-1136动机本文提出了一种利用图卷积网络(GCNs)联合学习命名实体和关系抽取的端到端抽取模…

LeetCode 144. 二叉树的前序遍历(前序遍历)

文章目录1. 题目信息2. 解题2.1 递归2.2 循环,必须掌握1. 题目信息 给定一个二叉树,返回它的 前序 遍历。 示例:输入: [1,null,2,3] 1\2/3 输出: [1,2,3]进阶: 递归算法很简单,你可以通过迭代算法完成吗? 来源:力扣…

设计模式在外卖营销业务中的实践

一、前言 随着美团外卖业务的不断迭代与发展,外卖用户数量也在高速地增长。在这个过程中,外卖营销发挥了“中流砥柱”的作用,因为用户的快速增长离不开高效的营销策略。而由于市场环境和业务环境的多变,营销策略往往是复杂多变的&…

RabbitMQ 简介和使用

RabbitMQ一、RabbitMQ概述1、什么是消息队列2、为什么要使用消息队列3、RabbitMQ特点二、RabbitMQ安装1、安装前准备1.1 依赖包安装1.2 安装Erlang2、安装3、常用命令3.1. 启动和关闭3.2. 插件管理3.3. 用户管理3.4. 权限管理3.5. vhost管理三、RabbitMQ消息发送和接收1、 Rabb…

Transformer哪家强?Google爸爸辨优良!

文:Zilong2017年Attention is all you need横空出世,Transformer横扫机器翻译,隔年诞生的BERT建立在层层堆叠的Transformer之上,凭借这个平平无奇的Attention点乘模型一举刷新了各种沉积许久的榜单,一夜间仿佛不懂Tran…

CCKS 2019 | 百度 CTO 王海峰详解知识图谱与语义理解

本文转载自公众号:机器之心。; 8 月 24 日至 27 日在杭州召开的 2019 年全国知识图谱与语义计算大会(CCKS 2019)上,百度 CTO 王海峰发表了题为《知识图谱与语义理解》的演讲。CCKS 2019 由中国中文信息学会语言与知识计…

LeetCode 145. 二叉树的后序遍历(后序遍历总结)

文章目录1. 题目信息2. 解法2.1 递归2.2 循环,必须掌握a. 单栈b. 双栈解法3. 前中后序总结1. 题目信息 给定一个二叉树,返回它的 后序 遍历。 示例:输入: [1,null,2,3] 1\2/3 输出: [3,2,1]进阶: 递归算法很简单,你可以通过迭代算法完成吗…

云原生之容器安全实践

概述 云原生(Cloud Native)是一套技术体系和方法论,它由2个词组成,云(Cloud)和原生(Native)。云(Cloud)表示应用程序位于云中,而不是传统的数据中…

领域应用 | HiTA知识图谱 “药品-适应证”图谱数据发布!

本文转载自公众号:OMAHA联盟。2019年8月,OMAHA对HiTA知识图谱服务平台(kg.omaha.org.cn)进行了更新,同步发布了医学知识图谱表达模型(schema)。2019年9月17日,首次发布了由OMAHA研发…