论文浅尝 | 基于知识图谱 Embedding 的问答

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答。


来源:WSDM 2019

链接:https://dl.acm.org/citation.cfm?doid=3289600.3290956

 

目前知识图谱问答(本文简写为QA-KG,question answering over knowledge graph)存在的一个主要问题在于图谱与自然语言之间的gap,具体表现为:命名实体再自然语言问句中的模糊描述及不完整描述,谓词具有多种自然语言表述形式等,从而使得图谱中搜索的候选答案规模较大,影响问答系统的性能。为了解决该问题,本文作者提出了一种基于知识图谱Embedding的问答框架(KEQA),该框架关注了大部分常见的问题类型,以简单问题为例(该问题的答案可由一个头实体及一个谓词定义得到),不同于直接从头实体和谓词进行推理的过程,该方法的目标是在图谱Embedding空间中联合得找到问题的头实体,谓词及尾实体。基于一个精心设计的联合距离评价方法,图谱中与上述三个向量最接近的fact作为问题的答案返回。

 

贡献

作者认为本文主要研究贡献如下:

  1. 正式的定义了基于问答的知识图谱embedding问题

  2. 建立了一个有效的KEQA框架,通过从图谱embedding空间联合地找到头实体,谓词和尾实体,实现自然语言问题的回答

  3. 设计了一个联合距离评价方法,该方法在embedding表示中保留了图谱的结构和关系信息

  4. 在SimpleQuestion上进行的测试取得了非常优质的性能表现

 

方法

KEQA的框架的整体思路如图1所示:

图谱被embedding到两个低维空间中(实体空间和谓词空间),每个事实(即图谱中的三元组)可由三个潜在的向量表示(即两个实体向量和一个谓词向量)。对于一个给定的问题,模型首先预测它所对应事实的头实体和谓词,接下来就可以准确给出该问题的答案。

因此,上述框架的过程可以描述为三步:

  1. 基于问题库及其问题对应的谓词embedding表示,学习一个谓词学习模型,以问题为输入,输出其对应的谓词向量表示(对应到图谱的Embedding空间中)

  2. 考虑到图谱中的实体规模较大,KEQA提供了一个头实体识别模型,用于减少候选头实体的数量。主要的目标是找到问题中的一个/多个token预测头实体命名,从而通过找到相同或相似的命名减少候选规模。

  3. 给定一个relation函数(由KG embedding算法定义),KEQA利用头实体和谓词的表示预测计算尾实体,构成事实三元组,而后将图谱中与之最近的事实输出为问题的答案

 

图谱 embedding 方法

本文使用现有的图谱 embedding 算法 TransE 学习 entity embedding 及 predicatee mbedding,

 

头实体/谓词学习模型

图2描述了谓词和头实体的学习模型,可以看到,经过word embedding之后,问题中的token以向量的形式输入到双向LSTM中,而后将两个方向LSTM的输出直接拼接合并,通过一个Attention层对原始词向量,变换之后的文本向量等进行加权,而后用于预测对应到图谱实体/谓词embedding的向量表示。

 

头实体识别模型

图3描述了本文提出的头实体识别模型,本模型的目标是从问题中选出一个或多个tokens作为头实体的命名,从而减少获取头实体的搜索空间。网络构成不再赘述,相对谓词学习模型减少了attention层,模型的训练数据由问题及其头实体构成,输出结果表示当前word是否是头实体。

Embedding 空间的联合搜索

对于每个新的样本问题,模型已经预测它的谓词和头实体表示,接下来的目标是从图谱中找到与之最为匹配的事实。

作者提出了一种联合距离评价机制用于完成上述匹配,其定义如公式9所示:

C表示候选事实集合,函数n(·)返回实体命名或者谓词,HED表示token是否是头实体(由Detection模型给定),sim[·,·]表示衡量两个字符串的相似性,β表示平衡权值,用以调整函数各部分的贡献程度。

 

整合上述模块,得到KEQA框架的整体算法如下:

 

实验部分

数据集

本文实验使用的数据集及统计信息如表2所示:

主要包含FB2M/FB5M知识库,问答语料来自SimpleQuestion

 

实验结果

相关实验模型参数在论文中均有明确说明,这里不再赘述,表三给出了模型的实验结果如下:

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479362.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NeurIPS 2020 | 没有乘法的神经网络,照样起飞?

文:苏剑林编:兔子酱单位:追一科技今天给大家介绍一篇1962年的论文《Computer Multiplication and Division Using Binary Logarithms》[1],作者是John N. Mitchell,他在里边提出了一个相当有意思的算法:在二…

LeetCode 1160. 拼写单词

文章目录1. 题目2. 解题1. 题目 给你一份『词汇表』(字符串数组) words 和一张『字母表』(字符串) chars。 假如你可以用 chars 中的『字母』(字符)拼写出 words 中的某个『单词』(字符串&…

MTFlexbox自动化埋点探索

1. 背景 跨平台动态化技术是目前移动互联网领域的重点关注方向,它既能节约人力,又能实现业务快速上线的需求。经过十年的发展,美团App已经变成了一个承载众多业务的超级平台,众多的业务方对业务形态的快速迭代和更新提出了越来越高…

Android官方开发文档Training系列课程中文版:添加ActionBar之设置ActionBar

导言- 添加ActionBar 原文地址:http://android.xsoftlab.net/training/basics/actionbar/index.html ActionBar是很多重要的特性之一,你可以用它实现用户的自定义行为。它提供了若干的用户界面特性,以便你的应用可以很快的提供与其它应用很…

论文浅尝 | 具有图卷积网络和顺序注意力机制的应用于目标导向的对话系统

论文笔记整理:吴涵,天津大学硕士,研究方向:自然语言处理。来源:2019 Association for Computational Linguistics论文链接:https://www.mitpressjournals.org/doi/full/10.1162/tacl_a_00284开放源码&#…

Docker的基本使用(部署python项目)+两个奇技淫巧,将 Docker 镜像体积减小 99%

两个奇技淫巧,将 Docker 镜像体积减小 99% 使用Docker运行程序 Docker的基本使用(部署python项目) 一、准备项目 我写的是一个爬取某ppt网站的代码,就一个ppt1.py是爬虫,然后,ppts是存放下载的ppt的 二、准备requirement.txt文件…

Pytorch与Tensorflow,哪个更适合你?

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

LeetCode 500. 键盘行

文章目录1. 题目2. 解题1. 题目 给定一个单词列表,只返回可以使用在键盘同一行的字母打印出来的单词。键盘如下图所示。 示例: 输入: ["Hello", "Alaska", "Dad", "Peace"] 输出: ["Alaska", &quo…

XGBoost缺失值引发的问题及其深度分析

1. 背景 XGBoost模型作为机器学习中的一大“杀器”,被广泛应用于数据科学竞赛和工业领域,XGBoost官方也提供了可运行于各种平台和环境的对应代码,如适用于Spark分布式训练的XGBoost on Spark。然而,在XGBoost on Spark的官方实现中…

Android官方开发文档Training系列课程中文版:添加ActionBar之添加Action按钮

原文地址 : http://android.xsoftlab.net/training/basics/actionbar/adding-buttons.html 添加Action按钮 ActionBar允许在当前的APP上下文内添加很多重要的功能按钮。这样便可以通过图标或者文字作为功能按钮直接展示在ActionBar上。功能按钮如果没有足够空间或无足轻重的按…

快手搜索技术部招聘NLP算法工程师!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术工作职责快手搜索技术部招聘,负责研发快手主APP搜索中的关键NLP模型/算法,包括但不限于:适合快手数据生态的NLP预训练语言模型,并推动预训练模型在query解析&am…

论文浅尝 | 解决知识图谱补全中的长尾关系和不常见实体问题

论文笔记整理:汪寒,浙江大学硕士。链接:https://www.aclweb.org/anthology/P19-1024.pdf动机KG的分布遵循长尾分布,大部分关系只有很少的三元组,且大体趋势是关系出现的频率和与之相关的不常见实体的比例呈反比关系。而…

LeetCode 944. 删列造序

1. 题目 题目链接 每个单词的位组成的列非降,最少删除几列。 示例 1:输入:["cba", "daf", "ghi"] 输出:1 解释: 当选择 D {1},删除后 A 的列为:["c&quo…

Android官方开发文档Training系列课程中文版:添加ActionBar之自定义ActionBar样式

原文地址 : http://android.xsoftlab.net/training/basics/actionbar/styling.html ActionBar的样式 ActionBar提供了为用户提供了常见的习惯性的用户界面以及按钮功能。但是这并不意味着必须要和其它APP看起来一模一样。如果需要设计更符合产品品牌样式风格的话,…

美团 iOS 工程 zsource 命令背后的那些事儿

zsource 命令是什么? 美团 App 在 2015 年就已经基于 CocoaPods 完成了组件化的工作。在组件化的改造过程中,为了能够加速整体工程的构建速度,我们对需要集成进美团 App 的组件进行了二进制化,同时提供一个叫做 cocoapods-binary …

互联网大厂CTR预估前沿进展

文 | Ruhjkg编 | 小鹿鹿lulu源 | 知乎前言CTR(click through rate)预估模型是广告推荐领域的核心问题。早期主要是使用LR(线性回归)人工特征工程的机器学习方法,但是存在人工组合特征工程成本较高,不同任务…

以史为鉴 | 为什么要将「知识图谱」追溯到1956年?

本文转载自公众号:AI科技评论。作者 | Claudio Gutierrez 编译 | MrBear编辑 | Tokai以史为鉴,可以知兴替。纵观近期包括 AAAI、NeurIPS、IJCAI 在内的AI顶级会议,对图结构模型的研究是一个绕不开的话题,大量学者涌入这个赛道&…

Android官方开发文档Training系列课程中文版:添加ActionBar之ActionBar浮层效果

原文地址 : http://android.xsoftlab.net/training/basics/actionbar/overlaying.html 浮层效果的ActionBar 默认情况下,ActionBar总是会出现在Activity窗口的顶部,这样会稍微的减少Activity布局的剩余空间。如果需要在用户使用的时候隐藏和显示Action…

美团大规模微服务通信框架及治理体系OCTO核心组件开源

微服务通信框架及治理平台OCTO作为美团基础架构设施的重要组成部分,目前已广泛应用于公司技术线,稳定承载上万应用、日均支撑千亿级的调用。业务基于OCTO提供的标准化技术方案,能够轻松实现服务注册/发现、负载均衡、容错处理、降级熔断、灰度…

领域应用 | 知识结构化在阿里小蜜中的应用

本文转载自公众号:DataFunTalk。分享嘉宾:李凤麟 阿里巴巴 算法专家文章整理:付一韬内容来源:2019知识图谱前沿技术论坛出品社区:DataFun导读:阿里小蜜是阿里巴巴服务领域的重要人工智能产品,是…