论文浅尝 - ACL2020 | 用于回答知识库中的多跳复杂问题的查询图生成方法

论文笔记整理:谭亦鸣,东南大学博士。


来源:ACL 2020

链接:

https://www.aclweb.org/anthology/2020.acl-main.91.pdf

1.介绍

在以往的工作中,知识图谱复杂问答一般被分为两种类型分别处理:

其一是带有约束的问题,例如“Who was the first president of the U.S.?”,其中仅包含一个关系“presidentof…”但存在约束“first”,对于这类问题,一般采用多阶段方法通过构建包含关系的主路径,再对其添加约束的方式得到对应查询图;

其二则是多关系问题,例如“Who is the wife of the founder of Facebook?”,其中包含两个关系“wife of…”以及“founder of…”,这类问题的回答需要考虑更长的关系路径,主要挑战在于长路径带来的更大的搜索空间,一般采用beam search的方式实现答案路径的构成;这篇文章里,作者尝试同时解决这两类问题(较少有人考虑同时处理这两类问题)。

动机:作者发现,通过优先将约束合并到查询图中(querygraph),可以有效减少多关系情况下的搜索空间规模。基于上述动机,作者提出了一种改进的阶段查询图生成方法用于灵活的生成查询图。在三个benchmark KBQA数据集上,该模型均达到了最优实验效果。

2.模型/方法

参照过去的工作,一个查询图包含四类节点,如图1所示:

Grounded entity(图1灰色矩形节点):是已经存在于KG的实体节点;

Existential variable(图1白色矩形节点):未确定的KG中的实体节点;

Lambda variable(图1圆形节点):也是未确定的KG实体节点,一般表示答案;

Aggregation function(图1菱形节点):是一种对实体集合的聚合函数,例如argmin取最小值,或count计数等;

       一般阶段查询图构建过程是:

a.从groundedentity出发,确定一条主关系路径,连接到一个lambda variable节点(目前的工作中,这主路径只包含一个关系)

b.向主路径中添加(问题里出现的)一个或多个约束,约束由一个固定实体或者一个聚合函数与一个关系组成。

c.对于前两步得到的所有candidate查询图,通过衡量它们与问题的相似性进行排序,而后挑出目标查询图(一般利用CNN完成),从而从KG中找到答案

本文工作的挑战是多跳(多关系)主路径问题,作者表示,如果简单的利用上述方法扩充到2-hop或更多跳的问题中,对于每个问题将会得到10000规模的主路径候选,穷举情况下,这个计算量就相当不划算了。

以图1中的问题为例,作者考虑的多关系问题解答过程举例如下:

给定一个局部主路径The Jeff Probst Show(entity)→nominated_for(elation) → y1(entity) →nominee(relation)→y2(entity),首先对y2添加约束(is_a, TV producer)约束,再找y2对应实体时的搜索空间将大幅缩减。

作者提出了三种action:{extend,connect,aggregate}用于查询图生成的循环过程,从而使得生成过程更加灵活。

       Extend:在主路径上添加一个关系,如果当前查询图仅包含一个主实体,extend操作将会找到一个在KG中连接到主实体的r,并扩充主路径。如果主路径上存在lambdavariable,extend操作将会把该节点变为existential variable,通过执行当前查询图,从KG中找到所有与该节点相结合的节点,并找到对应的关系添加到查询图中,关系的另一端节点则标为新的lambdavariable。

       Connect:除了主实体之外,问题中也常常存在其他确定实体,connect操作将这些确定实体连接到答案节点或者某个中间节点上。

       Aggregate:则是将聚合操作函数作为新的节点添加到答案节点或中间节点上。

       三个操作并没有严格的顺序规定,因此查询图生成过程的限制相对较少。

       在得到候选查询图之后,作者使用一个七维特征向量衡量图与原始自然语言问题之间的相似性,实现查询图排序。七维特征分别来自:

       BERT-based 语义匹配模型

       查询图中确定实体的累计实体链接得分

       确定实体在查询图中出现的数量
  实体类型数,时序表达以及查询图中的最高级,最后一个特征是答案实体在查询图中的个数。

3.实验

实验数据:ComplexWebQuestion, WebQuestionSP以及ComplexQuestions, 其中以ComplexWebQuestion为主要评估数据集,因为其中的多关系带约束复杂问题占比相对其他两者更多。

       对比模型包括三类:现有的阶段查询图生成模型(无法处理多跳关系);beam搜索方法(无法处理约束);将复杂问题拆分为简单问题的方法。

实验结果如下表所示

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478949.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解JSCore

背景 动态化作为移动客户端技术的一个重要分支,一直是业界积极探索的方向。目前业界流行的动态化方案,如Facebook的React Native,阿里巴巴的Weex都采用了前端系的DSL方案,而它们在iOS系统上能够顺利的运行,都离不开一个…

全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!

文 | 小轶(大家好,我是已经鸽了夕总仨月没写文章了的小轶(y)!新的一年一定改过自新,多读paper多写稿,望广大读者敦促(ง •̀_•́)ง)今天要和大家分享的是卖萌屋学术站上的本月最热…

LeetCode 171. Excel表列序号(26进制转10进制)

1. 题目 给定一个Excel表格中的列名称,返回其相应的列序号。 例如,A -> 1B -> 2C -> 3...Z -> 26AA -> 27AB -> 28 输入: "A" 输出: 1输入: "AB" 输出: 28输入: "ZY" 输出: 701来源:力扣&…

用户评论标签的抽取

原文链接:https://blog.csdn.net/shijing_0214/article/details/71036808 无意中在知乎中看到一个问题:淘宝的评论归纳是如何做到的? 了解之后觉得较为容易实现,就简单实现了一个对用户评论的标签抽取功能,纯属兴趣所致…

开源开放|数据地平线通过OpenKG开放全行业因果事理、大规模实时事理等7类常识知识库...

本期介绍开放中文简称、中文同义、中文抽象、全行业因果事理、实体概念描述、实时事理知识库、军事武器装备知识等七个事理相关知识图谱。截至目前,该七个数据集规模达数千万、累计下载次数达两千余次,可用于底层事理推理、查询扩展、数据增强等多个自然…

写给工程师的十条精进原则

引言 时间回到8年前,我人生中第一份实习的工作,是在某互联网公司的无线搜索部做一个C工程师。当时的我可谓意气风发,想要大干一场,结果第一次上线就写了人生中第一个Casestudy。由于对部署环境的不了解,把SVN库里的配置…

我删掉了Transformer中的这几层…性能反而变好了?

文 | chaos编 | 小轶基于Transformer结构的各类语言模型(Bert基于其encoder,Gpt-2基于其decoder)早已经在各类NLP任务上大放异彩,面对让人眼花缭乱的transformer堆叠方式,你是否也会感到迷茫?没关系,现在让…

LeetCode 821. 字符的最短距离

1. 题目 给定一个字符串 S 和一个字符 C。返回一个代表字符串 S 中每个字符到字符串 S 中的字符 C 的最短距离的数组。 示例 1:输入: S "loveleetcode", C e 输出: [3, 2, 1, 0, 1, 0, 0, 1, 2, 2, 1, 0]来源:力扣(LeetCode) 链…

论文浅尝 - ESWC2020 | ESBM:一个面向实体摘要的评测集

本文转载自公众号:南大Websoft。实体摘要(Entity Summarization),是知识图谱研究与应用中的一个关键问题。南京大学Websoft团队为此制作了一个评测集,称作ESBM,是目前可以公开获取的规模最大的评测集。这项…

美团在O2O场景下的广告营销

美团作为中国最大的在线本地生活服务平台,覆盖了餐饮、酒店、旅行、休闲娱乐、外卖配送等方方面面生活场景,连接了数亿用户和数百万商户。如何帮助本地商户开展在线营销,使得他们能快速有效地触达目标用户群体提升经营效率,是美团…

LeetCode 202. 快乐数(快慢指针)

1. 题目 2. 解题 一个数经过若干次各位数平方和后,会等于它自己使用类似环形链表的快慢指针法,最终快慢指针相遇,若不为1则是不快乐数 class Solution { public:int bitSquareSum(int n) {int sum 0, bit;while(n > 0){bit n % 10;su…

全栈深度学习第4期: 机器学习岗位区别与团队管理

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群。…

会议交流 | DataFunCon 线上大会 - 知识图谱专题论坛

OpenKG开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。点击阅读原文,进入 OpenKG 博客。

我国政务大数据政策的文本分析:推进逻辑与未来进路

原文地址:https://www.sohu.com/a/238844423_99983415 摘要:[目的/意义]从已颁布政策文件中找出我国推进政务大数据发展和应用的内在逻辑, 为优化未来的政策路径提供对策建议。[方法/过程]通过政府门户网站收集189条有效政策文本, 综合运用词频分析软件…

Flutter原理与实践

Flutter是Google开发的一套全新的跨平台、开源UI框架,支持iOS、Android系统开发,并且是未来新操作系统Fuchsia的默认开发套件。自从2017年5月发布第一个版本以来,目前Flutter已经发布了近60个版本,并且在2018年5月发布了第一个“R…

LeetCode 522. 最长特殊序列 II

1. 题目 给定字符串列表,你需要从它们中找出最长的特殊序列。 最长特殊序列定义如下:该序列为某字符串独有的最长子序列(即不能是其他字符串的子序列)。 子序列可以通过删去字符串中的某些字符实现,但不能改变剩余字…

论文浅尝 - 计算机工程 | 大规模企业级知识图谱实践综述

本文转载自公众号:计算机工程。大规模企业级知识图谱实践综述王昊奋, 丁军, 胡芳槐, 王鑫中文摘要:近年来,知识图谱及其相关技术得到快速发展,并被广泛应用于工业界各种认知智能场景中。在简述知识图谱相关研究的基础上&#xff0…

2021年了,对话系统凉透了吗?

文 | 兔子酱编 | 夕小瑶大家好,我是可盐可甜的兔子酱,一枚卖萌屋的资深潜水小编,今天终于有了自己的第一篇文章,希望耗时一周撰写的本文能让大家有所收获~这篇文章,算是对自己在头部大厂2年算法岗炼丹经历的一个经验浓…

前端可用性保障实践

本文基于已发表在Infoq的“美团收银台前端可用性保障实践”一文编辑而成。 一般可用性都是说后端服务的可用性,都说我们的服务可用性到了几个9,很少有人把可用性放到前端来。其实对于任何一个有UI交互流程的业务,都会有前端服务可用性&#x…

LeetCode 762. 二进制表示中质数个计算置位

1. 题目 给定两个整数 L 和 R ,找到闭区间 [L, R] 范围内,计算置位位数为质数的整数个数。 (注意,计算置位代表二进制表示中1的个数。例如 21 的二进制表示 10101 有 3 个计算置位。还有,1 不是质数。) …