论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。


640?wx_fmt=png

来源:NAACL 2018

链接:https://www.aclweb.org/anthology/N18-1020

 

问题背景与动机

 

问题生成的目标是将知识图谱三元组作为输入,生成自然语言问题的过程。目前大多数的问题生成方法都依赖于大规模有标注数据(例如SimpleQuestion,基于freebase),但是事实上,由75.6%左右的freebase谓词并未被SimpleQuestion所覆盖。对于这类训练过程中谓词,实体类别均未知的问题生成模型,称之为Zero-Short Question GenerationQG)。

目前的QG方法主要依据已有的QA对数据集,当遇到未知谓词及实体类别后,问题将由随机文本生成问题。

对于上述问题,作者从以下直觉角度提出Zero-Shot问题生成模型:

当人们尝试根据给定知识库三元组提出问题时,会阅读包含这些实体或谓词的自然语言文本,之后依据阅读得到的词法和语法理解,将这些信息对应到问题设计当中。


贡献

1.    提出了一种基于encoder-decoder框架的Zero-Shot问题生成模型

2.    提出一种新的位置复制机制,用于处理问题生成过程中遇见的新谓词、实体类型

 

模型

1 是本文模型的整体encoder-decoder框架结构,令F = {s,p, o}为输入的事实信息,C为与事实相关的上下文文本,Y为对F生成的问题,整体模型的目标是,获取到Y,使得以下公式最大化。

640?wx_fmt=png

可以看到,在encoder部分,单个事实三元组与多组上下文语境文本分别进行了独立的嵌入过程,并设计了各自的attention机制,其中文本嵌入采用glove方法利用词向量得到句子的表示,知识图谱嵌入则采用了经典的TransE模型进行表示学习。

640?wx_fmt=png

事实三元组encoding过程:

对于输入的事实三元组 F = {s, p, o},每个实体 es,ep, eo 均由 K 维的 1-hot 向量表示,并利用知识嵌入矩阵 Ef(由 TransE 得到)对向量进行转化 hs=Efes, hp=Efep, ho=Efeo,得到F的编码结果表示 hf=[hs; hp; ho]

 

上下文语境文本 encoding 过程:

对于输入的一系列与F相关的上下文文本,在获取到句子中词向量表示后,利用 RNN 对句子进行 embedding。其中,文本句子 cj 的向量表示由下式获取;

640?wx_fmt=png

整个文本集的向量表示则通过以下方式得到

640?wx_fmt=png

decoder 部分则由基于 GRU RNN 构成,在问题生成过程中,每一个词的输出,都由经过 attention 机制调整权值分布后的事实表示以及相关文本上下文表示解码后得到。

其中,三元组 attention 主要对 s, p, o 的权值进行调整,

640?wx_fmt=png

文本attention则是对不同文本之间的权值分布进行调整。

640?wx_fmt=png

Part-of-Copy Action

与传统方法使用位置信息引导 copy 方式不同,本文采用词性信息决定输入与输出文本之间的对齐,输入文本中的每个词语都使用词性标签进行替换。当出现未登录词或者未知实体时,则通过上述对齐从文本中择词复制替换。

 

2反映的就是本文采用文本加事实双输入的学习目标,即找到事实知识在文本中对应的表示形式(上下文),从而生成高质量的自然语言问句。

640?wx_fmt=png

实验

实验数据说明

本文使用的文本问题集来自于SimpleQuestion,包括100K的问题以及对应的三元组事实,此外,引入了FB5M用于扩充三元组规模,语境文本扩充方面,则引入Wikipedia文本数据。

总体用于实验的数据统计如下表:

640?wx_fmt=png

实验结果

以下是本文实验的对比结果列表

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

以及一些事实问题生成的实际样本示例:

640?wx_fmt=png




OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479875.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里P8架构师谈:Restful、SOAP、RPC、SOA、微服务之间的区别

内容大纲: 1.介绍Restful、SOAP、RPC、SOA以及微服务 2.重点谈谈SOA与微服务的区别 3.以及为什么要使用微服务架构 什么是Restful Restful是一种架构设计风格,提供了设计原则和约束条件,而不是架构,而满足这些约束条件和原则的…

微服务系列:Dubbo与SpringCloud的Ribbon、Hystrix、Feign的优劣势比较

在微服务架构中,分布式通信、分布式事务、分布式锁等问题是亟待解决的几个重要问题。 Spring Cloud是一套完整的微服务解决方案,基于 Spring Boot 框架。确切的说,Spring Cloud是一个大容器(而不是一个框架)&#xff…

经典教材《统计学习导论》现在有了Python版

文 | 张倩源 | 机器之心《统计学习导论》很经典,但用的是 R 语言,没关系,这里有份 Python 版习题实现。斯坦福经典教材《The Element of Statistical Learning》(简称 ESL)被称为频率学派的统计学习「圣经」&#xff0…

漆桂林 | 人工智能的浪潮中,知识图谱何去何从?

本文转载自公众号:AI科技大本营。近年来,随着人们对 AI 认知能力的积极探索,知识图谱因其表达能力强、拓展性好,基于知识进行推理等优势得到了学界与业界的高度关注。知识图谱,旨在描述客观世界概念、实体、事件及其之…

LeetCode 102. 二叉树的层次遍历(BFS)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个二叉树,返回其按层次遍历的节点值。 (即逐层地,从左到右访问所有节点)。 例如: 给定二叉树: [3,9,20,null,null,15,7],3/ \9 20/ \15 7 返回其层次遍历结果:[[3]…

阿里P8架构师谈:微服务Dubbo和SpringCloud架构设计、优劣势比较

本文主要围绕微服务的技术选型、通讯协议、服务依赖模式、开始模式、运行模式等几方面来综合比较Dubbo和Spring Cloud 这2种开发框架。架构师可以根据公司的技术实力并结合项目的特点来选择某个合适的微服务架构平台,以此稳妥地实施项目的微服务化改造或开发进程。 …

数码摄影(扫街)

快门速度: 快门速度是曝光控制的一个重要变量,能够控制光线进入的多少。 快门的速度越快,时间越短,通过的光线就越少,反之,则越多。 在很好光线下,1/125s就能清晰地捕捉到行走中的人物。 阴天…

论文浅尝 | 让“演进知识图谱”带你“瞻前顾后”看世界

本文转载自公众号:爱思美谱。 指导老师 | 傅洛伊 王新兵核心技术成员 | 刘佳琪导读在前面几期的内容中,小编已经为大家介绍了知识图谱的产生历史和基本概念。相信大家已经对知识图谱强大的信息结构化能力有所了解。但是,目前的大部分知识…

做过leader,会数仓,项目经验丰富,能值多少钱?

有个朋友,上个月准备从 Java 转做大数据,一个月过去了,一份面试都没约到,来问我怎么回事。我一看简历,期望年薪 40w,深度也不够,要大项目也没有。我们做大数据的,虽说是薪资高&#…

LeetCode 98. 验证二叉搜索树(中序遍历)

文章目录1. 题目信息2. 解题2.1 递归中序2.2 非递归中序1. 题目信息 给定一个二叉树,判断其是否是一个有效的二叉搜索树。 假设一个二叉搜索树具有如下特征: 节点的左子树只包含小于当前节点的数。 节点的右子树只包含大于当前节点的数。 所有左子树和…

阿里P8架构师谈:Zookeeper的原理和架构设计,以及应用场景

什么是 Zookeeper Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如: 统一命名服务 状态同步服务 集群管理 分布式应用配置项的管理等 Zookeeper已经成为Hadoop生态系统…

GNN学习一

一、为什么使用图卷积 传动的深度学习方法,比如卷积网络,效果很好,但是它研究的对象是Euclidean data,这种数据的特征就是有规则的空间结构,比如图片是规则的正方形格子,比如语音是规则的一维序列。这些数…

禁术级竞赛刷分技巧:找到跟测试集最接近的有标签样本

文 | 苏剑林单位 | 追一科技编 | 兔子酱不管是打比赛、做实验还是搞工程,我们经常会遇到训练集与测试集分布不一致的情况。一般来说我们会从训练集中划分出来一个验证集,通过这个验证集来调整一些超参数[1],比如控制模型的训练轮数…

论文浅尝 | 最新10篇《知识图谱》论文推荐(ICML, CVPR, ACL, KDD, IJCAI 2019)

本文转载自公众号:专知。【导读】知识图谱一直是研究热点,研究者近年来广泛关注知识图谱嵌入(Knowledge Graph Embedding,简称KGE)方法,在保留语义的同时,将知识图谱中的实体和关系映射到连续的…

详解RPC远程调用和消息队列MQ的区别

谈到分布式架构,就不得不谈到分布式架构的基石RPC。 什么是RPC RPC(Remote Procedure Call)远程过程调用,主要解决远程通信间的问题,不需要了解底层网络的通信机制。 RPC服务框架有哪些 知名度较高的有Thrift&#x…

GNN学习二

基于频谱的图卷积和基于空间的图卷积 (在图上做傅里叶变换?) 图时间空间网络-交通上车流速度和红绿灯

技术动态 | eBay开源分布式知识图谱存储Beam,支持类SPARQL查询

本文转载自公众号:AI前线。作者 | Diego Ongaro,Simon Fell 译者 | 盖磊 编辑 | Natalie AI 前线导读:eBay 工程人员于 5 月 1 日在 官方技术博客 上发布了开源的分布式知识图谱存储 Beam,Beam 实现了事实数据的 RDF 存储&#xf…

2020国内互联网公司的开源项目及Github地址部分汇总

2020国内互联网公司的开源项目及Github地址部分汇总 一、Alibaba 阿里巴巴 阿里巴巴的开源项目很多,都说国内Java公司的技术架构大部分来自阿里系,而且还有很多重量级的项目,例如LVS、Tengine,或者很有实践价值的中间件&#xf…

端到端问答新突破:百度提出RocketQA,登顶MSMARCO榜首

源 | 机器之心开放域问答(Open-domain QA)一直是自然语言处理领域的重要研究课题。百度从面向端到端问答的检索模型出发,提出了RocketQA训练方法,大幅提升了对偶式检索模型的效果,为实现端到端问答迈出了重要的一步。R…

深度剖析RPC框架的核心设计

做过分布式服务端的Java工程师,随着对技术底层的认知的加深,都会或多或少的会去想: 一个RPC框架需要考虑的问题有哪些,如何来解决? 下面我们围绕RPC通信框架,从如何实现这个角度做一个剖析,以及每个环节能…