论文浅尝 | CoRR - 面向复杂知识问答的框架语义解析方法

论文笔记整理:谭亦鸣,东南大学博士。


 

     

来源:CoRR abs/2003.13956 (2020)

链接:https://arxiv.org/pdf/2003.13956.pdf

 

KBQA任务中的语义解析目标是将自然语言问题转化为标准查询,而后用于构建知识库查询。现有的方法主要依赖于句法解析(例如依存句法),但是在长句的复杂问题上,这类表达形式存在准确性不足的问题。因此,在这篇文章里,作者提出一种新的框架(skeleton,或者说骨架?)语法解析模型SPARQA,用于表达复杂问题的高层结构。

 

动机及概述

为了理解和回答复杂问题,作者定义了两个挑战:

             

1. 语义解析,目前的语义解析主要依赖于依存句法,但是与简单问题的解析不同,单纯依靠依存句法在复杂问题的解析上会出现许多错误。随着错误传递则会影响到整个语义解析以及问答的性能。图2是作者列举的一个例子,表明了长距离依赖下,依存解析的准确性将出现明显偏差:“movie”和“had”原本是一组依存关系,但由于长句的影响,这组依存没有被识别出来,却生成了“in”和“had”这样的错误依存。

             

2. 一般而言,一个问题通常被转化为独立于知识库的图结构 ungrounded query,但是这个query的结构相比以知识库为基础的formal grounded query可能有所不同,这种情况在复杂问题(包含更多谓词)的情况下同样存在。如图1所示,问句“what movie that Miley Cyrus acted in had a director named Tom Vaughan?”的ungrounded query包含了两个谓词“acted in”以及“director”(见1c),但是在Freebase中,对应grounded query则包含三个谓词(见1d),这是由Freebase的构建机制所决定的。

 

为了处理上述两个挑战,作者提出了一种基于框架(骨架)的语义解析方法,如图3所示,对于输入的问题,首先定义其高层框架(骨架)结构,用于辅助生成更精确的ungrounded query,以KB为基础ungrounded query及其结构变体用于生成grounded query,而后利用一个多策略打分器对query做排序从而检索得到问题的答案。

             

方法

Skeletion Parsing

首先需要对Skeletion语法的部分定义进行说明:

  1. Skeleton 句子的框架(骨架)是一棵有向树,其中节点表示句子中的text span,边表示节点之间的附加关系

  2. Text span表示句子中的短语级别语义单元,一般包含四种类型:从句Clause (S), 名词短语Noun Phrase (NP), 动词短语Verb Phrase (VP), and 介词短语Prepositional Phrase (PP)。

  3. 附加关系 即text span之间的依存关系,这里考虑依存语法中常见的七种:adjectival clause (acl), its sub-type relative clause modifier (acl:relcl), nominal modifier (nmod), its sub-type possessive alternation (nmod:poss), coordination (conj), open clausal complement (xcomp), and adverbial clause modifier (advcl).

 

Skeleton解析算法

下图描述了本文提出的语义解析算法:

即对于输入的自然语言问句Q, 通过一个循环过程逐步切分Q中的text span,并补充span之间的边,从而得到Q对应的Skeleton。(示例见图1b)

             

 

作者使用BERT实现了图1中的四个过程,用于得到grounded query,如图4所示:

四个步骤分别为:

  1. Split(本质上是单句分类任务),预测句子是否能进一步被切分

  2. Textspan(视为QA任务),预测下一个从Q中被切分的text span,并标记于Q中

  3. Headwordidentification(视为QA任务),将剩余Q视作文本段落,s视作问题,输出Q中的一个span

  4. AttachmentRelationClassifiction 输入s以及剩余的Q,预测两者之间的relation

             

 

Multi-Strategy Scoring

为了全面地对query进行打分,作者提出并融合了两种打分策略:

1. 句子级别的打分

对于给定的测试问句,首先找到训练集中与之最为相似的问题(在它们的pattern中具有相同数量的虚拟字符(占位符?)) ,将测试问题中的实体对应的替换掉其中的占位符,从而得到一个grounded query,如果这个query能够获取到非空答案,那么它的得分为1.0,否则为0.0.

2. 词汇级别的打分

这个打分基于词袋,如图5所示,首先问题和formal query被表示为词袋形式,移除了其中的具体实体以及停用词,剩下的部分主要描述了其中的谓词,利用GloVe进行embedding 之后,计算两者的余弦相似,从而给出词级别得分。

             

实验与结果

数据集:Graph Questions (Su et al. 2016) 包含5166个问题,其中2258用于训练

ComplexWebQuestion,包含34689个问题,按照80-10-10的方式切分训练验证和测试集

 

实验结果

             

             

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479093.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全栈深度学习第1期:如何启动一个机器学习项目?

一 起 追 剧 鸭 !简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。1. Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令…

超详细中文注释的GPT2新闻标题生成项目

超详细中文注释的GPT2新闻标题生成项目:https://zhuanlan.zhihu.com/p/338171330 笔者开源了一个带有超详细中文注释的GPT2新闻标题生成项目。该项目参考了GPT2-Chinese、GPT2-chitchat、CDial-GPT、GPT2等多个GPT2开源项目(感谢大佬们的开源&#xff09…

构建时预渲染:网页首帧优化实践

前言 自JavaScript诞生以来,前端技术发展非常迅速。移动端白屏优化是前端界面体验的一个重要优化方向,Web 前端诞生了 SSR 、CSR、预渲染等技术。在美团支付的前端技术体系里,通过预渲染提升网页首帧优化,从而优化了白屏问题&…

论文浅尝 | 利用指针生成网络的知识图谱自然语言生成

论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识图谱问答。来源:Neurocomputing 382: 174-187 (2020)链接:https://www.sciencedirect.com/science/article/abs/pii/S0925231219316820?via%3Dihub指针生成网络在自然…

学术工业界大佬联合打造:ML产品落地流程指南

文 | 白鹡鸰给小铁比了个心编 | 小轶给白鸟鸟比了个赞卖萌屋原创出品,本文禁止转载前言现在已经有了许多现成的ML开发部署工具,所以想要完成一个ML产品并不困难。但在实际开发过程中,人多手杂,免不了一顿兵荒马乱。相比之下&#…

基于GAN的个性化短标题生成在1688平台的实践应用

原文链接:https://developer.aliyun.com/article/770631 基于GAN的个性化短标题生成在1688平台的实践应用 在电商情境下,卖家为了吸引买家兴趣,也为了提高商品被搜索引擎检索命中的概率,通常趋向于写过于冗长的商品标题。如何从过…

LeetCode 16. 最接近的三数之和(固定左端+滑动窗口)

1. 题目 给定一个包括 n 个整数的数组 nums 和 一个目标值 target。找出 nums 中的三个整数,使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。 例如,给定数组 nums [-1,2,1,-4], 和 …

领域应用 | 2020 年中国知识图谱行业分析报告

本文转载自公众号:艾瑞咨询。 核心摘要:人工智能本质是解决生产力升级的问题,人类生产力可以归类为知识生产力和劳动生产力,人工智能走入产业后,可以分为感知智能、认知智能和行为智能,后两者更与生产力相…

Category 特性在 iOS 组件化中的应用与管控

背景 iOS Category功能简介 Category 是 Objective-C 2.0之后添加的语言特性。 Category 就是对装饰模式的一种具体实现。它的主要作用是在不改变原有类的前提下,动态地给这个类添加一些方法。在 Objective-C(iOS 的开发语言,下文用 OC 代替&…

OpenAI亲谈:我们眼中的GPT-3、大规模语言模型的局限性与出路在哪

编译 | 陈彩娴、青暮编辑 | 陈大鑫近日,OpenAI政策研究主管Miles Brundage在推特上分享了一篇新论文,论文内容是对一个GPT-3研讨会的总结。2020年10月14日,来自OpenAI、斯坦福大学HAI研究所等机构的研究人员召集在一起,讨论围绕GP…

Android官方开发文档Training系列课程中文版:OpenGL绘图之响应触摸事件

原文地址:http://android.xsoftlab.net/training/graphics/opengl/touch.html 使图形按照程序设计的轨迹旋转对OpenGL来说还是不能发挥出它应有的实力。但要是能使用户可以直接控制图形的旋转,这才是OpenGL的真正目的。它真正的关键所在就是使程序可以交…

LeetCode 26. 删除排序数组中的重复项

1. 题目 给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。 来源:力扣&…

论文浅尝 | Data Intelligence - 多篇语义资源论文

本文转载自公众号:DI数据智能 。 编者按:Data Intelligence最新发表一组语义资源论文,包括世界著名语义网技术专家荷兰阿姆斯特丹自由大学计算机科学系Frank van Harmelen教授团队的Constructing and Cleaning Identity Graphs in the LOD C…

人物志 | 美团首席科学家夏华夏:不断突破边界的程序人生

“成长没有什么秘笈,就是坚持不断地一点点突破自己的边界就好。” 这是美团首席科学家、无人配送部总经理夏华夏在刚刚过去的“1024 程序员节”时送给技术同行的一句话。 这也是夏华夏自己的人生写照:从没摸过计算机的山东高考状元到清华计算机系的学霸&…

我的《Android官方开发文档Training系列课程中文版》的中期翻译计划

从2016年的3月份开始到现在,对于Android文档的翻译已经进行了两个月的时间。虽然数量还不及总篇数的一半,但是经过一番整理,发现翻译的文章还不少,目前为止已经有56篇了。这个过程也陆陆续续的坚持了下来。现在回头看刚开始翻译的…

论文浅尝 | 低资源文本风格迁移数据集

来源:AAAI2020论文链接:https://www.msra.cn/wp-content/uploads/2020/01/A-Dataset-for-Low-Resource-Stylized-Sequence-to-Sequence-Generation.pdf概述:低资源样式化的序列到序列(S2S)生成是高需求的。但由于数据集…

Android官方开发文档Training系列课程中文版:动画视图之转场框架介绍

原文地址:http://android.xsoftlab.net/training/transitions/index.html 引言 Activity所呈现的UI经常会由用户的输入或者其它事件而发生变化。比如,一个含有输入框的Activity,在用户输入要查找的关键字之后,这个输入框就会隐藏…

机器学习竞赛中,为什么GBDT往往比深度学习更有效?

在过去的几年里,大多数的推荐算法都是基于深度学习(DL)方法。遵循我们领域的一般研究实践,这些工作证明了新的DL方法在离线实验中优于其他不基于深度学习的模型。然而,在与推荐相关的机器学习竞赛中(如与年…

2020年算法工程师技术路线图

原文链接:https://cloud.tencent.com/developer/article/1689082 重磅干货,第一时间送达作者丨字节知乎来源丨https://zhuanlan.zhihu.com/p/192633890极市导读算法工程师如何获得技术方面的成长?本文从工程基础、算法基础、算法工程交叉、工…

浅谈大型互联网企业入侵检测及防护策略

前言 如何知道自己所在的企业是否被入侵了?是没人来“黑”,还是因自身感知能力不足,暂时还无法发现?其实,入侵检测是每一个大型互联网企业都要面对的严峻挑战。价值越高的公司,面临入侵的威胁也越大&#x…