论文浅尝 | AMUSE: 基于 RDF 数据的多语言问答语义解析方法

640?wx_fmt=png

来源:ISWC 2017

链接:https://link.springer.com/content/pdf/10.1007%2F978-3-319-68288-4.pdf

 

本文主要关注基于RDF数据的多语言问答任务中,对不同语言问句的语义分析工作。作者提出一种基于DUDES(Dependency-based Underspecified Discourse Representation Structures)的因子图推理方法,对多语言问句中的词进行角色定义和识别,并根据获取到的语义解析结果,规则生成问题的SPARQL。文中表示,使用因子图进行推理对语言类型的敏感程度较低,是一种有效的多语言语义解析方法。模型的性能评测基于QALD-6发布的英语,德语以及西班牙语数据。

动机

多语言问答是 QALD 提出的一个问答子任务,目标是将给定的多语言问题映射到知识库中或是得到对应的SPARQL

 

例如:问句“Who createdWikipedia?” 目标生成的SPARQL

SELECT DISTINCT ?uri WHERE { dbr:Wikipedia dbo:author ?uri .}

 

多语言问答的一个主要难点在于语义鸿沟,当问题语言与知识库语言不相同的时候,就无法直接生成有效的映射。虽然机器翻译模型可以实现语言之间的转换,但是存在两个明显局限:其一,现有的双语或者多语言平行问答语料数量不足以训练出高质量的机器翻译模型;其二,基于QALD定义的跨语言问答任务,语言的转换完全取决于对问题句子的转换,然而问句中可能包含部分噪声信息,影响翻译的效果。

为了解决语义鸿沟,作者提出了AMUSE——一个基于因子图推理的跨语言解析模型。

方法

AMUSE的方法主要由两步推理构成:

1.    L2KB

这一步以实体链接为目标,将问题中的局部与知识库相关联

2.    QC

利用 L2KB 的链接结果,以及问题中的主要关键词的词类/词性等因素,构建问句的逻辑表达形式(SPARQL

关键技术:DUDESDependency-based Underspecified Discourse Representation Structures),一种用于指定意义表示及构成的结构化方式。

模型流程如图 2 所示,这里为了方便读者阅读,作者以英语问题为例子来表现推理过程,使用其他语言的过程也是一样。

640?wx_fmt=png

描述如下:

1.    输入问句为“Who created Wikipedia”,首先得到对应的依存解析树

2. 对问句中的词进行 L2KB 推理过程,找到 Wikipedia 链接到的知识库中实体:Wikipedia,以及 created 链接到知识库中的属性:author,细节如图3,此时的结果构成的部分SPARQL成分为:

640?wx_fmt=png

640?wx_fmt=png

3.    进入 QC 推理过程,根据问句中各词的词性,及依存关系,给出问句中疑问词的推理标签,此时完成 SPARQL 构成如:

SELECT DISTINCT ?y WHERE { dbr:Wikipedia dbo:author ?y .}

640?wx_fmt=png

对于问题语言与知识库不相同的案例,作者提出的处理方式是利用多语言词典 Dict.cc 的词级别翻译配合 word embedding 检索找到知识库中可能的目标实体。

 

实验

文章表示,由于本工作是首个多语言语义解析器,为了测试模型性能,作者构建了多种词典+word embedding 的组合,分别在英,德,西班牙语上进行 LinkingQA 的两组实验,评价指标为 F1 值,结果如表 1

640?wx_fmt=png

总结

文章的主要贡献在于提出了一个具备语言通用性的语义解析方法,并且在QALD的定义下,提出了一种词典+embedding相似性检索的方式应对语义鸿沟(用于应对没有平行语料训练翻译模型的情况)

 

 

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识问答,自然语言处理,机器翻译



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480152.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网易2018

网易2018数据分析(20道单选3道问答) 好评率是会员对平台评价的重要指标。现在需要统计2018年1月1日到2018年1月31日,用户’小明’提交的母婴类目"花王"品牌的好评率(好评率“好评”评价量/总评价量): 用户评…

贪心应用--汽车加油次数问题

文章目录1. 问题描述2. 解题思路3. 实现代码4. 测试结果1. 问题描述 已知汽车的油箱额定里程,到目的地的路途中各加油站距起点的距离,求如何加油,让加油的次数最少。 2. 解题思路 每次出发前检查下一个加油站有多远,车子能不能…

Pandas中的元素替换

# 序列中的元素替换 ser pd.Series([0, 1, 2, 3, 4, 5]) print(ser.replace(0, 6)) # 单个元素替换 print(ser.replace([0, 1, 2, 3, 4, 5], [5, 4, 3, 2, 1, 0])) # 列表替换 print(ser.replace({1: 11, 2: 22})) # 字典替换# DataFram中的元素替换 df pd.DataFrame({&qu…

最全多线程经典面试题和答案

Java实现线程有哪几种方式? 1、继承Thread类实现多线程2、实现Runnable接口方式实现多线程3、使用ExecutorService、Callable、Future实现有返回结果的多线程 多线程同步有哪几种方法? Synchronized关键字,Lock锁实现,分布式锁等…

论文浅尝 | Aligning Knowledge Base and Document Embedding Models

本文是我们于苏黎世大学合作的关注与知识图谱和文本对齐的论文,发表于ISWC2018.文本和知识图谱都包含了丰富的信息, 其中知识图谱用结构化的三元组表示信息,文本用自由文本形式表示信息,信息表示的差异给知识图谱和文本融合对齐造成了困难&am…

学会提问的BERT:端到端地从篇章中构建问答对

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 苏剑林机器阅读理解任务,相比不少读者都有所了解了,简单来说就是从给定篇章中寻找给定问题的答案,即“篇章 问题 → 答案”这样的流程,笔者之前也写过一些…

leetcode--数组(Medium2)

2019.08.09 39.组合总数 基本思想:回溯实现: def combinationSum(self, candidates: List[int], target: int) -> List[List[int]]:candidates.sort()n len(candidates)res []def helper(i, tmp_sum, tmp):if tmp_sum > target or i n:return …

玩转算法面试-第四章查找值之leetcod相关笔记

查找问题 4-1,2 两类查找问题 1 查找有无:set 2 查找对应关系:map 常见的四种操作: insert, find, erase, change(map) 例题 leetcode 349 :给定两个数组,…

分治算法(Divide Conquer)

文章目录1. 分治算法思想2. 应用举例2.1 逆序度3. 分治思想处理海量数据1. 分治算法思想 分治算法的核心思想就是,分而治之,将原问题划分成n个规模较小,并且结构与原问题相似的子问题,递归地解决这些子问题,然后再合并…

史上最全Java多线程面试60题,含答案大赠送!

【BAT必考系列!多线程60题】 多线程有什么用? 线程和进程的区别是什么? ava实现线程有哪几种方式? 启动线程方法start()和run()有什么区别? 怎么终止一个线程&#…

论文浅尝 | Interaction Embeddings for Prediction and Explanation

本文是我们与苏黎世大学合作的工作,将发表于WSDM2019,这篇工作在知识图谱的表示学习中考虑了实体和关系的交叉交互,并且从预测准确性和可解释性两个方面评估了表示学习结果的好坏。给定知识图谱和一个要预测的三元组的头实体和关系&#xff0…

商汤科技-数据运维工程师-提前批笔试题目汇总

2019年8月19日 问答题1:缺失值数据预处理有哪些方法?https://juejin.im/post/5b5c4e6c6fb9a04f90791e0c 处理缺失值的方法如下:删除记录,数据填补和不处理。主要以数据填补为主。 1 删除记录:该种方法在样本数据量十分…

秋招视频攻略!13个offer,8家SSP的Q神谈算法岗秋招技巧

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术大家还记得几个月前卖萌屋Q神推送的那期《13个offer,8家SSP,谈谈我的秋招经验》吗?据说Q神掌握了影分身的话,一毕业就能年薪600万,咳咳。。。ps&…

Python中的Argparse模块

argparse模块 作用: argparse 是 Python 内置的一个用于命令项选项与参数解析的模块,通过在程序中定义好我们需要的参数,argparse 将会从 sys.argv 中解析出这些参数,并自动生成帮助和使用信息。 使用步骤: import a…

分治应用--最近点对问题 POJ 3714

文章目录1. 问题描述2. 解题思路3. 实现代码4. POJ 37141. 问题描述 二维平面上有n个点,如何快速计算出两个距离最近的点对? 2. 解题思路 暴力做法是,每个点与其他点去计算距离,取最小的出来,复杂度O(n2)采用分治算…

Java多线程系列(十):源码剖析AQS的实现原理

在并发编程领域,AQS号称是并发同步组件的基石,很多并发同步组件都是基于AQS实现,所以想掌握好高并发编程,你需要掌握好AQS。 本篇主要通过对AQS的实现原理、数据模型、资源共享方式、获取锁的过程,让你对AQS的整体设计…

玩转二算法课的笔记-第一章

1 问题:对一组数据进行排序 回答:快速排序算法o(NLOGN),错误。 关键词:思考 应该问面试官,这组数据有什么样的特征? 比如;有没有可能包含大量重复的元素? 如果有这个可能的话,三路快…

微软亚洲研究院NLC组招聘实习生!与一线研究员共探NLP前沿与落地!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术MSRA-NLC组招人啦!微软亚洲研究院(MSRA)自然语言计算组(NLC)招收长期实习生一名,与一线研究员共同进行自然语言处理领域的科研项目和落地…

Theano+Keras开发环境搭建(最简单的教程)

目录:介绍:一、Theano 安装二、keras 安装三、安装过程出现的错误(theano.configdefaults): g not available, if using conda: conda install m2w64-toolchainRemoveError: setuptools is a dependency of conda and cannot be removed from condas ope…

分治应用--万里挑一 找假硬币

文章目录1. 问题描述2. 解题思路3. 代码实现1. 问题描述 n 个硬币中有1枚是假币,真假币唯一的区别是假币重量轻,如何快速找出假币 2. 解题思路 暴力做法,一个一个的称重,O(n)复杂度分治思路 将硬币等分…