论文浅尝 - WSDM2020 | QAnswer KG: 基于RDF数据设计一个可移植问答系统

论文笔记整理:谭亦鸣,东南大学博士。


来源:WSDM 2020

链接:https://link.springer.com/chapter/10.1007/978-3-030-49461-2_25

1.介绍

知识图谱问答(KGQA)系统的目标是:基于自然语言问题,从RDF数据集中抽取对应答案。近年来许多KGQA方法被提出,取得了较好的效果,但是为一个全新的RDF数据集(KG)构建对应的QA系统依然是困难且麻烦的。其中的主要挑战在于可移植性:即是否可能将一个QA算法轻松地用于新的/之前未测试过的数据上。

KGQA 可移植方面的两个主要挑战是:

a. 构建新训练数据的高额成本

b. 现有QA模型依赖于KG-specific工具(例如实体链接)

在这篇工作中,作者提出了一个可移植QA系统,QAnswer KG,该方法可以在新数据集上实现QA系统的按需构建,且在领域问答方面不需用户具备专家知识。在三个不同数据集上的实验证明,QAnswer KG能够在微量训练数据的条件下,实现基于任何RDF数据集上的QA系统。

2.模型/方法

       QAnswer主要包含四个步骤:

a. Query Expansion: 对自然语言问题中所有可能的n-gram(从1元文法到长度等于句长的n元文法)做KG资源映射

b. Query Construction: 利用映射得到的KG资源合成所有可能的SPARQL query,作者通过资源在图谱中的距离抽取三元组pattern,每一个query通过将包含相同元素的pattern组合得到,下图列列举了一些利用该方法生成的SPARQL query.

c. Query Ranking: 利用1) 对应KG资源的字符串(来自自然语言问题)长度;2) 资源标签与对应n-gram的相似性。等两个特征,作者构建了一个query排序方法,用于筛选步骤b中的生成得到的query。

d. Answer Decision: 最终,对于排序得到的query,评估其答案是否与问题目标(用户意图)一致。例如,如果给出的query是图2中的4,可以看到。该查询所得的答案是关于 “solarsystem?”,与原始问题“What planets belongs to the solar system”相比,其置信将会很低,并且没有给出有效答案。而query 1则应该具备更高的置信。

      

本工作与作者的前一工作相关性非常高,感兴趣的同学建议同步阅读:

https://hal.archives-ouvertes.fr/hal-02121400/file/QAnswer__A_prototype_for_a_Question_Answering_System_over_the_Semantic_Web-6.pdf

接着作者介绍了如何使用QAnswer KG对一个RDF数据集构建QA system,图4给出了一个整体的过程示意。

初始化:系统为新QA system预留了空间,并且创建了目录用以加载新数据。

索引:在数据加载后,它将被解析和索引,尤其是query扩展索引以及query构建索引。Query ranking及answer decision部分通过机器学习模型建模。

查询(Query):通过初始化提供的默认算法,QAnswer KG可以回答用户基于当前数据集所提出的问题。

3.实验

数据集:Cocktail:the dataset used as a running example in the previous ps, i.e.,

a dataset containing cocktails with their ingredients and preparation

HR:the dataset contains information about employees of a company. The information includes their skills, the spoken languages, the languages they can program and their images.

EU:dataset containing information on the European Union about their member states, their capitals and ministries

数据集的统计信息以及实验结果如图10所示,

作者提供了该方法的tutorial:https://qanswer.univ-stetienne.fr/docs/doc0.

以及demo:https://www.qanswer.eu/qa

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478863.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 868. 二进制间距(位运算)

1. 解题 给定一个正整数 N,找到并返回 N 的二进制表示中两个连续的 1 之间的最长距离。 如果没有两个连续的 1,返回 0 。 输入:22 输出:2 解释: 22 的二进制是 0b10110 。 在 22 的二进制表示中,有三个 …

Kotlin代码检查在美团的探索与实践

背景 Kotlin有着诸多的特性,比如空指针安全、方法扩展、支持函数式编程、丰富的语法糖等。这些特性使得Kotlin的代码比Java简洁优雅许多,提高了代码的可读性和可维护性,节省了开发时间,提高了开发效率。这也是我们团队转向Kotlin的…

推荐几个出论文的好方向!

如果你准备发AI方向的论文,或准备从事科研工作或已在企业中担任AI算法岗的工作。那么我真诚的向大家推荐,贪心学院《机器学习高阶训练营》,目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解,四个模块…

开源开放 | 疾病科室、心血管系统疾病知识图谱发布,助力电子病历系统建设...

本文转载自公众号:OMAHA联盟。 资源发布OMAHA已建立“七巧板”医学术语集、“汇知”医学知识图谱、HiTA ICD编码服务、白皮书等资源,将于每月发布其中的一项或多项资源,敬请关注!2009年,《中共中央国务院关于深化医药…

Android官方开发文档Training系列课程中文版:布局性能优化之布局层级优化

原文地址:http://android.xsoftlab.net/training/improving-layouts/index.html 引言 布局是直接影响用户体验的关键部分。如果实现的不好,那么布局很有可能会导致内存的紧张。Android的SDK包含的一些工具可以用来检查布局性能上的问题。结合本章的课程…

LeetCode 389. 找不同(位运算)

1. 题目 给定两个字符串 s 和 t,它们只包含小写字母。 字符串 t 由字符串 s 随机重排,然后在随机位置添加一个字母。 请找出在 t 中被添加的字母。 2. 解题 2.1 土办法,哈希map class Solution { public:char findTheDifference(string …

UAS-点评侧用户行为检索系统

背景 随着整个中国互联网下半场的到来,用户红利所剩无几,原来粗放式的发展模式已经行不通,企业的发展越来越趋向于精耕细作。美团的价值观提倡以客户为中心,面对海量的用户行为数据,如何利用好这些数据,并通…

面试官如何判断面试者的机器学习水平?

文 | 陈然知乎本文已获作者授权,禁止二次转载记得这大概是个三年前的问题,每年都会有新的答案让我持续学习。三年多前我作为最早的机器学习工程师之一加入 Tubi,从零开始设计招聘题目和流程,搭建团队,陆陆续续也面试了…

论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

论文笔记整理:李爽,天津大学。链接:https://arxiv.org/pdf/2001.03615v1.pdf动机随着“自下而上”注意力的普及,基于边界框(或区域)的视觉特征最近已经超越了传统的基于网格的卷积特征,成为视觉和语言任务的事实标准。…

:批量制作档案表,要从excel表格中将每个人的数据导入到docx档案

https://www.pythonf.cn/read/149081 Python自动将Excel数据填充到word的指定位置,Word,中 具体代码如下: #!/usr/bin/env python3 # -*- coding: utf-8 -*- from docxtpl import DocxTemplate from openpyxl import load_workbook import osdef replace(obj):if o…

LeetCode 1078. Bigram 分词

1. 题目 给出第一个词 first 和第二个词 second,考虑在某些文本 text 中可能以 “first second third” 形式出现的情况,其中 second 紧随 first 出现,third 紧随 second 出现。 对于每种这样的情况,将第三个词 “third” 添加到…

深度学习在OCR中的应用

背景 计算机视觉是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例,在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用,包括文字识别、图片分类、目…

千呼万唤始出来——GPT-3终于开源!

文 | 小戏编 | 小轶GPT3终于开源!不过,不是官方开的(别打我Eleuther AI推出的名为GPT-Neo的开源项目,于今晨4点于twitter正式宣布:已经开源了复现版GPT-3的模型参数(1.3B和2.7B级别)&#xff0c…

论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

论文笔记整理:潘锐,天津大学硕士。来源:AAAI 2020链接:https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库(KBs)是一种包含义原标注词汇的知识库,它已成…

美团外卖iOS多端复用的推动、支撑与思考

前言 美团外卖2013年11月开始起步,随后高速发展,不断刷新多项行业记录。截止至2018年5月19日,日订单量峰值已超过2000万,是全球规模最大的外卖平台。业务的快速发展对技术支撑提出了更高的要求。为线上用户提供高稳定的服务体验&a…

论文浅尝 - WWW2020 | 从自然语言交互中提取开放意图

论文笔记整理:娄东方,浙江大学博士后,研究方向为事件抽取。Vedula N, Lipka N, Maneriker P, et al. Open Intent Extraction from Natural Language Interactions[C]//Proceedings of The Web Conference 2020. 2020: 2009-2020.来源&#x…

深度学习在文本领域的应用

背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点。而深度学习技术突飞猛进的发展离不开海量数据的积累、计算能力的提升和算法模型的改进。本文主要介绍深度学习技术在文本领域的应…

LeetCode 1009. 十进制整数的反码(位运算)

1. 题目 每个非负整数 N 都有其二进制表示。例如, 5 可以被表示为二进制 “101”,11 可以用二进制 “1011” 表示,依此类推。注意,除 N 0 外,任何二进制表示中都不含前导零。 二进制的反码表示是将每个 1 改为 0 且…

新分类!全总结!最新Awesome-SLU-Survey资源库开源!

文 | 哈工大SCIR 覃立波、谢天宝等指导老师 | 哈工大SCIR 车万翔教授简介口语语言理解(Spoken Language Understanding,SLU)作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示(semantics frame&…

技术实践 | 用 NetworkX + Gephi + Nebula Graph 分析权力的游戏人物关系(上篇)

本文转载自公众号:Nebula Graph Community 。我们都知道《权利的游戏》在全世界都很多忠实的粉丝,除去你永远不知道剧情下一秒谁会挂这种意外“惊喜”,当中复杂交错的人物关系也是它火爆的原因之一,而本文介绍如何通过 NetworkX 访…