论文浅尝 | 面向简单知识库问答的模式修正强化策略

640?wx_fmt=png

链接:http://aclweb.org/anthology/C18-1277


知识库问答研究旨在利用结构化事实回答自然语言问题,在网络中,简单问题占据了相当大的比例。本文提出在完成模式抽取和实体链接后,构建一个模式修正机制,从而缓解错误积累问题。为了学习对“subject-predicate”(问题的实体-谓词)候选集的排序,本文提出将关系检测机制用于强化联合事实选择。多级别编码和多维信息将被用于强化整个模型过程。实验结果表明,本方法展现出非常强大的性能。

 

Background


简单知识库问答,指的是问答中仅需用到知识库中的一个事实即可给出答案的过程。

其流程和可以描述为:从自然语言问句中识别实体,谓词,并与知识库中的内容构成完整三元组的过程。

 

简单知识库问答目前存在的主要挑战包括:

1.同一单词(词语)在不同句子中的意义不同

2.不同的自然语言表达方式具有相同的含义

3.如何利用大规模知识库中的大量事实信息


Model


在简单问答中,首先要做的是实体链接,常规的实体链接方法包括n-gram匹配,序列标注等等,但是这两个方法都有可能导致错误积累,从而无法找到准确的“实体-谓词”对。

考虑到这些问题,本文首先使用模式抽取和实体链接,将可能的实体描述和问题模式提取出来,而后减少知识库中的候选实体数量。

在模式抽取过程中,作者发现由于模型性能问题,抽取结果中存在一定比例的较差模式。为了应对这个情况,文章提出添加模式修正机制以提升模式抽取的质量。

 

下一步工作就是找出最可能生成问题答案的“实体-谓词”对,对于这个问题,前人的工作中主要考虑使用问题模式与候选实体信息来选择合适的谓词。本文则引入了关系检测机制进行改进,其效果体现在限定了知识库中问题表达对应的谓词,从而引导候选实体的重排序。

 

当问题所问实体在知识库中存在大量不同类型的重名实体时,先做关系推理或者实体链接都有可能引发无召回问题。对此,本文的策略是采用联合事实筛选,通过利用实体的名称信息和类别信息从不同角度描述实体。

 

在确定谓词方面,作者采用唯一关系名与分散词信息作为限定条件

640?wx_fmt=png

本文问答模型的示意图


同时为了准确保留原始问句的内容,本文将字符级别与词级别的编码结果进行合并,用于表达原始问句

 

640?wx_fmt=png

本文编码策略的示意图


                            

Experiment


本文实验使用的数据集为SimpleQuestions benchmark提供的问答数据集,其中的每个问题都可以由freebase中的一个三元组回答。

数据集分为三个部分:训练集规模为75910,验证集为10845,测试集为21687

知识库则是从freebase中抽取的子集FB2M(2,150,604entities, 6,701 predicates, 14,180,937 atomic fact triples,FB5M(4,904,397entities, 7,523 predicates, 22,441,880 atomic fact triples)

 

实验评价指标为准确率,仅当问题对应的事实与模型得到的实体和谓词两者都匹配时,才算准确匹配。

 

640?wx_fmt=png

从实验结果上看,本文方法相对过去的工作,取得了非常明显的提升。

 

论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识图谱问答,自然语言处理



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480335.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最全BAT数据库面试89题:mysql、大数据、redis

数据库 mysql面试题目: MySQL InnoDB、Mysaim的特点? 乐观锁和悲观锁的区别?? 行锁和表锁的区别? 数据库隔离级别是什么?有什么作用? MySQL主备同步的基本原理。 如何优化数据库性能&#…

POJ 3481 Double Queue

题目链接:http://poj.org/problem?id3481 题目大意: 给你0-3四个指令: 0 退出 1 添加优先级为P 的 K值,进入队列 2 最高优先级出队 3 最低优先级出队 思路: 利用map数据对key默认升序排列。 AC代码如下&#xff…

理解 Word Embedding,全面拥抱 ELMO

原文链接:https://www.infoq.cn/article/B8-BMA1BUfuh5MxQ687T 理解 Word Embedding,全面拥抱 ELMO DataFun社区 阅读数:4238 2019 年 6 月 15 日提到 Word Embedding ,如果你的脑海里面冒出来的是 Word2Vec ,Glove &…

肝了1W字!文本生成评价指标的进化与推翻

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:林镇坤(中山大学研一,对文本生成和猫感兴趣)前言文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量。一个好的评价指标(或者设置合理的损失函数…

美团大脑 | 知识图谱的建模方法及其应用

本文转载自公众号: 美团技术团队.作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供基础支撑。美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领域超大规模的知识图…

最全Java面试208题,涵盖大厂必考范围!强烈建议收藏~

这些题目是去百度、小米、乐视、美团、58、猎豹、360、新浪、搜狐等一线互联网公司面试被问到的题目,熟悉本文中列出的知识点会大大增加通过前两轮技术面试的几率。 一.java基础面试知识点 java中和equals和hashCode的区别 int、char、long各占多少字节数 int与integer的区别…

大规模事理常识知识系统“学迹”的定位、应用与不足

我们于3月16正式对外发布了一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”(https://xueji.zhiwenben.com)。“学迹”的发布,进一步拓宽了现有知识库的门类,为进一步获取特定事件的概念解…

数据结构--散列表 Hash Table

文章目录1.线性探测 哈希表代码2.拉链法 哈希表代码1. 散列表用的是数组支持按照下标随机访问数据的特性,所以散列表其实就是数组的一种扩展,由数组演化而来。可以说,如果没有数组,就没有散列表。 2. 散列函数,设计的基…

论文浅尝 | 面向自动分类归纳的端到端强化学习

动机术语层次在许多自然语言处理任务中扮演着重要角色。然而,大部分现有的术语层次是人工构建的,其覆盖范围有限,或者某些领域上不可用。因此,最近的工作集中在自动化的术语层次归纳(automatictaxonomy induction)上。之前的研究工…

最新天猫Java面试题(含总结):线程池+并发编程+分布式设计+中间件

一面: HashMap实现原理,ConcurrentHashMap实现原理 红黑树,为什么允许局部不平衡 TCP,UDP区别,为什么可靠和不可靠 一次HTTP请求的全过程,包括域名解析、定位主机等 TCP三次握手 MySQL事务是什么&…

重磅!吴恩达家的NLP课程发布啦!

关注小夕并星标,解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 灵魂写手rumor酱美 | 人美心细小谨思密达斯坦福计算机系副教授、人工智能实验室主任、Coursera平台联合创始人、前百度首席科学家、机器学习入门必备网课CS229的主讲人——吴恩达Andrew Ng老师再放大…

情报领域因果推理智能项目概览:以DAPAR为例

美国国防高级研究计划局(Defense Advanced Research Projects Agency),简称DARPA,提出了旨在从推进人工智能常识推理能力发展、深化机器学习理论研究和推进国防部复杂问题中应用人工智能、深化美军对人工智能的研究和应用的“的下…

论文浅尝 | 基于模式的时间表达式识别

本文转载自公众号:南大Websoft. 时间表达式识别是自然语言理解中一个重要而基础的任务。在以前的研究工作中,研究人员已经发现时间词的类型信息可以给识别提供明显的帮助。本文中我们以词类型序列作为表达式模式,提出了基于模式的时间表达式识别方法&…

大数据项目(四)————用户画像

原文地址:https://blog.csdn.net/Jorocco/article/details/81428996 1、用户画像概述 用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,旨在通过从海量用户行为数据中炼银挖金,尽可能…

最强阿里面试126题:数据结构+并发编程+Redis+设计模式+微服务

BAT技术面试范围 数据结构与算法:最常见的各种排序,最好能手写 Java高级:JVM内存结构、垃圾回收器、回收算法、GC、并发编程相关(多线程、线程池等)、NIO/BIO、各种集合类的比较优劣势(底层数据结构也要…

AdaX:一个比Adam更优秀,带”长期记忆“的优化器

关注小夕并星标,解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 苏剑林(追一科技,人称苏神)美 | 人美心细小谨思密达前言这篇文章简单介绍一个叫做AdaX的优化器,来自《AdaX: Adaptive Gradient Descent with Exponen…

金融情报挖掘:面向公开文本的期货事件聚合与传导因素分析

金融情报挖掘是情报领域的一个重要分支,通过对金融领域信息进行提取和分析,发现关联线索,对传导关联进行建模,能够挖掘出市场变动的规律,最终辅助决策。 例如,国内外资本市场,衍生品市场热点不断…

论文浅尝 | 知识图谱的单样本关系学习

链接:http://cn.arxiv.org/pdf/1808.09040动机如今的知识图谱规模很大但是完成度不高,long-tail关系在知识图谱中很常见,之前致力于完善知识图谱的方法对每个关系都需要大量的训练样本(三元组),而新加入的关…

POJ 1200 Crazy Search 查找有多少种不同的子串(hash)

文章目录1.采用map解题2.采用hash查找题目链接: http://poj.org/problem?id1200题目大意:给定子串长度,字符中不同字符数量,以及一个字符串,求不同的子串数量。1.采用map解题 把子串插入map,map自动去重&…

金融行业如何用大数据构建精准用户画像?

原文地址:https://www.jianshu.com/p/6e0a0ca5948e 1. 什么是用户画像?2. 用户画像的四阶段用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最…