链接:http://aclweb.org/anthology/C18-1277
知识库问答研究旨在利用结构化事实回答自然语言问题,在网络中,简单问题占据了相当大的比例。本文提出在完成模式抽取和实体链接后,构建一个模式修正机制,从而缓解错误积累问题。为了学习对“subject-predicate”(问题的实体-谓词)候选集的排序,本文提出将关系检测机制用于强化联合事实选择。多级别编码和多维信息将被用于强化整个模型过程。实验结果表明,本方法展现出非常强大的性能。
Background
简单知识库问答,指的是问答中仅需用到知识库中的一个事实即可给出答案的过程。
其流程和可以描述为:从自然语言问句中识别实体,谓词,并与知识库中的内容构成完整三元组的过程。
简单知识库问答目前存在的主要挑战包括:
1.同一单词(词语)在不同句子中的意义不同
2.不同的自然语言表达方式具有相同的含义
3.如何利用大规模知识库中的大量事实信息
Model
在简单问答中,首先要做的是实体链接,常规的实体链接方法包括n-gram匹配,序列标注等等,但是这两个方法都有可能导致错误积累,从而无法找到准确的“实体-谓词”对。
考虑到这些问题,本文首先使用模式抽取和实体链接,将可能的实体描述和问题模式提取出来,而后减少知识库中的候选实体数量。
在模式抽取过程中,作者发现由于模型性能问题,抽取结果中存在一定比例的较差模式。为了应对这个情况,文章提出添加模式修正机制以提升模式抽取的质量。
下一步工作就是找出最可能生成问题答案的“实体-谓词”对,对于这个问题,前人的工作中主要考虑使用问题模式与候选实体信息来选择合适的谓词。本文则引入了关系检测机制进行改进,其效果体现在限定了知识库中问题表达对应的谓词,从而引导候选实体的重排序。
当问题所问实体在知识库中存在大量不同类型的重名实体时,先做关系推理或者实体链接都有可能引发无召回问题。对此,本文的策略是采用联合事实筛选,通过利用实体的名称信息和类别信息从不同角度描述实体。
在确定谓词方面,作者采用唯一关系名与分散词信息作为限定条件
本文问答模型的示意图
同时为了准确保留原始问句的内容,本文将字符级别与词级别的编码结果进行合并,用于表达原始问句
本文编码策略的示意图
Experiment
本文实验使用的数据集为SimpleQuestions benchmark提供的问答数据集,其中的每个问题都可以由freebase中的一个三元组回答。
数据集分为三个部分:训练集规模为75910,验证集为10845,测试集为21687
知识库则是从freebase中抽取的子集FB2M(2,150,604entities, 6,701 predicates, 14,180,937 atomic fact triples,FB5M(4,904,397entities, 7,523 predicates, 22,441,880 atomic fact triples)
实验评价指标为准确率,仅当问题对应的事实与模型得到的实体和谓词两者都匹配时,才算准确匹配。
从实验结果上看,本文方法相对过去的工作,取得了非常明显的提升。
论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识图谱问答,自然语言处理。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。
点击阅读原文,进入 OpenKG 博客。