论文学习8-How Question Generation Can Help Question Answering over Knowledge Base(KBQA-知识问答)

文章目录

  • abstract
  • 1.introduction
  • 2. our approach
    • 2.2 微调fine tuning
  • 3.Model
    • 3.1QA Model
    • 3.2QG model

abstract

本文研究了基于知识库的问答系统的性能改进问题生成技术。问题生成(question generation,
QG)的任务是根据输入的答案生成相应的自然语言问题,而问答(question answer,
QA)则是针对给定的问题寻找合适答案的逆向任务。对于KBQA任务,可以将答案视为包含一个谓词和知识库中的两个实体的事实。培训一个有效的KBQA系统需要大量的标记数据,这些数据很难获取。而经过训练的KBQA系统在回答训练过程中不可见谓词对应的问题时仍然表现不佳。为了解决这些问题,我们提出了一个统一的框架,在知识库和文本语料库的帮助下,将QG和QA结合起来。首先在金数据集上对质量保证(QA)和质量保证(QG)模型进行联合训练,然后利用由质量保证(QG)模型构建的补充数据集,借助文本证据对质量保证(QA)模型进行微调。我们使用Freebase知识库对两个数据集SimpleQuestions和WebQSP进行了实验。实证结果显示,我们的架构改善了KBQA的绩效,并与最先进的架构相媲美,甚至更好。

任务:使用问题生成和QA系统训练,达到半监督训练QA的目的

1.introduction

  • KBQA:
    • 自然语言提问
    • 翻译成–>(subj实体,rel关系,obj答案)
    • 将关系和实体链接到知识库中
    • 挑战
      • 开放领域下许多问题没见过
      • 需要许多训练数据
      • 关系检测更难
      • 实体链接难
  • 问题生成:由答案A生成相应q
  • 受启发
    • 利用问题生成(QG)来帮助阅读理解[16]和
    • 回答选择句子[14]任务

在这项工作中,我们提出了一个统一的框架来结合QA和QG通过两个组件,包括双重学习和微调。与[14]类似,我们首先利用QA和QG之间的概率相关性来联合训练它们的模型。由于答案a在[14]中是一个句子,而在我们的KBQA任务中是一个三元组,所以我们设计了不同的方法来计算概率公式中相应的项。为了解决不可见谓词和短语的挑战,我们提出了一个微调组件。利用复制操作[10]和来自Wikipedia的文本证据,我们训练了一个序列到序列的模型,该模型可以根据从知识库中提取的三元组生成不可见谓词的问题。此外,可以通过提供生成的问题和从知识库中提取的三元组来优化QA模型

  • 方法总述:
    • 统一的框架来结合QA和QG通过两个组件,包括双重学习和微调
    • 首先利用QA和QG之间的概率相关性来联合训练它们的模型
    • 微调组件(解决不可见谓词和短语的挑战)
      • 利用复制操作[10]和来自Wikipedia的文本证据,我们训练了一个序列到序列的模型,该模型可以根据从知识库中提取的三元组生成不可见谓词的问题
    • 可以通过提供生成的问题和从知识库中提取的三元组来优化QA模型
  • 本文贡献
    • 首先,与以往的阅读理解和句子选择任务不同,我们研究了如何利用factoid QG来帮助KBQA任务。
    • 其次,我们框架中的微调组件可以解决KBQA任务中不可见谓词和短语的挑战。
    • 第三,实证结果表明,我们的框架改进后的KBQA系统与目前的水平相当,甚至更好

2. our approach

  • 这项工作包括两个任务,

  • 包括问题回答(QA)和

    • 在自然语言处理社区中,QA任务可以分为基于知识的和基于文本的。
      • KBQA中的答案是知识库中的一个事实,–本文关注这个–转化为评分fqa(q,a)f_{qa}(q,a)fqa(q,a)和排名问题
      • 而文本QA中的答案是给定文档中的一个句子
  • 问题生成(QG)。

  • fqa(q,a)f_{qa}(q,a)fqa(q,a):q和a的关联性

  • QA–简化为关系检测任务

    • 假设实体已经检测到了,再找到关系,就可以确定答案a
    • 输入
      • 问题q
      • 候选关系R={r1,r2,…,rn}
    • 输出
      • 最有可能的候选关系ri
  • QG

    • 输入:以一个句子或一个事实a作为输入,
    • 输出:一个问题q,
    • 这个问题q可以由a来回答。
    • 在这项工作中,我们把QG看作一个生成问题,并开发了一个序列到序列的模型来解决它。我们的QG模型简称为Pqg(q|a),其中输出的是产生问题q的概率。
  • 通常,我们的框架由两个组件组成。

    • 第一个是双学习组件,利用QA和QG之间的概率相关性,尝试将QA/QG模型的参数在训练过程中引导到更合适的方向。
    • 第二个是微调组件,旨在通过使用文本语料库和知识库三元组涉及QG模型,增强QA模型处理不可见谓词和短语的能力。
    • 我们的框架是灵活的,不依赖于特定的QA或QG模型。
  • 最近的工作[14]提出了一个双重学习框架,通过利用QA和QG之间的概率相关性作为正则化项来联合考虑问题回答(QA)和问题生成(QG),从而改进这两个任务的训练过程。我们的直觉是,特定于qa的信号可以增强QG模型,不仅生成字面上类似的问题字符串,而且生成可以由答案回答的问题。反过来,QG可以通过提供额外的信号来改进QA,这些信号代表给出答案后产生问题的概率。训练的目标是共同学习QA模型参数θqa和QG模型参数θqg,通过减少他们的受到以下限制的损失函数。
  • 约束
    在这里插入图片描述
  • 正则化项
    在这里插入图片描述
  • 使用上述公式的问题
    • KBQA任务中的答案a是一个事实,而不是一个句子。直接利用语言模型计算Pa(a)是不可能的。为了解决这个问题,我们提出了三种方法。
      1. 谓词频率:来表示Pa(a)
      2. 翻译模板
        • [14]使用语言模型来计算问题q和答案a的相对可能性,因为它们都是自然语言。因此,获得Pa(a)的另一种解决方案是将三元组a翻译成自然语言句子sa,然后利用预先训练好的语言模型计算sa的概率
        • 翻译:使用模板
          • 我们首先尝试一个基于模板的方法。
            由于大多数知识库谓词用它们的单词表示来表示等价的意思,所以我们可以将谓词rel分解成单词序列,并根据预定义的模板利用它来构造句子sa。
      3. 用NAG模型翻译[9]
        • 为了多样性
        • 使用与训练好的Natrural Answer Generation model来从a->sa
          在这里插入图片描述

2.2 微调fine tuning

  1. 使用整个训练集来训练QA,QG
    • 对每个三元组ai,我们从wiki文档中收集了一组文本证据来帮助QG模型的训练和推理
  2. 收集文本证据Collecting Textual Evidence:
    • 在关系提取[11]的远程监控设置之后,我们
      • 首先从实体subj的Wikipedia文章中选择包含subject subj和object obj的句子。
      • 然后通过保留出现在subj和obj之间依赖路径上的单词,将这些句子简化为关系意译。我们通过查询知识库来收集subj和obj的实体类型列表。如果一个实体有多个类型,我们选择在所选的句子s或谓词rel中出现的类型。
      • 最后,我们用它们的类型替换subj和obj mention,以学习在语法级别上更一般的关系表示。
    • 在文本证据的帮助下,QG模型能够为不可见的谓词生成问题
  3. 我们可以将生成的问题和采样的三元组作为补充训练集,剩下的问题是如何从知识库中采样三元组。
    • 直观地说,我们从知识库中抽取的三元组越多,QA模型的能力就越强。但是,知识库中的三元组总数太大,有必要研究如何对适当的三元组进行抽样
      • 简单的策略是随机选择三元组。
        • 我们首先获得包含最高k个频率的谓词的候选谓词集R。
        • 然后我们从r中选择谓词m次。对于每个选择的谓词reli,我们查询知识库,随机找到对应的subject subji和obji对,然后我们得到一个三元组
        • 最后,当它有m个三元组时,补集T被完全构建,其中m是一个超参数。
      • 为了避免调优参数m,我们提出一个方法来样品一套无偏三相同的原始数据集的分布。
      • 作为一个前提,我们假设测试集具有相同的分布与知识库,同时有一个小训练集的区别。为了补充训练集,我们通过随机选择创建一个谓词集R。当原始训练集中的每个谓词reli都在r中发生时,选择过程就终止了。之后,我们丢弃所有这些冗余谓词,将剩余的谓词作为补充谓词集。
      • 不重复地包含所有

3.Model

3.1QA Model

我们将在本节中详细描述问答(QA)模型。一般来说,QA模型制定作为fqa
(q)函数估计的正确性给定问题问每个候选人回答。为了方便,我们减少了QA模型关系分类模型和使用谓词rel取代回答一个候选人。相比与其他子任务如KBQA实体连接,关系提取在影响中扮演更重要的角色最终结果[21]。在现有的KBQA方法中,实体链接的准确性相对较高,但是由于不可见的谓词或转述,关系提取的性能不够好

QA->关系分类模型,并且用候选关系rel替代答案a

  • 基于递归神经网络的关系提取模型(RNN)
    • 为了更好地支持不可见的关系,我们将关系名称分解为单词序列,并将关系提取表示为一个序列匹配和排序任务。
    • 输入关系:r={r1,r2,…,rm}–关系名
    • 转化为与训练好的word embedding
    • 输入bilstm–》得到一个隐层表示
    • max pooling:利用最大汇聚层提取最显著的局部特征,形成固定长度的全局特征向量,得到最终的关系表示hr
    • 同样的nn得到hq,计算余弦相似度cos(hr,hq)
    • 为了语法上更一般的表示,实体替换为
      • 丢失了实体信息,会混淆模型
      • 将类型表示与问题表示连接起来
      • 可提高性能
  • 使用排名训练方法对上述模型进行训练,使得对问题q,正确的关系r+得分高,错误的关系r-,得分低(在候选关系中),损失函数如下
    在这里插入图片描述

3.2QG model

  • q={w1,w2,…,wn},a={s,p,o}
    在这里插入图片描述
  • 我们将QG问题作为一种翻译任务来处理,并采用了编解码器结构来解决它
    • encoder:a->编码为embedding,使用transE–>hf=[hs;hp;ho]h_f=[h_s;h_p;h_o]hf=[hs;hp;ho]
    • decoder:hf=[hs;hp;ho]h_f=[h_s;h_p;h_o]hf=[hs;hp;ho]->生成问题q
  • QG模型应该能够生成具有不可见谓词的三元组的问题
    • 在[6]之后,我们将介绍一个文本编码器。对于每个事实a,我们收集n个文本证据D = {d1, d2,…, dn}来自wiki文档。使用一组具有共享参数的n个门控递归神经网络(GRU)对每个文本证据进行编码。第j个文本证据中第i个词的隐藏状态计算为
    • encoder:GRU
      在这里插入图片描述
  • EdE_dEd:预训练好的词嵌入矩阵
  • wijw_i^jwij是dj的one-hot
  • EdwijE_dw_i^jEdwij:是dj的向量表示
  • 隐层状态表示:、在这里插入图片描述
  • decoder:带attention的GRU
    • 给定一组编码的输入向量I = {h1, h2,…, hk}和
    • 解码器先前的隐藏状态st−1,
    • attention的
    • 其中va、Wa、Ua为注意力模块的可训练权重矩阵。然后我们计算所有文本证据中所有标记的总体注意
      在这里插入图片描述
      在这里插入图片描述

最近在NMT上的工作使用复制动作[10]来处理罕见/未知的单词问题。它将具有特定位置的单词从源文本复制到输出文本。我们利用这个机制来解决不可见谓词的问题。
我们采用了[6]的一个变体,它使用相同的POS标签复制单词,而不是使用特定的位置。这可以提高我们的QG模型的泛化能力。在每个时间步骤中,解码器选择从词汇表中输出一个单词,或从文本证据中输出一个表示复制操作的特殊令牌。这些特殊的标记在输出之前用它们原来的单词替换

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481588.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1575万美元!2023科学突破奖揭晓,AlphaFold、量子计算等突破斩获殊荣

来源:FUTURE远见选编:FUTURE | 远见 闵青云 2022年9月22日,科学突破奖基金会宣布了2023科学突破奖(Breakthrough Prize)的获奖名单。科学突破奖有「科学界的奥斯卡」之称,它表彰在生命科学、基础物理学和数…

nlp4-语料库

文章目录1. 语料库2.建设中的问题3.典型语料库介绍1. 语料库 语料库(corpus) 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。基于语料库进行语言学研究-语料库语言学(corpus linguistics) 根据篇章材料对语言的研究称为语料库语言学不是新术语:…

费曼:任何伟大的科学成就,都源于思想自由

来源:群学书院理查德菲利普斯费曼(Richard Phillips Feynman,1918-1988),美籍犹太裔物理学家,加州理工学院物理学教授,1965年诺贝尔物理奖得主。>>>>费曼1939年毕业于麻省理工学院&…

nlp5-n-gram/语言模型(数据平滑方法

文章目录1.句子的先验概率1.1 n-gram2. 参数估计3. 数据平滑3.1 数据平滑度方法3.1.1加1法3.1.2减1.句子的先验概率 这个联合概率太小了 窗口越大,共现的可能性越小参数多 解决:等价类 不看所有的历史信息只看部分历史信息,但看所有的历史等价…

《科学》:3.8亿年前的心脏,揭示生命演化历史

来源:学术经纬编辑 :药明康德内容微信团队一颗3.8亿年前的心脏,可以告诉我们什么?在一篇近期的《科学》论文中,由澳大利亚科廷大学领导的研究团队借助最新的研究工具,从一枚有颌鱼化石中揭示了清晰的心脏、…

论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF

文章目录1.Introduction2 model2.1 LSTM2.2BI-LSTMBPTT2.3 CRF2.4 LSTM-CRF参考文献本篇论文介绍了LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络,比较将它们用于自然语言处理的性能与准确率。重点介绍了BI-LSTM-CRF网络。1.Introduction 序列标…

从连接组学到行为生物学,AI 助力使从图像中提取信息变得更快、更容易

来源:ScienceAI编辑:白菜叶一立方毫米听起来并不多。但在人脑中,这一体积的组织包含约 50,000 条由 1.34 亿个突触连接的神经「线路」。Jeff Lichtman 想追踪所有这些。为了生成原始数据,他使用了一种称为串行薄层电子显微镜的协议…

论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型

文章目录abstract1.introduction2. 相关工作2.1 命名实体识别2.2 关系抽取2.3 实体关系联合抽取模型3.联合模型3.1 Embedding层3.2 bilstm--编码层3.3 命名实体识别3.4 多头选择的关系抽取模型3.5. Edmonds’ algorithmJoint entity recognition and relation extraction as a …

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

来源:AI科技评论作者:李梅、黄楠编辑:陈彩娴AI 作画很牛,但它并不理解图像背后的世界。自从 DALL-E 2 问世以来,很多人都认为,能够绘制逼真图像的 AI 是迈向通用人工智能(AGI)的一大…

论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习

文章目录1. introduction2.相关工作3.Model3.1 Joint learning as head selection3.2 AT4.实验设置5.结果6.总结实体关系抽取模型对抗学习. 论文链接 code Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” ar…

【前沿技术】美国脑计划2.0!投5亿美元,绘制史上最全人脑地图

来源:智能研究院【新智元导读】今天,脑科学计划宣布启动的「细胞图谱网络项目」,目标是绘制世界上最全面的人类大脑细胞图谱。这种雄心,堪比当年的人类基因组计划。今天,美国国立卫生研究院(NIH&#xff09…

HMM总结

文章目录4.HMM-->CRF4.1 HMM--是个序列4.1.1 推断问题(evaluate)4.1.2 viterbi decoding解码4.1.3 学习,参数估计4.1.4计算实例4.1.5 EM(baum-welch算法)的上溢出和下溢出概率图模型code4.HMM–>CRF 4.1 HMM–是个序列 x-观测到的条件…

南科大本科生在《物理评论快报》发文,实现由不定因果序驱动的量子冰箱

来源:FUTURE远见选编:FUTURE | 远见 闵青云 近日,南方科技大学物理系师生在实验中实现了由不定因果序驱动的量子冰箱。相关成果以「Experimental realization of a quantum refrigerator driven by indefinite causal orders」为题发表在《物…

论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(CRF

文章目录abstract1.introduction1.2 条件模型2.标签偏差问题3.CRF提出条件随机场CRF abstract 我们提出了条件随机场,这是一个建立概率模型来分割和标记序列数据的框架。相对于隐马尔可夫模型和随机语法,条件随机场在这类任务中有几个优势,…

杨振宁六大数理工作赏析 | 祝贺杨先生百岁华诞

来源:返朴撰文:林开亮我的物理学界同事大多对数学采取功利主义的态度。也许因为受我父亲的影响,我较为欣赏数学。我欣赏数学家的价值观,钦佩数学的优美和力量:它既有战术上的随机应变,又有战略上的深谋远虑…

论文学习13Reconstructing the house from the ad: Structured prediction on real estate classifieds(实体关系抽取)

文章目录abstractIntroduction2. 相关工作3.房地产结构预测3.1问题形式化3.2 结构预测模型3.2.1 序列标注问题3.2.2 part-of tree constructLocally trained model (Threshold/Edmonds)Globally trained model (MTT)Transition-based dependency parsing (TB)4.实验5.pipeline总…

优化|深度学习或强化学习在组合优化方面有哪些应用?

来源:图灵人工智能前 言深度强化学习求解组合优化问题近年来受到广泛关注,是由于其结合了强化学习(Reinforcement learning)强大的决策(decision-making)能力和深度学习(deep learning)的各种模型(RNN、Transformer、GNN等等)强大的信息提取表征能力(r…

论文学习14-End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures(端到端实体关系抽取)

文章目录abstract1.introduction2.相关工作3.model3.1嵌入层3.2 序列层3.3实体检测3.4 依赖层3.5 Stacking Sequence and Dependency Layers3.6关系分类3.7 训练4 实验总结本文:Miwa, M. and M. Bansal “End-to-End Relation Extraction using LSTMs on Sequences …

人工智能在基因组学市场增长机会以及整个基因组学领域的最新技术

来源:ScienceAI编译:萝卜皮人工智能等最新技术浪潮已经触及几乎所有行业和企业的海岸。基因组学领域也不例外。在 2020-2030 年的评估期内,最新技术在基因组学领域的日益普及将被证明是基因组学市场人工智能的主要增长贡献者。基因组学可以定…

论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)

文章目录abstract1 introduction2.方 法2.1实体关系表(Figure-2)2.2 The Table Filling Multi-Task RNN Model2.3 Context-aware TF-MTRNN model2.4 Piggybacking for Entity-Relation Label Dependencies2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)3.Mode…