论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

文章目录

  • 摘要
  • Introduction
    • 最近工作
      • 基于PRA的其他方法
      • 其他使用强化学习的方法
    • 我们的方法
  • 方法介绍(强化学习

摘要

研究了大规模知识图的学习推理问题。更具体地说,我们描述了一个用于学习多跳关系路径的新型强化学习框架:我们使用一个基于知识图嵌入的具有连续状态的基于策略的代理,该代理通过采样最有希望的关系来扩展其路径,从而在KG向量空间中进行推理。与之前的工作相比,我们的方法包含一个考虑准确性、多样性和效率的奖励函数。实验结果表明,该方法优于基于路径排序的算法

Introduction

  • 复杂的自然语言处理问题往往需要多个相互关联的决策,而赋予深度学习模型学习推理的能力仍然是一个具有挑战性的问题

最近工作

  • Path-Ranking Algorithm(PRA)
    • PRA使用基于重启推理机制的随机行走来执行多个有界深度优先搜索过程来寻找关系路径。结合基于弹性网络的学习,PRA使用监督学习选择更合理的路径。
    • 缺点:PRA是在一个完全离散的空间中运行的,这使得在KG中评估和比较相似的实体和关系变得困难
    • 瓶颈:连接大量表单的超节点(连接大量表单的超节点
      • A potential bottleneck for random walk inference is that supernodes connecting to large amount of formulas will create huge fan-out areas that significantly slow down the inference and affect the accuracy.(随机行走推理的一个潜在瓶颈是连接大量公式的超级节点会产生巨大的扇出区域,这会显著降低推理速度并影响推理的准确性。)
      • 降低速度和准确性

基于PRA的其他方法

  • Toutanova等(2015)提出了一种针对多跳推理的卷积神经网络解决方案。他们构建了一个基于词法化依赖路径的CNN模型,该模型存在解析错误导致的错误传播问题。
  • Guu等(2015)使用KG嵌入来回答路径查询。
  • Zeng et al.(2014)描述了一种用于关系提取的CNN模型,但是它并没有明确的对关系路径进行建模。
  • Neelakantan等人(2015)提出了一种递归神经网络模型,用于知识库完成(KBC)中关系路径的建模,但是它训练了太多的独立模型,并且因此它不具有可伸缩性。
  • 注意,最近的许多KG推理方法(Neelakantan et al., 2015;(Das et al., 2017)仍然依赖于首次学习PRA路径,它只在离散空间中运行。

其他使用强化学习的方法

  • 神经符号机器(Liang et al., 2016)是KG推理的最新成果,它也应用了强化学习,但与我们的工作有不同的风格。NSM学习编写可以找到自然语言问题答案的程序,而为了得到答案,NSM学习生成一个可以组合成可执行程序的操作序列,NSM中的操作空间是一组预定义的令牌

  • 使用

我们的方法

  • 强化学习
  • 策略梯度训练
  • 连续空间:基于TransE
    • 首次提出了学习知识图中关系路径的强化学习方法;
    • 我们的学习方法使用一个复杂的奖励函数,同时考虑准确性、效率和路径多样性,在寻路过程中提供更好的控制和更大的灵活性;
    • 我们证明,我们的方法可以扩展到大规模的知识图,在两个任务中都优于PRA和KG嵌入方法。
  • 优点:与PRA相比,我们的方法是在一个连续的空间中推理,通过在奖励函数中加入各种标准,我们的强化学习(RL)框架对寻路过程有更好的控制和更大的灵活性。
  • 与NSM比:
    • 我们的RL模型则尝试通过现有的KG三元组推理向知识图(KG)中添加新的事实。
    • 在我们的框架中,目标是找到推理路径,因此动作空间是KG中的关系空间。
  • DQN比:
    • 与Deep Q Network (DQN) (Mnih et al., 2013)相比,基于策略的RL方法更适合我们的知识图场景。原因之一是,对于KG中的寻路问题,由于关系图的复杂性,使得动作空间非常大。这可能导致DQN收敛性差。此外,该策略网络可以学习一个随机策略,避免agent陷入中间状态,而不是学习DQN等基于值的方法中常见的贪婪策略

方法介绍(强化学习

In this section, we describe in detail our RL-based framework for multi-hop relation reasoning. The specific task of relation reasoning is to find reliable predictive paths between entity pairs. We formulate the path finding problem as a sequential decision making problem which can be solved with a RL agent. We first describe the environment and the policy-based RL agent. By interacting with the environment designed around the KG, the agent learns to pick the promising reasoning paths. Then we describe the training procedure of our RL model. After that, we describe an efficient path-constrained search algorithm for relation reasoning with the paths found by the RL agent.
在本节中,我们将详细描述基于rl的多跳关系推理框架。关联推理的具体任务是在实体对之间找到可靠的预测路径。我们将寻径问题描述为一个可以用RL代理来解决的顺序决策问题。我们首先描述环境和基于策略的RL代理。通过与围绕KG设计的环境交互,代理学会选择有希望的推理路径。然后描述了RL模型的训练过程。然后,我们描述了一个有效的路径约束搜索算法,用RL代理找到的路径进行关系推理。
在这里插入图片描述

  • 环境:(S,A,P,R)

  • R-奖励

    • 全局精度:走一步-1,到目的地+1
      • 因为错误决策比正确决策多得多
    • path effeciency:希望走短路径
      • reffeciency=1lengthr_{effeciency}=\frac{1}{length}reffeciency=length1
    • path diversity:希望保证路径多样性
      • rdiversity=−1∣F∣Σi=1∣F∣cos(p,pi)p=Σi=1nri,r是关系r_{diversity}=-\frac{1}{|F|}\Sigma_{i=1}^{|F|}cos(p,p_i)\\p=\Sigma_{i=1}^nr_i,r是关系rdiversity=F1Σi=1Fcos(p,pi)p=Σi=1nri,r
  • S-状态-实体所在的位置st=(et,etarget−et)s_t=(e_t,e_{target}-e_t)st=(et,etargetet)

  • A-行动(边,关系)

  • 转移矩阵:P(si+1∣si,ai)P(s_{i+1}|s_i,a_i)P(si+1si,ai)

  • 采取行动的概率:π(s,a)=p(a∣s)\pi(s,a)=p(a|s)π(s,a)=p(as)

  • 网络:全连接网络

  • 2个隐层“:relu

  • 输出层:sofmax

  • 可能路径太多

    • AlphaGo:AlphaGo首先使用专家棋训练一个有监督的策略网络。
    • 我们:使用随机的广度优先搜索(BFS)训练监督策略。
  • 监督学习部分:

  • 对于每个关系,我们使用所有正样本的子集(实体对)来学习监督策略。对于每个阳性样本(esource、etarget),将执行一个双边BFS,以在实体之间找到相同的正确路径。对于每条路径p与关系序列r1→r2→…→rn,我们更新参数θ最大化预期累积奖励使用蒙特卡罗策略梯度

  • 总奖励:在这里插入图片描述

  • 梯度:在这里插入图片描述

  • 然而,普通的BFS是一种偏爱短路径的有偏搜索算法。当插入这些有偏差的路径时,代理很难找到可能有用的更长的路径。我们希望这些路径只由已定义的奖励函数控制。为了防止偏置搜索,我们采用了一个简单的技巧,向BFS中添加一些随机机制。我们没有直接搜索esource和etarget之间的路径,而是随机选择一个中间节点einter,然后在(esource, einter)和(einter, etarget)之间执行两个BFS。连接的路径用于训练代理。监督学习为agent节省了从失败行为中学习的大量精力。有了这些经验,我们就可以训练代理去寻找合适的路径。

  • 然后再训练
    在这里插入图片描述

  • Bi-directional Path-constrained Search减少中间节点个数(验证)
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481605.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

万字因果推断入门:为什么要做因果推断?

来源:PaperWeekly1、为什么需要因果推断1.1 辛普森悖论首先,考虑一个与现实情况很相关的例子:针对某种新冠病毒 COVID-27,假设有两种疗法:方案 A 和方案 B,B 比 A 更稀缺(耗费的医疗资源更多&am…

论文学习2-Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforce

文章目录摘要介绍相关工作方法Mean Selection Rate (MSR) and Mean Replacement Rate (MRRIncorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement Learning摘要 知识图(KG)推理的目的是寻找关系的推理路径,以解决K…

报告下载:《2022城市大脑首部建设标准资料汇总》

2022年9月1日,中国指挥与控制学会正式发布城市大脑首批三项标准,这部《2022城市大脑首部建设标准资料汇总》除了包含发布的三项标准全文内容,还汇总了城市大脑标准研究团队2022年以来的相关研究资料,完整内容包括:1. 解…

nlp3-有限自动机FLandFA

文章目录1形式语言1.2形式语言3推导3.1句型、句子、语言3.2文法3.3派生树与二义性4有限自动机和正则文法4.1确定的有限自动机DFA4.2不确定的有限自动机NFA4.3有限自动机<>正则文法5.下推自动机PDA和上下文无关文法CFG5.1PDA5.1.1 PDA的例子.5.2 其他自动机5.2.1 区别6. 有…

经常看蓝色的东西能提升智力?科学研究发现,蓝色能改变意识状态

来源&#xff1a;科学的乐园我们的宇宙是一个“多姿多彩”的美丽时空&#xff0c;从人类睁开眼的那一刻开始&#xff0c;映入眼帘的就是一个五颜六色的世界。根据科学家的统计&#xff0c;人眼可以识别的电磁波频段包含100多万种“组合颜色”。这要归功于我们视觉系统得天独厚的…

论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention

文章目录1 当前不足2. 本文的想法3.相关工作4.KNET4.1encoder4.2类型预测4.3attention5.实验6.以后Improving Neural Fine-Grained Entity Typing with Knowledge Attention用于&#xff1a;Fine-grained entity typing细粒度实体类型(它将实体划分为大量细粒度类型&#xff0c…

深度学习和因果如何结合?北交最新《深度因果模型》综述论文,31页pdf涵盖216篇文献详述41个深度因果模型...

来源&#xff1a;专知北京交通大学最新《深度因果模型》综述论文&#xff0c;31页pdf涵盖216页pdf详述41个深度因果模型&#xff0c;值得关注&#xff01;因果关系概念在人类认知中起着重要作用。在过去的几十年里&#xff0c;因果推理在计算机科学、医学、经济学和教育等许多领…

论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification

文章目录1.introduction2.相关工作3. 本文model3.1general model3.2 mention represent3.3 context model3.3.1 averaging encoder3.3.2 LSTM encoder3.3.3 Attention Encoder4. 实验在这项工作中&#xff0c;我们提出了一种新的基于注意的神经网络模型来完成细粒度实体类型分类…

脑机接口技术或将纳入美出口管制?技术成熟度与军用进展情况

来源&#xff1a; 学术plus 编译&#xff1a;学术plus高级观察员 TAO2022年9月&#xff0c;美国国会的下属机构政府问责局&#xff08;Government Accountability Office, GAO&#xff09;发布了题为《脑机接口》&#xff08;Brain-Computer Interfaces&#xff09;的焦点…

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平

来源&#xff1a;AI科技评论作者&#xff1a;黄楠编辑&#xff1a;陈彩娴9月21日&#xff0c;OpenAI 发布了一个名为「Whisper 」的神经网络&#xff0c;声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。「Whisper 」式一个自动语音识别&#xff08;ASR&#xff09;系…

论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching

文章目录摘要1.Introduction2. 介绍两个概念2.1 Dynamic Heterogeneous Network Model动态异构网络模型2.2 时间随机游走3NODE2BITS:基于散列的Emdedding框架3.1 采样时间随机游动和定义时间上下文3.2 基于多维特征的时态语境&#xff08;上下文3.3基于特征的上下文聚合和散列4…

谷歌科学家亲讲:具身推理如何实现?让大模型「说」机器人的语言

来源&#xff1a;智源社区整理&#xff1a;戴一鸣导读&#xff1a;机器人领域已经发展了三四十年&#xff0c;但应用方面的进展较慢。这是因为&#xff0c;机器人建立在这样一个假设上&#xff1a;工作环境是简单可控的。如果将机器人部署到稍微复杂一些的环境&#xff08;如家…

论文学习6-(M2DNE)Temporal Network Embedding with Micro- and Macro-dynamics

文章目录1 intorduction2. 相关工作3. 准备工作4.model4.2 Micro-dynamics Preserved Embedding4.2.1 分层时间关注4.3 Macro-dynamics Preserved Embedding4.3.1链接速率4.3.2 宏观约束联合5. 实验网络嵌入的目的是将节点嵌入到低维空间中&#xff0c;同时捕获网络的结构和属性…

蒲慕明院士:我们为什么要探索人脑的奥秘

来源&#xff1a;学习时报作者简介蒲慕明&#xff0c;1948年出生&#xff0c;中国科学院院士&#xff0c;美国科学院外籍院士&#xff0c;现任中国科学院脑科学与智能技术卓越创新中心学术主任&#xff0c;上海脑科学与类脑研究中心主任。他是国际著名的神经生物学家和生物物理…

论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)

文章目录Introduction2. 相关工作3. 本文的model3.1 Preliminaries3.2建立问题3.3闲鱼图上的异构卷积网络3.3.1Aggregation Sub-layer3.3.2 Time-related Sampling3.3.4将图形网络与文本分类模型相结合。3.4 GCN-based反垃圾邮件模式4.实验Introduction ppt 任务&#xff1a;…

新型AI芯片 其能效或是替代品的两倍

DAVID BAILLOT/UNIVERSITY OF CALIFORNIA SAN DIEGO来源&#xff1a;IEEE电气电子工程师在软件和硅中复制人脑是人工智能&#xff08;AI&#xff09;研究的长期目标。虽然神经形态芯片在能够同时运行多个计算方面取得了重大进展&#xff0c;并且既能计算也能存储数据&#xff0…

论文学习8-How Question Generation Can Help Question Answering over Knowledge Base(KBQA-知识问答)

文章目录abstract1.introduction2. our approach2.2 微调fine tuning3.Model3.1QA Model3.2QG modelabstract 本文研究了基于知识库的问答系统的性能改进问题生成技术。问题生成(question generation, QG)的任务是根据输入的答案生成相应的自然语言问题&#xff0c;而问答(ques…

1575万美元!2023科学突破奖揭晓,AlphaFold、量子计算等突破斩获殊荣

来源&#xff1a;FUTURE远见选编&#xff1a;FUTURE | 远见 闵青云 2022年9月22日&#xff0c;科学突破奖基金会宣布了2023科学突破奖&#xff08;Breakthrough Prize&#xff09;的获奖名单。科学突破奖有「科学界的奥斯卡」之称&#xff0c;它表彰在生命科学、基础物理学和数…

nlp4-语料库

文章目录1. 语料库2.建设中的问题3.典型语料库介绍1. 语料库 语料库(corpus) 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。基于语料库进行语言学研究&#xff0d;语料库语言学(corpus linguistics) 根据篇章材料对语言的研究称为语料库语言学不是新术语&#xff1a;…

费曼:任何伟大的科学成就,都源于思想自由

来源&#xff1a;群学书院理查德菲利普斯费曼&#xff08;Richard Phillips Feynman&#xff0c;1918-1988&#xff09;&#xff0c;美籍犹太裔物理学家&#xff0c;加州理工学院物理学教授&#xff0c;1965年诺贝尔物理奖得主。>>>>费曼1939年毕业于麻省理工学院&…