摘要

研究了大规模知识图的学习推理问题。更具体地说，我们描述了一个用于学习多跳关系路径的新型强化学习框架:我们使用一个基于知识图嵌入的具有连续状态的基于策略的代理，该代理通过采样最有希望的关系来扩展其路径，从而在KG向量空间中进行推理。与之前的工作相比，我们的方法包含一个考虑准确性、多样性和效率的奖励函数。实验结果表明，该方法优于基于路径排序的算法

Introduction

复杂的自然语言处理问题往往需要多个相互关联的决策，而赋予深度学习模型学习推理的能力仍然是一个具有挑战性的问题

我们的方法

强化学习
策略梯度训练
连续空间：基于TransE
- 首次提出了学习知识图中关系路径的强化学习方法;
- 我们的学习方法使用一个复杂的奖励函数，同时考虑准确性、效率和路径多样性，在寻路过程中提供更好的控制和更大的灵活性;
- 我们证明，我们的方法可以扩展到大规模的知识图，在两个任务中都优于PRA和KG嵌入方法。
优点：与PRA相比，我们的方法是在一个连续的空间中推理，通过在奖励函数中加入各种标准，我们的强化学习(RL)框架对寻路过程有更好的控制和更大的灵活性。
与NSM比：
- 我们的RL模型则尝试通过现有的KG三元组推理向知识图(KG)中添加新的事实。
- 在我们的框架中，目标是找到推理路径，因此动作空间是KG中的关系空间。
DQN比：
- 与Deep Q Network (DQN) (Mnih et al.， 2013)相比，基于策略的RL方法更适合我们的知识图场景。原因之一是，对于KG中的寻路问题，由于关系图的复杂性，使得动作空间非常大。这可能导致DQN收敛性差。此外，该策略网络可以学习一个随机策略，避免agent陷入中间状态，而不是学习DQN等基于值的方法中常见的贪婪策略。

方法介绍（强化学习

In this section, we describe in detail our RL-based framework for multi-hop relation reasoning. The specific task of relation reasoning is to find reliable predictive paths between entity pairs. We formulate the path finding problem as a sequential decision making problem which can be solved with a RL agent. We first describe the environment and the policy-based RL agent. By interacting with the environment designed around the KG, the agent learns to pick the promising reasoning paths. Then we describe the training procedure of our RL model. After that, we describe an efficient path-constrained search algorithm for relation reasoning with the paths found by the RL agent.
在本节中，我们将详细描述基于rl的多跳关系推理框架。关联推理的具体任务是在实体对之间找到可靠的预测路径。我们将寻径问题描述为一个可以用RL代理来解决的顺序决策问题。我们首先描述环境和基于策略的RL代理。通过与围绕KG设计的环境交互，代理学会选择有希望的推理路径。然后描述了RL模型的训练过程。然后，我们描述了一个有效的路径约束搜索算法，用RL代理找到的路径进行关系推理。
在这里插入图片描述

环境：（S,A,P,R)
R-奖励
- 全局精度：走一步-1，到目的地+1
  - 因为错误决策比正确决策多得多
- path effeciency：希望走短路径
  - $reffeciency=1lengthr_{effeciency}=\frac{1}{length}$
- path diversity:希望保证路径多样性
  - $rdiversity=−1∣F∣Σi=1∣F∣cos(p,pi)p=Σi=1nri,r是关系r_{diversity}=-\frac{1}{|F|}\Sigma_{i=1}^{|F|}cos(p,p_i)\\p=\Sigma_{i=1}^nr_i,r是关系$
S-状态-实体所在的位置 $s_t=(e_t,e_{target}-e_t)$
A-行动（边，关系）
转移矩阵： $P(s_{i+1}|s_i,a_i)$
采取行动的概率： $π(s,a)=p(a∣s)\pi(s,a)=p(a|s)$
网络：全连接网络
2个隐层“：relu
输出层：sofmax
可能路径太多
- AlphaGo：AlphaGo首先使用专家棋训练一个有监督的策略网络。
- 我们：使用随机的广度优先搜索(BFS)训练监督策略。
监督学习部分：
对于每个关系，我们使用所有正样本的子集(实体对)来学习监督策略。对于每个阳性样本(esource、etarget)，将执行一个双边BFS，以在实体之间找到相同的正确路径。对于每条路径p与关系序列r1→r2→…→rn,我们更新参数θ最大化预期累积奖励使用蒙特卡罗策略梯度
总奖励：
梯度：
然而，普通的BFS是一种偏爱短路径的有偏搜索算法。当插入这些有偏差的路径时，代理很难找到可能有用的更长的路径。我们希望这些路径只由已定义的奖励函数控制。为了防止偏置搜索，我们采用了一个简单的技巧，向BFS中添加一些随机机制。我们没有直接搜索esource和etarget之间的路径，而是随机选择一个中间节点einter，然后在(esource, einter)和(einter, etarget)之间执行两个BFS。连接的路径用于训练代理。监督学习为agent节省了从失败行为中学习的大量精力。有了这些经验，我们就可以训练代理去寻找合适的路径。
然后再训练
Bi-directional Path-constrained Search减少中间节点个数（验证）