泽宇个人一直认为强化学习是建模动态系统最好的方法之一，通过与环境的不断交互，在动作选择和状态更新的动态过程中逐渐达到优化目标。因此，本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容，包括知识图谱推理、自动驾驶、时序推理、对话式问答系统和推荐系统。

1 知识图谱推理

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.

Wenhan Xiong, Thien Hoang, and William Yang Wang

核心贡献：这篇论文是最早将强化学习应用于知识图谱推理的研究。由于基于路径的知识图谱推理需要在知识图谱中找到能够从头实体走到尾实体的一条多跳路径，这个路径搜索的过程就可以看成是一个马尔可夫决策过程，因此很自然的可以想到用强化学习来建模这个马尔可夫决策过程。这篇论文通过巧妙的设计了一个奖励函数，保证在知识图谱推理中能够同时考虑精度、多样性和效率。

这个任务简单来说可以看成是一个简单的问答系统，给定一个实体和关系，智能体在不断交互中从知识图谱中找到一条连通给定实体和答案实体的路径，且这条路径能够很好的表示给定的关系。

了解强化学习基本概念的朋友应该知道，强化学习具体的方法主要有深度Q网络（DQN）和基于策略梯度的方法（Policy-based），其中基于策略梯度的方法更满足知识图谱路径搜索的任务要求，而基于策略梯度的方法最核心的几个组成部分包括：环境、动作（Actions）、状态（States）、奖励（Rewards）、策略网络（Policy Network）。接下来，针对这篇论文分别介绍这几个部分对应的内容。

环境：整个知识图谱就是强化学习任务中的环境，需要从知识图谱中找到满足目标的路径。

动作：所有的关系组成动作空间，每一步智能体选择“下一步走向何方”其实就是在选择当前实体关联的哪一个关系。

状态：智能体的状态就是智能体当前在知识图谱中所处的位置，状态向量包括当前实体embedding和当前实体与目标实体embedding的距离。

奖励：奖励可以评价当前所处状态的质量，这篇论文中用三种评价指标来定义奖励，包括：

全局精度：站在全局的角度来看，如果智能体走到这一步之后的路径能否到达目标实体。

路径效率：通过观察发现短路径比长路径更加可靠，因此可以用路径的长度来衡量推理效率。

路径多样性：为了让每一次训练选择的路径能够更加多样，而不是重复选择到之前已经走过的路径，定义当前路径与已存在路径之间的多样性。

策略网络：这里策略网络的设计就是一个两层的全连接网络，将当前状态向量映射为可能动作的分布概率。

训练过程中，为了加速强化学习的收敛，类似于AlphaGo，这篇论文也采用了广度优先搜索学习有监督的策略，然后用蒙特卡洛策略梯度更新参数，更多的训练细节详见论文。

之后也有一些研究在这篇论文的基础上进行了改进，总体框架都是一样的，知识加入了一些训练策略，例如action drupout和reward shaping，可以增加动作选择的多样性和提供更有效的奖励函数。此外，还有一些在强化学习的基础上引入逻辑规则来引导路径的搜索。

2 自动驾驶

Reinforcement Learning for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships. ICRA 2021.

Xiaobai Ma, Jiachen Li, Mykel J. Kochenderfer, David Isele, Kikuo Fujimura

核心贡献：这篇论文发表在机器人顶会ICRA，研究了在自动驾驶领域，驾驶员会受到周围车辆的影响的现实情况，通过对驾驶员隐状态中编码先验知识来优化强化学习，并结合周围车辆构建知识图谱进一步采用基于图神经网络的图表示学习方法来更新驾驶员的隐状态，在自动导航任务中加速强化学习的过程。

对应强化学习过程中的几个概念，本研究分别定义：

状态：这里特别的是定义了一个联合状态，包括进入或离开环境的每个车辆自身的位置和速度，及每个车辆邻域车辆信息的表示。

观测值：每个车辆自身状态叠加一个高斯噪声组成观测值。

动作：控制车辆自身速度的选择空间。

转移：车辆自身是通过一个PD控制器跟踪期望的速度来实现轨迹控制。

奖励：奖励函数由任务完成是否完成的打分和速度组成，目标是在尽量快的速度下完成车辆右转。

这里特别的是，论文中将建模时间序列模型的LSTM和图表示学习中的GraphSAGE结合，实现对于动态车辆及周围邻域车辆状态的表示学习，顶层LSTM网络的输出就是动作分布，这个时空GNN网络结构在整个模型的策略网络和隐式推理中都会用到。

3 时序推理

Search from History and Reason for Future: Two-stage Reasoning on Temporal KnowledgeGraphs. ACL 2021.

Zixuan Li, Xiaolong Jin, Saiping Guan, Wei Li, Jiafeng Guo, Yuanzhuo Wang, Xueqi Cheng

核心贡献：这篇论文研究了动态知识图谱的时序推理。通过设计了包含线索搜索和时序推理的两阶段模式，预测未来将发生的事件。在线索搜索阶段，通过强化学习来训练一个集束搜索策略，以从历史事件中推断多条线索。在时序推理阶段，使用基于GCN的时序模型从线索中推理答案。

这里我们重点讨论基于强化学习的线索搜索部分，对应强化学习过程中的几个概念，本研究分别定义：

环境：整个知识图谱就是强化学习任务中的环境。

状态：智能体的状态是一个五元组，其中包含给定需要查询的头实体、关系、时间点和智能体当前到达的实体和时间点。

时间约束的动作：与静态知识图谱不同，动态知识图谱中的时间维度会极大的增加动作空间的规模，并且人类记忆集中在最近的一段时间内。因此，这里动作定义为在智能体当前到达的实体，一段时间区间内的能够到达的（实体，关系，时间点）组成的三元组。

转移：智能体通过动作选择从当前状态更新到新的实体。

奖励：奖励由评价是否达到正确的尾实体的二值奖励和在阶段二中得到的实值奖励组成。

策略网络包括：

编码线索路径的LSTM网络。
计算动作分布的多层感知器。

论文中介绍的随机集束搜索策略和时序推理部分可以详见论文。

4 对话式问答系统

Reinforcement Learning from Reformulations in Conversational Question Answering over Knowledge Graphs. SIGIR 2021

Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum

核心贡献：类似于多轮对话系统，这篇论文研究了对话式问答。利用强化学习从提问和复述的对话流中学习有效信息以从知识图谱中找到正确的答案。论文中设计的模型通过将回答的过程建模为在知识图谱中多个智能体并行游走，如何游走通过策略网络选择的动作决定，策略网络的输入包括对话上下文和知识图谱中的路径。

对应强化学习过程中的几个概念，本研究分别定义：

状态：第t轮的问句表示+之前对话的一个子集作为上下文问句+上下文实体中的其中一个作为智能体出发的起始点。

动作：从当前实体出发的所有路径，每条路径到达的end point实体都是候选答案。

转移：转移函数将状态更新为智能体到达的end point实体。

奖励：奖励函数为二值奖励，如果用户下一次说的是一个新的问题，说明模型给出的回答解决了用户的问题给正向奖励，如果用户下一次说的是相近意图的复述内容，说明没有回答用户的问题给负向奖励。

这篇论文中采用策略梯度训练强化学习模型，由于这个模型中涉及多智能体，动作选择是从每个智能体选择top-k个动作。多个智能体都可能得到候选答案，按照被智能体选择为候选答案的次数对实体进行排序，排名最高的实体为预测的答案。

5 推荐系统

Interactive Recommender System via Knowledge Graph-enhanced Reinforcement Learning. Arxiv 2021.

Sijin Zhou, Xinyi Dai, Haokun Chen, Weinan Zhang, Kan Ren, Ruiming Tang, Xiuqiang He, Yong Yu

核心贡献：这篇论文研究了能够和用户交互的推荐系统。为了处理用户的兴趣变化和逐渐积累的项目，将交互式推荐看成一个决策制定和长期规划的马尔科夫决策问题，就可以将强化学习引入交互式推荐系统。然而强化学习的训练效率较低，为了解决这一问题，利用知识图谱中项目相关的先验知识来指导候选推荐项的选择。

对应强化学习过程中的几个概念，本研究分别定义：

状态：当前项目及其多跳邻域组成的子图。

动作：接下来选择推荐的项目。

转移：转移函数将状态更新为智能体到达的end point实体。

奖励：对于系统传递给用户的推荐项目，根据用户的反馈是“点击”，“购买”还是“跳过”来给定奖励。

由于在强化学习中，状态的表示是非常关键的，这篇论文中提出一个知识图谱增强的状态表示机制。其中，将已经点击的项目转换为embedding表示，并利用GCN对项目在知识图谱中的邻域信息进行聚合更新项目的embedding，得到邻域表示。

进一步，为了编码对用户的观测信息，采用GRU聚合用户的历史行为并蒸馏用户的状态表示，其中得到的当前用户状态的表示可以输入Q网络中。

此外，论文中提出了的一个基于邻域的候选选择机制，从已点击项目在知识图谱中多跳邻域中选择候选推荐项目，可以利用知识图谱提供的语义相关性有效缩小动作空间的大小，便于提高模型的计算效率。

这篇论文采用DQN来学习最优策略，训练整个强化学习模型。

从以上几个不同领域的研究内容可以发现，只要是需要和环境交互的动态系统，都有可能通过强化学习的方法来进行建模，知识图谱不仅可以是强化学习的对象例如知识图谱推理，也可能为强化学习的状态和动作选择提供语义信息得到更好的表示来优化强化学习的过程。

以上就是本期所有对于知识图谱+强化学习的学习分享了。所有内容都是泽宇经过调研和学习理解总结的，之后还会陆续分享知识图谱+各类方向的技术介绍，如果大家有对某个方向感兴趣的可以联系泽宇，敬请关注啊。

往期精选：

“知识图谱+”系列：知识图谱+图神经网络

年末巨制：知识图谱嵌入方法研究总结

介绍一些知识图谱的实际应用类项目

知识图谱最新权威综述论文解读：知识表示学习部分

手把手教你搭建一个中式菜谱知识图谱可视化系统

如果对文章感兴趣欢迎关注知乎专栏“人工智能遇上知识图谱“，也可以扫描下方二维码关注同名微信公众号“人工智能遇上知识图谱”，让我们一起学习并交流讨论人工智能与知识图谱技术。

亚马逊做外贸英文网站/宁海关键词优化怎么优化

1 知识图谱推理

2 自动驾驶

3 时序推理

4 对话式问答系统

5 推荐系统

往期精选：

相关文章

吴恩达 | 未来十年，人工智能将向以数据为中心转变

给几句话就能生成分子，看见分子也能生成描述，神秘的Google X把多模态AI做成了黑科技...

MIT新发现：细胞在分裂前会把垃圾带走

图灵测试其实已经过时了

揭示世界本质的「机器科学家」，比深度神经网络还强？

AI 与合成生物学「联姻」的五大挑战：技术、数据、算法、评估与社会学

物理学家：时间旅行有可能实现，但前提是……

二叉树----数据结构:二叉树的三种遍历及习题

谷歌硬件主管：AR眼镜还在开发，环境计算是未来目标

大脑衰老可逆转，只需注入年轻脑脊液，「返老还童」登Nature

人工智能在苍蝇眼的帮助下监测无人机：新的仿生算法从噪声中提取信号

树的知识点总结-数据结构

NLP预训练范式大一统，不再纠结下游任务类型，谷歌这个新框架刷新50个SOTA

赫夫曼树编码的算法及应用习题--数据结构

吴咏时：未来基础学科发展的“铁三角”

树的叶子结点与完全二叉树结点计算方法

图的知识点总结-数据结构

当物理学遇到机器学习：基于物理知识的机器学习综述

图的遍历——深度优先搜索+广度优先搜索

RISC-V何以成功？