“知识图谱+”系列:知识图谱+强化学习

泽宇个人一直认为强化学习是建模动态系统最好的方法之一,通过与环境的不断交互,在动作选择和状态更新的动态过程中逐渐达到优化目标。因此,本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容,包括知识图谱推理自动驾驶时序推理对话式问答系统推荐系统

1 知识图谱推理

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.

Wenhan Xiong, Thien Hoang, and William Yang Wang

核心贡献:这篇论文是最早将强化学习应用于知识图谱推理的研究。由于基于路径的知识图谱推理需要在知识图谱中找到能够从头实体走到尾实体的一条多跳路径,这个路径搜索的过程就可以看成是一个马尔可夫决策过程,因此很自然的可以想到用强化学习来建模这个马尔可夫决策过程。这篇论文通过巧妙的设计了一个奖励函数,保证在知识图谱推理中能够同时考虑精度、多样性和效率。

这个任务简单来说可以看成是一个简单的问答系统,给定一个实体和关系,智能体在不断交互中从知识图谱中找到一条连通给定实体和答案实体的路径,且这条路径能够很好的表示给定的关系。

图片

了解强化学习基本概念的朋友应该知道,强化学习具体的方法主要有深度Q网络(DQN)基于策略梯度的方法(Policy-based),其中基于策略梯度的方法更满足知识图谱路径搜索的任务要求,而基于策略梯度的方法最核心的几个组成部分包括:环境动作(Actions)状态(States)奖励(Rewards)策略网络(Policy Network)。接下来,针对这篇论文分别介绍这几个部分对应的内容。

环境:整个知识图谱就是强化学习任务中的环境,需要从知识图谱中找到满足目标的路径。

动作:所有的关系组成动作空间,每一步智能体选择“下一步走向何方”其实就是在选择当前实体关联的哪一个关系。

状态:智能体的状态就是智能体当前在知识图谱中所处的位置,状态向量包括当前实体embedding和当前实体与目标实体embedding的距离。

奖励:奖励可以评价当前所处状态的质量,这篇论文中用三种评价指标来定义奖励,包括:

  • 全局精度:站在全局的角度来看,如果智能体走到这一步之后的路径能否到达目标实体。

  • 路径效率:通过观察发现短路径比长路径更加可靠,因此可以用路径的长度来衡量推理效率。

  • 路径多样性:为了让每一次训练选择的路径能够更加多样,而不是重复选择到之前已经走过的路径,定义当前路径与已存在路径之间的多样性。

策略网络:这里策略网络的设计就是一个两层的全连接网络,将当前状态向量映射为可能动作的分布概率。

训练过程中,为了加速强化学习的收敛,类似于AlphaGo,这篇论文也采用了广度优先搜索学习有监督的策略,然后用蒙特卡洛策略梯度更新参数,更多的训练细节详见论文。

之后也有一些研究在这篇论文的基础上进行了改进,总体框架都是一样的,知识加入了一些训练策略,例如action drupout和reward shaping,可以增加动作选择的多样性和提供更有效的奖励函数。此外,还有一些在强化学习的基础上引入逻辑规则来引导路径的搜索。

2 自动驾驶

Reinforcement Learning for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships. ICRA 2021.

Xiaobai Ma, Jiachen Li, Mykel J. Kochenderfer, David Isele, Kikuo Fujimura

核心贡献:这篇论文发表在机器人顶会ICRA,研究了在自动驾驶领域,驾驶员会受到周围车辆的影响的现实情况,通过对驾驶员隐状态中编码先验知识来优化强化学习,并结合周围车辆构建知识图谱进一步采用基于图神经网络的图表示学习方法来更新驾驶员的隐状态,在自动导航任务中加速强化学习的过程。

对应强化学习过程中的几个概念,本研究分别定义:

状态:这里特别的是定义了一个联合状态,包括进入或离开环境的每个车辆自身的位置和速度,及每个车辆邻域车辆信息的表示。

观测值:每个车辆自身状态叠加一个高斯噪声组成观测值。

动作:控制车辆自身速度的选择空间。

转移:车辆自身是通过一个PD控制器跟踪期望的速度来实现轨迹控制。

奖励:奖励函数由任务完成是否完成的打分和速度组成,目标是在尽量快的速度下完成车辆右转。

图片

这里特别的是,论文中将建模时间序列模型的LSTM和图表示学习中的GraphSAGE结合,实现对于动态车辆及周围邻域车辆状态的表示学习,顶层LSTM网络的输出就是动作分布,这个时空GNN网络结构在整个模型的策略网络和隐式推理中都会用到。

3 时序推理

Search from History and Reason for Future: Two-stage Reasoning on Temporal KnowledgeGraphs. ACL 2021.

Zixuan Li, Xiaolong Jin, Saiping Guan, Wei Li, Jiafeng Guo, Yuanzhuo Wang, Xueqi Cheng

核心贡献:这篇论文研究了动态知识图谱的时序推理。通过设计了包含线索搜索和时序推理的两阶段模式,预测未来将发生的事件。在线索搜索阶段,通过强化学习来训练一个集束搜索策略,以从历史事件中推断多条线索。在时序推理阶段,使用基于GCN的时序模型从线索中推理答案。

图片

这里我们重点讨论基于强化学习的线索搜索部分,对应强化学习过程中的几个概念,本研究分别定义:

环境:整个知识图谱就是强化学习任务中的环境。

状态:智能体的状态是一个五元组,其中包含给定需要查询的头实体、关系、时间点和智能体当前到达的实体和时间点。

时间约束的动作:与静态知识图谱不同,动态知识图谱中的时间维度会极大的增加动作空间的规模,并且人类记忆集中在最近的一段时间内。因此,这里动作定义为在智能体当前到达的实体,一段时间区间内的能够到达的(实体,关系,时间点)组成的三元组。

转移:智能体通过动作选择从当前状态更新到新的实体。

奖励:奖励由评价是否达到正确的尾实体的二值奖励和在阶段二中得到的实值奖励组成。

策略网络包括

  • 编码线索路径的LSTM网络。

  • 计算动作分布的多层感知器。

论文中介绍的随机集束搜索策略和时序推理部分可以详见论文。

4 对话式问答系统

Reinforcement Learning from Reformulations in Conversational Question Answering over Knowledge Graphs. SIGIR 2021

Magdalena Kaiser, Rishiraj Saha Roy, Gerhard Weikum

核心贡献:类似于多轮对话系统,这篇论文研究了对话式问答。利用强化学习从提问和复述的对话流中学习有效信息以从知识图谱中找到正确的答案。论文中设计的模型通过将回答的过程建模为在知识图谱中多个智能体并行游走,如何游走通过策略网络选择的动作决定,策略网络的输入包括对话上下文和知识图谱中的路径。

对应强化学习过程中的几个概念,本研究分别定义:

状态:第t轮的问句表示+之前对话的一个子集作为上下文问句+上下文实体中的其中一个作为智能体出发的起始点。

动作:从当前实体出发的所有路径,每条路径到达的end point实体都是候选答案。

转移:转移函数将状态更新为智能体到达的end point实体。

奖励:奖励函数为二值奖励,如果用户下一次说的是一个新的问题,说明模型给出的回答解决了用户的问题给正向奖励,如果用户下一次说的是相近意图的复述内容,说明没有回答用户的问题给负向奖励。

这篇论文中采用策略梯度训练强化学习模型,由于这个模型中涉及多智能体,动作选择是从每个智能体选择top-k个动作。多个智能体都可能得到候选答案,按照被智能体选择为候选答案的次数对实体进行排序,排名最高的实体为预测的答案。

5 推荐系统

Interactive Recommender System via Knowledge Graph-enhanced Reinforcement Learning. Arxiv 2021.

Sijin Zhou, Xinyi Dai, Haokun Chen, Weinan Zhang, Kan Ren, Ruiming Tang, Xiuqiang He, Yong Yu

核心贡献:这篇论文研究了能够和用户交互的推荐系统。为了处理用户的兴趣变化和逐渐积累的项目,将交互式推荐看成一个决策制定和长期规划的马尔科夫决策问题,就可以将强化学习引入交互式推荐系统。然而强化学习的训练效率较低,为了解决这一问题,利用知识图谱中项目相关的先验知识来指导候选推荐项的选择。

图片

对应强化学习过程中的几个概念,本研究分别定义:

状态:当前项目及其多跳邻域组成的子图。

动作:接下来选择推荐的项目。

转移:转移函数将状态更新为智能体到达的end point实体。

奖励:对于系统传递给用户的推荐项目,根据用户的反馈是“点击”,“购买”还是“跳过”来给定奖励。

由于在强化学习中,状态的表示是非常关键的,这篇论文中提出一个知识图谱增强的状态表示机制。其中,将已经点击的项目转换为embedding表示,并利用GCN对项目在知识图谱中的邻域信息进行聚合更新项目的embedding,得到邻域表示。

进一步,为了编码对用户的观测信息,采用GRU聚合用户的历史行为并蒸馏用户的状态表示,其中得到的当前用户状态的表示可以输入Q网络中。

此外,论文中提出了的一个基于邻域的候选选择机制,从已点击项目在知识图谱中多跳邻域中选择候选推荐项目,可以利用知识图谱提供的语义相关性有效缩小动作空间的大小,便于提高模型的计算效率。

这篇论文采用DQN来学习最优策略,训练整个强化学习模型。

从以上几个不同领域的研究内容可以发现,只要是需要和环境交互的动态系统,都有可能通过强化学习的方法来进行建模,知识图谱不仅可以是强化学习的对象例如知识图谱推理,也可能为强化学习的状态和动作选择提供语义信息得到更好的表示来优化强化学习的过程。

以上就是本期所有对于知识图谱+强化学习的学习分享了。所有内容都是泽宇经过调研和学习理解总结的,之后还会陆续分享知识图谱+各类方向的技术介绍,如果大家有对某个方向感兴趣的可以联系泽宇,敬请关注啊。

往期精选:

“知识图谱+”系列:知识图谱+图神经网络

年末巨制:知识图谱嵌入方法研究总结

介绍一些知识图谱的实际应用类项目

知识图谱最新权威综述论文解读:知识表示学习部分

手把手教你搭建一个中式菜谱知识图谱可视化系统

如果对文章感兴趣欢迎关注知乎专栏“人工智能遇上知识图谱“,也可以扫描下方二维码关注同名微信公众号人工智能遇上知识图谱”,让我们一起学习并交流讨论人工智能与知识图谱技术。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482137.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达 | 未来十年,人工智能将向以数据为中心转变

来源:IEEE Spectrum访者:吴恩达 计算机科学家吴恩达在人工智能领域可谓声名显赫。2000 年底,他与斯坦福大学的学生一起开创了使用图形处理单元(GPU)训练深度学习模型的先河,并在 2011 年共同创立了谷歌大脑…

给几句话就能生成分子,看见分子也能生成描述,神秘的Google X把多模态AI做成了黑科技...

来源:机器学习研究组订阅AIscience 领域近来有了诸多进展。设想一下,医生写几句话来描述一种专门用于治疗患者的药物,AI 就能自动生成所需药物的确切结构。这听起来像是科幻小说,但随着自然语言和分子生物学交叉领域的进展&#x…

MIT新发现:细胞在分裂前会把垃圾带走

来源:生物通 细胞可以利用这种策略清除有毒的副产品,给后代一个干净的环境。麻省理工学院(MIT)的研究人员发现,在细胞开始分裂之前,它们会进行一些清理,将似乎不再需要的分子排出体外。利用他们开发的一种测量细胞干质…

图灵测试其实已经过时了

来源:立委NLP频道图灵测试的实质就是要让人机交互在限定时间内做到真假莫辨。玩过GPT3的同学们都清楚,其实这一点已经做到了。从这个角度看,图灵测试已经过时了。区别人和机器,需要寻找其他的标准。今天就唠一唠正在风口上的预训练…

揭示世界本质的「机器科学家」,比深度神经网络还强?

来源:AI科技评论作者:Charlie Wood编译:王玥、刘冰一编辑:陈彩娴我们正处于“GoPro 物理学”的风口浪尖。无论摄像机聚焦于什么事件,算法都可以识别其中潜在的物理方程。2017 年,西北大学化学与生物工程系的…

AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学

来源:ACM通讯编译:王玥编辑:陈彩娴在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能。赋予了我们细胞遗传密码(DNA)排序能力的基因组革命是这一巨大变化的主要推…

物理学家:时间旅行有可能实现,但前提是……

来源:机器之心作者:Barak Shoshany原文链接:https://phys.org/news/2022-04-parallel-timelines.html时间旅行是科幻电影、小说中经久不衰的话题,然而直到现在,我们依然无法确定这种幻想是否可行。在这篇文章中&#x…

二叉树----数据结构:二叉树的三种遍历及习题

二叉树----数据结构:二叉树的三种遍历,利用递归算法。 关于二叉树的遍历,应用非常广泛,不单单是访问打印结点,还可以进行一系列的操作,如赋值、删除、查找、求二叉树的深度等等。 有递归和非递归两种算法,非递归用到了…

谷歌硬件主管:AR眼镜还在开发,环境计算是未来目标

来源:网易智能5月13日消息,谷歌硬件主管里克奥斯特洛 (Rick Osterloh)日前在接受采访时表示,“环境计算”是谷歌未来的目标和愿景。奥斯特洛周三在接受采访时表示:“计算应该能够无缝帮助你解决任何问题,而且就在你身边…

大脑衰老可逆转,只需注入年轻脑脊液,「返老还童」登Nature

来源:FUTURE远见 选编:闵青云 「老喽,记不住喽。」随着年龄的不断增长,不少人都会发出这样的感叹——记忆力逐渐下降。那么是否存在一种方法,可以让这种自然现象「逆天改命」呢?Nature说:有的。…

人工智能在苍蝇眼的帮助下监测无人机:新的仿生算法从噪声中提取信号

来源:国际仿生工程学会2018年12月,由于有报道称附近有无人机飞行,数千名度假旅客被困在伦敦盖特威克机场。导致这个欧洲非常繁忙的机场关闭了两天,造成重大延误,并使航空公司损失了数百万美元。商业空域中未经授权的无…

树的知识点总结-数据结构

** 一:树的基本术语 1.定义 树是一种非线性结构,只有一个根结点,除根结点外每个孩子结点可以有多个后继,没有后继的结点叫叶子结点。 2.概念 根结点:没有前驱; 孩子:有前驱的结点;…

NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA

来源:机器之心编辑:张倩、小舟在这篇论文中,来自谷歌的研究者提出了一种统一各种预训练范式的预训练策略,这种策略不受模型架构以及下游任务类型影响,在 50 项 NLP 任务中实现了 SOTA 结果。当前,NLP 研究人…

赫夫曼树编码的算法及应用习题--数据结构

赫夫曼树编码的算法及应用习题 1.构造赫夫曼树的方法 1.根据给定的n个权值{w1,w2,---wn},构成n棵二叉树的集合F{T1,T2...,Tn},其中每棵二叉树中只有一个带权为Wi的根结点,其左右子树为空。 2.在F中选取两棵根结点的权值最小的树作为左右子树&#xff…

吴咏时:未来基础学科发展的“铁三角”

来源: 节选自《物理》2022年第5期《圆桌论坛:对21世纪物理学的愿景展望》。2021年9月,在清华大学举行“庆祝杨振宁先生百年华诞思想研讨会”圆桌论坛环节上,美国犹他大学教授吴咏时对今后基础物理学做了一番展望。他指出了基础物理…

树的叶子结点与完全二叉树结点计算方法

一:完全二叉树中结点问题 分析: 设叶子节点个数为n0,度为1的节点个数为n1,度为2的节点个数为n2 侧有 n0n1n2n (1) 对于二叉树有: n0n21 (2) 由(1)(2) > n0(n1-n1)/2 (3) 由完全二叉树…

图的知识点总结-数据结构

一&#xff1a;图的基本概念和术语 1.图之间的关系可以是任意的&#xff0c;任意两个数据元素之间都可能相关。 2.顶点&#xff1a;数据元素。 3.边or弧&#xff1a;从一个顶点到另一个顶点的路径。<V, W>表示弧&#xff0c;&#xff08;V,W&#xff09;表示边&#x…

当物理学遇到机器学习:基于物理知识的机器学习综述

来源&#xff1a;集智俱乐部作者&#xff1a;潘佳栋 审校&#xff1a;梁金编辑&#xff1a;邓一雪摘要物理信息机器学习&#xff08;Physics-informed machine learning&#xff0c;PIML&#xff09;&#xff0c;指的是将物理学的先验知识&#xff08;历史上自然现象和人类行为…

图的遍历——深度优先搜索+广度优先搜索

一&#xff1a;图的遍历——深度优先搜索 在本文其他内容中只是大体概括了主要的图论内容&#xff0c;更加详细的代码实现及算法分析在此给出。 深度优先搜索&#xff08;DFS&#xff09;类似树的先序遍历。 假设初始状态是图中所有顶点未曾被访问&#xff0c;则深度优先搜索…

RISC-V何以成功?

来源&#xff1a;AI前线作者&#xff1a;BRIAN BAILEY译者&#xff1a;王强策划&#xff1a;刘燕RISC-V 处理器架构的诞生毫无疑问让很多人都为之兴奋不已。然而&#xff0c;尽管许多人都说 RISC-V 预示着我们将迎来更广泛的开源硬件运动&#xff0c;但这种架构究竟为什么取得成…