论文浅尝 | 知识图谱的神经符号推理(上)

笔记整理 | 叶橄强,浙江大学在读硕士,研究方向为知识图谱的表示学习和预训练。



知识图谱推理是支撑信息提取、信息检索和推荐等机器学习任务的基础组成部分,并且由于知识图可以看作知识的离散符号表示,自然可以利用符号技术做知识图谱推理任务。但是符号推理对模糊和噪声数据容忍度很低,在真正的应用中受到很多限制。而近年来,深度学习的繁荣促进了知识图谱神经推理的快速发展,它能很好地克服模糊和噪声数据带来的干扰因此具有较强的鲁棒性,但与符号推理相比缺乏解释能力。正因为两种方法各有优缺点,最近不少研究者将这两种推理方法结合起来进行了努力。该论文对符号推理、神经推理和混合推理在知识图上的发展进行了深入的研究,而本文的分享主要聚焦于神经符号混合推理的相关方法。

一、推理方法分类

推理通常有三种主要的组合方法。

(1)神经推理,又称知识图谱嵌入,其目的是学习知识图谱中实体和关系的分布嵌入向量,在给定头实体和关系的情况下,根据嵌入向量推断出答案实体。一般来说,现有的神经推理方法可分为基于翻译的模型、乘法模型和深度学习模型。

(2)符号推理,其目的是从知识图谱中推导出一般的逻辑规则,从给定的头实体派生的实体和遵循逻辑规则的查询关系作为答案返回。现有的符号推理方法主要是基于搜索的归纳逻辑程序设计(Inductive Logic Programming,ILP)方法,通常是对规则进行搜索和剪枝。

(3)神经符号推理,融合了神经推理和符号推理的优点的一种推理方法,在下文中详细阐述。

三种推理方法具体可以参考表1,其中囊括了这三种方法下的主要代表模型

表1 推理方法和知识图谱补全方法汇总

二、神经符号推理

本文的分享主要介绍神经符号推理部分。

神经推理和符号推理有各自的特征并有着显著不同的优缺点:符号推理擅长逻辑推理,具有很强的可解释性,但它很难处理实体和关系的不确定性以及自然语言的模糊性,即对数据噪声的抵抗能力较差;相反,神经网络具有很强的容错行,能够利用嵌入向量学习抽象语义,并通过符号表示来进一步比较和运算这些嵌入向量,而不只是实体和关系之间的字面意义。推理方向的最新进展结合了这两种推理方法,可以将这些研究成果归纳汇总为三种类别。

第一种是以神经推理为目标,利用逻辑规则改进神经推理的嵌入,称为符号驱动神经推理。

第二种是用概率框架代替神经推理,即建立一个概率模型来推断答案,其中逻辑规则被设计为概率模型中的特征,称为符号驱动概率推理。

第三种是通过符号推理来推理规则,但结合了神经网络来处理数据的不确定性和模糊性。这种方法减少了符号推理的搜索空间,称为神经驱动符号推理。

1.符号驱动神经推理

符号驱动神经推理的基本思想是不仅学习知识图谱中原始观察到的三元组上的实体和关系嵌入,而且学习根据一些预定义规则推断出的三元组或基本规则。

(1)KALE模型

KALE模型处理两种类型的规则:

KALE模型找到上述两类规则的所有基本规则,为每个基本规则分配一个分数,表示满足基本规则的可能性,最后学习原始三元组和基本规则的训练集上的实体和关系嵌入。他们采用t-范数模糊逻辑,将规则的真值定义为通过特定的基于t-范数的逻辑连接词将其组成部分的真值组成,以计算基本规则f1的分数⇒ f2组件:

其中f表示一个原子即三元组,或由逻辑运算关联的多个原子组成的公式{∧, ∨, ¬}。如果上述公式中的f是一个三元组,则其得分由TransE方法计算;如果f是一个公式,则其分数被定义为其组成部分分数的组成:

(2)RUGE模型

在KALE模型的基础上,研究人员进一步提出RUGE模型并将一轮规则注入变为迭代方式。RUGE没有直接将基本规则作为KALE的正实例,而是将一些规则派生的三元组作为未标记的三元组注入,以更新实体或者关系嵌入。由于未标记的三元组不一定是真的,研究人员根据当前的嵌入情况预测了每个未标记三元组的概率,然后根据标记的和未标记的三元组更新嵌入。初始规则由AMIE方法获得,这样就可以迭代地计算未标记的三元组评分过程和嵌入更新过程。

(3)Wang等人提出的模型

KALE模型和RUGE模型将规则或公式的分数计算为其组成部分的分数组成,这可能导致规则或公式的高分,即使其中的三元组完全不相关,因为三元组的分数是分开估计的。为了解决这个问题,Wang等人提出将一个三元组或一个基本规则转化为一阶逻辑,然后根据一阶逻辑中包含的实体和关系的嵌入,通过执行一些向量或者矩阵运算对一阶逻辑进行评分。

表2 一阶逻辑的格式

表2展示了一阶逻辑的格式,表3展示了如何用数学表达式对一阶逻辑进行评分。这样,包含在同一规则中的不同组件(即三元组)直接在向量空间中交互,这保证了规则及其编码格式都具有一对一的映射转换。

表3 一阶逻辑的数学表达式

(4)IterE模型

上述三种方法在学习过程中只推理一次规则,然后保持规则不变。因此规则会影响嵌入向量学习,但嵌入向量不利于规则的引用,因此引出IterE模型。

虽然IterE模型也在每次迭代中基于更新的嵌入推断出新的规则,但它具体地推断出新的规则,并从基于实体和关系嵌入的规则中导出新的三元组,然后基于扩展的三元组集更新这些嵌入向量。这两个过程是迭代执行的,新的置信规则是根据它们的分数推断出来的,分数是通过对规则中包含的关系的矩阵执行一些矩阵运算计算出来的。为了获得初始规则池,IterE模型提出了一种剪枝策略,其思想与AMIE方法相似,但结合了遍历和随机选择操作,以平衡潜在规则的搜索过程和高度可能规则的收敛。

2.符号驱动概率推理

符号驱动概率推理将一阶逻辑与概率图形模型相结合,在概率框架下学习逻辑规则的权重,从而有效地处理不确定性。这种方法通常是先将规则接地,即用知识图谱中的任何实体迭代替换规则原子中的变量,直到不能推导出新的事实或者新的三元组,然后将概率附加到基本规则上,从而限定逻辑规则。在某种意义上,逻辑规则的置信度和质量可以定义为预先构建的概率基础图上的概率分布,如图1所示。

图1 两个规则示例和对应的马尔可夫逻辑网络(虚线是与规则R1相关联的组件,实线是与规则R2相关联的组件,灰色节点是要推断的未观察到的三元组)

符号驱动概率推理设计概率模型来度量规则的置信度,而不是利用嵌入技术来限定规则。在这一节中,我们介绍了两种典型的概率模型,马尔科夫逻辑网络(和ProbLog来解释这类方法的特点,然后简要介绍了几种类似的方法。

(1)马尔科夫逻辑网络

马尔可夫逻辑网络(Markov Logic Network,MLN)是基于预先定义的规则和以知识图谱为单位的事实建立一个概率图形模型,然后学习不同规则的权重。具体来说,给定一组规则{γi} ,每个γi可以被知识图谱的三元组接地。然后根据这些基本规则,可以建立如下马尔可夫逻辑网络:

① 为每个基本规则中的每个基本原子建立一个节点,如果以知识图谱为单位观察,则该节点的值设置为1,否则设置为0。

② 当且仅当对应的两个基态原子可同时用于实例化至少一个规则时,在两个节点之间建立边。

③ 基本规则中的所有节点即基本原子,形成一个不一定是最大的组件,它对应于一个特征,如果基本规则为真,则值为1,否则为0;权重wi与每个规则γi相关联。

利用所建立的马尔可夫逻辑网络,将网络中所有节点的值X的联合分布定义为:

其中ni(x)是规则的真实基础数γi,而wi是规则对应的权重γi。然后将MCMC算法应用于马尔可夫逻辑网络中的推理,并通过优化伪似然测度有效地学习权值。

(2)pLogicNet模型

由于三元组间复杂的图形结构,马尔可夫逻辑网络的推理过程困难且效率低下。此外,知识图谱中缺失的三元组也会影响规则推理的结果。

由于最近的嵌入技术可以有效地预测丢失的三元组,并且可以用随机梯度进行有效的训练,pLogicNet模型提出将马尔可夫逻辑网络和图嵌入技术结合起来来解决上述问题。其基本思想是用马尔可夫逻辑网络定义三元组或者事实的联合分布,并将每个逻辑规则与一个权重相关联,但通过变分EM算法有效地学习它们。在该算法中,E-step推断未观测三元组的合理性,其中变分分布由知识图谱嵌入模型参数化,如TransE模型等,而M-step则通过对观察到的三元组和知识图谱嵌入模型推断出的三元组的伪似然进行优化来更新逻辑规则的权重。

(3)ProbLog模型

ProbLog模型是Prolog编程模型的概率扩展。与Prolog模型相比,ProbLog模型为每个子句ci增加了一个概率,它表示一个规则或一个基本原子。用于派生查询的子句示例,即查找满足居住于(LeBron,S)的所有实体e,如下所示:

给定一个查询q,三元组成功概率P(q | T)定义为:

式中,T={p1:c1,…,pn:cn}表示原因L⊆ LT={c1,…cn}上的概率分布。第一个公式表示查询q的成功概率被分解为查询的所有联合概率和每个可能的原因集L的总和。第二个公式进一步将P(q,L | T)分解为P(q | L)和P(L | T)。P(q | L)表示给定原因集L的查询q的概率,如果至少有一个答案替换,则其值等于1。第四个公式解释了如何计算原因集L的概率。

为了计算成功概率P(q | L),一个简单的方法是枚举所有可能的逻辑规则L及其实例。显然,它在实际应用中效率很低。ProbLog模型根据Prolog的选择性线性定解(Selective Linear Definite,SLD)算法,为目标查询q构造了一个证明树,解决了这个问题。标准SLD解析以自顶向下的方式构造SLD树,如图2所示。它首先通过查询初始化根节点,然后通过应用每个子句及其实例化递归地创建子目标,当到达结束条件时迭代停止。例如子目标为空,这意味着找到了可能的答案路径或达到最大树深度。因此,每个可能的答案路径都与一组子句{p1:c1,…,pn:cn} ⊆ T关联。

图2 为查询构建的SLD树的示例

然后按照公式一到四,可以很容易地计算出单个答案路径的成功问题。进一步应用二元决策图(Binary Decision Diagram,BDD)计算多路径的成功概率。SLD树也是其他类似方法的基础,如随机逻辑程序模型(Stochastic Logic Programs, SLPs)和个性化PageRank编程模型(Programming with Personalized PageRank,ProPPR)。

(4)其他模型

马尔可夫逻辑网络和ProbLog模型都学习规则的概率,马尔可夫逻辑网络为所有规则建立全局概率图同时学习所有规则的概率,而ProbLog模型为每个查询构建了一个本地SLD树,并学习了支持目标查询的原因的问题能力。其他类似方法,例如概率数据日志(probabilistic Datalog),MarkoViews模型,随机逻辑程序模型(SLPs),也将概率附加到子句,但在更新这些概率时具有不同的优化框架。例如,随机逻辑程序模型定义了一个随机的遍历SLD树的过程,在这个过程中,通过向上加权所需的应答子句并向下加权其他子句来学习节点上定义的概率分布。使用个性化PageRank编程模型(ProPPR)是SLP模型的一个扩展,它将随机抽样更改为基于个性化PageRank模型(Personalized PageRank,PPR)的策略。他们使用PPR模型根据一些预先定义的特征计算每个子句的概率,而不是直接在公式四中设置概率。

 


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ICML2021 | Self-Tuning: 如何减少对标记数据的需求?

文 | 王希梅,高敬涵,龙明盛,王建民源 | THUML本文介绍ICML2021的中稿论文:Self-Tuning for Data-Efficient Deep Learning,就“如何减少对标记数据的需求”这一重要问题给出了我们的思考。论文标题:Self-Tu…

美团点评Docker容器管理平台

本文是郑坤根据第14期美团点评技术沙龙“你不知道的美团云”演讲内容整理而成,已发表在《程序员》杂志2017年1月刊。 美团点评容器平台简介 本文介绍美团点评的Docker容器集群管理平台(以下简称“容器平台”)。该平台始于2015年,是…

Python 获取本机或者服务器的 IP 地址

获取计算机名称 hostname socket.gethostname() 获取本机 IP ip socket.gethostbyname(hostname) print(ip) 具体操作 import socket hostname socket.gethostname() ip socket.gethostbyname(hostname) print(ip)通常使用 socket.gethostname() 方法即可获取本机 IP …

LeetCode 754. 到达终点数字(数学推理)

1. 题目 在一根无限长的数轴上,你站在0的位置。终点在target的位置。 每次你可以选择向左或向右移动。第 n 次移动(从 1 开始),走 n 步。 返回到达终点需要的最小移动次数。 示例 1: 输入: target 3 输出: 2 解释: 第一次移动…

论文浅尝 | 神经符号推理综述(下)

笔记整理 | 许泽众,浙江大学在读博士3、神经驱动的符号推理相比于之前的两种类型,神经驱动的符号推理的目的是挖掘规则,而神经网络在其中扮演的作用是解决纯符号推理的不确定性,并且能够有效的减少搜索空间。这种类型的方法的基本…

没有导师指导,该如何自己选题发CVPR?

| 背景底层计算机视觉技术,如图像增强、图像复原等,一直以来都是一个重要且热门的研究方向。传统的方法多基于稀疏编码、小波变换等技术,近年来,深度学习的兴起为该领域带来了新的发展机遇,同时大幅度提升了方法性能。…

Android硬件加速原理与实现简介

在手机客户端尤其是Android应用的开发过程中,我们经常会接触到“硬件加速”这个词。由于操作系统对底层软硬件封装非常完善,上层软件开发者往往对硬件加速的底层原理了解很少,也不清楚了解底层原理的意义,因此常会有一些误解&…

LeetCode 482. 密钥格式化

1. 题目 给定一个密钥字符串S,只包含字母,数字以及 ‘-’(破折号)。N 个 ‘-’ 将字符串分成了 N1 组。给定一个数字 K,重新格式化字符串,除了第一个分组以外,每个分组要包含 K 个字符&#xf…

暑期学校 | 东南大学2021年国际暑期学校项目:从感知理解到智能认知 (知识图谱及应用课程)...

国际暑期学校开课啦 项目介绍 从感知理解到智能认知——走近新一代人工智能From perceptual understanding to intelligent cognition-Approaching a new generation of AI本项目是由东南大学计算机科学与工程学院、软件学院、人工智能学院组织,通过开设人工智…

LeetCode 970. 强整数

文章目录1. 题目2. 解题2.1 暴力法2.2 优化双重循环1. 题目 给定两个正整数 x 和 y,如果某一整数等于 xi yj,其中整数 i > 0 且 j > 0,那么我们认为该整数是一个强整数。 返回值小于或等于 bound 的所有强整数组成的列表。 你可以按…

ACL'21 | 弱标签的垃圾数据,也能变废为宝!

文 | LawsonAbs编 | 小戏是不是感觉 NER 领域效果提升太过困难?最近一篇来自 Amazon 的文章提出使用强弱标签结合的方式来解决 NER 的问题。强弱标签结合其实非常立足实际的数据情况——干净又准确的强标签数据非常稀少,更多的是标注质量存在问题的弱标签…

会议交流 | “数据智能与知识服务”研讨会的专家报告题目已更新!

“数据智能与知识服务”研讨会的专家报告题目有更新啦!这些专家既有久负盛名的国际知名学者、也有具有前瞻洞见的业界领袖,更有精通各种工程实战的技术大咖。他们将围绕“数据智能与知识服务”的核心主题,为您带来一场豪华的学术盛宴&#xf…

dockerfile拉取python3.7镜像

docker构建python3.7镜像:https://zhuanlan.zhihu.com/p/137288195 FROM:需要什么环境 ENV:修改path,即增加/usr/local/bin这个环境变量 ADD:将本地代码放到虚拟容器中,它有两个参数,第一个是 .…

LeetCode 849. 到最近的人的最大距离

1. 题目 在一排座位( seats)中,1 代表有人坐在座位上,0 代表座位上是空的。 至少有一个空座位,且至少有一人坐在座位上。 亚历克斯希望坐在一个能够使他与离他最近的人之间的距离达到最大化的座位上。 返回他到离他…

可解释性:对神经网络中层特征复杂度的解释与拆分

文 | 任洁,李明杰,刘泽旭源 | 知乎大家好,我们是任洁,李明杰和刘泽旭,本研究是在张拳石老师 Qs.Zhang张拳石 指导下完成的工作。随着深度神经网络的应用日益广泛,可解释性也逐渐受到更多学者的关注。目前对…

新一代开源Android渠道包生成工具Walle

在Android 7.0(Nougat)推出了新的应用签名方案APK Signature Scheme v2后,之前快速生成渠道包的方式(美团Android自动化之旅—生成渠道包)已经行不通了,在此应用签名方案下如何快速生成渠道包呢&#xff1f…

领域应用 | 机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG

转载公众号 | PaperWeekly概念是人类认知世界的基石。比如对于“哪吒好看吗?”,“哪吒铭文搭配建议”两句话,人可以结合概念知识理解第一个哪吒是一部电影,第二个哪吒是王者荣耀的英雄。然而机器能理解吗?针对这一问题…

LeetCode 605. 种花问题

1. 题目 假设你有一个很长的花坛,一部分地块种植了花,另一部分却没有。可是,花卉不能种植在相邻的地块上,它们会争夺水源,两者都会死去。 给定一个花坛(表示为一个数组包含0和1,其中0表示没种…

美团点评业务风控系统构建经验

本文根据“第八届中国系统架构师大会”演讲内容整理而成。 美团最初以团购的形式出现,到现在有了很大的业务形态转变。尤其是经过与大众点评的业务融合,从单一业务发展成了覆盖到店餐饮、到店综合、猫眼、外卖、酒店、旅游等多个垂直领域的综合性电商&am…

95后程序员晒出工资单:狠补了这个,真香…

作为AI 初学者来说,最大的问题就是:资料太多!!!看不完!!!不知道如何取舍!!!人的精力有限!!!大部分想转行AI算法…