知识图谱综述:表示、获取及应用
这是研究生第一篇综述文章,第一次读也是花了好几天的时间。
摘要:人类的知识提供了对世界的一种形式的理解。表征实体之间结构关系的知识图已成为认知和人的智能研究的热门方向。在这个调查中,我们提供了一个全面的知识图谱综述,包括1)知识图谱表示学习,2)知识获取和完成,3)时序知识图谱,4)知识感知应用,并总结近年来的研究进展,展望未来的研究方向。我们提出了对这些主题进行全面的分类和新的分类法。知识图谱嵌入由表示空间、评分函数、编码模型和辅助信息四个方面组成。在知识获取方面,特别是知识图谱的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。我们进一步探讨了几个新兴的热门话题,包括元关系学习、常识推理和时序知识图谱。为了促进未来知识图谱的研究,我们还提供了不同任务的数据集和开源库。最后,对几个有发展前景的研究方向进行了展望。
索引术语-知识图谱,表示学习,知识图补全,关系提取,推理,深度学习。
1.介绍
人类知识是人工智能的研究方向之一。知识表示和推理是受人类解决问题的启发,为智能系统表示知识以获得解决复杂任务的能力。近年来,知识图谱作为一种结构化的人类知识形式受到了学术界和产业界的广泛关注。知识图谱是事实的结构化表示,由实体、关系和语义描述组成。实体可以是现实世界中的对象,也可以是抽象概念,关系表示实体之间的关系。实体和实体关系的语义描述,它们的关系包含具有明确定义的类型和属性。属性图被广泛使用,其中节点和关系具有自己的属性。
知识图谱是知识库的同义词,只是略有不同。当考虑知识图谱的图结构时,它可以被看作是一个图。当涉及到形式语义时,它可以作为解释和推理事实的知识库。知识库和知识图谱的示例如图1所示。知识可以在资源描述框架(RDF)下以(头、关系、尾)或(主语、谓语、宾语)三种事实形式表达,例如,(阿尔伯特·爱因斯坦、WinnerOf、诺贝尔奖)。它也可以表示为一个有向图,节点为实体,边为关系。为了简化和顺应研究领域的发展趋势,本文将知识图谱和知识库这两个术语互换使用。
近年来,基于知识图谱的研究主要集中在知识表示学习(KRL)或知识图谱嵌入(KGE)上,通过将实体和关系映射到低维向量,同时捕获它们的语义。具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别和关系提取。知识感知模型得益于异构信息的集成、知识表示的丰富本体和语义以及多语言知识。因此,许多现实世界的应用,如具有常识理解和推理能力的推荐系统和问答系统已经成为了繁荣。一些现实世界的产品,例如微软的Satori和谷歌的Knowledge Graph,已经显示出提供更有效服务的强大能力。
本文对知识图谱的现状进行了全面的综述,丰富了知识图谱,为知识获取和知识感知的应用提供了更多的上下文、智能和语义。我们的主要贡献总结如下:
•全面综述。我们对知识图谱的起源和现代知识图谱关系学习技术进行了全面的综述。介绍并比较了主要的知识图谱表示学习和推理的神经结构。此外,我们还提供了不同领域的许多应用程序的完整概述。 •全视图分类和新分类法。对知识图谱进行了全面的分类研究,并提出了新的细粒度分类方法。具体而言,在高层次,我们从KRL、知识获取、时序知识图谱和知识感知应用四个方面对知识图谱的研究进行了综述。对于KRL,我们进一步将细粒度分类法划分为四个视图,包括表示空间、评分函数、编码模型和辅助信息。在知识获取方面,从基于嵌入的排序、关系路径推理、逻辑规则推理和元关系学习等方面综述了;实体获取任务分为实体识别、标注、消歧和对齐;并根据神经范式对关系抽取进行了讨论。 •对新进展的综述。我们提供了广泛的新研究问题,包括基于transformer的知识编码,基于图神经网络(GNN)的知识传播,基于强化学习的路径推理,和元关系学习。 •对未来方向的总结和展望。本调查提供了每个类别的总结,并突出了未来有前景的研究方向。
本调查的其余部分组织如下:首先,在第二节中给出了知识图谱的概述,包括历史、符号、定义和分类;然后,从四个方面对第三节中的KRL进行了讨论;接下来,我们回顾第四节和第五节的知识获取任务和时序知识图谱;第六节介绍了下游应用;最后,讨论了未来的研究方向,并给出了结论。其他信息,包括KRL模型训练和知识图谱数据集和开源实现的集合,可以在附录中找到。
2.概述
A.知识库简史
知识表示在逻辑和人工智能领域经历了漫长的发展历史。图结构知识表示的想法最早可以追溯到Richens[在1956年提出的语义网概念,而符号逻辑知识可以追溯到1959年的the General Problem Solver 。该知识库首先与基于知识的系统一起用于推理和问题解决。MYCIN是最著名的基于规则的医疗诊断专家系统之一,知识库约有600条规则。后来,人类知识表示学界看到了基于框架语言、基于规则和混合表示的发展。大约在这个时期结束时,Cyc项目开始了,目的是进行组合人类的知识。资源描述框架(RDF)和Web本体语言(OWL)相继发布, 并成为Semantic Web的重要标准。然后,发布了许多开放的知识库或本体,如WordNet、DBpedia、YAGO和Freebase。Stokman和Vries在1988年提出了结构知识的现代概念。然而,直到2012年,谷歌的搜索引擎首次推出了知识图谱的概念,知识图谱的概念才开始大受欢迎。为了构建大规模的知识图,提出了知识库融合框架。附录A中的图10给出了知识库历史的简要路线图。为了便于研究,已经发布了许多通用的知识图谱数据库和领域特定的知识库。我们将在附录F-A1和F-A2中介绍更多通用的和特定于领域的知识库。
B.定义和符号
大多数的工作是为了通过描述一般的语义表示或本质特征来给出知识图谱的定义。然而,并没有一个被广泛接受的正式定义。Paulheim定义了知识图谱的四个标准。Ehrlinger和wo分析了现有的几种定义,提出了定义1,强调知识图谱的推理引擎。Wang等在定义2中提出了多关系图的定义。根据以往的文献,我们将知识图谱定义为G = {E, R, F},其中E, R, F分别是实体、关系和事实的集合。一个事实被记为三元组(h, r, t)∈F。
定义如下表所示:
C.知识图谱研究的分类
本调查提供了关于知识图谱研究的全面文献综述,即KRL、知识获取和广泛的下游知识感知应用,其中集成了许多最新的高级深度学习技术。研究的总体分类如图2所示。
知识表示学习是知识图谱的一个重要研究课题,它为许多知识获取任务和下游应用铺平了道路。我们将KRL分为表示空间、评分函数、编码模型和辅助信息四个方面,为开发KRL模型提供了清晰的工作流程。具体的组成包括:
1)表示空间,其中表示关系和实体; 2)评分函数,用于测试事实三元组的可信度; 3)表示和学习关系交互的编码模型; 4)将辅助信息整合到嵌入方法中。
表示学习包括点空间、流形、复杂向量空间、高斯分布和离散空间。评分指标一般分为基于距离的评分函数和基于相似度匹配的评分函数。目前的研究主要集中在编码模型上,包括线性/双线性模型、因子分解和神经网络。辅助信息考虑文本、视觉和类型信息。
知识获取任务分为三大类,即知识图谱补全、关系抽取和实体发现。第一个扩展已有的知识图,另外两个从文本中发现新的知识(即关系和实体)。KGC分为以下几类:基于嵌入的排序、关系路径推理、基于规则推理和元关系学习。实体发现包括识别、消除歧义、分类和对齐。关系抽取模型利用注意机制、图卷积网络(GCNs)、对抗训练、强化学习、深度残差学习和迁移学习。
时序知识图谱包含用于表示学习的时间信息。本文将时间嵌入、动态的实体、时间关系依赖和时间逻辑推理四个研究领域进行了分类。
知识感知应用包括自然语言理解(NLU)、问答、推荐系统和各种现实世界任务,它们需要知识以改进表示学习。
D.相关调查
以往关于知识图谱的调查论文主要集中在统计关系学习、知识图谱细化、中文知识图谱构建、知识推理、KGE或KRL。后两项调查与我们的工作更相关。Lin et al.以线性方式呈现KRL,专注于定量分析。Wang等人根据评分函数对KRL进行了分类,并特别关注了KRL中所使用的信息类型。它仅从评分指标的角度提供了当前研究的总体观点。我们的调查深入研究了KRL的流程,并从表示空间、评分函数、编码模型和辅助信息四个方面提供了一个完整的视角。此外,本文还对知识获取和知识感知应用进行了全面的综述,并讨论了一些新兴的主题,如基于知识图谱的推理和少样本学习。
3.知识表示学习
KRL也被称为KGE,多关系学习和文献中的统计关系学习。本节回顾了分布式表示学习的最新进展,包括具有的丰富语义信息的实体和关系,她们包含表示空间(表示实体和关系,第III-A节)、评分函数(测量事实的可信度,第III-B节)、编码模型(对事实的语义交互建模,第III-C部分)和辅助信息(利用外部信息,第III-D部分)。我们将在第III-E节进一步提供摘要。KRL模型的训练策略在附录D中进行了回顾。
A.表示空间
表示学习的关键问题是学习实体和关系的低维分布式嵌入。目前的文献主要使用实值点空间(图3a),包括向量空间、矩阵空间和张量空间,同时也使用了其他类型的空间,如复杂向量空间(图3b)、高斯空间(图3c)、流形空间(图3d)。嵌入空间需要满足三个条件,即评分函数的可微性、计算可能性和可定义性。
1)点方式空间:点方式欧几里得空间被广泛应用于表示实体和关系,投影向量或矩阵空间中的关系嵌入,捕捉关系交互。TransE代表d维度向量空间实体和关系,也就是说,h, t, r∈Rd,并使嵌入遵循转换原则h + r≈t。为了解决一个空间中实体和关系的缺点,TransR进一步介绍了分离空间实体和关系。作者通过一个投影矩阵M∈Rk×d将实体(h, t∈Rk)投影到关系空间(r∈Rd)。NTN模型实体跨越多维通过双线性张量神经层。头尾hT Mt之间的交互被捕获为一个张量,记为M∈Rd×d×k。HAKE不使用笛卡尔坐标系,而是通过将实体映射到极坐标系来捕获语义层次,即实体嵌入em∈Rd和ep∈[0,2 π)d的模和分别分阶段的部分。
许多其他的转换模型,如TransH也使用类似的表示空间,而语义匹配模型使用普通向量空间(如HolE)和关系投影矩阵(如ANALOGY)。第三节- b1和第三节- b2分别介绍了这些翻译和语义匹配模型的原理。
2)复杂向量空间:不使用实值空间,将实体和关系表示在一个复杂空间中,其中h, t, r∈Cd。以头部实体为例,h有实部Re(h)和虚部Im(h),即h = Re(h)+i Im(h)。ComplEx首先引入复杂向量空间,如图3b所示,复杂向量空间既可以捕获对称关系,也可以捕获反对称关系。厄密点积用来做关系的复合,头和尾的共轭。受欧拉恒等式启发,RotatE提出了一种旋转模型,该模型以复杂空间中头部实体到尾部实体的旋转为关系,如t = h◦r,其中◦表示元素方向的Hadmard product。QuatE将复数空间扩展到超复数h, t, r∈Hd,带有三个虚分量的四元Q = a + bi + cj + dk,其中四元数内积,即汉密顿积h⊗r,被用作头实体和关系的复合算子。随着复杂空间中旋转Hadmard product的引入,RotatE还可以捕获反转和组成模式以及对称和反对称。QuatE使用Hamilton乘积来捕获实体和关系的四维空间内潜在的相互依赖关系,并获得比RotatE更具有表现力的旋转能力。
3)高斯分布:受高斯词层嵌入的启发,基于密度的嵌入模型KG2E引入高斯分布来处理实体和关系的(非)确定性。作者将实体和关系嵌入到多维高斯分布H ~ N(µH, Σh)和T ~ N(µT, Σt)中。均值向量u表示实体和关系的位置,协方差矩阵Σ模型他们的(不)确定性。根据平移原理,实体变换H−T的概率分布记为Pe ~ N(µH−µT, Σh + Σt)。同样的,TransG表示高斯分布的实体,但是她混合高斯分布的关系嵌入,其中关系r的第m个分量平移向量记为ur,m = t - h ~ N ut - uh, σh2 + σt2 E。
4)流形与群:本节回顾了流形空间、李群和二面体群中的知识表示。流形是一种拓扑空间,它可以用集合理论定义为具有邻域的点的集合。群是抽象代数中定义的代数结构。以往的点方式建模是一个不适定的代数系统,其中评分方程的数量远远大于实体和关系的数量。此外,即使在一些具有子空间投影的方法中,嵌入也被限制在一个过于严格的几何形式中。为了解决这些问题,ManifoldE将点式嵌入扩展为基于流形的嵌入。介绍了基于流形的嵌入的两种设置:球面嵌入和超平面嵌入。图3d显示了一个球体的例子。对于球面设置,采用再现核希尔伯特空间来表示流形函数。引入了另一种“超平面”设置来增强模型的相交嵌入。ManifoldE从几何角度将实值点空间松弛到流形空间,具有更有表现力的表示。当流形函数和特定于关系的流形参数设为零时,流形分解为一个点。
双曲空间,具有常负曲率的多维黎曼流形- c (c >0): Bd,c =x∈Rd: x2 <C1,因其捕获分层信息的能力而备受关注。MuRP表示双曲空间Bdc = x∈Rd: cx2 <的庞加莱球中的多关系知识图;而它却无法捕获逻辑模式和连续的弯曲图形。Chami等人利用了富有表达性的双曲等距,并学习了双曲空间中特定关系的绝对曲率cr。
TorusE通过嵌入一个紧李群的n维环面空间来解决TransE的正则化问题。通过定义π: Rn→T n, x→[x]从向量空间到环面空间的投影,实体和关系记为[h], [r], [t]∈Tn。类似于TransE,它还学习环面空间中跟随关系平移的嵌入,即[h] + [r]≈[t]。最近,DihEdral提出了一个保持二维多边形的二面体对称群。它利用有限的非阿贝尔群,有效地保持对称/斜对称、反转和合成的关系性质与二面体群的旋转和反射性质。
B.得分函数
评分函数是用来衡量事实的可信性的,在能量学习框架中也被称为能量函数。基于能量学习的目的是学习能量函数Eθ (x)(以θ为参数) 输入),并确保正样本比负样本得分更高。本文采用评分函数的术语进行统一。有两种典型的评分函数,即基于距离(图4a)和基于相似性(图4b)的函数,用于衡量事实的可信度。基于距离的评分函数通过计算实体之间的距离来衡量事实的可信性,其中常用的关系为h + r≈t。基于语义相似度的评分是通过语义匹配来衡量事实的可信度。通常采用乘法公式,即h Mr≈t,对在表示空间中的靠近尾部的头部实体进行变换。
1)基于距离的评分函数:一种直观的基于距离的方法是计算实体的关系投影之间的欧氏距离。结构嵌入(SE)使用两个投影矩阵和L1距离进行学习结构嵌入:
一个更广泛使用的原则是基于平移的评分函数,该函数旨在通过将关系表示为从头到尾实体的平移来学习嵌入。Bordes等人通过假设增加的嵌入来提出TransE的积分函数在L1或L2约束下定义为:
自那以后,人们提出了许多TransE的变体和扩展。例如,TransH将实体和关系投射到超平面中,TransR为实体和关系引入单独的投影空间,TransD构造动态映射矩阵Mrh = rp hp + I和Mrt = rp t+ I by the projection vectors hp , tp , rp ∈ Rn。TransA使用马氏距离代替欧几里得距离,以实现更自适应的度量学习。之前的方法使用加性评分函数,TransF放松了严格的平移,并使用点积fr (h, t) = (h + r) t。为了平衡头部和尾部的约束,进一步提出了一种灵活的平移评分函数。
最近,ITransF通过稀疏注意力向量,通过学习关系与概念之间的关联,实现隐藏的概念发现和统计强度转移,评分函数定义为:
其中D∈Rn×d×d是堆叠的概念投影矩阵和αH,α∈ [0, 1]n是注意力向量通过稀疏柔性计算,TransAt将关系注意机制与平移嵌入相结合,TransMS用非线性函数和线性偏置向量传输多向语义,打分函数为:
高斯空间中的KG2E和带有流形的ManifoldE也使用基于平移距离的打分函数。KG2E采用两种评分方法,即不对称KL-divergence和对称期望似然。而ManifoldE的评分函数定义为:
其中M为流形函数,Dr为关系特定的流形参数。
2)语义匹配:另一个方向是计算语义相似度。SME提出对(h, r)和(r, t)实体关系对的单独组合进行语义匹配。其评分函数由两个版本的匹配块定义——线性块和双线性块,即:
线性匹配块定义为gleft (h, t) = Ml,1 h +l,2 r + bl,双线性形式为gleft (h, r) = (Ml,1 h)◦(Ml,2 r) + bl。通过限制关系矩阵Mr为对角线 对于多关系表示学习,DistMult提出了一个简化的双线性公式,定义为:
为了在关系数据中捕捉有效的交互作用并有效计算,HolE引入了一个嵌入的循环关联,它可以被解释为一个压缩张量积,以学习组成表示。通过定义摄动全息合成算符为p(a, b;c) = (c◦a) b,其中c为固定矢量,扩展全息嵌入模型HolEx插值HolE和全张量积方法。它可以看作是微扰空穴的线性级联。以多关系推理为重点,analog模型关系数据的类比结构。它的得分函数定义为:
将关系矩阵约束为线性映射中的正规矩阵,即Mr Mr = Mr Mr进行类比推理。傅里叶变换在频域的空洞可以看作是ComplEx的一种特殊情况,它连接了全息和复杂嵌入。类比嵌入框架通过限制嵌入维数和评分函数,可以恢复或等效获得DistMult、ComplEx和HolE等多个模型。cross引入交叉交互,交互矩阵C∈Rnr ×d,模拟双向交互实体与关系之间的相互作用。通过求相互作用矩阵得到具体的相互作用关系为cr = xC。将交互表示和匹配与尾部嵌入相结合,定义得分函数为:
语义匹配原理可以通过神经网络进行编码,详见第III-C节。 第III-A4节提到的两种采用组表示的方法也遵循语义匹配原则。TorusE的评分函数定义为:
通过将2L关系建模为群元素,将DihEdral的评分函数定义为各元素之和:
对于R(l)∈DK,关系矩阵R以块对角形式定义,实体嵌入实值空间对于h(l) t(l)∈R2。
C.编码模型
本节介绍通过特定的模型架构,包括线性/双线性模型、因子分解模型和神经网络,对实体和关系的交互进行编码的模型。线性模型通过将头部实体投影到接近尾部实体的表示空间中,将关系表述为线性/双线性映射。因子分解的目的是将关系数据分解成低秩矩阵进行表示学习。神经网络通过匹配实体和关系的语义相似度来编码具有非线性神经激活和更复杂网络结构的关系数据。几个神经模型如图5所示。 1)线性/双线性模型:线性/双线性模型通过线性运算将实体和关系的相互作用编码为:
或双线性变换运算如式8。具有线性/双线性编码的规范方法包括SE、SME、DistMult、ComplEx和ANALOGY。对于采用L2正则化的TransE,评分函数可扩展为仅对一维向量进行线性变换的形式,即: Wang et al.研究了各种双线性模型,并通过引入普遍性和一致性的概念来评价它们的表达性和关联性。通过实验进一步表明,多个线性模型的集成可以提高预测性能。最近,为了解决正则Polyadia分解中实体向量的独立嵌入问题,SimplE引入了关系的逆,计算(h, r, t)和(t, r−1,h)的平均正则Polyadia得分为:
其中r为反转关系的嵌入。嵌入双线性家族的模型,如RESCAL, DistMult, HolE和ComplEx可以在一定的约束下从一个转换为另一个。更多的双线性模型将从分解的角度提出,在下一节讨论。 2)因子分解模型:因子分解方法将KRL模型表述为三张量X分解。张量分解的一般原理可以表示为Xhrt≈h Mr t,具有跟随语义的合成功能 匹配模式。Nickel等人提出了知识图张量的每个关系片上的三阶r因子分解RESCAL。对于m个关系中的第k个关系,X的第k个切片被分解为:
作者进一步扩展了来有效地处理实体的属性。Jenatton等人提出了双线性结构化潜因子模型(LFM),通过分解Rk =扩展了RESCAL。Tucker通过引入三次Tucker张量分解,通过输出一个核心张量,嵌入实体和关系的向量来学习嵌入。LowFER提出了一种多模态分解双线性池化机制,以更好地融合实体和关系。该方法推广了TuckER模型,具有低秩近似的计算效率。 3)神经网络:用于编码语义匹配的神经网络在近年来的研究中取得了显著的预测性能。具有线性/双线性块的编码模型也可以使用神经网络进行建模,例如SME。代表性的神经模型包括多层感知器、神经张量网络和神经关联模型。它们通常向深度神经网络提供实体或关系,或两者都提供,并计算语义匹配得分。MLP将实体和关系一起编码成一个完全连接的层,并使用具有sigmoid激活的第二层来评分一个triple as:
其中W∈Rn×3d是权矩阵,[h, r, t]是三个向量的连接NTN以实体嵌入作为关联关系张量的输入,输出预测得分为:
其中br∈Rk是关系r, Mr,1和Mr,2的偏差是关系特定的权重矩阵。它可以看作是mlp和双线性模型的结合。NAM将隐藏编码与尾部实体的嵌入联系起来,提出关系调制神经网络(RMNN)。 4)卷积神经网络:cnn用于学习深度表达特征。ConvE利用嵌入的二维卷积和多层非线性特征,将头部实体和关系重塑为二维矩阵,即Mh∈Rdw ×dh, Mr∈Rdw ×dh,对于d = dw ×dh,对实体和关系之间的相互作用进行建模。它的评分函数定义为:
其中ω是卷积滤波器,vec是将张量重塑为向量的矢量化操作。卷积神经网络可以通过非线性特征学习多层表达语义信息。ConvKB[43]采用cnn对实体和关系的拼接进行编码而不进行整形(图5a)。其评分函数定义为:
由卷积生成的特征映射集的拼接提高了潜在特征的学习能力。与捕获局部关系的ConvE相比,ConvKB保持了过渡特性,具有更好的实验性能。HypER利用超网络H进行一维关系特定卷积滤波器生成,实现多任务知识共享,同时简化了2D ConvE。当超网络和权矩阵为张量时,它也可以解释为张量分解模型。 5)递归神经网络:如上所述,基于MLP和cnn的模型学习三重层次的表示。相比之下,递归网络可以捕获知识图中的长期关系依赖关系。Gardner等人和Neelakantan等人分别提出了基于rnn的关系路径模型,用于学习没有实体信息和有实体信息的向量表示。RSN设计了一种循环跳跃机制,通过区分关系和实体来增强语义表示学习。关系路径为(x1, x2,…), xT)与实体通过随机游走生成交替顺序的关系,并进一步计算递归隐藏状态ht = tanh (Wh ht−1 + Wx xt + b),跳过操作是这样执行的:
其中S1和S2是权矩阵。
6)变压器:基于变压器的模型促进了情境化文本表示学习。为了利用知识图中的上下文信息,CoKE使用变压器对边和路径序列进行编码。类似地,KG-BERT借鉴了语言模型预训练的思想,采用Transformer (BERT)模型中的双向编码器表示作为实体和关系的编码器。
7)图神经网络(gnns):引入gnns用于在编解码器框架下学习连接结构。R-GCN提出了关系特定的转换来建模知识图谱的有向性。其前向传播定义为:
Nir是关系r∈r内的第i个实体的邻居集,Wr(l)和W0(l)是可学习的参数矩阵,ci,r是标准化,如ci,r = |Nir |。这里,GCN 用作图形编码器。为了实现特定的任务,编码器模型仍然需要开发并集成到R- GCN框架中。R-GCN取每个实体的邻域相等。SACN引入加权GCN(图5b),定义关系类型相同的两个相邻节点的强度,利用节点结构、节点属性和关系类型捕获知识图中的结构信息。convert - transe译码模块采用ConvE模型作为语义匹配度量,并保留了翻译特性。将C核下的实体和关系嵌入的卷积输出对齐为M (h, r)∈RC ×d,其评分函数定义为:
Nathani等人引入了以多头注意为编码器的图注意力网络,通过输入实体和关系嵌入的连接来捕获多跳邻域特征。CompGCN提出了在中心节点附近的每条边上进行实体-关系组合操作,并推广了以往基于gcn的模型。
D.辅助信息嵌入
多模态嵌入将文本描述、类型约束、关系路径和可视化信息等外部信息与知识图谱本身结合起来,以促进更有效的知识表示。
1)文本描述:知识图中实体的文本描述为D =<W1, W2,…Wn>,提供补充的语义信息。文本描述的KRL面临的挑战是将结构化知识和非结构化文本信息嵌入到同一个空间中。Wang等提出了两种对齐模型,通过引入实体名称和维基百科锚点来对齐实体空间和词空间。DKRL扩展了TransE,通过卷积编码器直接从实体描述学习表示。SSP[66]通过将三元组和文本描述投影到语义子空间中来捕获它们之间的强相关性。在将KGE与文本描述相结合时,联合损失函数得到了广泛的应用。Wang等采用三组分损耗L = LK + LT + LA、知识模型LK、文本模型LT和对齐模型。SSP使用了一个双组分目标函数L =嵌入物+嵌入物特异性损失,在文本描述中,通过一个参数u折衷。
2)类型信息:实体用层次的类或类型表示,因此,与语义类型的关系。SSE结合实体的语义类别,在语义空间中平滑地嵌入属于同一类别的实体。TKRL提出了实体投影矩阵的类型编码器模型来捕获类型层次。KR- EAR注意到一些关系表示实体的属性,因此将关系类型分为属性和关系,并对实体描述之间的相关性进行建模。Zhang等将现有的嵌入方法扩展为关系簇、关系和子关系的层次关系结构。
3)视觉信息:可以利用视觉信息(如实体图像)来丰富KRL。图像嵌入的IKRL包含基于跨模态结构和基于图像的表示,将图像编码到实体空间并遵循翻译原则。跨模态表示确保基于结构的表示和基于图像的表示在同一个表示空间。
KRL仍然有许多辅助信息,如属性、关系路径和逻辑规则。Wang et al.给出了使用附加信息的详细回顾。本文分别在第IV-A2节和第IV-A4节讨论了KGC下的关系路径和逻辑规则。
4)不确定信息:知识图如ProBase、NELL和ConceptNet包含不确定信息,每个关系事实都有一个置信度评分。与经典的确定性知识图嵌入不同,不确定性嵌入模型的目标是捕获代表关系事实可能性的不确定性。Chen等提出了一种不确定知识图嵌入模型,该模型同时保留了结构化和不确定性信息,采用概率软逻辑推断置信度。概率校准需要一个后处理过程来调整概率分数,使预测具有概率意义。Tabacof和Costabello首先研究了封闭世界假设下知识图嵌入的概率校准问题,发现校准好的模型可以提高准确率。Safavi等进一步探索了更具挑战性的开放世界假设下的概率校准。
E.总结
知识表示学习是知识图谱研究社区的重要组成部分。本节回顾了表II和附录c中总结的几种现代方法的KRL的四倍,总的来说,发展一个新的KRL模型是为了回答以下四个问题:1)选择哪个表示空间;(2)如何测量特定空间中三胞胎的似是而非;3)使用哪种编码模型进行关系交互建模;4)是否利用辅助信息。最常用的表示空间是欧氏点空间,通过在向量空间中嵌入实体,并通过向量、矩阵或张量进行交互建模。研究了复向量空间、高斯分布、流形空间和群等其他表示空间。流形空间通过放松点嵌入,比点欧几里得空间更有优势。
高斯嵌入可以表达实体和关系的不确定性,以及多种关系语义。在复向量空间中嵌入可以有效地模拟不同的关系连接模式,特别是对称/反对称模式。表示空间在实体的语义信息编码和关系属性捕获中起着至关重要的作用。在构建表示学习模型时,应仔细选择和设计合适的表示空间,以匹配编码方法的性质,平衡表达性和计算复杂性。基于距离度量的评分函数采用了翻译原则,而语义匹配评分函数采用了组合操作符。编码模型,尤其是神经网络,在实体和关系的交互建模中起着至关重要的作用。双线性模型也受到了广泛的关注,一些张量分解也可以看作是这一类。其他方法包括文本描述、关系/实体类型、实体图像和置信度评分等辅助信息。
4.知识获取
知识获取的目的是从非结构化文本和其他结构化或半结构化来源构建知识图谱,完成补充已有的知识图谱,发现和识别实体和关系。构造良好、规模庞大的知识图对许多下游应用程序很有用,并赋予知识感知模型以常识推理能力,从而为人工智能铺平道路。知识获取的主要任务包括关系抽取、KGC以及实体识别、实体对齐等面向实体的获取任务。大多数方法分别制定KGC和关系提取。然而,这两个任务也可以集成到一个统一的框架中。Han等提出了一种共同注意力的知识图谱与文本数据融合的联合学习框架,解决了文本中的KGC和关系抽取问题。还有其他与知识获取相关的任务,如三重分类、关系分类和开放知识丰富。在本节中,将全面回顾三种知识获取技术,即KGC、实体发现和关系抽取。
A.知识图谱补充
由于知识图谱的不完全性,KGC被开发为向知识图谱添加新的三元组。典型的子任务包括链路预测、实体预测、关系预测。
KGC的初步研究主要集中在学习低维嵌入以实现三重预测。在这个调查中,我们将这些方法称为基于嵌入的方法。然而,他们中的大多数都未能捕捉到多步骤关系。因此,最近的工作转向了探索多步骤关系路径和整合逻辑规则,分别称为关系路径推理和基于规则的推理。三重分类是KGC的一项相关任务,用于评估事实三重分类的正确性,在本节中还将进行另外的回顾。
B.实体发现
本节将基于实体的知识获取分为几个细分任务,即实体识别、实体消除歧义、实体类型化和实体对齐。我们称之为实体发现,因为它们都是在不同的环境下探索与实体相关的知识。
C.关系抽取
关系抽取是从纯文本中提取未知的关系事实并将其添加到知识图谱中,是自动构建大规模知识图谱的关键任务。由于缺乏标注的关系数据,远程监督又称弱监督或自我监督,采用启发式匹配的方法,假设在关系数据库的监督下,包含相同实体提及的句子可以表达相同的关系,从而生成训练数据。Mintz等采用了基于文本特征(包括词汇和句法特征、命名实体标签和连接特征)的远程监督进行关系分类。传统方法高度依赖特征工程,最近的一种方法探索特征之间的内在相关性。深度神经网络正在改变知识图谱和文本的表示学习。本节回顾了神经关系提取(NRE)的最新进展,概述如图9所示。
D.总结
本节回顾了不完整知识图谱的知识补全和从纯文本中获取知识。 知识图谱补全完成现有实体之间的缺失链接或对给定实体和关系查询的实体进行推断。基于嵌入的KGC方法通常依靠三重表示学习来捕获语义并进行候选排序。基于嵌入的推理仍然停留在个体关系层面,由于忽略了知识图谱的符号本质,且缺乏可解释性,在复杂推理方面表现较差。符号学和嵌入相结合的方法结合了基于规则的推理,克服了知识图谱的稀疏性,提高了嵌入质量,促进了规则的高效注入,并引入了可解释的规则。通过观察知识图谱的图形性,研究了路径搜索和神经路径表示学习。然而,当遍历大规模图时,它们会出现连通性不足的问题。元关系学习的新兴方向是学习在低资源环境下对看不见的关系的快速适应。
实体发现从文本中获取面向实体的知识,并将知识融合到知识图谱之间。根据具体设置,有几个类别。以序列到序列的方式研究实体识别,实体分类讨论了有噪声类型标签和零镜头分类,实体消歧和对齐学习统一嵌入采用迭代对齐模型,以解决对齐种子数量有限的问题。然而,如果新对齐的实体性能不佳,则可能面临错误积累问题。近年来,语言特异性知识的增加推动了跨语言知识对齐的研究。
在远程监督的假设下,尤其是在不同领域的文本语料库中,关系抽取存在一定的噪声。因此,弱监督关系提取必须减轻噪声标记的影响。例如,多实例学习以大量的句子作为输入,注意机制通过对实例的软选择来减少噪声模式,基于rl的方法将实例选择作为一个艰难的决策。另一个原则是尽可能学习更丰富的表征。由于深度神经网络可以解决传统特征提取方法中的误差传播问题,因此该领域主要采用基于dnn的模型,如表4所示。
5.时序知识图谱
目前对知识图谱的研究多集中于静态知识图谱,其中事实不随时间变化,而对知识图谱的时间动态性的研究较少。然而,时间信息是非常重要的,因为结构化的知识只存在于特定的时期内,而事实的演变遵循时间序列。最近的研究开始将时间信息引入到KRL和KGC中,相对于以往的静态知识图谱,将其称为时序知识图谱。同时学习时间嵌入和关系嵌入的研究已经开始。动态网络嵌入的相关模型也启发了时序知识图谱的嵌入。例如,时间图注意(TGAT)网络可以捕获时间拓扑结构并同时学习时间特征的相互作用,这可能有助于保持知识图谱的时间感知关系。
6.知识感知应用
丰富的结构化知识对人工智能应用非常有用。然而,如何将这些符号知识集成到现实世界应用程序的计算框架中仍然是一个挑战。知识图谱的应用包括两个方面:1)链接预测和命名实体识别等in-KG应用;2) out- of-KG应用,包括关系抽取和更下游的知识感知应用,如问答和推荐系统。本节介绍几种最近的基于dnn的知识驱动方法及其在自然语言处理和推荐方面的应用。附录E介绍了更多的杂项应用,如数字医疗和搜索引擎。
7.未来方向
为了解决知识表示及其相关应用的挑战,已经进行了许多努力。然而,仍有几个棘手的未决问题和有希望的未来方向。
8.总结
近年来,随着知识表示学习、知识获取方法和各种知识感知应用的出现,知识图谱作为人类知识的集合越来越受到人们的关注。本文从四个方面对知识图谱嵌入进行了全面系统的综述:知识图谱嵌入空间,带有评分指标、编码模型、外部信息嵌入、训练策略2)从嵌入学习、关系路径推理和逻辑规则推理三个角度,实现实体发现、关系抽取和图补全的知识获取;3)时序知识图谱表示学习与补充;4)现实世界中的知识感知应用,包括自然语言理解、推荐系统、问答和其他杂项应用。此外,还介绍了一些有用的数据集和开源库资源,并对未来的研究方向进行了讨论。知识图谱拥有一个庞大的研究社区,并具有广泛的方法和应用。我们进行这项调查是为了总结当前具有代表性的研究工作和趋势,并希望它能促进未来的研究。