文章目录
- 知识计算
- 研究现状
- 技术发展趋势
知识计算
随着知识图谱技术及应用的不断发展,图谱质量和知识完备性成为影响知识图谱应用的两大重要难题,以图谱质量提升、潜在关系挖掘与补全、知识统计与知识推理作为主要研究内容的知识计算成为知识图谱应用的重要研究方向。知识计算是基于已构建的知识图谱进行能力输出的过程,是知识图谱能力输出的主要方式。知识计算概念内涵如下图所示,主要包括知识统计与图挖掘、知识推理两大部分内容,知识统计与图挖掘重点研究的是知识查询、指标统计和图挖掘;知识推理重点研究的是基于图谱的逻辑推理算法,主要包括基于符号的推理和基于统计的推理。
知识计算的概念中明确了以下几个层面的问题:
- 知识计算是针对已构建的知识图谱所存在的问题:不完备性和存在错误信息,在此基础上通过将知识统计与图挖掘、知识推理等方法与传统应用相结合进行能力输出,为传统应用形态进行赋能,进而提高知识的完备性和扩大知识的覆盖面。
- 知识计算中两种具有代表性的能力:知识统计与图挖掘、知识推理。知识统计和图挖掘的方法是基于图特征的算法来进行社区计算、相似子图计算、链接预测、不一致检测等;知识推理的目标在于从给定知识图谱中推导出新的实体、关系和属性。通过这两种能力实现对已有图谱的知识补全、知识纠错、知识更新、知识链接等功能。在此基础上,知识计算的能力输出可应用于用户精准画像、决策数据、辅助决策意见、智能问答/搜索等方面。
研究现状
知识图谱的应用大多基于对复杂网络的大规模计算,计算的结果或以在线服务,或以离线结果的形式提供给应用者。知识计算的能力输出方法包括:知识统计与图挖掘、知识推理。
知识统计与图挖掘是指基于图论的相关算法,实现对知识图谱的基础性查询、统计分析和图挖掘计算,主要包括:图查询检索、图特征统计、关联分析、时序分析、节点分类、异常检测、预测推理等。
图查询和检索是最常见的计算,常用于查询目标节点的n度关联方、或者查询某子图结构,主要是以深度优先或广度优先等方式遍历网络,输出关联节点或同构实例。下图为图信息检索示例。
图特征统计是指对图谱中单一节点、或多个节点的图特征以及属性特征进行统计计算的过程,如下图所示。其中,单主体图特征包括出度、入度、介度和中心度,出度表征某节点发出的边的多少,定义为统计节点发出的关系总条数;入度表征某节点接收到的边的多少,定义为统计指向该节点的关系总条数;介度表征某节点桥接作用的重要性;中心度表征节点在当前子网中的重要性。
关联分析是指分析图谱中两个节点间或多个节点间的关联关系、紧密程度,进而可以实现社群发现和分割,例如两个公司间的多度投资关系、个人与某公司的最短路径、两人之间的加权距离,多个账户之间的转账关系等等。常用的方法有路径查询、距离计算,输出结果为节点及节点间边的距离和边的集合(路径)。下图为关系分析计算示例。
节点分类是指对节点根据图特征或者关联属性特征进行分类、例如信用违约公司具有典型的风险路径,且一度关联方中的违约公司数量等均可作为分类特征指标、洗钱账户的转账关系子图特征可作为洗钱标签的分类依据。常用方法为标注目标节点,图特征提取,分类算法等,输出结果为特征图谱库等。
异常检测是指在全网内发现异常节点、异常子图子图模式,例如出入度数值离群的节点、闭环的投资关系、未知业务含义但是罕见的频繁子图等。常见方法是聚类、子图发现算法等。输出结果异常节点库、异常子图结构模式库为主。下图为异常检测示例。
预测推理是指通过规则或者机器学习等方法,从已有知识图谱中预测推理新的关系和信息,适用于弱关系的推理、链接预测、概率推理等。常见方法有规则推理、机器学习等。输出结果为新节点、新关系、新属性等信息。
时序分析是指对单一关系、事件做时序分析,或者对网络拓扑结构的变化做时序分析,例如频繁工商变更的行为、风险在网络中的传播等。常见方法有时序分析、风险传播模型等。输出结果为时序异常、风险评分等。
知识推理可以定义为按照某种策略,根据已有知识推出新知识的过程。由于人类认知世界的过程正是一个知识推理的过程,因而如何让机器学会这种方式来理解知识显得尤为重要,一个具备知识推理能力的知识图谱,将挖掘出数据更深层次的内在价值。知识推理可以分为基于符号推理和基于统计的推理。在知识理解的基础上构建应用,知识图谱的应用大多基于对复杂网络的大规模计算,计算的结果,或以在线服务,或以离线结果的形式提供给应用侧。从目标节点的检索、到关联方查询、到探寻节点间的关联关系、统计整图及单一节点指标,结合图算法模型和时间信息,挖掘深层次的潜在信息,提供分析和决策支持,为数据赋能。基于知识推理的典型应用主要包括智能搜索、智能推荐、智能问答等。
传统的搜索引擎,以关键词检索为核心技术,通过关键词比对,从海量网页信息中找出与关键词相匹配的信息并返回,用户可以输入一条关键词或者几条关键词进行查询。然而这种查询方式得到的结果无关信息较多,且查询方式较为机械,并不是按照人的思维方式查询并给出结果。而引入知识图谱技术后的智能搜索引擎,使得上述问题得到了更加智能的解决,现在主流的搜索引擎,比如谷歌,百度等,均采用了知识图谱作为底层技术。
商家对于客户的商品推销活动,从古至今就没有停止过,传统的推广往往靠人海战术,商家会发布铺天盖地的广告来吸引客户,这样的方式有一定的好处,但投入产出不高。为此商家开始提出精准营销的概念,互联网电子商务的兴起,让精准营销变得越来越智能,通过大数据智能算法,根据用户行为,勾勒出用户画像,再基于用户画像,为用户提供更多的精准营销服务。然而这种精准营销服务,是基于已知数据做的,而实际情况往往获取不到那么多的数据来进行分析,因此人们需要借助“推理”的模式来“猜测”用户的喜好,这就好比人们了解一个事务一样,当无法了解到事务的全貌时,人们往往会结合已有的线索,做推理假设,这也是人区别于其它动物的特性,如下图所示。
传统的问答系统,简单来讲多用配置问答对的方式来实现各种问答场景,举一个常见的例子:问:“姚明的女儿的母亲的身高是多少?”这个问句中的多个词之间带有明显的关联关系,需要通过多次关联查询才能得到最终结果,如果答案存储采用传统方式,比如存储在关系型数据库中,上述查询语句将相对复杂。这个例子也相对简单,设想一下,如果面对的数据量是海量的,数据之间存在更加复杂的多跳关系,传统的问答查询机制将变得很困难。
技术发展趋势
如何解决小样本量场景的知识计算、一致性动态变化下的知识计算以及面向多元关系和多源信息等方面的知识计算将成为未来重要且亟待突破的方向。
现阶段的知识计算模型往往依赖于大规模高质量的学习样本,但在实际应用中,大规模高质量样本的获取会耗费巨大的人力和时间,并成为限制知识计算模型训练及应用的重要挑战。研究表明,融合已有先验知识和极少量的样本进行模型训练,能够很好的解决小样本量场景下的知识计算模型训练所面临的问题,基于开发世界假设,在进行知识图谱的逻辑推理和计算时,对未发现、不存在的、新产生的知识看作是未知的,将已经建立的知识图谱看作先验知识,通过少量高质量样本进行快速学习计算和整合。该研究方向将成为知识计算研究的重要趋势之一。
知识的一致性维护是知识计算需要解决的重要问题,但现有的知识计算方法主要针对的是静态知识图谱,然而知识图谱并不是一成不变的,随着时间和空间的推移,知识图谱也在动态的变化,即在不同的时间轴下相同问题的答案也可能存在不同,如针对“某人现阶段的年龄是多少?”这一问题,在不同的年份所得到的答案是不一样的。因此,如何在保证一致性条件下,引入时间要素进行有效地动态计算是未来知识计算发展的重要趋势。现阶段针对动态知识图谱已有一些学者进行了研究,如基于新提出的演化网络的推理研究、基于时间要素的研究等,Tay等人提出了puTransE模型通过分治策略实现了图谱的分块学习和集成推理,有效处理了动态图谱的增删改。
现有的知识计算大都是集中在二元和三元关系上,但多元关系相对二元和三元关系来说结构更多样、上下文语义关系更复杂,所涉及到的常识也更多样,针对复杂多元关系的常用处理方法是将复杂的多元关系简化为二元关系或三元关系,但这个过程中大量的语义信息和上下文关系会被损失,面向多元关系的知识计算准确度不高,另外,信息的多源性使得知识计算过程中需要考虑更多上下文问题和额外的常识等信息,来降低知识图谱稀疏性和不连通性,从而进行高效的知识计算,使知识计算的结果更加趋向于完备,因此,如何更好的解决多元关系和多源信息融合场景下的知识计算问题将成为重要的研究方向。