OpenKG开源系列|开源知识图谱融合工具OpenEA (南京大学)

OpenKG地址:http://openkg.cn/tool/openea

GitHub地址:https://github.com/openkg-org/OpenEA

Gitee地址:https://gitee.com/openkg/OpenEA

开放许可协议:GPL 3.0

贡献者:南京大学(胡伟、孙泽群、张清恒、王成名、成威、朱向荣、李光耀)


背景

知识图谱可以由任何机构和个人自由构建,其背后的数据来源广泛、质量参差不齐,导致它们之间存在多样性和异构性。例如,对于相交领域 (甚至是相同领域),通常会存在多个不同的实体指称真实世界中的相同事物。知识融合的目标就是将不同知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序间的交互建立互操作性 。知识融合的常用技术方法包括本体匹配 (也称为本体映射)、实例对齐 (也称为实体匹配、对象共指消解) 以及真值验证 (也称为冲突检测) 等。

知识融合是知识图谱研究中的一个核心问题,对于人工智能和大数据至关重要。知识融合研究有助于提升基于知识图谱的信息服务水平和智能化程度,推动语义网以及人工智能、数据库、自然语言处理等相关领域的研究发展,具有重要的理论价值和广泛的应用前景,可以创造巨大的社会和经济效益。

OpenEA-Tutorial

为帮助了解和熟悉知识融合的常用技术,我们推出了 OpenEA-Tutorial (https://github.com/OpenKG-ORG/OpenEA/tree/master/tutorial),其中包括本体匹配、实体对齐和真值验证三个任务的代码框架。我们为每个任务给定了评测数据集,并实现了一个基线方法以供参考,使用者可修改指定代码段来实现自己的算法完成相应任务。

  1. 本体匹配。本体匹配侧重发现 (模式层) 等价或相似的类、属性或关系,是消除本体间异构性的一种有效途径,可以为应用程序之间的交互建立互操作性,是知识融合的重要任务。在这一任务中,我们的基线方法使用了最基础的文本相似性度量方法——基于字符的 Levenshtein 编辑距离。我们鼓励使用者自行实现其他文本相似性度量方法或是基于图结构的匹配方法等,以在测试数据集上取得更好的效果。

  2. 实体对齐。相较于本体匹配,实体对齐侧重发现指称真实世界相同对象的不同实例。我们在此任务中提供了 MTransE 的实现作为基线方法,这是一种基于表示学习的实体对齐方法,其实现基于后续将进行介绍的开源软件库 OpenEA。使用者可以通过改进 embedding learning (EL) 模块和 alignment learning (AL) 模块提升模型性能,也可以进一步尝试其他实体对齐方法。

  3. 真值验证。在匹配的基础上,知识融合需要消解知识集成过程中的冲突,再对知识进行关联与合并,最终形成一个一致的结果,真值验证就是冲突消解中的一种技术。为了消解多源数据的冲突,基线方法简单地在离散无序的属性上投票、在数值属性上取均值。使用者显然可以优化这一算法,或者实现其他真值验证算法。

OpenEA 开源库

作为知识融合的重要一环,实体对齐旨在从不同知识图谱中识别指向真实世界同一对象的实体。随着表示学习技术在诸如图像、视频、语音、自然语言处理等领域的成功,基于嵌入的实体对齐方法开始涌现,并取得重大突破。这类方法基于知识图谱嵌入技术,其将知识图谱中的符号表示嵌入到低维向量中,使得实体之间的语义关联能够通过嵌入空间中的几何结构捕捉到。基于嵌入的实体对齐方法典型框架以两个不同知识图谱作为输入,并根据源信息收集种子实体对,然后在嵌入和对齐模块中输入这两个知识图谱和种子实体对,捕捉实体嵌入的对应关系。模块交互有两种典型的组合范式:(1) 嵌入模块将两个知识图谱嵌入进不同空间中,同时对齐模块通过种子实体对学习两个空间中的映射关系;(2) 对齐模块指导嵌入模块,通过强制种子实体对中的对齐实体具有非常相似的嵌入,使得两个知识图谱被表示到一个统一空间中。最后,通过学习到的嵌入表示来测量实体相似性。

OpenEA (https://github.com/OpenKG-ORG/OpenEA) 是一个面向基于嵌入的知识图谱实体对齐的开源软件库,由南京大学万维网软件研究组 (Websoft) 贡献。OpenEA 通过 Python 和 Tensorflow 开发得到,集成了 12 种具有代表性的基于嵌入的实体对齐方法,同时它使用了一种灵活的架构,可以较容易地集成大量现有的嵌入模型。

  • 嵌入模块 (embedding module)。嵌入模块试图将知识图谱嵌入到低维空间中。根据三元组的类型,我们可以将嵌入模型分为两类:关系嵌入与属性嵌入。前者采用关系学习技术捕捉知识图谱结构,后者利用实体的属性三元组信息。关系嵌入主要有三种实现方式:基于三元组的嵌入能够捕捉关系三元组的局部语义 (例如 TransE)、基于路径的嵌入利用跨越路径的关系之间的长程依赖信息 (例如 IPTransE、RSN4EA)、基于邻居的嵌入主要利用实体之间的关系构成的子图结构 (例如 GCN)。一些方法使用属性嵌入增强实体之间的相似性度量,属性嵌入有两种方式:属性相关性嵌入主要考虑属性间的相关性 (例如 JAPE)、字面量嵌入将字面量值引入到属性嵌入中 (例如 AttrE)。

  • 对齐模块 (alignment module)。对齐模块使用种子实体对作为训练数据来捕捉实体嵌入表示的相关性,其中两个关键是选择何种距离度量方式以及设计何种对齐推断策略。度量方式有三种被广泛使用:余弦距离、欧几里得距离和曼哈顿距离。针对对齐推断策略,目前所有方法都采用贪心搜索方式,即为每一个实体依据度量方式选择距离最短的实体作为推断的对齐实体。

  • 交互模块 (Interaction between modules)。有四种典型的组合模式用于调整知识图谱嵌入以便实体对齐:嵌入空间的转换,通过种子实体对   学习两个嵌入空间中的转换矩阵M使得   。另一种组合模式称为嵌入空间校准,其将两个知识图谱嵌入到统一空间中,通过最小化   来校准实体对中的嵌入表示。作为两个特例,参数共享模式直接设置  ,而参数交换模式通过在三元组中交换种子实体来产生额外三元组作为监督数据。这两种方式都没有引入新的损失函数,但后者会产生更多三元组。基于如何处理标记和未标记数据,学习策略可以被分为监督学习和半监督学习。监督学习采用种子实体对作为标记的训练数据。对于嵌入空间的转换,种子实体对用于学习转换矩阵;对于空间校准,其被用于让对齐的实体具有相似的嵌入表示。半监督学习会在训练阶段使用未标记数据,例如自我学习和协同学习。前者迭代地选出新的实体对补充进种子实体对中,后者通过组合两个学习模型,交替增强彼此的对齐能力。

结束语

如果您在使用 OpenEA 及其 Tutorial 过程中遇到任何问题,欢迎在项目 Issues 中提出!感谢孙泽群、张清恒、王成名等人研发 OpenEA,孙泽群、成威和朱向荣对 Tutorial 的实现,以及李光耀对相关工作的总结。


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

领域应用 | 美团商品知识图谱的构建及应用

转载公众号 | DataFunTalk分享嘉宾:曹雪智博士 美团 技术专家编辑整理:陈维美出品平台:DataFunTalk导读:在互联网新零售的大背景下,商品知识图谱作为新零售行业数字化的基石,提供了对于商品相关内容的立体化…

LeetCode 131. 分割回文串(回溯)

文章目录1. 题目2. 回溯1. 题目 给定一个字符串 s,将 s 分割成一些子串,使每个子串都是回文串。 返回 s 所有可能的分割方案。 示例: 输入: "aab" 输出: [["aa","b"],["a","a","b"] ]来…

Java NIO浅析

NIO(Non-blocking I/O,在Java领域,也称为New I/O),是一种同步非阻塞的I/O模型,也是I/O多路复用的基础,已经被越来越多地应用到大型应用服务器,成为解决高并发与大量连接、I/O处理问题…

抓住训练集中真正有用的样本,提升模型整体性能!

文 | Severus编 | 小戏在任务中寻找到真正有用的训练样本,可以说一直是机器学习研究者们共同的诉求。毕竟,找到了真正有用的训练样本,排除掉训练样本中的杂质,无论最终是提升训练模型的效率,还是提升了模型最终的测试性…

领域应用 | 完备的娱乐行业知识图谱库如何建成?爱奇艺知识图谱落地实践

转载公众号 | 爱奇艺技术产品团队 2012年5月16日,谷歌首次正式提出了知识图谱的概念,希望利用结构化知识,来增强搜索引擎,提高搜索质量和用户体验。也就是说,从诞生之日起,知识图谱就和搜索引擎密不可分。随…

LeetCode 365. 水壶问题(最大公约数)

文章目录1. 题目2. 最大公约数1. 题目 有两个容量分别为 x升 和 y升 的水壶以及无限多的水。请判断能否通过使用这两个水壶,从而可以得到恰好 z升 的水? 如果可以,最后请用以上水壶中的一或两个来盛放取得的 z升 水。 你允许: …

Spark Streaming + Elasticsearch构建App异常监控平台

本文已发表在《程序员》杂志2016年10月期。 如果在使用App时遇到闪退,你可能会选择卸载App、到应用商店怒斥开发者等方式来表达不满。但开发者也同样感到头疼,因为崩溃可能意味着用户流失、营收下滑。为了降低崩溃率,进而提升App质量&#xf…

如何看待NLP领域的内卷:我不配找工作?

在过去几年时间里,NLP领域取得了飞速的发展,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求。 但这里我们要面对的现实是,行业上90%以上的NLP工程师是“不合格的”。在过去几个月时间里,我们其实也面试过数…

LeetCode 537. 复数乘法

文章目录1. 题目2. 字符串提取数字1. 题目 给定两个表示复数的字符串。 返回表示它们乘积的字符串。注意,根据定义 i2 -1 。 示例 1: 输入: "11i", "11i" 输出: "02i" 解释: (1 i) * (1 i) 1 i2 2 * i 2i ,你需…

Storm 的可靠性保证测试

Storm 是一个分布式的实时计算框架,可以很方便地对流式数据进行实时处理和分析,能运用在实时分析、在线数据挖掘、持续计算以及分布式 RPC 等场景下。Storm 的实时性可以使得数据从收集到处理展示在秒级别内完成,从而为业务方决策提供实时的数…

NLP数据增强、数据增广

点击上方,选择星标或置顶,每天给你送干货! 作者:李博涵 来自:哈工大SCIR 1.摘要 本文介绍自然语言处理领域的数据增广方法。数据增广(Data Augmentation,也有人将Data Augmentation翻译为“数据…

开源开放|CCKS2021入选开放图谱资源简介

笔记整理 | 王萌(东南大学)、张宁豫(浙江大学)全国知识图谱与语义计算大会(CCKS)由中国中文信息学会语言与知识计算专委会定期举办的国内知识图谱、语义技术等领域的核心会议。知识图谱以结构化的形式描述真…

腾讯天衍实验室招聘科研实习生

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1腾讯天衍实验室专注于AI算法研究及落地,旨在依托NLP、知识图谱、大数据、医疗影像等技术系统,将算法能力输出到公卫、医保、基层辅助诊断等领域的行业解决方案,以及腾…

LeetCode 475. 供暖器(双指针二分查找)

文章目录1. 题目2. 解题2.1 双指针2. 二分查找1. 题目 冬季已经来临。 你的任务是设计一个有固定加热半径的供暖器向所有房屋供暖。 现在,给出位于一条水平线上的房屋和供暖器的位置,找到可以覆盖所有房屋的最小加热半径。 所以,你的输入将…

ReactiveCocoa核心元素与信号流

ReactiveCocoa(以下简称“RAC”)是一个函数响应式编程框架,它能让我们脱离Cocoa API的束缚,给我们提供另外一套编码的思路与可能性,它能在宏观层面上提升代码易读性与稳定性,让程序员写出富有“诗意”的代码…

【安利向】入坑半年的GPU云平台,三分钟训练起飞!xiu~

大家好,我是Joyce,和小瑶一样,也是搞算法的,不过还在学术界摸鱼,偶尔能抓到一条顶会锦鲤,大多数时候,都是一些小鱼小虾,目前已被boss放养,每周组会都是隐形人...转眼&…

rocketQA学习笔记

端到端问答系统 rocketQA 问答技术发展回顾:

开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/diakg阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId88836开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:妙健康(常德杰、刘朝振、…