图谱实战 | 知识图谱构建的一站式平台gBuilder

OpenKG地址:http://openkg.cn/tool/gbuilder

网站地址:http://gbuilder.gstore.cn


知识图谱能够让机器去理解和认知世界中的事物和现象,并解释现象出现的原因,推理出隐藏在数据之间深层的、隐含的关系,使得知识图谱技术从最初谷歌用来提升搜索引擎的结果来增强用户体验,到现在已经被金融、公安、能源、教育、医疗等领域众多行业进行大量运用。

2fdb10c9e5ad42c07959acb69910e33a.png

知识图谱作为大数据和人工智能时代的关键技术已经让越来越多的人意识到它的重要性和价值。知识图谱的应用现在处于“百花齐放”的状态。

知识图谱全生命周期分为构建、存储管理、应用三个阶段。

32e00b1f0ee7b5f6b479fcc829f3ed23.png

知识图谱的应用已经受到业内广泛关注,知识图谱的存储管理也有众多解决方案。例如我们前期研发的开源知识图谱图数据库系统gStore(http://www.gstore.cn/pcsite/index.html#/)就是知识图谱存储的工具。gStore在OpenKG上也有介绍 (http://www.openkg.cn/tool/gstore )

然而知识图谱构建却鲜有统一化的平台工具,但是这是知识图谱生命周期的技术难点之一。

244026f664c55bd6e5f59e7a1d021b55.png

这是由于知识图谱构建是一项需要花费大量的人力和时间,却不直接体现价值的工作,但知识图谱构建却是最基础、最关键的工作,是解决“巧妇难为无米之炊”窘境的核心手段。

c7b0232073beb4529ce4d838caaa7f3e.png

北京大学王选计算机研究所和大数据分析与应用技术国家工程实验室(北京大学)邹磊教授团队通过两年时间,打造了知识图谱自动化构建平台gBuilder。gBuilder基于机器学习、自然语言处理、图数据库等技术可以实现对结构化数据和非结构化数据的知识抽取,并转化为知识图谱三元组。

28212590584af841d11a783345b27b16.png

Schema设计

无论是结构化项目还是非结构化项目,均需首先设计知识图谱Schema。知识图谱Schema一方面可以描述知识图谱中的实体类型、实体属性和关系等信息,另一方面也是知识图谱查询和分析的重要参考,相当于关系型数据库的表结构。

同现有的Schema设计方法不一样的是,gBuilder的Schema设计模块是一个轻量级的Web平台,以图的方式来表述知识图谱Schema,用户可以通过拖拽的方式在画布上设计类、类属性和关系。

2659e61434301c08c5550424e2b4bd64.gif

结构化数据抽取

对于结构化项目而言,其知识抽取流程设计就是将结构化表及字段,与Schema中的实体类型、属性、关系等进行映射,并形成映射文件。

1b9f942eeae123e66e483159ae1032b7.png

gBuilder自动化构建平台结构化数据抽取基于D2RQ平台,让用户显式地、可视化地处理结构化数据抽取的所有步骤,摆脱复杂的映射语言,易于使用。当前gBuilder能从MySQL、Oracle、SQL Server、PostgreSQL、达梦等关系型数据库中将数据100%准确的映射为RDF三元组数据。

51bac716a0ca5f84ee18516d03eca791.gif

非结构化数据抽取

对于非结构化数据抽取而言是当前知识图谱图谱构建的重难点,例如给下图一段文字,如何将里面的实体以及实体之间的关系准确抽取出来是一个关键问题。当前业内对于非结构数据的自动抽取产品还是较为欠缺。

cbba916f30eaabcbcbe39b47bd0e64c5.png

对于非结构化项目而言,需要通过加载数据集、设计构建流程、开始构建、构建结束步骤。在构建流程中gBuilder通过可视化拖拽的方式来自定义构建非结构化数据知识图谱构建流程。同时gBuilder提供了大量的可选模型,它们有着不同的特性,以及在不同的数据上预训练,用户可以根据需求,挑选出最合适的模型作为构建模型,也可以使用自己的数据训练模型进行图谱构建。构建过程中可以随时使用系统自带的流程检查功能和测试功能来测试流程的正确性与构造效果。完成构建后,可以查看构建的结果,从非结构化数据集中抽取出了构建知识图谱所需要的三元组。

45b09a5e860c6096903b24ff9cd7dfe4.png

具体抽取流程示例如下,用户首先根据实际业务场景需要通过拖拽算子的方式构建数据抽取流程,然后输入非结构化数据,最后抽取出RDF三元组数据。例如输入“小明是小王的爸爸”测试数据,通过流程的一步步运行,最终抽取出“<小明> <父亲> <小王> ”三元组数据。

86a47c0c934ea1b7a0f06d6c7507be77.gif

在gBuilder平台的非结构化数据抽取详细操作如下面动图所示:

aee11f7f3ca01d3bc89118fb20fba4e0.gif

最后通过gBuilder抽取的RDF三元组数据同gBuilder团队研发的gStore图数据库系统无缝衔接,再加上该团队研发的面向知识图谱自然语言问答引擎gAnswer,形成了覆盖知识图谱构建、知识图谱存储管理和知识图谱应用的完整生命周期的知识图谱一体化解决方案。

f538852d16f9decdc8009a3da174e9fc.png

gBuilder整体采用微服务架构,主要模块包括可视化Flowline工具库,数据管理模块,项目管理模块、模型库和任务中心;其中模型库与任务中心等高负载组件采用多云融合方案,为用户提供弹性、实时和可扩展的知识图谱构建服务。

ec511a726831d34dbb6cc052c056e6e1.png

系统框架图

gBuilder具有可视化、易于使用、高扩展、高延伸、灵活性以及支持多种语言(英语、中文)的特性,有力的支撑知识图谱的构建,打破“巧妇难为无米之炊”的窘境。后续gBuilder也将支持更多数据模型的知识图谱构建以丰富知识图谱构建生态和实际业务需要。也期待更多同行者加入我们一起打造和完善图谱生态。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

fd4b57752b90285599c691fbf5971514.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477913.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 861. 翻转矩阵后的得分(贪心)

1. 题目 有一个二维矩阵 A 其中每个元素的值为 0 或 1 。 移动是指选择任一行或列&#xff0c;并转换该行或列中的每一个值&#xff1a;将所有 0 都更改为 1&#xff0c;将所有 1 都更改为 0。 在做出任意次数的移动后&#xff0c;将该矩阵的每一行都按照二进制数来解释&…

一文跟进Prompt进展!综述+15篇最新论文逐一梳理

文 | ZenMoore编 | 小轶自从 Dr.Pengfei Liu 的那篇 prompt 综述发表开始&#xff0c;prompt 逐渐红得发紫。近期清华、谷歌等单位你方唱罢我登场&#xff0c;涌现了好多好多 prompt 相关的论文。无论是工业界还是学术界&#xff0c;想必大家都在疯狂 follow。不少伙伴肯定从老…

论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入

笔记整理&#xff1a;黎洲波&#xff0c;浙江大学硕士&#xff0c;研究方向为自然语言处理、知识图谱。研究背景知识图谱因其在问答、语义解析和命名实体消歧等任务取得了良好的效果而受到广泛关注&#xff0c;而大部分知识图谱都存在不全和缺失实体链接的问题&#xff0c;所以…

Java内存访问重排序的研究

什么是重排序 请先看这样一段代码1&#xff1a; public class PossibleReordering { static int x 0, y 0; static int a 0, b 0;public static void main(String[] args) throws InterruptedException {Thread one new Thread(new Runnable() {public void run() {a 1;x…

LeetCode 1261. 在受污染的二叉树中查找元素(树哈希)

1. 题目 给出一个满足下述规则的二叉树&#xff1a; root.val 0如果 treeNode.val x 且 treeNode.left ! null&#xff0c;那么 treeNode.left.val 2 * x 1如果 treeNode.val x 且 treeNode.right ! null&#xff0c;那么 treeNode.right.val 2 * x 2 现在这个二叉树受…

东南大学王萌 | “神经+符号”学习与多模态知识发现

转载公众号 | DataFunTalk分享嘉宾 &#xff5c;王萌博士 东南大学 助理教授编辑整理 &#xff5c;盛泳潘 重庆大学 助理研究员导读&#xff1a;近年来&#xff0c;多模态一词在知识图谱、计算机视觉、机器学习等领域逐渐引起越来越多的关注。从认知科学角度看&#xff0c;…

Child-Tuning:简单有效的微调涨点方法

文 | 罗福莉源 | 罗福莉自BERT火了以后&#xff0c;基本上现在所有NLP领域都all in Pre-training & Fine-tuning了吧&#xff1f;但当“大”规模预训练模型遇上“小”规模标注数据时&#xff0c;往往直接Fine-tuning会存在过拟合现象&#xff0c;进一步会影响Fine-tune完后…

LeetCode 890. 查找和替换模式(哈希表)

1. 题目 你有一个单词列表 words 和一个模式 pattern&#xff0c;你想知道 words 中的哪些单词与模式匹配。 如果存在字母的排列 p &#xff0c;使得将模式中的每个字母 x 替换为 p(x) 之后&#xff0c;我们就得到了所需的单词&#xff0c;那么单词与模式是匹配的。 &#x…

Solr空间搜索原理分析与实践

前言 在美团CRM系统中&#xff0c;搜索商家的效率与公司的销售额息息相关&#xff0c;为了让BD们更便捷又直观地去搜索商家&#xff0c;美团CRM技术团队基于Solr提供了空间搜索功能&#xff0c;其中移动端周边商家搜索和PC端的地图模式搜索功能为BD们的日常工作带来了很大的便利…

专心做搜索也能登顶CLUE分类榜?在快手做搜索是一种怎样的体验

文 | 快手搜索短视频和直播&#xff0c;越来越成为重要的内容供给形式&#xff0c;而内容供给侧的改变&#xff0c;也在潜移默化地推动着用户搜索习惯的变化。据报道&#xff0c;截止今年4月&#xff0c;超过50%的用户都在使用快手搜索功能&#xff0c;每天搜索达到2.5亿次&…

开源开放 | 一个融合多元关系和事件表示的金融领域本体模型FTHO(CCKS2021)

OpenKG地址&#xff1a;http://openkg.cn/dataset/ftho开放许可协议&#xff1a;GPL 3.0贡献者&#xff1a;武汉科技大学&#xff08;高峰、郑丽丽、顾进广&#xff09;摘要在此开放资源中&#xff0c;面对金融领域多元关系表示的困境和时序事件表示需求&#xff0c;我们以OWL语…

LeetCode 114. 二叉树展开为链表(递归)

1. 题目 给定一个二叉树&#xff0c;原地将它展开为链表&#xff08;右侧路径&#xff09;。 例如&#xff0c;给定二叉树1/ \2 5/ \ \ 3 4 6 将其展开为&#xff1a;1\2\3\4\5\6来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 链接&#xff1a;https://leet…

论文浅尝 - CIKM2021 | DT-GCN: 一种双曲空间中的数据类型感知的知识图谱表示学习模型...

论文作者&#xff1a;申雨鑫&#xff0c;天津大学硕士发表会议&#xff1a;CIKM 2021链接&#xff1a;https://dl.acm.org/doi/pdf/10.1145/3459637.3482421动机知识图谱表示学习旨在将实体和关系编码到一个连续的低维向量空间中。大多数现有方法主要在欧氏空间中学习结构三元组…

NLP太难学了!?吃透NLP的方法来拿走

最近有粉丝私信我&#xff0c;NLP很难学&#xff0c;这条路能坚持走吗&#xff1f;有相同困惑的朋友可以一起探讨一下&#xff1a;大佬你好&#xff0c;我目前从事ERP运维工作&#xff0c;想转行NLP&#xff0c;开始是学数据结构和c刷了些leetcode题&#xff0c;然后把cs224n和…

LeetCode 1161. 最大层内元素和(层序遍历)

1. 题目 给你一个二叉树的根节点 root。设根节点位于二叉树的第 1 层&#xff0c;而根节点的子节点位于第 2 层&#xff0c;依此类推。 请你找出层内元素之和 最大 的那几层&#xff08;可能只有一层&#xff09;的层号&#xff0c;并返回其中 最小 的那个。 示例&#xff1…

图谱实战 | 京东商品图谱构建与实体对齐

转载公众号 | DataFunTalk 分享嘉宾&#xff1a;赵学敏博士 京东科技编辑整理&#xff1a;蔡丽萍 TRS出品平台&#xff1a;DataFunTalk导读&#xff1a;在电商企业采购和运营过程中&#xff0c;如果要想掌握商品的实时价格等行情信息&#xff0c;就需要对齐各个电商网站的商品…

Quartz应用与集群原理分析

一、问题背景 美团CRM系统中每天有大量的后台任务需要调度执行&#xff0c;如构建索引、统计报表、周期同步数据等等&#xff0c;要求任务调度系统具备高可用性、负载均衡特性&#xff0c;可以管理并监控任务的执行流程&#xff0c;以保证任务的正确执行。 二、历史方案 美团CR…

卖萌屋新闻联播栏目,倾情上线~

编 | 小轶感谢提供本期内容的 iven、ZenMoore、 jxyxiangyu、付瑶今天这篇推文是卖萌屋全新的原创系列———暂且取名为“卖萌屋新闻联播”节目。卖萌屋的作者、小编日常都会在团队群里分享各种最新发现的实用资源、有意思的学术工作。小伙伴们在互相分享的过程中都受益匪浅。我…

LeetCode 386. 字典序排数(DFS循环)

1. 题目 给定一个整数 n, 返回从 1 到 n 的字典顺序。 例如&#xff0c; 给定 n 1 3&#xff0c;返回 [1,10,11,12,13,2,3,4,5,6,7,8,9] 。 请尽可能的优化算法的时间复杂度和空间复杂度。 输入的数据 n 小于等于 5,000,000。来源&#xff1a;力扣&#xff08;LeetCode&#…

论文浅尝 | 基于多模态特征的视觉实体链接

转载公众号 | 数据智能英文刊文章题目&#xff1a;Visual Entity Linking via Multi-modal Learning作者&#xff1a;郑秋硕&#xff0c;闻浩&#xff0c;王萌&#xff0c;漆桂林引用&#xff1a;Zheng, Q.S., et al.: Visual Entity Linking via Multi-modal Learning. Data I…