知识存储概述

文章目录

    • 知识存储概述
    • 知识存储方式
    • 知识存储基础工具
    • 技术发展趋势

    知识存储是针对知识图谱的知识表示形式设计底层存储方式,完成各类知识的存储,以支持对大规模图数据的有效管理和计算。知识存储的对象包括基本属性知识、关联知识、事件知识、时序知识和资源类知识等。知识存储方式的质量直接影响到知识图谱中知识查询、知识计算及知识更新的效率。

知识存储概述

    从存储结构划分,知识存储分为基于表结构的存储和基于图结构的存储,如下图所示。

图片名称
知识存储方式

知识存储方式

    基于表结构的存储,是指运用二维的数据表对知识图谱中的数据进行存储。根据不同的设计原则,可以具有不同的表结构,如:三元组表、类型表和关系数据库。三元组表如jena等,优点是简单直接,易于理解。缺点是整个知识图谱都存储在一张表中,导致单表的规模太大。相应的插入,删除,查询,修改的操作开销也大。对实用性大打折扣。复杂查询在这种存储结构上的开销巨大。复杂查询拆分成若干个简单查询的操作,降低了查询的效率。

    基于图结构的存储即使用图模型描述和存储图谱数据。这种方式能直接反应图谱的内部结构,有利于知识的查询,结合图计算算法,进行知识的深度挖掘与推理。目前业界公认的图模型有3种,分别是属性图(Property Graph)、资源描述框架(RDF)和三元组超图(HyperGraph),其中属性图和资源描述框架已广泛运用到多个图数据库产品中。

    属性图或带标签的属性图(Labeled-Property Graph),由顶点(圆圈)、边(箭头)、属性(key:value)和标签组成,顶点和边可以有标签。属性图的表达很贴近现实生活中的场景,也可以很好地描述业务中所包含的逻辑。常见的属性图结构如下图所示。其中,节点的标签是User,边的标签是FOLLOWS。

图片名称
属性图结构

    鉴于传统关系数据库拥有较高的通用性、可靠性、稳定性及成熟的技术,基于RDF的知识形式也广泛使用关系数据库作为其存储方式。目前主要有以下三种存储方案:基于三元组的三列表存储、水平存储、基于类的属性表存储和基于谓词存储等。对于基于RDF知识的三列表存储,该存储方式将关系数据库表的3列分别存储为RDF知识三元组的主语、谓语和宾语,即对应(实体,关系,实体)或者(实体,属性,属性值)。该三列表存储方式与传统的结构化数据存储方式相兼容,通用性好。但面向大规模的知识图谱,其本身包含大量的三元组,从而会造成关系数据库低效的查询性能。

    超图概念的提出,是为了解决简单图中的共指消解和分割等问题。对于我们熟悉的图而言,简单图的一个边(edge)只能和两个顶点连接;而对于超图来讲,人们定义它的边(超边hyperedge)可以和任意个数的顶点连接。超图可以完美刻画标签网络中一条边包含多节点的问题。图和超图的示意图如下图所示:

图片名称
普通图与超图

知识存储基础工具

    知识图谱的存储并不依赖特定的底层结构,一般的做法是按数据和应用的需求采用不同的底层存储,甚至可以基于现有关系数据库或NoSQL数据库进行构建。关系型数据库是典型的基于表结构的存储,图数据库是典型的基于图结构的存储。

    关系数据库通过属性对现实世界中的事物进行描述,采用关系模型来组织数据的数据库,其以行和列的形式存储数据。一行一个记录,一列表示一个属性。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。根据DB-Engines的统计数据,从2013年到2019年,Oracle、MySQL和Microsoft SQL Server稳居关系型数据库的前三甲,如下图所示。

图片名称
关系数据库的使用热度趋势

    图数据库源起欧拉和图理论(graph theory),也可称为面向/基于图的数据库,图数据库的基本含义是以“图”这种数据结构存储和查询数据。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对,优点是快速解决复杂的关系问题。图数据库是一种非关系型数据库,支持对图结构进行查询、增加、删除、更新等操作。相对传统的关系型数据库,查询速度快、操作简单、能提供更为丰富的关系展现方式。根据DB-Engines的统计数据,列举了一些近几年来常用图数据库的使用热度趋势曲线,如下图所示。

图片名称
基于图模型数据库的使用热度趋势

技术发展趋势

    知识存储过程完成对各类知识图谱组成元素的存储,以支持对大规模图数据的有效管理,满足快速查询、读取、写入的操作,为知识计算等应用提供服务支撑。针对知识图谱的分布式存储、知识存储的伸缩性和灵活性,以及基于LOD的知识存储,是技术发展的重点方向,同时,超图(Hyper Graph)也是未来知识存储的研究热点。知识存储相关技术发展趋势包括以下几个方面:

    随着互联网及各领域数据的持续积累,各个领域方向的知识图谱数量与规模日益增长,单机系统的数据存储能力难以应对知识图谱数据的大规模增长。同时,基于资源描述框架(RDF)存储的知识图谱更便于知识推理和计算,符合知识图谱应用的未来需求。但RDF存储模式所含有大量三元组的数据,使其索引效率与更新维护成本大于其它图存储模式。因此,未来知识存储的一种研究趋势为如何利用分布式数据库系统来解决RDF数据的大规模增长问题。

    随着知识图谱的规模越来越庞大、知识的表示方式越来越复杂,这对目前的知识存储方式提出了挑战。如何设计出可支持对复杂节点的定制、具有良好可伸缩性和灵活性的知识存储模式,满足复杂的查询、读取、计算和应用需求成为面向知识图谱的知识存储的迫切要求。

    由于知识表示RDF模型的通用性和灵活性,知识图谱供应方越来越倾向将自身的知识图谱数据表示成RDF格式并发布到互联网上。通过URI相互链接起来,这些发布在互联网上的RDF数据共同构成了一个覆盖整个互联网的庞大知识图谱。为了让这个庞大知识图谱网络更加丰富和完善,W3C积极推进LOD项目。LOD已成功将数百个RDF数据集相互链接在一起以增强数据的可用性。

    超图所拥有的简单图无可比拟的复杂关系表示方式,能更加全面详尽地描述业务、还原场景。但目前对超图的可视化表示方法还没有理想方案,对于超图的划分方式、深度学习及应用,大部分仍处于实验室研究阶段。推广到各领域进行工程化运用,无论在计算效率和成本上都存在较大问题。但随着知识图谱的普及,未来对于复杂关系的表示的需求,将逐步增多,超图技术的研究和应用探索将是知识图谱的下一个方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/17304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux网卡MAC地址

1、ifconfig命令查看网卡MAC地址 1.1 通过HWaddr或ether字段过滤mac地址 ifconfig | grep HWaddr ifconfig | grep ether [rootlocalhost ~]# /sbin/ifconfig | grep ether 注:有些Linux发行版本的MAC地址字段为HWaddr,有些Linux发行版本的MAC地址字段…

智能未来,触手可及,畅享移动云

目录 一、简介 二、移动云强大优势 1. 强大的网络基础设施 2. 可靠服务 3. 丰富产品线 4. 技术应用 5. 优惠价格策略 三、多商对比 网络优势 四、移动云的未来发展 五、实战应用 5.1 服务器选购 ​编辑5.2 服务器启动 5.3 实例操作 六、移动云的服务优势 6.1 客…

postman教程-5-发送put请求

领取资料,咨询答疑,请➕wei: June__Go 上一小节我们学习了postman发送post请求的方法,本小节我们讲解一下postman发送put请求的方法。 HTTP PUT 请求是一种用于传输数据的网络协议方法,它在客户端和服务器之间的通信中扮演着重…

数据中心、HPC、AI等应用场景互联协议混战哪家强?

生成式人工智能快速发展对算力与存力呈指数需求增长,进一步加剧了算力与存力之间既有矛盾,时代在呼唤更大的运力(即计算与存储之间的数据传输)--AIGC时代需要更大带宽,更为快速的数据传输路径。 众所周知,P…

香橙派AIpro初体验,详解如何安装Home Assistant Supervised

香橙派AIpro(OrangePi AIpro)开发版,定位是一块AI开发板,搭载的是华为昇腾310(Ascend310)处理器。 没想到,这几年的发展,AI开发板也逐渐铺开,记得之前看到华为发布昇腾3…

javascript 防抖 节流

在前端开发中,性能优化是提升用户体验的关键环节。防抖(Debounce)和节流(Throttle)作为两种常见的优化技术,能够有效管理和控制频繁触发的事件,减少不必要的计算和资源消耗。无论是在处理用户输…

基于香橙派 Ai Pro的ROS Qt人机交互软件部署指南

一,前言 最近收到了CSDN的邀请,对香橙派新出的Ai Pro进行测评: 说来也巧,其实香橙派本人对其映像挺深刻的,在2017年左右,本人刚上大学,当时是在淘宝购买树莓派,发现有个叫香橙派的国产板子,性能跟树莓派差不多吧,但是…

数据仓库和数据挖掘基础

文章目录 1. 数据仓库基础知识1.1 数据仓库的基本特性1.2 数据仓库的数据模式1.3 数据仓库的体系结构 2. 数据挖掘基础知识2.1 数据挖掘的分类2.2 数据挖掘技术2.3 数据挖掘的应用过程 传统数据库在联机事务处理(OLTP)中获得了较大的成功,但是对管理人员的决策分析要…

告别低效率||智能BI财务分析软件

在当今信息爆炸的时代,财务数据作为企业运营的核心,其处理和分析的效率直接关系到企业的决策速度和市场竞争力。奥威BI软件凭借其卓越的性能和智能化的分析功能,为企业提供了一套高效、准确的财务分析解决方案。 奥威BI软件在财务分析中的优…

流程引擎之compileflow idea 2024.*插件支持

之前有使用过多种类型工作流,但最近研究工作流引擎对比各有优劣,compileflow内存支持性能不错,但在idea新版本使用的时候发现插件不支持,干脆自己修改源码手撸一个(当前版本2024.1验证可用,如果有其他版本不…

5G工业三防平板电脑M195T:高性价比安卓加固手持终端

在工业领域,设备的坚固性和高效性能至关重要。亿道公司推出的全新5G工业三防平板电脑M195T,以其卓越的硬件配置和坚固耐用的设计,成为工业应用的理想选择。M195T不仅搭载了强大的ARM八核架构处理器和Android 11系统,还集成了多种先…

【C语言】文件操作(超级详细)

如果没有文件,我们写的程序的数据都存储在内存中,当程序退出,内存回收,数据就丢失了,下次再运行程序,已经看不到上次运行的数据了,而为了将数据持久性的保存,就需要使用文件。 一、…

电商新力量,四川易点慧电子商务有限公司

在数字化浪潮席卷全球的今天,电子商务行业正以前所未有的速度蓬勃发展。作为这一领域的佼佼者,四川易点慧电子商务有限公司凭借其独特的创新理念和前瞻性的战略布局,成功引领智慧零售新潮流,为行业发展注入了新的活力。 四川易点慧…

通付盾Web3专题 | SharkTeam:Web3常见钓鱼方式分析与安全防范建议

引言 Web3钓鱼是一种针对Web3用户的常见攻击手段,通过各种方式窃取用户的授权、签名,或诱导用户进行误操作,目的是盗窃用户钱包中的加密资产。 近年来,Web3钓鱼事件不断出现,且发展出钓鱼即服务的黑色产业链&#xf…

探索Python函数参数的奥秘

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、揭开函数参数的神秘面纱 1. 位置参数:按序传值的基石 2. 关键字参数&#…

AIGC绘画教学:副业不再是苦差事,AI短视频让你轻松月入过万

随着科技的飞速发展, AI已融入我们生活的每个角落, 在短视频领域, AI技术的应用更是如虎添翼, 为创作者打开了无限创意的大门。 在人人都是创作者的时代,一条短视频可能就会让你爆火!但要持续的产出高质量内容,或许…

unity知识点 专项二 DoTween动画

一、 动画序列(Sequence) 1.1 动画序列相关api 解释 sequence.Append(Tween tween) // 添加一个动画到序列末尾。 sequence.AppendCallback(TweenCallback callback) // 添加回调函数到序列末尾。 sequence.AppendInterval(float interval) // 添加一段…

Revit的特性 - 族类型和族实例、联动更新

Revit 模型的表示方式 Revit 是 Autodesk 推出的一款建筑建模软件,主要应用于建筑信息模型(Building Information Modeling,简称BIM)领域。Revit发布至今已经超过20年,他的核心理念是以族的概念来表达建筑模型。 在Re…

DOS学习-目录与文件应用操作经典案例-more

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.使用 三.案例 一.前言 DOS系统的more命令是一个用于查看文本文件内容的工具。…

【算法专题】双指针算法之 移动零

欢迎来到CILMY23的博客 🏆本篇主题为:双指针算法之移动零 🏆个人主页:CILMY23-CSDN博客 🏆系列专栏:Python | C | C语言 | 数据结构与算法 | 贪心算法 | Linux 🏆感谢观看,支持的…