讲座录播 | 邹磊教授:图数据库的概念和应用

2023年10月16日

由中国计算机学会主办的

“CCF Talk”直播间

进行了题目为

术语解读:“图计算”的内涵与应用

主题直播活动

讲座吸引7708人观看

图片

图作为一种灵活表达复杂关联关系的数据结构,目前已广泛地应用于社会治理、医疗健康、电网分析、计算材料、计算育种、EDA等众多领域。广义的图计算包括图数据的建模、存储、查询、管理,以及基于图数据的表示与应用等。近年来,随着人工智能与大模型等技术的发展,图计算的内涵和应用也在不断拓展。直播活动邀请了图计算领域的资深学者,围绕图计算这一概念的内涵和应用以及技术发展趋势进行探讨和交流。

下面向大家介绍北京大学邹磊教授本次报告:图数据库的概念和应用

报告摘要:近来图数据的研究引起了学术界和工业界的广泛关注,因为图可以更加方便的表达数据之间的复杂关联。图数据库在数据的模式定义、查询引擎的设计与优化方面和传统的关系数据库都有本质的区别。另外作为图数据的一个典型应用,知识图谱的数据管理的需求也对图数据库系统提出挑战性的研究问题。本报告将简要介绍图数据库的基本概念和相关应用。

文末附本次报告视频,直播活动的完整录播请关注中国计算机学会。

图片

报告分为四个部分,首先简单介绍图数据库的概念

图片

数据库系统是一种 DBMS(Data Management System)。数据库从本质上描述了实体、实体属性以及实体与实体之间的关系。而图数据库则不使用关系表来表达实体之间的联系,而是通过图的方式来呈现。在图中,每个节点表示一个实体,边表示实体之间的关联,边上的标签表示关系的性质。此外,实体可以具有特定的属性值。例如,我们可以使用图的方法来表示"James Watt"出生于1736年这一关联。

图片

图数据库最早出现在20世纪60年代,最初由IBM设计的IMS系统用于管理阿波罗计划土星号火箭的物资。IMS系统采用了层次数据模型,实际上是通过树形数据结构来表示数据和数据之间的关系。与此同时,通用电气(GE)在1964年设计和实施了IDS系统,这个系统更接近图数据库,采用了网络模型(Network Model)来表示数据和它们之间的关系。IDS系统是数据系统语言会议(Conference on Data Systems Languages, CODASYL)DBTG标准的基础实现版本。这些数据库系统是当时时代的产物,它们为不同类型的数据管理需求提供了不同的数据模型和方法。

图片

图片

这些早期数据库系统为后来的图数据库奠定了基础。现在,图数据库有两个主要派别,属性图和RDF图。属性图使用属性值来表示图上的点和边,而RDF图则受到了三元组数据模型的启发,使用主谓宾形式来表示实体之间的关系。这两种图数据库都有自己的查询语言, 如面向属性图的Cypher,以及面向RDF图的主流语言是SPARQL。

图片

图片

比较一下图数据库和传统关系数据库之间的不同。在关系数据库中,我们通常使用表来表示实体之间的关系,比如学生和教师之间的关系可以通过连接两个表来实现。而在图数据库中,实体之间的关系通常以图的形式存储,以更自然的方式表示实体和它们的关系。这种物化的方法使得图数据库更适合表达实体之间的复杂关系。

图片

在图数据库的发展过程中,有两个主要的派别,属性图和RDF图。属性图更侧重于表示实体的属性和关系,而RDF图更注重使用主谓宾形式来描述实体之间的关系。这两者都有自己的查询语言,但在某些情况下,它们可以表达相同的语义。

图片

接下来第二部分,将介绍图数据库的架构。

图片

与传统数据库类似,图数据库也包括查询层、存储层和分布式系统。在查询层,有些操作是通用的,无论是在结构化查询还是图挖掘中,都可以使用。这些通用操作使得图数据库更具灵活性。

图片

在查询层,我们认为有一些与传统数据库不同的地方。例如,图数据库中的子图模式查询,这是我们认为与传统数据库有所不同的地方。子图模式查询在图数据库中非常重要。

当我们处理图结构数据时,可能会用子图查询的方式。此外,在做图结构查询时,查询语言是一个基本组成部分。有两种主要的查询语言,一种是面向RDF的SPARQL语言,另一种是面向属性图的Cypher语言。这两种语言在这个例子中表示的语义是相同的。

图片

这是一个关于图数据库基准测试的例子,其中提取了一个查询语句。这个查询语句的意思是找到社交网络中的一条消息,查找它的作者以及对该消息的回复。然后,找到这两个消息的原始作者,还要查看他们之间是否存在好友关系。这种查询可以表达出子图模式,所以我们认为优化子图模式查询是图数据库查询引擎的一个关键因素。

图片

在RDF数据模型中,数据接近主谓宾的结构。虽然可以使用关系数据库存储它,但需要将这种结构转换为SQL语言并在关系表中执行操作。2011年,我们提出了一种匹配方法,使用点和边来表示RDF图中的主谓宾关系,并使用SPARQL语言进行查询,解决了子图匹配问题。

图片

图片

与关系型数据库不同,图数据库需要以一种完全不同的方式表示和处理数据,这包括图数据模型的逻辑和物理优化,这方面与关系型数据库有显著不同。

图片

在图数据库的存储层面,面临一系列挑战。图数据库以其随机访问的特性,需要不同于传统数据库的存储方式。

图片

图数据库的存储层面存在多个问题需要解决,包括如何进行图结构与属性存储以及选择合适的物理存储方式。这些问题需要综合考虑,以满足不同系统的需求。

图片

在图数据库的架构中,分布式优化是一个重要的考虑因素。有三大类分布式存储方法。

第一种是底层采用云平台和分布式文件系统。这种方法将存储与查询层分离,具有很强的通用性和容错性,但查询性能较低,因为数据分布和划分较为不透明和难以控制。

图片

第二种是多单机存储,将计算和存储整合在每台机器上。数据可以分布在多台机器上,查询根据数据划分执行并由控制节点合并。这种系统通常性能较高,但用户门槛较高,因为性能依赖于数据划分。这种架构在数据库领域广泛研究和应用。

图片

第三类分布优化方法借鉴了云数据库的概念,将系统分为计算节点和存储节点,每个计算节点可以访问所有存储节点,实现了横向扩展和负载均衡。然而,这种方法在工程实现上有较大的挑战,因为不同存储节点的网络延迟不同。

图片

下面简单介绍一下图数据库的应用

图片

推荐阅读这篇2017年的VLDB论文,这篇论文通过访谈和合作研究,研究了图数据库的应用领域。研究内容包括各大厂家在图数据库使用方面的特点,以及用户普遍关注的问题。

图片

主要谈一下图数据库在知识图谱中的应用。知识图谱本质上是一个用图的方法来表示实体和实体关系的网络,这一点与我们讨论图数据库建模的方法相同。

图片

研究知识图谱的广泛性可见于各个领域的研究者的参与。每位研究者都从独特的角度探索知识图谱,包括知识工程、自然语言处理、机器学习等。这种多元化的研究方式就像盲人摸象,每个人都在努力理解知识图谱的不同方面。

图片

图片

从数据库的角度来看待知识图谱,RDF采用了主谓宾的数据结构如何使用数据库来存储它。如果使用关系数据库,将数据存储为三元组表,将SPARQL查询转化为SQL来执行,但这种方法可能导致自连接操作性能较低。因此,我们考虑是否可以使用图数据库来存储知识图谱,这就是图数据库的研究人员在知识图谱领域可以发挥重要的作用。

图片

图片

讲者个人对未来研究的展望包括以下几个方面。

首先是动态图流系统。随着工业互联网和5G等技术的发展,图数据变得越来越动态,并且变化速度非常快。这种动态图流在工业互联网和高速网络路由等领域具有广泛的应用前景。

图片

第二个是说现在的图数据库跟图计算系统目前来说是分离的,一份数据在不同系统当中有多份,会造成空间消耗及数据的不一致性,未来可不可以有事务处理和分析的联机系统的一体化的图数据系统。

图片

以上是向大家汇报的关于图数据库的我们的一些认知。谢谢大家。

哔哩哔哩,,,

邹磊教授:图数据库的概念和应用-CCF Talk直播间

【讲座】邹磊教授:图数据库的概念和应用-CCF Talk直播间_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/140726.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在国内使用 FOFA 查找免费无需注册无需验证的 ChatGPT Web 站点

这个文章不知道为什么火了。出于网络安全的原因,我在这里提醒大家: 本文提供的是一种白嫖 ChatGPT 的方法,是通过查找互联网上对外来访问者不设防的 ChatGPT Web 站点实现的。但这并不代表这些站点的主人就一定欢迎陌生人该网站的访问并使用该…

CSRF 漏洞详解

CSRF 漏洞详解 文章目录 CSRF 漏洞详解漏洞描述漏洞原理漏洞场景漏洞评级漏洞危害漏洞验证漏洞利用漏洞防御典型案例 漏洞描述 CSRF(Cross-Site Request Forgery)漏洞是一种Web应用程序安全漏洞,它允许攻击者利用受害者的已认证会话来执行未…

【Transformer从零开始代码实现 pytoch版】(五)总架构类的实现

Transformer总架构 在实现完输入部分、编码器、解码器和输出部分之后,就可以封装各个部件为一个完整的实体类了。 【Transformer从零开始代码实现 pytoch版】(一)输入部件:embeddingpositionalEncoding 【Transformer从零开始代…

CMT2300A超低功耗127-1020MHz Sub-1GHz全频段SUB-1G 射频收发芯片

CMT2300A超低功耗127-1020MHz Sub-1GHz全频段SUB-1G 射频收发芯片 Sub-1GHz,是指小于1GHz频率的统称。Sub-1GHz无线电频段应用的主要特点:(1)频率较低波长较长,传输距离远,穿透性强;&#xff0…

xinput1_3.dll丢失的详细解决步骤办法和比较,五种有效的解决办法

今天想和大家分享一个电脑中经常出现的问题——xinput1_3.dll丢失。这个文件丢失是一件常见的问题。不知道小伙伴们有没有遇到过这样的问题,如果你遇到这样的问题今天就教大家xinput1_3.dll丢失的详细解决步骤办法和比较,五种有效的解决办法。 一.xinput…

【Axure高保真原型】树切换动态面板案例

今天和大家分享树切换动态面板的原型模板,点击树的箭头可以打开或者收起子节点,点击最后一级人物节点,可以切换右侧面板的状态到对应的页面,左侧的树是通过中继器制作的,使用简单,只需要按要求填写中继器表…

浅谈jvm

前置知识补充 JDK、JRE、JVM是什么?区别与联系? 区别: JDK(Java Development Kit):Java开发工具包 主要包括 Java运行环境、Java基础库及 Java工具。 JRE(Java Runtime Environment&#xf…

使用迁移学习在线校准深度学习模型

使用迁移学习在线校准深度学习模型 本文参考的是2023年发表于Engineering Applications of Artificial Intelligence, EAAI的Deep Gaussian mixture adaptive network for robust soft sensor modeling with a closed-loop calibration mechanism 1. 动机 概念漂移导致历史训…

完全免费!超好用的IDEA插件推荐:Apipost-Helper

Idea 是一款功能强大的集成开发环境(IDE),它可以帮助开发人员更加高效地编写、调试和部署软件应用程序,Idea 还具有许多插件和扩展,可以根据开发人员的需要进行定制和扩展,从而提高开发效率,今天我们就来介绍一款国产的…

使用Java实现一个简单的贪吃蛇小游戏

一. 准备工作 首先获取贪吃蛇小游戏所需要的头部、身体、食物以及贪吃蛇标题等图片。 然后,创建贪吃蛇游戏的Java项目命名为snake_game,并在这个项目里创建一个文件夹命名为images,将图片素材导入文件夹。 再在src文件下创建两个包&#xff0…

正点原子嵌入式linux驱动开发——Linux DAC驱动

上一篇笔记中学习了ADC驱动,STM32MP157 也有DAC外设,DAC也使用的IIO驱动框架。本章就来学习一下如下在Linux下使用STM32MP157上的DAC。 DAC简介 ADC是模数转换器,负责将外界的模拟信号转换为数字信号。DAC刚好相反,是数模转换器…

Mac电脑Visio文件编辑查看软件推荐Visio Viewer for Mac

mac版Visio Viewer功能特色 在Mac OS X上查看Visio绘图和图表 在Mac OS X上轻松查看MS Visio文件 在Mac上快速方便地打开并阅读Visio文件(.vsd,.vsdx)。 支持通过放大,缩小,旋转,文本选择和复制&#xff0…

群晖Docker(Container Manager)中安装Home Assistant Container

群晖Docker(Container Manager)中安装Home Assistant Container 不要使用 套件里面的 Home Assistant,不利于后期拓展 方式一: docker run -d --name"home-assistant-1" -v /volume1/docker/homeassistant/config:/c…

华东“启明”青少年音乐艺术实践中心揭幕暨中国“启明”巴洛克合奏团首演音乐会

2023年11月11日,华东“启明”青少年音乐艺术实践中心在上海揭幕,中国“启明”巴洛克合奏团开启了首场音乐会。 华东“启明”青少年音乐艺术实践中心由中共宁波市江北区委宣传部与上音管风琴艺术中心联合指导,宁波音乐港、宁波市江北区洛奇音乐…

Apache APISIX 的 Admin API 默认访问令牌漏洞(CVE-2020-13945)漏洞复现

漏洞描述 Apache APISIX 是一个动态、实时、高性能的 API 网关。Apache APISIX 有一个默认的内置 API 令牌,可用于访问所有 admin API,通过 2.x 版本中添加的参数导致远程执行 LUA 代码。 漏洞环境及利用 启动docker环境 访问9080端口 通过 admin api…

利用LangChain实现RAG

检索增强生成(Retrieval-Augmented Generation, RAG)结合了搜寻检索生成能力和自然语言处理架构,透过这个架构,模型可以从外部知识库搜寻相关信息,然后使用这些信息来生成response。要完成检索增强生成主要包含四个步骤…

Java进阶(垃圾回收GC)——理论篇:JVM内存模型 垃圾回收定位清除算法 JVM中的垃圾回收器

前言 JVM作为Java进阶的知识,是需要Java程序员不断深度和理解的。 本篇博客介绍JVM的内存模型,对比了1.7和1.8的内存模型的变化;介绍了垃圾回收的语言发展;阐述了定位垃圾的方法,引用计数法和可达性分析发以及垃圾清…

如何实现Debian工控电脑USB接口安全管控

Debian 作为工控电脑操作系统具有稳定性、安全性、自定义性和丰富的软件包等优势,适用于要求高度可靠性和安全性的工控应用。 Debian 作为工控电脑操作系统在工业控制领域有很大优势,包括: 稳定性:Debian 的发布版以其稳定性而闻…

find和grep命令的简单使用

find和grep命令的简单使用 一、find例子--不同条件查找 二、grep正则表达式的简单说明例子--简单文本查找例子--结合管道进行查找 一、find find 命令在指定的目录下查找对应的文件。 find [path] [expression]● path 是要查找的目录路径,可以是一个目录或文件名…

MS321V/358V/324V低压、轨到轨输入输出运放

MS321V/MS358V/MS324V 是单个、两个和四个低压轨到轨输 入输出运放,可工作在幅度为 2.7V 到 5V 的单电源或者双电源条件 下。在低电源、空间节省和低成本应用方面是最有效的解决方案。 这些放大器专门设计为低压工作( 2.7V 到 5V )…