Gen-AI 的知识图和分析(无需图数据库)

如今,图表比以往任何时候都更加相关和有用。由于目前正在发生的人工智能革命,工程师们正在考虑围绕 Gen-AI 的机会,利用具有动态提示、数据基础和屏蔽功能的开放 Gen-AI 解决方案,这进一步促使他们思考知识图谱等有效的解决方案。

工程师 Mary 正在研究数据基础问题,并正在考虑 为人工智能解决方案构建知识图,以在工作中提供个性化产品推荐,并开始想知道

  • 如何构建这些图表,
  • 将它们存放在哪里,
  • 如何与我们从数据库、仓库和湖房等广泛来源获得的大量数据集成?

Mary 的担忧似乎很合理,如果她现在必须编写应用程序逻辑来生成图,连接到新的图数据库来存储它们,这会带来集成、安全性、成本、可靠性和技术学习等挑战。

Mary 可以通过简单而强大的本机图形分析引擎应用程序来克服这些繁琐的问题。

是的,今天可以实现对现有数据的图形查询,而无需具体化图形或使用图形数据库。

想知道如何在数据库、仓库和湖泊中的现有数据上本地实现图形分析和图形查询!让我们先睹为快。

让我退一步解释什么是图以及图分析相对于传统数据分析有何优势。

在软件工程中,图是用于建模和表示实体之间关系的数据结构。它们由顶点(节点)和连接这些顶点的边(关系)组成,可以是有向的或无向的、加权的或不加权的。

图分析是基于图的数据的一种强大的新兴数据分析形式,可帮助企业理解各种数据实体之间的复杂关系。它有助于理解、可视化复杂的关系并从中得出有意义的见解。

使用图数据库进行图分析比关系存储上的传统 SQL 分析如何更好?

图与传统分析的表格比较

                                             图与传统分析的表格比较

我们可以看到图形分析更加高效、灵活、可扩展、可伸缩,并且与智能|人工智能分析相关。

当今如何实现图分析

当今大多数利用图分析的企业都会生成图并将其存储在图数据库中。Neo4j、TigerGraph、Amazon Neptune 和 OrientDB 被业界广泛采用作为图数据库。

企业边界

                                                        来源:作者

新范式

原生图形分析引擎是一种新范例,我们可以直接实现图形查询以及现有关系/SQL 数据的可视化,而无需在中间使用图形数据库,并且仍然可以利用我们从图形和传统分析方法中获得的所有优势。

这似乎是一个非常强大的工具,在图形分析方面有很多机会,并且似乎完全可以放弃使用冗余图形数据库并转向这种新的本机图形分析范例。

从流程中删除图形数据库

                                                 从流程中删除图形数据库

最终用户流程图

                                                     最终用户流程图

一枪三鸟!

如果我们可以将图查询应用于现有的传统数据存储(例如关系数据库、仓库、湖泊或湖屋),我们可以一次性实现三件事:

  1. 零 ETL:无需从存储的现有数据中复制、迁移或 ETL 数据来构建和存储图形。此外,无需将基本关系数据从一个湖复制到另一个湖。您可以拥有一个可以动态查询的虚拟层。
  2. 不需要新的图形数据库:不需要以图形格式具体化和存储数据,它们可以在运行时动态完成,不需要引入新的图形数据库,也不需要担心集成、成本和安全性限制。
  3. 高性能:还可以实现图形查询对关系数据具有的所有性能优势。

业界正在快速跟上这种新方法,并且在这方面已经有一些参与者。

用于开发的开源库

Apache Spark GraphX: GraphX是 Spark 中用于图形和图形并行计算的新组件,其中包括越来越多的图形算法和构建器,以简化图形分析任务。

Apache Flink Gelly:Gelly是 Apache Flink 的图形处理 API 和库。Flink 对迭代的原生支持使其成为大规模图分析的合适平台。

用于本机支持的现成播放器/引擎

PuppyGraph: 使用PuppyGraph,您现在可以通过无缝的无 ETL 集成,以以下任意开放表格式对仓库、湖泊和湖屋中的现有数据进行图形查询。

  • 阿帕奇冰山
  • 阿帕奇胡迪
  • 阿帕奇蜂巢
  • 三角洲湖

以及来自以下数据库的关系数据

  • MySQL
  • PostgreSQL

Timbr.ai:Timbr 的语义图平台是一个 SQL 原生知识图,可将您的数据库转变为推理机,以便我们可以应用优化图,例如对数据进行 SQL 查询。它支持与任何符合 SQL / ANSI SQL 标准或可以在 SQL 中查询的关系数据库进行完整的后端集成。连接可以通过 JDBC 或 ODBC 连接器建立,无需 ETL。

  • 关系数据库(MySQL、MariaDb、SqlServer、PostgreSQL、SAP Hana、Aurora Oracle)
  • NoSQL 数据库 (MongoDB)
  • 数据湖(S3、GCS、Microsoft ADLS)
  • 仓库(RedShift、BigQuery、Snowflake、Databricks、Synapse、Athena)
  • 引擎(Apache Spark、Presto、Trino)
  • 数据格式(Parquet/JSON/CSV)

总而言之,值得探索我们现有的这些选项,以在不使用图形数据库和物化图形的情况下实现图形分析。祝你尝试成功!!


作者:Sudheer Kandula

更多技术干货请关注公号【云原生数据库

squids.cn,云数据库RDS,迁移工具DBMotion,云备份DBTwin等数据库生态工具。

irds.cn,多数据库管理平台(私有云)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/591045.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ansible自动化运维(一)简介及部署、清单

👨‍🎓博主简介 🏅云计算领域优质创作者   🏅华为云开发者社区专家博主   🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入! 🐋 希望大家多多支…

Vue2 - Vue.observable 介绍

目录 1,介绍2,使用场景和 Vue 实例的区别 1,介绍 官网参考 可以让一个对象变成响应式数据。在 Vue 内部就是用它来处理传递给 Vue 的 data 对象,或是在单文件组件中 data() 返回的对象。 var vm new Vue({data: {count: 0} })…

MySQL数据库学习二

2 MySQL InnoDB 锁的基本类型 https://dev.mysql.com/doc/refman/5.7/en/innodb-locking.html 官网把锁分成了 8 类。所以我们把前面的两个行级别的锁(Shared and ExclusiveLocks),和两个表级别的锁(Intention Locks)…

游泳耳机到底怎么选?一文说全游泳耳机哪个好!

对于一个热爱游泳的人,每次游泳都希望找到一种好的方式来打发时间,同时也希望能够得到一些锻炼。在尝试了各种游泳装备之后,发现游泳耳机是一个非常不错的选择,不过市面上的游泳耳机鱼龙混杂,所以游泳耳机的选择需要综…

深度学习|2.11 向量化vectorization

2.11 向量化的作用 向量化可以使得向量中的每一个维度的数据进行并行计算,从而加快了神经网络的计算速度。 验证 其他

超市订单管理系统

比较简单的超市订单管理系统

4.28 构建onnx结构模型-Unfold

前言 构建onnx方式通常有两种: 1、通过代码转换成onnx结构,比如pytorch —> onnx 2、通过onnx 自定义结点,图,生成onnx结构 本文主要是简单学习和使用两种不同onnx结构, 下面以 Unfold 结点进行分析 方式 方法…

电子书推荐|VMware 替代与升级攻略:技术路线、产品对比与用户实践

在进行 VMware 国产化替代时,您是否会遇到以下问题: 如何实现 VMware 整体架构/部分组件替换?是否可以不仅“为替换而替换”,而是同时实现架构的升级,带来更多业务价值?哪些国产方案具备 VMware 同等能力&…

vue3+ts+vite自定义组件上传npm流程

1. 创建项目 npm create vite 这里踩坑点: 运行vite生成的vue项目时报错“SyntaxError: Unexpected token ?? at “ 是因为node版本过低 电脑为windows11系统,我当时使用的版本node版本是14.21.3,如下图,后边安装了nvm版本…

PyTorch中常用的工具(3)TensorBoard

文章目录 前言3 可视化工具3.1 TensorBoard 前言 在训练神经网络的过程中需要用到很多的工具,最重要的是数据处理、可视化和GPU加速。本章主要介绍PyTorch在这些方面常用的工具模块,合理使用这些工具可以极大地提高编程效率。 由于内容较多&#xff0c…

【解决】电脑上的WIFI图标不见了咋整?

相信不少同学都遇到过这种情况:电脑上的wifi图标莫名不见了,甚至有时候还是在使用的中途突然断网消失的。 遇到这种情况一般有两种解决方案: 1. 在开机状态下长按电源键30秒以上 这种办法应该是给主板放电,一般应用在wifi6上面。…

计算机视觉与自然语言处理(Open AI)

1.语音识别技术 语音识别是将语音转换为文本的技术, 是自然语言处理的一个分支。通过特征的提取、模式的匹配将语音信号变为文本或命令,以实现机器识别和理解语音。 按照应用场景的不同,可以大致分为三类; • 电信级系统应用&…

树莓派(linux)使用Motion动作捕捉或实时获取视频

测试摄像头 查看系统是否识别了摄像头 $ lsusb 测试摄像头抓图(拍照) 安装 fswebcam sudo apt-get install fswebcam 抓拍一张图,存放与当前目录,并保存为 jpg 格式。 fswebcam /dev/video0 ./img1.jpg 查看摄像头效果 安装 luvcview …

Web前端第9章思维导图

本章内容是关于CSS样式属性,包含CSS单位、CSS字体样式、CSS文本样式、CSS颜色与背景、CSS列表样式、CSS盒模型。重点在于CSS盒模型、CSS文本样式、CSS字体样式。 1. CSS单位 绝对单位 磅(pt),pica(pc)、c…

自动医疗检查仓:未来医疗的新篇章

自动医疗检查仓:未来医疗的新篇章 随着科技的飞速发展,医疗行业正经历着前所未有的变革。其中,自动医疗检查仓作为近年来备受瞩目的创新技术,正在逐渐改变我们对医疗服务的认知和体验。本文将对自动医疗检查仓进行深入剖析,从其技术原理、应用场景到未来发展趋势等方面展…

深度学习核心技术与实践之自然语言处理篇

非书中全部内容,只是写了些自认为有收获的部分。 自然语言处理简介 NLP的难点 (1)语言有很多复杂的情况,比如歧义、省略、指代、重复、更正、倒序、反语等 (2)歧义至少有如下几种: …

十大排序总结之——冒泡排序、插入排序

同样,这两几乎也是被淘汰了的算法,尽管它们是稳定的,但是时间复杂度没人喜欢,了解一下就好,没啥好说的,注意最后一句话就行了 一,冒泡排序 1. 算法步骤 共n-1趟,谁两敢冒泡就换了…

十四:爬虫-Redis基础

1、背景 随着互联网大数据时代的来临,传统的关系型数据库已经不能满足中大型网站日益增长的访问量和数据量。这个时候就需要一种能够快速存取数据的组件来缓解数据库服务I/O的压力,来解决系统性能上的瓶颈。 2、redis是什么 Redis 全称 Remote Dictio…

HarmonyOS4.0系统性深入开发10卡片事件能力说明

卡片事件能力说明 ArkTS卡片中提供了postCardAction()接口用于卡片内部和提供方应用间的交互,当前支持router、message和call三种类型的事件,仅在卡片中可以调用。 接口定义:postCardAction(component: Object, action: Object): void 接口…

建模杂谈系列236 Block Manager

说明 很久没有写了,总是写一半就没空往下写。这次正好有个单独的主题,可以写一下。 内容 1 块的分配 数据应该怎么切分和管理?这没有一个固定的答案,在我的实践中,我觉得一个块(Block)一万条记录是比较合理的。然后…