如今,图表比以往任何时候都更加相关和有用。由于目前正在发生的人工智能革命,工程师们正在考虑围绕 Gen-AI 的机会,利用具有动态提示、数据基础和屏蔽功能的开放 Gen-AI 解决方案,这进一步促使他们思考知识图谱等有效的解决方案。
工程师 Mary 正在研究数据基础问题,并正在考虑 为人工智能解决方案构建知识图,以在工作中提供个性化产品推荐,并开始想知道
- 如何构建这些图表,
- 将它们存放在哪里,
- 如何与我们从数据库、仓库和湖房等广泛来源获得的大量数据集成?
Mary 的担忧似乎很合理,如果她现在必须编写应用程序逻辑来生成图,连接到新的图数据库来存储它们,这会带来集成、安全性、成本、可靠性和技术学习等挑战。
Mary 可以通过简单而强大的本机图形分析引擎应用程序来克服这些繁琐的问题。
是的,今天可以实现对现有数据的图形查询,而无需具体化图形或使用图形数据库。
想知道如何在数据库、仓库和湖泊中的现有数据上本地实现图形分析和图形查询!让我们先睹为快。
让我退一步解释什么是图以及图分析相对于传统数据分析有何优势。
在软件工程中,图是用于建模和表示实体之间关系的数据结构。它们由顶点(节点)和连接这些顶点的边(关系)组成,可以是有向的或无向的、加权的或不加权的。
图分析是基于图的数据的一种强大的新兴数据分析形式,可帮助企业理解各种数据实体之间的复杂关系。它有助于理解、可视化复杂的关系并从中得出有意义的见解。
使用图数据库进行图分析比关系存储上的传统 SQL 分析如何更好?
我们可以看到图形分析更加高效、灵活、可扩展、可伸缩,并且与智能|人工智能分析相关。
当今如何实现图分析
当今大多数利用图分析的企业都会生成图并将其存储在图数据库中。Neo4j、TigerGraph、Amazon Neptune 和 OrientDB 被业界广泛采用作为图数据库。
来源:作者
新范式
原生图形分析引擎是一种新范例,我们可以直接实现图形查询以及现有关系/SQL 数据的可视化,而无需在中间使用图形数据库,并且仍然可以利用我们从图形和传统分析方法中获得的所有优势。
这似乎是一个非常强大的工具,在图形分析方面有很多机会,并且似乎完全可以放弃使用冗余图形数据库并转向这种新的本机图形分析范例。
从流程中删除图形数据库
最终用户流程图
一枪三鸟!
如果我们可以将图查询应用于现有的传统数据存储(例如关系数据库、仓库、湖泊或湖屋),我们可以一次性实现三件事:
- 零 ETL:无需从存储的现有数据中复制、迁移或 ETL 数据来构建和存储图形。此外,无需将基本关系数据从一个湖复制到另一个湖。您可以拥有一个可以动态查询的虚拟层。
- 不需要新的图形数据库:不需要以图形格式具体化和存储数据,它们可以在运行时动态完成,不需要引入新的图形数据库,也不需要担心集成、成本和安全性限制。
- 高性能:还可以实现图形查询对关系数据具有的所有性能优势。
业界正在快速跟上这种新方法,并且在这方面已经有一些参与者。
用于开发的开源库
Apache Spark GraphX: GraphX是 Spark 中用于图形和图形并行计算的新组件,其中包括越来越多的图形算法和构建器,以简化图形分析任务。
Apache Flink Gelly:Gelly是 Apache Flink 的图形处理 API 和库。Flink 对迭代的原生支持使其成为大规模图分析的合适平台。
用于本机支持的现成播放器/引擎
PuppyGraph: 使用PuppyGraph,您现在可以通过无缝的无 ETL 集成,以以下任意开放表格式对仓库、湖泊和湖屋中的现有数据进行图形查询。
- 阿帕奇冰山
- 阿帕奇胡迪
- 阿帕奇蜂巢
- 三角洲湖
以及来自以下数据库的关系数据
- MySQL
- PostgreSQL
Timbr.ai:Timbr 的语义图平台是一个 SQL 原生知识图,可将您的数据库转变为推理机,以便我们可以应用优化图,例如对数据进行 SQL 查询。它支持与任何符合 SQL / ANSI SQL 标准或可以在 SQL 中查询的关系数据库进行完整的后端集成。连接可以通过 JDBC 或 ODBC 连接器建立,无需 ETL。
- 关系数据库(MySQL、MariaDb、SqlServer、PostgreSQL、SAP Hana、Aurora Oracle)
- NoSQL 数据库 (MongoDB)
- 数据湖(S3、GCS、Microsoft ADLS)
- 仓库(RedShift、BigQuery、Snowflake、Databricks、Synapse、Athena)
- 引擎(Apache Spark、Presto、Trino)
- 数据格式(Parquet/JSON/CSV)
总而言之,值得探索我们现有的这些选项,以在不使用图形数据库和物化图形的情况下实现图形分析。祝你尝试成功!!
作者:Sudheer Kandula
更多技术干货请关注公号【云原生数据库】
squids.cn,云数据库RDS,迁移工具DBMotion,云备份DBTwin等数据库生态工具。
irds.cn,多数据库管理平台(私有云)。