2024年7月16日,KaiwuDB CTO 魏可伟受邀于 2024 可信数据库发展大会主论坛发表演讲《多模一库 —— KaiwuDB 的现代数据库架构探索》,以下是演讲精华实录。
多模数据库 是顺应时代发展与融合趋势的产物
数据模型最早始于网状模型和层次模型,自 70 年代关系模型的诞生,数据库开启全新面貌,关系数据库得到了极大地发展。90 年代,随着算力、存储性能提升,我们不再只满足于关系数据交易性的应用,更多关于分析等复杂需求产生。同时,应用领域细分这一关键契机也初露头角。
2000 年互联网蓬勃发展,数据库细分趋势愈发明显,但随之而来又诞生了新的问题 —— 各类细分领域的数据库产品带来数据孤岛、数据治理、数据分析等更加棘手的问题。为改善这样的困境,2010 年数据库开始出现“平台化”趋势,云原生、湖仓一体开启行业热潮。但另一边,数据库“专有化”依然层出不穷。
如上图,纵观数据库发展之路,呈现出“先通用 —— 又细分 —— 再整合”的演进趋势。因此,我们看到数据库有两大不同方向的发展趋势:
- 更“专”
面向不同类型的数据,出现更多垂直深耕的专有数据库,如时序数据库、向量数据库等;
- 更“全”
以平台化、整合化思维,打破数据与数据之间的边界,融合数据,如湖仓一体、大数据平台等。
在这样的发展趋势下,有没有一个数据库能够做到“既要又要”?多模,可能会是一个很好的答案。
KaiwuDB 做面向物联网行业的多模架构
01 做不一样的多模
多模数据库通常指支持不同模型的数据在同一个数据库中实现统一存储、统一处理,这意味着多模架构将带来更高的处理与管理效率,以及更低的开发与运维成本。目前我们接触到的多模数据库大致可分为两种形态:
☛ “树型”扩展式多模
—— 基于业务发展需求,在原有关系数据库的能力上,增加部分能力。
以 DB2、SQL Sever 为例,用户的业务主要围绕关系数据库展开。但在处理过程中,还需其他类型数据(如 XML、JSON 等)来辅助,由此而新增了不同数据处理能力,我们可将其理解为“树形”扩展式多模。此类数据库具备处理关系以外的数据的能力,但受其业务的重点发展方向影响,究其根本,还是以关系型数据存储能力为基准。
☛ “筐型”集成式多模
—— 把不同类型的数据处理引擎,在上层通过集成中间件粘合起来,对外提供统一的数据存储、处理。
微软的 CosmosDB 就是一种比较典型的“筐型”集成式多模数据库。顾名思义,集成式多模能给用户带来更多的选择,但也同时存在一个明显的弊端 —— 融合性不够强,处理效率不能有效提升。如果我们仅仅是将除了关系数据库以外的数据库粘合在一起,冠之以“多模”之名,也必将会背离多模的初心。
从行业视角出发,我们重新审视多模,得出了一个结论:不论是“树型”还是“筐型”多模架构,对于物联网客户的实际需求而言,要么太过通用,要么太过专用。在经过对市场的深入研究分析之后,KaiwuDB 找到了一条属于自己的多模之道 —— 立足行业,从场景切入,更贴近用户。
02 做更懂行业与用户的多模
其实在提出这个想法前,我自己曾有这样的疑问:数据库作为一套基础设施,它的底层逻辑决定了它就应该是通用且面向全行业的。直到近几年,我们和来自不同行业的客户进行反复的沟通交流后,才发现 —— 原来一款面向行业的数据库真的关键且有必要。
KaiwuDB 多模架构设计理念起源于物联网场景,而物联网场景中有几大特点,非常值得关注:
- 物联网场景中时序数据的量级及更新频率是包括金融在内的大多数行业无法匹及的。这就意味着我们需要一款高性能读写、低成本存储、灵活的生命周期管理、水平扩展能力的时序处理引擎。
- 真实物联网应用场景中,除了主要的时序数据处理,依然具备关系数据的处理需求,但相较于传统关键领域,处理机制不需要非常复杂(如:不需要较多的隔离级别),即一套简化的关系处理能力即可满足需求。
- 除以上两点,物联网场景下还存在比较典型的非结构化数据类型,因此也需要具备异构数据处理、分析能力。
为了更好地解决“太专/太全”的问题,KaiwuDB 提出的面向行业的多模架构,具备以下几大特点:
☛ 拥抱标准与生态,降低使用门槛
我们主张拥抱以 SQL 为中心的生态,提供相应的 API 帮助用户使用,不管是关系、时序、或是其他非结构化数据,均可采用用统一的 SQL 接口,基于一套集群、一个实例实现快速上手。
☛ 针对特定行业及场景,以更低的成本获取更优的性能
当“树型”多模架构处理不同模态数据时,一定是关系型数据优先。但当置身物联网场景,时序数据处理效率往往才是性能关键。KaiwuDB 多模设计即以时序为先,将特定业务场景背后的逻辑串联,让数据库可以真正地解决物联网用户的特定问题。
☛ 符合中国数据库发展现状,更注重“可服务性”
当前中国数据库发展遇到的核心难题,其实并非技术本身,而在其“可服务性”(即:当遇到问题时,需耗时多久才能锁定、解决问题)是否足够高。“可服务性”需要我们深入千行百业的场景中不断打磨。因此,短期内实现各类场景兼顾是非常艰难的,所以,如果能有效地在某几类场景中找到突破口,可以有效提升国内数据库在垂直领域的可服务性。而物联网,就是 KaiwuDB 致力于深耕的特定场景。
KaiwuDB 2.0 围绕 4 大技术焕新升级
近期,基于 KaiwuDB 在物联网行业的经验积累,KaiwuDB 正式发布 2.0 版本,主打“更易用、更高效、更可靠”,同时也围绕多模、时序数据处理性能、分布式、AI 自治,4 大关键技术迭代升级:
1. 多模
- 时序数据处理新语法,更好地贴近 SQL 标准与兼容 SQL 生态;
- 统一关系数据与时序数据的成本模型,提升跨模优化能力;
- 优化跨模数据转换,提高数据转换性能。
2.时序处理
- 新数据组织方式适应更多用户场景;
- 新内容映射模型减少并发冲突;
- 支持更多自适应的数据访问方法。
3. 分布式
- 无中心对等分布式计算;
- 单副本与多副本支持;
- 扩缩容效率提升。
4.AI 自治
- 自适应数据组织;
- 自适应计划调优;
- 数据偏移检测。
产品赛道选择及定位的背后,其本质还是关乎“用户价值”。这也是我们选择深耕物联网的初心,坚持和客户业务不断打磨碰撞。我相信,差异化创新,会为国内的数据库领域发展带来新的市场机遇,为我们构建更高的技术护城河。因此,我们也将更加坚定地在 KaiwuDB 多模之道上继续探索前行,从行业中探寻趋势,从场景中捕捉价值,成为更懂中国物联网用户的多模数据库。