8月《中国数据库行业分析报告》已发布,聚焦数据仓库、首发【全球数据仓库产业图谱】

为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况,从2022年4月起,墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》,持续传播数据技术知识、努力促进技术创新与行业生态发展,目前已更至第十六期,并发布了共计122页的2022年度分析报告。

墨天轮8月《中国数据库行业分析报告》已正式发布(点击即可跳转,欢迎大家下载查阅),本期报盘点了墨天轮“中国数据库流行度排行”、新品发布、投融资等业内资讯,以此展现当前数据库市场发展前沿动态。

本期报告重点聚焦数据仓库,详细介绍其架构演进、技术原理,并盘点总结五大技术特性与六大发展趋势,首发【全球数据仓库产业图谱】,最后精选国内外典型的数据仓库产品案例介绍其原理特性,以期带领大家更加全面、深入地掌握数仓技术相关知识点与应用实践。

一、数据库排行榜及前沿动态

 本章节目录

  • 8月中国数据库流行度排名分析

2023年8月的墨天轮中国数据库流行度排行榜共286个数据库参与排名,本月排行榜前十中,头部变动加剧。其中,OceanBase 连续九个月夺魁,TiDB 排名较上月上升一位至第二名,阿里云 PolarDB 连续两个月排名持续攀升本月已至第四名。

本月排行榜中一批有潜力的产品排名较上月有所上升,在第10-50名这一赛段不少数据库势不可挡冲进赛场。诸如百度自研并开源的 OLAP 数据库 Apache Doris 排名较上月上升一位至第16名;阿里云 Hologres 是8月新增参与排名的数据库,其排名直逼前二十来到第22名;星环科技打造的分布式关系型数据库 KunDB 本月排名上升3位至第28名;北京大学王选所数据管理实验室研发的面向 RDF 知识图谱的开源原生图数据库系统 gStore 本月排名上升至第31名;贝格迈思(Bigmath)自主设计研发采用C++开发的新型智能数据库 AiSQL 产品 BigInsights ,本月排名较上月迅速攀升63名,现位列第33名等。

  • 数据库行业发展动态

报告整理了近期业内较受关注的投融资、新品发布等资讯。其中,2023年8月,财政部会同工业和信息化部研究起草了关于数据库、操作系统、通用服务器、杀毒软件、中间件、便携式计算机、台式计算机、一体式计算机、工作站等政府采购需求标准,数据库政府采购需求标准分别包括分布式数据库和集中式数据库两类。此外,星环科技自主研发的企业级交互式数据检索统计分析平台 Transwarp Scope 2.5版本发布,报告对其特性功能进行了解读;数据库初创公司 Neon 获得 4600 万美元融资;Oracle 宣布全面推出 MySQL HeatWave Lakehouse,使客户能够像查询数据库内的数据一样快速地查询对象存储中的数据。此处因篇幅所限仅截取部分图片,具体内容可查阅报告。

二、数据仓库概述及技术演进

 本章节目录

  • 数据仓库基本概述

在没有数据仓库的时代,数据分析人员需要收集、清洗、整合来自多个数据源的数据,并为每个决策支持环境做部分数据复制,过程耗时长并且准确率低。且由于系统迭代更新快,数据源通常是已经下线的旧业务系统,这为数据分析工作增添了难度。在此发展背景下,数据仓库(Data Warehouse) 应运而生。

报告第二章具体介绍了数据仓库的起源、分层架构、基本特征以及架构的演变、发展历程。数据仓库是来自一个或多个不同来源的集成数据的中央存储库,将当前和历史数据存储在一个位置,用于为整个企业的员工创建分析报告,具有面向主题、集成性、非易失性、时变性等特性。

而从1990年 Inmon 提出数据仓库概念至今,数仓的架构也经历了多次演进,已由最初的传统数仓架构——离线数仓库——离线大数据架构、Lambda 架构、Kappa 架构以及 Flink 的火热带出的流批一体架构,不断方便用户能以最自然、最小的成本完成实时计算。

此外,报告还总结了数仓从萌芽探索到全企业集成时代、企业数据集成时代、混乱时代–“数据仓库之父”间的论战、理论模型确认时代以及数据仓库产品百家争鸣时代的发展历程坐标轴,望帮助读者纵向掌握其发展脉络,具体内容可查阅报告。

  • 数据仓库技术解析

报告通过架构图展示了数据仓库的核心组件:中央数据库、ETL(提取、转换、加载)工具、元数据和访问工具,并详细解析了数据仓库的五大关键技术:查询优化器、MPP架构、向量化、列式存储和数据压缩。

查询优化器的主要目标是选择最优的执行计划,以最小化查询的执行成本,从而提高查询性能;而MPP架构可以加速对来自多个源的数据进行预处理操作,以便将数据整理成适合分析的形式;向量化可以提高数据分析的效率,故被广泛应用于数据加载、转换、数据分析、复杂查询等操作中;列式存储相比行式存储压缩率更高、读写效率更快,且能处理质量更高的数据;在数据仓库中,通常采用行和列相结合的方式进行压缩,以提高存储效率。此处仅简单罗列并截图展示了部分特性,欲了解具体内容查阅报告。

数字化转型浪潮卷起各种概念席卷而来,为帮助大家梳理区分,本章最后也介绍了数据湖、湖仓一体、智能湖仓等一些与常常易与数据仓库混淆的相关术语的概念,感兴趣的朋友可以下载报告查阅。

三、数据仓库现状及未来趋势

 本章节目录

报告第三章则从发展层面对数据仓库的现状、发展趋势进行了分析。目前中国数据仓库市场仍然存在厂商发展历史较短、市场规模较少、上云进程较美国相对滞后等问题。但中国企业的数字化场景更加丰富,数字化的需求也更加迫切。整体来看,中国数据仓库市场的发展潜力十分巨大,在未来较长时间内将经历快速增长。IDC预测,到2027年,中国数据仓库软件市场规模将达到27.3亿美元,2022-2027的5年市场年复合增长率(CAGR)为25.7%。

面对新技术的层出不穷,数据仓库未来会朝着实时分析、云原生Serverless、湖仓一体、HTAP、数智融合以及流式数仓等方向发展,报告对这六类发展趋势均进行了具体解读,此处因篇幅所限并未作详尽截图展示,大家可下载报告查阅。

最后,报告整理发布了【全球数据仓库产业图谱】,以开源与商业、中国与国外两个维度对全球数仓产品进行区分,望帮助大家深入掌握数仓产业发展,下载报告可查看高清版。

四、数据库产品典型案例分析

报告最后一章选取了国内外较为典型的数据仓库产品作为案例,介绍其核心架构、功能特性与应用实践等

其中国外产品包含弹性数据仓库 Snowflake,具备完整的SQL支持和半结构化和schema-less数据模式支持,是一种多租户、事务性、安全、高度可扩展的弹性系统;数据仓库市场的奠基者 Teradata,主要适用于构建大规模数据仓库应用程序,其已于2023年正式宣布将逐步结束在中国的直接运营;谷歌的完全托管的企业数据仓库 BigQuery 可帮助用户通过机器学习、地理空间分析和商业智能等内置功能来管理和分析数据,利用云数据仓库助力数据驱动型创新。

国内产品包含面向实时分析的现代化数据仓库 Apache Doris,是一款基于 MPP 架构的高性能、实时的分析型数据库,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景;分布式逻辑数据仓库 GBase 8a,其主要市场是商业分析和商业智能市场,可应用于政府、党委、安全敏感部门、国防、统计等拥有海量业务数据的行业;华为云企业级云分布式数据仓库服务 GaussDB(DWS) 是一种基于云基础架构和平台的在线数据处理数据库,提供即开即用、可扩展且完全托管的服务;最后介绍了星环研发的助力企业构建一站式实时数仓 ArgoDB 以及阿里云研发的一站式实时数据仓库引擎 Hologres。此处仅展示本章节中部分内容,大家可以下载报告获取更多内容。

本文仅对8月《中国数据库行业分析报告》的部分内容进行了摘录、整理,更多完整、详细内容大家可以下载报告全文了解,也欢迎各位数据行业同道交流、讨论、建言献策,我们一同见证、共同助力中国数据库产业的发展壮大!

报告全文下载地址:https://www.modb.pro/doc/116039

往期报告下载

  • 2022年4月-2023年8月中国数据库行业分析报告合辑
  • 2022年中国数据库行业年度分析报告

更多精彩内容尽在墨天轮数据社区,围绕数据人的学习成长提供一站式的全面服务,持续促进数据领域的知识传播和技术创新。添加社区墨天轮小助手(VX:modb666)可获取更多技术干货。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/69086.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【分布式搜索引擎es】

文章目录 数据搜索DSL实现查询文档搜索结果处理 RestClient实现 旅游案例酒店搜索和分页酒店结果过滤我周边的酒店酒店竞价排名 elasticsearch最擅长的是 搜索和 数据分析。 数据搜索 DSL实现 查询文档 常见的查询类型包括: 查询所有:查询出所有数…

读SQL学习指南(第3版)笔记11_字符串函数和数值函数

1. 尽管SQL标准指定了部分函数,但数据库厂商并没有遵循这些函数规范 2. 字符串 2.1. char 2.1.1. 固定长度、不足部分用空格填充的字符串 2.1.2. MySQL允许的char类型的最大长度为255个字符 2.1.3. Oracle Database允许的最大长度为2,000个字符 2.1.4. SQL Se…

java八股文面试[JVM]——什么情况下会抛出OOM

什么情况下,会抛出OOM呢? JVM98%的时间都花费在内存回收 每次回收的内存小于2% 满足这两个条件将触发OutOfMemoryException,这将会留给系统一个微小的间隙以做一些Down之前的操作,比如手动打印Heap Dump。并不是内存被耗空的时…

Unity记录4.4-存储-系统数据以配置文件保存

文章首发见博客:https://mwhls.top/4818.html。 无图/格式错误/后续更新请见首发页。 更多更新请到mwhls.top查看 欢迎留言提问或批评建议,私信不回。 汇总:Unity 记录 摘要:处处修改->一处修改的系统配置文件。 思路-2023/08/…

游戏 小代码

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 提示:这里可以添加本文要记录的大概内容: 例如:…

Java 面试 - Redis

Redis Redis 是基于键值对的非关系型数据库。Redis 拥有string、hash、list、set、zset等多种数据结构, redis具有惊人的读写性能, 其优秀的持久化机制是的它在断电和机械故障时也不会发生数据丢失, 可以用于热点数据存放, 还提供了键过期、发布订阅、食物、流水线、LUA脚本等多…

按钮控件的基类--- QAbstractButton 类(抽象类)

1、QAbstractButton 属性 QAbstractButton 属性速查表属性名说明属性名说明autoExclusive自动排他性checked是否被选中autoRepeat是否启用自动重复down是否处于按下状态autoRepeatDelay初始延迟(毫秒)icon按钮上显示的图标autoRepeatInterval时间间隔(毫秒iconSize显示的图标的…

Vue + Element UI 前端篇(十二):用户管理模块

Vue Element UI 实现权限管理系统 前端篇(十二):用户管理模块 用户管理模块 添加接口 在 http/moduls/user.js 中添加用户管理相关接口。 import axios from ../axios/* * 用户管理模块*/// 保存 export const save (params) > {ret…

windows查看端口占用,通过端口找进程号(查找进程号),通过进程号定位应用名(查找应用)(netstat、tasklist)

文章目录 通过端口号查看进程号netstat通过进程号定位应用程序tasklist 通过端口号查看进程号netstat 在Windows系统中,可以使用 netstat 命令来查看端口的占用情况。以下是具体的步骤: 打开命令提示符(CMD):按WinR组…

Linux简介

为什么选择Linux? Linux是一个优秀的操作系统 硬件方面:适合嵌入式,服务器,移动设备,桌面,计算机集群和超级计算机应用方面:人工智能,分布式计算,云计算,大数…

诊断网络卡的原因

首先,通过ipconfig和ping命令来诊断。 手头要有一台Windows电脑。在dos窗口下,输入ipconfig,可以查看到本机“手动设置”或者“自动获取”的IP地址。 这里有几种可能性: IP地址和网关地址都正确。(不存在问题&#xf…

stable diffusion实践操作-tagg插件-反推提示词

系列文章目录 本文专门开一节写SD原理相关的内容,在看之前,可以同步关注: stable diffusion实践操作 文章目录 系列文章目录前言一、tagg插件反推词使用1. 安装2. 打开3 发送到文生图4 结果 总结 前言 本章主要讲一个反推提示词的插件tagg.…

【Git】git tag 查看版本号 | 删除本地 | 删除远程仓库| 批量删除

一、删除指定tag 使用场景:比如我们在本地git tag了一个错误的版本号,但是还没有push,想直接删掉避免污染远程仓库 1、删除指令 要删除指定的Git标签(版本号),您可以使用以下命令: git tag -d 标…

DockerFile简明教程

需求 由于在测试环境中使用了docker官网的centos 镜像,但是该镜像里面默认没有安装ssh服务,在做测试时又需要开启ssh。所以上网也查了查资料。下面详细的纪录下。在centos 容器内安装ssh后,转成新的镜像用于后期测试使用。 镜像定制 第一种…

电气工程中重要的测量术语:“kVRMS” | 百能云芯

在电气工程和电子领域,术语“kVRMS”至关重要。它是工程师和技术人员用来准确评估电气系统电压的关键测量方法。在这篇综合文章中,我们将深入探讨 kVRMS 的含义、其意义、应用。 kVRMS 代表“千伏均方根”。为了理解这个术语,我们来分解一下&…

Linux的服务器日志分析及性能调优

作为网络安全和数据传输的重要环节,代理服务器在现代互联网中扮演着至关重要的角色。然而,在高负载情况下,代理服务器可能面临性能瓶颈和效率问题。本文将介绍如何利用Linux系统对代理服务器进行日志分析,并提供一些实用技巧来优化…

rpm打包

文章目录 rpm打包 1. rpm打包步骤0)准备工作:安装打包工具rpm-build和rpmdevtools(1)在线安装(2)离线安装 1)创建初始化目录2)准备打包内容3)编写打包脚本 spec文件4&…

测试需求分析

什么是软件测试需求: 灰度测试:先发布部分功能,然后看用户的反馈,再去发布另外一部分的更新 A/B测试:先发布的功能先让A部分的用户进行更新,再根据用户的犯困再更新B用户的功能 需求测试: 功…

hive 基础知识

一 hive 是什么 在本节前我们需要明确 hive 是什么 上面两个代码块,左边的是 mapreduce 的代码块,右边的是hive 的代码块 很容易看出来,右边的 hive 写起来要更容易更快些,而执行效率,右边的 hive 只比左边多一个翻译…

Redis 7 第六讲 主从模式(replica)架构篇

🌹🌹🌹 此篇开始进入架构篇范围(❤艸`❤) 理论 即主从复制,master以写为主,Slave以读为主。当master数据变化的时候,自动将新的数据异步同步到其它slave数据库。 使用场景 读写分离 容灾备份数据备份水平扩容主从架构 演示案例 注:masterauth、replicaof主…