数据库、数据中台、数据仓库、数据湖区别

        数据时代,各行业的企业都已经开始通过数据库来沉淀数据,但是真的论起数据库、数据仓库、数据中台,还是新出现的数据湖,它们的概念和区别,可能知道的人就比较少了,今天我们详细来比较了解一下。

一、数据仓库是什么

        事实上,很多人在看到数据仓库的第一眼,就把数据仓库当成了数据库。当然这也很正常,毕竟从名字来看这两者确实区别不大,真正区分两者的是定位、作用等更深一层的东西。不过在这里还是先解释数据仓库的概念,不同之处后边会进行详细讲解。

        数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用

        数据仓库就像企业的总的大仓库,能够存储不同来源、不同格式的数据,并且可以通过ETL和数据模型,对数据进行高质量的筛选,分级分类进行存储。具有很强的稳定性,不会频繁的进行增删改等操作,能够反应历史变化。

        用通俗的话来说就是数据仓库就像一个终端的大仓库,其他小仓库的各种货品会通过各种方式统一存储到这里,然后通过仓库位置的划分、货品的摆放进行归纳分类,实现规范、标准的从存放,到分类,再到使用的完整过程

二、数据仓库和数据库有什么不同

        其实数据仓库和数据库跟现实中的仓储系统是有很多相似之处的,企业各部门的数据库就相当于一个个小的产业库,对应了企业的各个部门。而数据仓库相当于是一个终端仓库,其中存储的物品是由各个小的仓库运送的,是各个数据库的集合体,一个更大的综合数据库

        此外,数据库和数据仓库最不同的还是服务对象和作用。上边也提到了,数据库基本上是服务于各个部门,是业务信息系统的附属品,也就是我们常在信息化建设初期中提到的ERP、OA、CRM等业务系统。这些数据库是服务于各种业务系统以及业务软件,主要是通过业务流程发挥作用。

        而数据仓库就不一样了,它不是服务于业务信息化系统的,它是服务于分析型应用的。更多的是通过各种商业智能BI前端可视化分析工具或者报表工具来访问数据仓库,最终是面向报表查询,数据分析服务,为业务人员提供复盘、预测,为企业管理人员提供决策信息的。

三、数据中台是什么

        回看时间,数据中台虽然是一个新兴的概念,但也已经有数年的发展时间,按理说应该已经有一个主流的解释来定义数据中台的形态,但实际上数据中台的界定依旧模糊,分类也比较混乱,缺少对于定义和价值的判断,所在在这里谈到的数据中台也只能代表个人的看法。

        一般来说,数据中台是一种将企业沉淀的大量业务数据赋予价值变成数据资产,并通过持续的数据应用为企业业务服务,从而实现数据价值,让数据真正成为企业重要资产,发挥作用的系统和机制

        数据中台强调的是连接,企业通过数据中台提供的方法和运营机制,将数据连接起来,形成汇聚整合、提纯加工、建模处理、算法学习,再通过连接以共享数据服务的方式将复杂的数据处理过程提供给业务使用,从而实现数据与业务的连接。

        用通俗的话来说,数据中台就是让企业的数据动起来的实现企业全面数据化的解决方案,主要价值在于数据服务,也就是可复用性。其本质是因为数据从业务系统中产生并储存,而业务系统反过来也需要利用数据分析来优化改进业务流程,那么就可以把业务系统的数据存储和计算能力抽象,交给独立的数据处理平台提供储存和计算能力,这就是数据中台产生的真正原因。

四、什么是数据湖

         数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。

五、数据湖与数据仓库的区别

区别:

        1、从使用对象来看:数据仓库主要是给BI分析的数据分析师使用的,而数据湖是给AI处理的数据科学家使用,数据仓库也可以给AI使用,但是侧重点是BI。

        2、从数据处理的过程来看:数据仓库是ETL,抽取-清洗-加载,而数据湖是ELT,抽取-加载-清洗,即数据湖首先是直接讲数据存储,后续使用再进行清洗,而数据仓库在创建之初已经明确应用场景,所以先清洗再加载。

        3、从使用用途来看,数据仓库有明确的使用场景,即明确的数据分析的主题场景,而数据湖是不确定数据有什么使用场景,先存储起来,后面再进行探索使用

        4、从存储的数据类型来看,数据仓库存储的主要是结构化数据,而数据湖存储的是结构化半结构化和非结构化的数据,主要存储的是半结构化和非结构化的数据

        5、数据仓库的数据质量是通过数据治理实现数据价值,而数据湖的数据质量主要目的是具备高质量标准,确保数据可信、可靠、具有正确的含义和目的,主要是为了数据存储

相似点:

        1、数据湖和数据仓库都需要元数据管理,如果没有元数据管理,则数据湖会变成数据沼泽不知道存储的数据是什么,无法再次使用,所以数据湖也是需要通过元数据管理将数据变成数据资源。另外元数据管理需要按照因归尽归,因收尽收的原则。

        2、数据湖和数据仓库都有数据资源目录,通过数据资源目录了解存储的数据有什么?

        3、数据湖和数据仓库的提取都是需要通过SQL的方式进行提取,数据模型的创建,但是区别主要在数据仓库的模型创建是依据数据标准进行创建,而数据湖的模型创建可以按照业务系统进行一比一的创建

        综上所述,数据仓库和数据湖是有那种不同的使用场景的,不同企业可以根据应用场景选取合适的产品进行数据存储。

目前数据仓库的类型主要有两种,,一种是数据仓库的思想领袖Bill innon提出的关系型数据仓库,另外一种是另外一个思想领袖Ralph Kimball提出的多维数据仓库,目前关系型数据仓库不会存在因为数据量变大,查询变慢的问题,而多维数据仓库会存在由于数据量变大,而查询性能变慢的问题,而多维数据仓库解决由于数据量变大查询性能变慢的问题而产生的宽表,宽表的作用是适当使用部分数据几余,通过空间换时间的方法解决查询性能问题

衡量数据仓库建设的成功与否的指标主要有3个指标:

        1、使用率指标,有多少人在使用数据仓库

        2、主题覆盖率。即有多少业务部门在使用数据仓库

        3、响应时间和性能指标。由于数据仓库只要是BI分析应用场景,所以响应时间和性能指标是数据仓库建设的一个重要的指标。

数据湖建设成功与否的衡量指标可以包括以下几个方面

        1、数据完整性: 数据湖的数据应该完整地反映了业务过程中的各个环节,并且具备一致性和准确性。

        2、数据质量: 数据湖的数据应该具备高质量标准,确保数据可信、可靠、具有正确的含义和目的。

         3、数据共享与协作:数据湖中的数据应该容易被团队和组织共享和访问,同时支持协作和合作。

        4、数据安全与隐私: 数据湖中存储的信息应该保持机密性、完整性、可用性,并遵循数据安全和隐私方针。

        5、数据分析与应用: 数据湖中的数据应该能够为企业和团队的业务决策提供有价值的洞察同时支持业务应用和创新

        6、数据可持续性:数据湖与数据管理策略相结合,应该能够持续为组织和业务流程提供有益的价值。

         7、数据湖管理平台的便捷性: 数据湖中数据的管理流程应该简单便捷,从数据接入、数据管理到数据可视化、数据分析均应该较为便捷

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/107873.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Oracle基础学习

文章目录 1. oracle数据库安装2. sqlplus连接数据库方式3. 创建用户信息4. 基本概念5. 基本SQL语句6. Springboot开发 1. oracle数据库安装 安装教程 安装包地址 2. sqlplus连接数据库方式 无用户信息登录 使用用户信息登录 登录最高权限管理员,如果不加上as …

Spring Cloud Alibaba—Sentinel 控制台安装

1、Sentinel 控制台包含如下功能: 查看机器列表以及健康情况:收集 Sentinel 客户端发送的心跳包,用于判断机器是否在线。 监控 (单机和集群聚合):通过 Sentinel 客户端暴露的监控 API,定期拉取并且聚合应用监控信息,最…

如何通过内网穿透实现远程连接NAS群晖drive并挂载电脑硬盘?

文章目录 前言1.群晖Synology Drive套件的安装1.1 安装Synology Drive套件1.2 设置Synology Drive套件1.3 局域网内电脑测试和使用 2.使用cpolar远程访问内网Synology Drive2.1 Cpolar云端设置2.2 Cpolar本地设置2.3 测试和使用 3. 结语 前言 群晖作为专业的数据存储中心&…

Day1力扣打卡

打卡记录 最长相邻不相等子序列 I(脑筋急转弯) 链接 思路:形如 11100110001 要达到最大,必须在重复数字选出一个,即在111中取一个1,在00中取一个0,以此类推最终便得到最长相邻不相等子序列。 c…

Elasticsearch 8.11 中的合并更少,摄取更快

作者:ADRIEN GRAND Elasticsearch 8.11 改进了管理索引缓存的方式,从而减少了段合并。 我们对 Elasticsearch 8.11 从索引缓存回收内存的方式进行了重大更改,这有助于减少合并开销,从而加快索引速度。 使用我们的日志跟踪&#x…

maven 常用知识速记

创建项目 maven archetype:generate依赖范围 有如下依赖示例&#xff1a; <dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.7</version><scope>test</scope> </dependency>其中…

力扣刷题 day46:10-16

1.最大整除子集 给你一个由 无重复 正整数组成的集合 nums &#xff0c;请你找出并返回其中最大的整除子集 answer &#xff0c;子集中每一元素对 (answer[i], answer[j]) 都应当满足&#xff1a; answer[i] % answer[j] 0 &#xff0c;或 answer[j] % answer[i] 0 如果存在…

百度测试开发工程师面试心得

百度测试开发实习生面试心得&#xff1a; 电话面试&#xff1a; 面试官&#xff1a;首先做一下自我介绍吧 我&#xff1a;我是***&#xff0c;来自什么大学&#xff0c;现在大三&#xff0c;在学校期间担任过部长&#xff0c;副主席等职务&#xff0c; 组织举办了很多比赛&…

DITA-OT 4.0新特性 - PDF themes,定制PDF样式的新方法

随着DITA-OT 4.0的发布&#xff0c;它提供了一种新的定制PDF样式方法&#xff0c;这种方法就是PDF theme。这篇文章来聊一聊这种定制PDF输出的新方法和实验结果。 在进入PDF theme细节之前&#xff0c;为各位读者梳理一下DITA-OT将DITA和Markdown发布成PDF的几种方法。 - 1 …

【Vue】vue在Windows平台IIS的部署

系列文章 【C#】IIS平台下&#xff0c;WebAPI发布及异常处理 本文链接&#xff1a;https://blog.csdn.net/youcheng_ge/article/details/126539836 【Vue】vue2与WebApi跨域CORS问题 本文链接&#xff1a;https://blog.csdn.net/youcheng_ge/article/details/133808959 文章目…

【小白使用-已验证】PhpStudy下载安装使用教程23.10.17

1.phpstudy是什么&#xff1f; phpstudy是一个php运行环境的集成包&#xff0c;用户不需要去配置运行环境&#xff0c;就可以使用&#xff0c;phpstudy不仅是一款比较好用的php调试环境工具&#xff0c;并且还包括了开发工具和常用手册&#xff0c;对于新手是有很大帮助的。 一…

git操作说明

SourceURL:file:///home/kingqi/桌面/git操作说明.doc 本地建立仓库 mkdir namebao cd namebao pwd git init 初始化 cd .git/ gedit config 本地存储 进入目录上传全部文件 git add . 提交 git commit -m “说明” 远程提交 复制gitee或者github仓库链接 可以直…

计算机网络第2章-DNS(3)

DNS&#xff1a;因特网的目录服务 在因特网上&#xff0c;主机和人类都一样&#xff0c;可以用很多种方式进行标识&#xff0c;主机的一种标识方法是它的主机名。 但是主机名一般是用IP来表示&#xff0c;IP是由四个字节组成&#xff0c;并且有严格的层次结构&#xff0c;不利…

Asp.net core Web Api 配置swagger中文

启动项目&#xff0c;如图&#xff1a; 原来是英文的&#xff0c;我们要中文的&#xff0c;WeatherForecastController.cs是一个示例&#xff0c;删除即可&#xff0c;WeatherForecast.cs同时删除&#xff0c;当然不删除也行&#xff0c;这里是删除&#xff0c;创建自己的控制器…

pytest 之 pytest.ini配置文件

前言&#xff1a;pytest.ini全局配置文件&#xff0c;是pytest单元测试框架的核心配置文件&#xff0c;pytest.ini 可以改变 pytest 的默认行为 一、配置规则 1、优先级 如pytest.ini有该参数值&#xff0c;在执行的时候&#xff0c;优先读取配置文件中的参数如没有&#xf…

idea禁用双击ctrl

Run anything | IntelliJ IDEA Documentation Disable double modifier key shortcuts

去中心遇见混币器

区块链的去中心化交易所在保护隐私和安全性上有着无可比拟的优势&#xff0c;用户甚至不需要提供注册资料&#xff0c;只要有web3钱包即可跟智能合约交易。在uniswap上可兑换绝大多数加密币&#xff0c;新推出的衍生品交易所ununx已经可以交易美股&#xff0c;期货和外汇,一个全…

Flutter 知识集锦 | 监听与通知 ChangeNotifier

theme: cyanosis 1. 数据的提供者与消费者 今天想要和大家好好聊聊 ChangeNotifier 这个东西&#xff0c;从名字上来看它由 change(改变) 和 Notifier(通知器) 构成。打个比方&#xff1a; 有三个铁粉跟我说: "你发新文章的时候跟我说一声"。 之后我发布文章后&…

C++学习: 文件I/O

作者: 苏丙榅 原文链接: https://subingwen.cn/c/file/ 文章目录 1. 文件概述1.1 什么是文件I/O1.2 磁盘文件分类 2. 文件的打开和关闭2.1 文件指针2.2 打开文件 2.3 关闭文件3. 文件的读写3.1 按照字符读写文件3.1.1 写文件3.1.2 读文件3.1.3 EOF 3.2 按照行读写文件3.2.1 写文…

[架构之路-237]:目标系统 - 纵向分层 - 网络通信 - DNS的递归查询和迭代查询

目录 一、DNS协议与DNS系统架构 1.1 什么是DNS协议 1.2 为什么需要DNS协议 1.3 DNS系统架构 二、DNS系统的查询方式 2.1 递归与迭代的比较 2.2 DNS递归查询 2.3 DNS迭代查询 一、DNS协议与DNS系统架构 1.1 什么是DNS协议 DNS&#xff08;Domain Name System&#xff…