数据平台浅理解

  1. 定义

    • 数据平台架构是指用于收集、存储、处理和分析数据的一系列组件、技术和流程的整体架构设计。它就像是一个复杂的数据生态系统的蓝图,旨在高效地管理数据从产生源头到产生价值的整个生命周期。
  2. 主要层次

    • 数据源层
      • 这是数据的起点,包含各种类型的数据产生源。例如,企业内部的业务系统(如 ERP 系统产生的订单数据、库存数据,CRM 系统产生的客户关系数据)、外部数据(如市场调研报告、社交媒体数据)、传感器(物联网设备产生的环境数据、设备运行数据)等。这些数据源的数据格式多样,可能是结构化的数据库记录(如关系型数据库中的表格数据),也可能是半结构化的(如 XML、JSON 格式的数据)或者非结构化的数据(如文本文件、图像、音频等)。
    • 数据采集层
      • 负责从数据源获取数据并传输到数据存储层。这一层通常会使用数据采集工具,如 ETL(Extract,Transform,Load)工具。ETL 工具可以从不同的数据源提取数据,例如从关系型数据库中通过 SQL 查询提取指定的数据表,对数据进行清洗和转换(如统一数据格式、处理缺失值、转换数据类型等),然后加载到数据存储系统中。另外,对于实时性要求较高的数据,可能会采用数据抽取工具(如 Kafka 等消息队列系统)来实现近实时的数据采集,确保数据能够及时地被后续处理。
    • 数据存储层
      • 用于存储采集到的数据,根据数据的特点和用途可以分为多种存储方式。
      • 关系型数据库:如 MySQL、Oracle 等,适用于存储结构化数据,以表格形式组织数据,通过 SQL 语言进行数据的操作。它们提供了强大的事务处理能力,适合处理企业核心业务数据,如财务数据、订单交易数据等。
      • 非关系型数据库
        • 键值存储数据库(如 Redis):以键 - 值对的形式存储数据,数据读写速度快,常用于缓存数据或者存储简单的配置信息。例如,在一个电商网站中,Redis 可以存储热门商品的信息,加快用户访问这些商品详情页的速度。
        • 文档数据库(如 MongoDB):适合存储半结构化数据,以文档(如 JSON 格式)为单位存储数据。它在处理具有复杂结构的应用数据(如内容管理系统中的文章数据,包含标题、作者、内容、标签等多种字段)方面具有优势。
        • 列存储数据库(如 HBase):主要用于存储海量数据,按列存储数据,适合数据分析场景,特别是在处理大数据量的查询和统计分析时,能够快速地检索列相关的数据。
      • 数据湖:是一个集中存储大量原始数据(包括结构化、半结构化和非结构化数据)的存储库。例如,一个大型互联网公司的数据湖可能存储了网站日志数据、用户上传的各种文件、从不同业务系统抽取的备份数据等。数据湖通常使用分布式文件系统(如 Hadoop 的 HDFS)构建,支持在数据上进行灵活的分析和处理。
    • 数据处理层
      • 对存储的数据进行加工处理,以满足数据分析和应用的需求。
      • 批处理:例如使用 Hadoop MapReduce 或 Spark 等大数据处理框架,对大规模的数据进行批量处理。以电商公司的销售数据分析为例,通过批处理可以每天或者每周对大量的订单数据进行汇总、统计,计算出销售额、销售量等指标,为企业决策提供数据支持。
      • 流处理:针对实时性要求高的数据,如金融交易数据、物联网设备的实时监测数据等,采用流处理技术(如 Apache Flink、Apache Storm)。这些技术可以在数据产生的瞬间进行处理,及时发现异常情况或者提取有价值的信息。例如,在金融风控领域,通过对流式的交易数据进行实时分析,能够快速识别出可疑的交易行为并及时预警。
    • 数据分析层
      • 提供数据分析和挖掘的功能,帮助用户从数据中获取有价值的信息。
      • 数据挖掘工具:可以发现数据中的潜在模式和关系。例如,在零售行业,通过关联规则挖掘算法可以发现顾客购买商品之间的关联,如购买尿布的顾客很可能同时购买啤酒,从而为商品陈列和促销策略提供依据。
      • 数据可视化工具:如 Tableau、PowerBI 等,将分析的数据以直观的图表(柱状图、折线图、饼图等)、地图或者仪表盘的形式展示出来。这使得数据更容易被理解,方便企业管理者、分析师等人员快速把握数据的关键信息,做出决策。
    • 数据应用层
      • 将数据分析的结果应用于实际业务场景,实现数据的价值转化。例如,在精准营销场景中,根据用户的行为数据和画像数据,向用户推送个性化的产品推荐和营销活动;在智能交通领域,通过分析交通流量数据,优化交通信号灯的控制策略,缓解交通拥堵。
  3. 架构模式

    • 集中式架构
      • 数据集中存储在一个或几个中心服务器或数据中心中。优点是便于管理和维护,数据一致性容易保证。例如,一些小型企业的内部数据平台,所有的数据都存储在企业内部的数据中心,通过统一的数据库管理系统进行管理。但这种架构可能存在单点故障风险,并且在处理海量数据和高并发场景时可能会面临性能瓶颈。
    • 分布式架构
      • 数据和处理任务分布在多个节点上,通过网络进行通信和协调。这种架构能够处理大规模的数据和高并发的请求。例如,大型互联网公司的数据平台采用分布式架构,如使用 Hadoop 集群、分布式数据库等,将数据存储和处理任务分散到多个服务器甚至多个数据中心,提高了系统的扩展性和容错性。
    • 混合架构
      • 结合了集中式和分布式架构的特点。例如,对于企业的核心敏感数据采用集中式存储和管理,以确保数据的安全性和一致性;而对于海量的日志数据、用户行为数据等采用分布式架构进行存储和处理,以满足数据量和性能的要求。

数据基础平台主要组件包括:HDFS 分布式存储集群,YARN 计算集群,Spark、Hive 计算引擎。

yarn小调度,flink=》+ Kyuubi

升级 Spark3 的时候,废弃原有的 Spark2 的 Thrift Server 的改造实现,引入 Apache Kyuubi 项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/67223.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python入门10:高阶函数

一、什么是高阶函数 1.1、高阶函数的概念和作用: 高阶函数是指 接受函数作为参数 或者 返回函数 作为结果的函数。它在函数式编程中是一个重要概念(函数式编程(Functional Programming , FP )是一 种编程范式&#xf…

浅谈云计算12 | KVM虚拟化技术

KVM虚拟化技术 一、KVM虚拟化技术基础1.1 KVM虚拟化技术简介1.2 KVM虚拟化技术架构1.2.1 KVM内核模块1.2.2 用户空间工具(QEMU、Libvirt等) 二、KVM虚拟化技术原理2.1 硬件辅助虚拟化2.2 VMCS结构与工作机制 三、KVM虚拟化技术面临的挑战与应对策略3.1 性…

GO:GO程序如何处理缓存加载和大数据缓存

如果我们会在程序启动时,需要加载所有数据,最简单的方式就是程序启动,通过轮训从数据库拉取所有数据,并写入到本地缓存中。 问题:数据量较大的时候,程序加载慢,启动时间长,遇到问题不…

【优选算法篇】:分而治之--揭秘分治算法的魅力与实战应用

✨感谢您阅读本篇文章,文章内容是个人学习笔记的整理,如果哪里有误的话还请您指正噢✨ ✨ 个人主页:余辉zmh–CSDN博客 ✨ 文章所属专栏:优选算法篇–CSDN博客 文章目录 一.什么是分治算法1.分治算法的基本概念2.分治算法的三个步…

OpenAI Whisper:语音识别技术的革新者—深入架构与参数

当下语音识别技术正以前所未有的速度发展,极大地推动了人机交互的便利性和效率。OpenAI的Whisper系统无疑是这一领域的佼佼者,它凭借其卓越的性能、广泛的适用性和创新的技术架构,正在重新定义语音转文本技术的规则。今天我们一起了解一下Whi…

python+playwright自动化测试(一):安装及简单使用,截图录屏

目录 基本使用 浏览器调用 启用浏览器 创建窗口对象 访问URL 页面的刷新、返回、前进 关闭 截图、录屏、保存pdf 截图 录屏 保存为pdf 设置窗口大小 调试模式 手机模式及new_context的更多参数 手机模式 new_context的其他参数 设置语言和时区 设置和修改位置…

初识C++(二)

六、引用 引用不是新定义一个变量,而是给已存在变量取了一个别名,编译器不会为引用变量开辟内存空间,它和它引用的变量共用同一块内存空间。 通俗地讲,可以理解为一个人能够拥有多个称呼,这些所有的称呼都是表示这一…

【RedisStack】Linux安装指南

【RedisStack】Linux安装指南.md 前言下载解压创建启动文件设置密码把密码设置到环境变量启动/停止相关命令测试&验证官网资料参考资料 前言 Redis Stack是使用Redis的最佳起点。我们将我们必须提供的最好的技术捆绑在一起,形成一个易于使用的软件包。Redis St…

达梦8-DMSQL程序设计学习笔记1-DMSQL程序简介

1、DMSQL程序简介 DMSQL程序是达梦数据库对标准SQL语言的扩展,是一种过程化SQL语言。在DMSQL程序中,包括一整套数据类型、条件结构、循环结构和异常处理结构等,DMSQL程序中可以执行SQL语句,SQL语句中也可以使用DMSQL函数。 DMSQ…

STM32 FreeRTOS 基础知识

多任务处理 内核是操作系统的核心组件。诸如 Linux 这样的操作系统采用的内核, 看似允许用户同时访问计算机。很明显,多个用户可以同时执行多个程序。 每个执行程序都是受操作系统控制的任务(或线程)。如果一个操作系统能够以这…

T-SQL编程

目录 1、T-SQL的元素 1.1 标识符 1. 常规标识符 2. 分隔标识符 1.2 变量 1. 全局变量 2. 局部变量 1.3 运算符 1. 算数运算符 2. 赋值运算符 3. 位运算符 4. 比较运算符 5. 逻辑运算符 6. 字符串连接运算符 7. 一元运算符 8. 运算符的优先级和结合性 1.4 批处…

js中的Object.defineProperty()详解

文章目录 一、Object.defineProperty()二、descriptor属性描述符2.1、数据描述符2.2、访问器描述符2.3、descriptor属性2.3.1、value2.3.2、writable2.3.3、enumerable (可遍历性)2.3.4、configurable (可配置性) 三、注意事项 一…

【搭建JavaEE】(2)Tomcat安装配置和第一个JavaEE程序

Tomcat–容器(Container) 下载 Apache Tomcat - Welcome! 下载完成 请求/响应 结构 测试 查看Jdk版本 改端口号localhost8080–>8099 学学人家以后牛逼了可以用自己名字当文件夹名 配置端口8099 找到server文件 用记事本打开 再打开另一个logging文件 ”乱码解决“步骤&…

centos7.6 安装nginx 1.21.3与配置ssl

1 安装依赖 yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel2 下载Nginx wget http://nginx.org/download/nginx-1.21.3.tar.gz3 安装目录 mkdir -p /data/apps/nginx4 安装 4.1 创建用户 创建用户nginx使用的nginx用户。 #添加www组 # groupa…

高级软件工程-复习

高级软件工程复习 坐标国科大,下面是老师说的考试重点。 Ruby编程语言的一些特征需要了解要能读得懂Ruby程序Git的基本命令操作知道Rails的MVC工作机理需要清楚,Model, Controller, View各司什么职责明白BDD的User Story需要会写,SMART要求能…

TrollFools 2.10-22 插件注入工具 官方版

《TrollFools巨魔设备专用插件注入工具》这是一款专为巨魔设备打造的插件注入神器,功能强大且操作便捷。它能够轻松地将插件注入通过AppStore商店下载的任意APP中,同时也能随时卸载,丝毫不影响APP的正常使用。注入后的APP仍可正常更新&#x…

30分钟内搭建一个全能轻量级springboot 3.4 + 脚手架 <1> 5分钟快速创建一个springboot web项目

快速导航 <1> 5分钟快速创建一个springboot web项目 <2> 5分钟集成好最新版本的开源swagger ui&#xff0c;并使用ui操作调用接口 <3> 5分钟集成好druid并使用druid自带监控工具监控sql请求 <4> 5分钟集成好mybatisplus并使用mybatisplus generator自…

arcgis中生成格网矢量带高度

效果 1、数据准备 (1)矢量边界(miain.shp) (2)DEM(用于提取格网标高) (3)DSM(用于提取格网最高点) 2、根据矢量范围生成格网 模板范围选择矢量边界,像元宽度和高度根据坐标系来输入,我这边是4326的,所以输入的是弧度,输出格网矢量gewang.shp 3、分区统计 …

海豚调度DolphinScheduler-3.1.9配置windows本地开发环境

源代码下载地址https://dolphinscheduler.apache.org/zh-cn/docs/3.1.9 1.Zookeeper安装与使用 如图下载解压zookeeper安装包&#xff0c;并创建data和log目录 下载地址 https://archive.apache.org/dist/zookeeper/zookeeper-3.6.4/apache-zookeeper-3.6.4-bin.tar.gz 进入…

P1图文解析:初识算法和数据结构

文章目录 前言1、算法例子1.1、查字典&#xff08;二分查找算法&#xff09;1.2、整理扑克&#xff08;插入排序算法&#xff09;1.3、货币找零&#xff08;贪心算法&#xff09; 2、算法与数据结构2.1、算法定义2.2、数据结构定义2.3、数据结构与算法的关系2.4、独立于编程语言…