企业数据中台功能介绍

参考视频:

        企业级数据中台功能演示_哔哩哔哩_bilibili

具体项目:

平台基础设施:

        系统管理,系统监控(登录/操作日志),任务调度

元数据管理:

        业务系统管理/数据源管理/数据表管理/字段管理
        数据源,元数据,数据授权,变更记录,数据检索,数据地图,数据血缘,SQL工作台

数据标准管理:

        标准字段,对照表,字典对照,对照统计

数据质量管理:

        规则配置,问题统计,质量报告,定时任务,任务日志

数据集市管理:

        数据服务,数据脱敏,接口日志,服务集成,服务日志

可视化管理:

        数据集,图表配置,看板配置

预警

    

数据服务:

        查询检索,比对订阅,模型分析,数据推送


质量管理:

        数据处理:数据关联,数据比对,数据标识,数据分发
        标准库DWD:数据精细化,标准化,规范化
        问题库
        数据清洗:数据过滤,数据去重,格式转换,内容校验
                唯一性,完整性,准确性,一致性,关联性,及时性
                问题统计
                核查规则
                质量报告
        原始库(ODS):数据溯源,数据去重,格式转换,内容校验
        元数据库
        数据接入:数据探查,数据定义,数据读取,数据对账
                业务流程:任务信息-》源库选择-》目标库选择 -》映射配置 -》 调度规则 -》 确认

定时任务:

        定时同步任务
                每次定时任务执行日志
        定时任务:制定规则,每天定时检查质量
                监控质量的定时任务,运行的状态情况

数据集市:

        库表转换成api接口,对外提供数据服务
                1 提供全局管理,控制返回使用方的字段范围,可以 脱敏
        内容:
                API名称,版本,路径,请求方式,返回格式,IP黑名单,调用频率,发布,备注
        接口日志:
                每个接口的调用情况:成功/失败,调用数据量,ip,用户,时间
        可视化服务集成:  

                库表里查询的数据,以图表形式,更直观展示给业务人员
                数据集:
                图表配置:
                看板配置:    

血缘管理:

        业务库-》ods -》dwd -》dws
        原始库(ODS):数据溯源,数据备份
        标准库(DWD):数据精细化,标准化,规范化
        主题库(DWS):eg:竞品分析,不同维度获取对应数据
        专题库(APP):针对不同需求加工不同的专题表
    

数据接入:

        任务信息-》源库选择-》目标库选择 -》映射配置 -》 调度规则 -》 确认              

        数据探查:

                业务系统探查:

                        提供方信息:系统部门,名称,级别,上线时间,状态,业务联系人

                数据源探查:
                        存储介质探查:

                                数据库类型(ORACLE,MYSQL,Redis,Hbase)
                                文件服务器类型(Kafka,FTP,HDFS)

                        访问方式探查:

                                ip,端口,用户名,账户,密码,存储路径,查询用户,字符集等

                数据集探查(表):

                        基础信息探查: 表标识,表名
                        属性信息探查: 事实表,维度表,业务分类            
                        规模信息探查: 总量,增量,存储大小,存储周期,更新频率,更新方式,
                        状态信息探查: 启用/停用状态

                数据项探查(字段):

                        基础信息探查:标识,名称,类型,长度,精度
                        属性信息探查:字典项,标准数据,增量字段,逐渐字段,外键字段
                        问题信息探查:有效性,合规性,空置率

        数据定义:

                业务系统定义:

                        业务系统id,名称,部门,上下线时间,系统状态,联系人,电话                        

                数据源定义:

                        数据源id,类型(01hive,02oracle),业务系统id,ip,端口,登录,密码  

                数据集定义:

                        对象id,对象标识,对象名称,类型(01表02视图)数据条数,存储大小,资源分类,更新频率(每日),更新方式(全表),业务系统id,数据源id,资源状态

                数据项定义:

                        数据线id,数据对象id,数据线标识,数据线名称,数据线类型,长度,精度,空置率,是否代码项,关联表代码表,是否主键,是否增量字段

        数据读取:

                描述:维度表,事实表概念以及读取模式设计

                业务表分类属性:

                        字典表:结构简单,规模小,更新变化频率低
                        事实表:描述某一事物的活动信息,数据规模,eg:账单表
                        维度表:描述事实表某一维度的特性,规模复杂,eg:商品维度,用户维护

                同步策略和手段:

                        同步方式:
                                全量:
                                增量:
                                    增量更新
                                    增量追加
                        同步周期:
                                实时:mysql)binlog,(oracle)cdc,kafka,flink,sparkstreaming
                                分钟级实时:固定变量(T+1),数据偏移量
                                离线同步:小时,天周月等,固定变量(T+1),数据偏移量
                    其他信息:
                        公共字段,入库时间,更新时间,业务数据MD5   

        数据对账:

                全量抽取的表不需要对账,所以增量数据要做对账
                具体操作:增量同步业务数据的基础上,再全量同步对账表
                    对账表:业务表的主键,业务表的增量字段,业务表的全字段MD5值
                数据量一致性分析:相同时间范围,比较主键值差异
                数据内容一致性分析:相同范围、主键值,比较业务字段MD5值差异

        数据处理:

                描述:结构化,半结构化,非结构化数据区别
                结构化:完整的结构规则,可以通过关系型数据库表形式进行存储
                半结构化:又基本固定结构的模式,eg:日志文件,XML文档,JSON,Email
                        通过Kettle或者函数 转换成结构化数据存储
                非结构化数据:无固定模式的数据,eg:PDF,WORD,PPT,图片,视频
                机器学习,算法提取结构化数据
                文本信息提取:
                        要素信息:姓名,身份证,电话,账户,地址
                        关键词摘要:
                        关系提取:人员关系
                音频信息提取:
                        特征信息:声纹特征,语种特征
                        语音转文本:文本信息提取
                视频图信息提取:
                        特征信息:人像信息,物品信息,场景信息,字幕信息
                        文本信息提取,音频信息提取
                非结构化数据存储策略
                非结构化数据提取范围

数据清洗:(ods->dwd) 

        数据过滤:

                基于样本数据过滤:比如某个字段带test是测试数据
                基于业务规则过滤:无效数据,针对业务情况

        数据去重:

                数据同步过程产生的全字段重复:
                业务规则重复:

        格式转换:

                日期时间格式
                全角转半角
                大小写统一
                经纬度统一

        内容校验:

                合规性校验:身份证合规性,电话号码,组织机构代码
                一致性校验:属性一致性,关系一致性
                其他校验:值域范围,数据格式,空值校验,准确性校验,完整性校验

数据标准化:(ODS->dwd)                

        和数据清洗的区别:
                数据清洗:是对不合规数据的处理,问题数据反馈进行核实
                数据标准化:各个系统建立统一标准,内容转化
        标准化范围:
                代码标准化:统一性别是1男2女
                数据格式标准化:统一日期格式:yyyy-MM-dd
                命名标准化:统一人员姓名:name
        标准化工作场景及优化手段:(kettle,大部分都是这个基础上增加了资源调度,日志监控,权限管理等模块)
                脚本开发模式 -》 产品开发模式 -》 元数据驱动模式
        
        基于元数据管理推动大数据体系自动化建设:
                标准数据元:
                    eg:标志符 标识代码 属性类别 类型 长度 精度 格式 
                            性别    BZ00011    代码     String 2  
                标准数据里,加上标识代码列,标准值
        

数据治理:

        元数据管理价值及建设目标(数据治理的最重要模块)
                1 实现所有数据建设成果落地
                数据库元数据:定义表的内容:表名称,描述,字段名称,类型,长度    
                        数据同步策略
                        数据清洗规则
                        分级分类信息等
                        运维监控
                        质量规则
                2 保障数据处理过程可管、可控、可查:
                        一般统一存储在:关系型数据库,体量核实,速度快,丰富的内置函数
                        业务流程经常更新:比如调整同步周期频率,任务执行计划更新的同时要更新元数据
                        比如筛选时间的元数据信息,查看是否做了格式校验
                3 驱动数仓建设流程化、规范化、自动化
                        存在更新的情况,开发修改了数据,但忽略元数据的更新,影响统计指标
                        解决方案:
                            1 加强流程管理,必须把元数据维护起来,成本压力上来
                            2 监控脚本:业务数据和元数据进行监控,业务数据或跟元数据现在定义策略不一致时,及时发出通知

元数据模型设计:

        建模过程:概念模型,逻辑模型,物理模型
            分类标准:
        技术元数据: 
            技术职称信息:存储信息,标识信息,类型信息,权限信息,索引信息等
        业务元数据:
            业务策略定义:更新频率,更新方式,业务分类,字段熟悉,业务规则等
        操作元数据:
            处理过程记录:访问日志,运行日志,申请记录,调用记录,监控日志等
    模型范围:业务系统,
        数据源:
            访问方式:ip,端口,账户,密码,服务名,查询用户,接口调用方式,请求内容
            数据源状态:试运行,上线,下线
            所属系统:
            提供形式:数据库等类型
        数据集:
            技术元数据:
                资源标识,权限(只读,可更新)总条数,总大小,日增量
            业务元数据:
                资源id,名称,摘要,业务分类,表情信息,业务系统id数据源id,状态(试运行,上线,下线)
        数据项:
            业务元数据: 
                数据项id,数据项名称,字段属性(主键/外键/增量:关联外键表,字典字段:关联字段表,关联条件)
            技术元数据: 
                字段标识,类型,长度,精度,空值率,值域分布

定期对元数据管理系统进行备份
元数据管理,不仅是源库表,还包括分层的每一个表

大数据常用的软件:

调度:

        oozie,azkaban,海豚,quartz

同步:

        离线抽取:

                sqoop::  在Hadoop(Hive)与关系数据库间相互进行数据的传递
                datax:    各种异构数据源之间高效的数据同步功能

        实时抽取:

                flume: 日志存到hdfs
                cancal:
                    基于数据库增量日志解析,提供增量数据实时订阅和消费,目前主要支持了MySQL
                    工作原理:伪装成MySQL slave,监听binlog日志
                StreamSets:
                    拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度
                    数据源支持MySQL、Oracle等结构化和半/非结构化,目标源支持HDFS、Hive等
                debezuim:
                    捕获变更数据(CDC)的开源工具
                    抽取 数据库日志 来变更的
                    构建在 Apach Kafka之上,并提供Kafka连接器来监视特定的数据库管理                

清洗工具:

        Kettle


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/27159.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高性能的分布式块存储,得盘率可以超过 100%吗?

得盘率到底是什么?该怎么计算才公平合理? 随着,现在很多企业用户开始关注存储系统的存储效率。但提及存储效率,业界并没有一个统一的衡量指标。 有些厂商强调数据缩减率,有些厂商强调存储单位密度,而有些厂…

MongoDB——写入耗时

mongodb写入10万条数据的耗时差不多是1s import time import pymongo from pymongo import MongoClient# 连接到MongoDB client MongoClient(mongodb://localhost:27017/) db client[test_db] collection db[test_collection]# 生成10万条数据 documents [{"name&quo…

进阶篇04——视图

简介及基本语法 视图的检查选项 可以通过视图进行数据的增删改查操作,但由于视图是一张虚拟表,所以操作的实际上是视图的基表,即创建视图时select语句操作的表 cascaded 自己还测试了一下这种情况:当V1和V2都没有加检查选项&…

硕思LOGO设计师软件最新版下载及详细安装教程

硕思Logo设计师是一款操作灵活简单,且功能强大的logo制作软件。它可以通过简单的点击就可以为网站、博客、论坛和邮件创建专业的logo、条幅、按钮、标题、图标和签名等。 该软件提供了很多精心设计的模板和丰富的资源,为更好的创建logo艺术作品&#xff…

国外有哪些知名的CG网站?CG平台及云渲染平台

动画创作中的灵感涌现往往伴随着挑战,但全球众多顶尖CG网站平台是您创意的加油站。CG技术的革新与云渲染平台的高效算力,为动画师提供了双重助力,让创意的实现更加迅速和高效。本文精选了国内外备受推崇的CG网站和云渲染平台,旨在…

华三HCL模拟器安装及华三防火墙配置

0、前言 最近跟模拟器杠上了,主要是需要运行防火墙,目前已经成功模拟出华为、山石防火墙,而且模拟出来的设备能与物理网络环境进行互联。现在我又盯上华三防火墙了。 首先下载模拟器: 下载地址:H3C网络设备模拟器官方免…

仰望U8三大黑科技,重新定义智能汽车

文 | 智能相对论 作者 | 雷歌 是时候重新定义中国的“智能汽车”了。 在仰望U8出来以前,普通人对知道的智能汽车的配置认识,智能汽车是智能驾驶智能座舱,硬件上大概是这几样:毫米波雷达激光雷达智驾芯片。 仰望U8出来以后&…

将自己md文件发布到自己的博客园实现文件的持久化存储

上传markdown文件到博客园 目录 【0】需求原因【1】功能【2】环境【最佳实践测试】 (1)查看 Typora 设置(2)配置 pycnblog 配置文件 config.yaml(3)运行 pycnblog 中的文件 cnblog_markdown.cmd&#xff0…

教育小程序开发:技术实现与实践案例

随着信息技术的不断进步,教育小程序在教育领域的应用越来越广泛。教育小程序开发不仅可以提高教学效率,还能够提供个性化的学习体验。本文将以技术代码为例,详细介绍教育小程序开发的关键技术和实践案例,帮助开发者更好地理解和实…

深入理解渲染引擎:打造逼真图像的关键

在数字世界中,图像渲染是创造逼真视觉效果的核心技术。渲染引擎,作为这一过程中的关键组件,负责将二维或三维的模型、纹理、光照等数据转化为人们肉眼可见的二维图像。本文将深入探讨渲染引擎的工作原理及其在打造逼真图像中所起的关键作用。…

VRRP跟踪接口及认证(华为)

#交换设备 VRRP跟踪接口及认证 一、相关概念 1.VRRP跟踪接口 当 VRRP 的 Master 设备的上行接口出现问题, 而 Master 设备一直保持 Active 状态,那么就会导致网络出现中断,所以必须要使得 VRRP 的运行状态和上行接口能够关联。在配置了 VRRP 元余的网…

5月产品更新 | 10大更新汇总,快来看看你的需求上线了吗?

5月,Smartbi从客户需求出发,并结合企业在数据分析、处理等方面遇到的问题,对数据模型、数据指标等数十项功能进行了优化升级。 Smartbi用户可以在官网下载下载PC端,更新后便可以使用相关功能,也可以在体验中心体验相关…

【源码】2024最新陪诊小程序uniapp+thinkphp

20 2024最新陪诊小程序uniappthinkphp资源来源:52codes.cc 20最新陪诊小程序uniappthinkphp 简介:随着社会逐渐步进入老龄化越来越多的老年人或者不经常去医院的用户对于医院繁琐的流程很是苦劳于是陪诊这个行业开始兴起。小白陪诊开发理念&#xff0…

MySQL之高级特性(四)

高级特性 查询缓存 什么情况下查询缓存能发挥作用 并不是什么情况下查询缓存都会提高系统性能的。缓存和失效都会带来额外的消耗,所以只有当缓存带来的资源节约大于本身的资源消耗时才会给系统带来性能提升。这跟具体的服务器压力模型有关。理论上,可…

vscode中模糊搜索和替换

文章目录 调出搜索(快捷键)使用正则(快捷键)替换(快捷键)案例假设给定文本如下目标1:查找所有函数名目标2:替换所有函数名为hello目标3:给url增加查询字符串参数 调出搜索…

【Android】实现Recyclerview的Item可以左右侧滑动的效果

项目需要 使用Recyclerview进行列表的数据加载的时候,需要对这个Item进行左右滑动进行操作的功能, 比如这样 需求实现 上面图来源于 https://github.com/anzaizai/EasySwipeMenuLayout 这是一个可以用来进行列表左滑、右滑的项目,可以集…

【kaggle量化交易第一名方案】Trading at the Close

2024 1st Place Solution Overview 最终模型(CV/Private LB为5.8117/5.4030)是CatBoost(5.8240/5.4165)、GRU(5.8481/5.4259)和Transformer(5.8619/5.4296)的组合,权重分别为0.5、0.3、0.2,从验证集中搜索得到。这些模型共享相同的300个特征。 此外,在线学习(On…

积木搭建游戏-第13届蓝桥杯省赛Python真题精选

[导读]:超平老师的Scratch蓝桥杯真题解读系列在推出之后,受到了广大老师和家长的好评,非常感谢各位的认可和厚爱。作为回馈,超平老师计划推出《Python蓝桥杯真题解析100讲》,这是解读系列的第83讲。 积木搭建游戏&…

openstack删除实例卡死在正在删除中

删除实例 问题描述解决办法 实验环境;服务器,openstackY版 问题描述 openstack在删除实例时一直显示正在删除中 解决办法 进入数据库修改实例状态,修改为错误,然后重新删除 首先查看对应实例id 进入数据库修改 rootcompute:~…

盘点:支持国产化信创的项目管理软件有哪些?

对于个人或者预算充足的团队来说,找到一个靠谱、好用的项目管理软件是一件很有必要的事情,那么目前国内有哪些【国产化信创】的项目管理软件值得选择呢? 下面盘点10款,每一款都独具特色。 1、国产化项目管理软件,可灵活…