https://space.bilibili.com/405479587 文章内容来源b站up主,语兴呀
数据治理内容
一.模型:
由于早期业务快速扩张,对元数据把控不到位,导致成熟期出现大量不合规模型
解决:数据标准:元数据补充
建设管控:大的需求进行模型评审
定期扫描:不规范的模型分层引用、模型跨ods层依赖,空表、未更新表等
烟囱模型及时下线:烟囱表及时切换/下线,提升核心数据模型复用率
二、资源
存储:
业务发展中,存在大量无用待下线的数据表,及生命周期设定过长的数据表,未做整治,梳理出长期未被使用/引用模型,及生命周期不符合当前标准模型,未分区,空表,文件数,文件格式等(通过数据血缘模型或平台捞出)
方案:设置合理的表周期长期未引用、使用表下线压缩、存储格式优化:ods使用zlib压缩、dwd, 使用parquet+snappy dm准备由parquet+snappy 转为parquet+zstd定期扫描:空表:表格式、未设置生命周期、未设置分区切换数据格式计算:梳理出数据倾斜,消耗大,运行时间过长,空跑等任务(通过meta模型或平台捞出)1.根据梳理的存储,下线相对应的计算任务2.运行时长过长、资源消耗大任务找原因3.针对任务调度时间规划不合理,导致凌晨时间段资源消耗较高任务,提前/延后任务调度时间,做到资源合理分配利用4、对于数据价值较低/烟囱开发/无效监控项任务,需要及时下线或将字段迁移至核心表5、规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行6、小文件治理 :spark3、定期扫描、合并
如何评价一个数仓的好坏
从技术方面,数据仓库应该具有成本、质量、效率要求,安全方向方面的能力,从业务方面,数据仓库应该支撑业务建设,覆盖尽可能多的业务场景,需要数据时能够及时取到,能满足业务数据化需求
1.数据质量评估方法:准确性、及时性、一致性、流程完整性流程:事前预防:监控。事后复盘:完善dqc规则和告警
2.模型建设评估方法:规范度、元数据完善度、复用度、稳定性、扩展性、合理性
3.数据安全评估方法:角色权限是否划分、权限管控、数据表是否分级、对外数据是否脱敏
4.成本、性能评估方法:无用表、任务是否及时下线、表生命周期是否合理、数据倾斜任务数、运行时长过长任务数、空跑任务、小文件过多数据表、成本管理
5.用户用数体验
6.数据资产覆盖