这里讲平台治理的具体措施,并不是从具体架构来说,而是从详细方法。
名词定义
1.待治理成本
2.浪费量:可以优化计算或者存储
3.累计浪费量:发现时距离今天数*当日浪费量
4.节省成本:完成治理成本
5.白名单管理成本
治理原则
1.删除下线
2.减少用量
3.重复资产
4.代码、存储优化
5.效果反馈和追踪
平台治理具体类型
1.数据表
1.1.无访问资产
治理方案:删除。
1.2.生命周期过长
治理方案:缩短生命周期;改写成试图或者子查询,然后删除物理表;适当缩减,然后申请白名单;个性化定制生命周期。
2.调度任务.
2.1.产出无访问(连续33天未被读取)
治理方案:一个任务任务产出多个表,只有一个表没被读取(措施,该表没读取表代码删除,然后资产中心删除该表);该任务所有表都没人读(措施,暂停/空跑、下线任务)。
2.2.连续报错(连续3天报错)
治理方案:暂停、下线、修复错误。
2.3.top任务
治理方案:任务优化策略,具体为
2.3.1链路优化:缩减基线层数;提前裁剪,减少大表扫描
2.3.2暴利扫描优化:全增合并,Hash Clustering(额外补充bloom filter,range filter);轻聚合中间层
2.3.3大cube表优化:消减非必要维度;拆解多个任务。
2.3.4参数优化:针对不合理参数进行调整。
特殊情况:1.延期治理;2.无法治理(无法减少读取数据量、无法优化代码、无法减少调度频率,就是周期次数)
2.4.连续7天产出输出0任务
治理方案:暂停下线,优化代码有实际产出。
2.5.连续7天0输入任务
治理方案:解除依赖上游空表、暂停/下线。
3.数据报表(连续32天无人访问)
治理方案:下线/删除表,反推上游依赖下线。
4.人群标签(无效标签)
无效标签定义:创建30天,且长期处于待上线,上线中,上线失败,下游无画像或者无人群服务、画像服务调用,上游ODPS表已经不存在的标签被定义无效标签。
治理方案:下线/删除标签,反推上游依赖表下线