华为在进行元数据治理以前,遇到的元数据问题主要表现为数据找不到、读不懂、不可信,数据分析师们往往会陷入数据沼泽中,例如以下常见的场景。
- 某子公司需要从发货数据里对设备保修和维保进行区分,用来不对过保设备进行服务场景分析。为此,数据分析师需面对几十个IT系统,不知道该从哪里拿到合适的数据。
- 因盘点内部要货的研发领料情况,需要从IT系统中获取研发内部的要货数据,面对复杂的数据存储结构(涉及超过40个物理表和超过1000个字段)、物理层和业务层脱离的情况,业务部门的数据分析师无法读懂物理层数据,只能提出需求向IT系统求助。
- 某子公司存货和收入管理需要做繁重的数据收集与获取工作,运行一次计划耗时超过20个小时。同时,由于销售、供应、交付各领域计划的语言不通,还需要数据分析师进行大量人工转换与人工校验。
以上场景频繁出现在公司日常运营的各个环节,极大地阻碍了公司数字化转型的进行,其根本原因就在于业务元数据与技术元数据未打通,导致业务读不懂IT系统中的数据。并且缺乏面向普通业务人员的准确、高效的数据搜索工具,业务人员无法快速获取可信数据。元数据管理的痛点如图所示:
为解决以上痛点,华为建立了公司级的元数据管理机制。制定了统一的元数据管理方法、机制和平台,拉通业务语言和机器语言。 确 保数据“入湖有依据,出湖可检索”成为华为元数据管理的使命与目 标。基于高质量的元数据,通过数据地图就能在企业内部实现方便的数据搜索。
元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据。元数据通常分为业务、技术和操作三类。
- 业务元数据:用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等。
- 技术元数据:实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL规则、集成关系等。
- 操作元数据:数据处理日志及运营情况数据,包括调度频度、访问记录等。
在企业的数字化运营中,元数据作用于整个价值流,在从数据源到数据消费的五个环节中都能充分体现元数据管理的价值。
- 数据消费侧:元数据能支持企业指标、报表的动态构建。
- 数据服务侧:元数据支持数据服务的统一管理和运营,并实现利用元数据驱动IT敏捷开发。
- 数据主题侧:元数据统一管理分析模型,敏捷响应井喷式增长的数据分析需求,支持数据增值、数据变现。
- 数据湖侧:元数据能实现暗数据的透明化,增强数据活性,并能解决数据治理与IT落地脱节的问题。
- 数据源侧:元数据支撑业务管理规则有效落地,保障数据内容合格、合规。