作者 | 华为公司数据管理
责编 | 晋兆雨
头图 | 付费下载于视觉中国
*文末有赠书
在从信息化向数字化转型的过程中,企业积累了海量的数据,并且还在爆发式地增长。数据很多,但真正能产生价值的数据却很少。数据普遍存在分散、不拉通的问题,缺乏统一的定义和架构,找到想要的、能用的数据越来越难。
本文将讲述华为数据底座的总体架构和建设策略。
非数字原生企业数字化转型的数据底座建设框架
华为通过建设数据底座,将公司内外部的数据汇聚在一起,对数据进行重新组织和联接,让数据有清晰的定义和统一的结构,并在尊重数据安全与隐私的前提下,让数据更易获取,最终打破数据孤岛和垄断。通过数据底座,主要可以实现如下目标。
统一管理结构化、非结构化数据。将数据视为资产, 能够追溯数据的产生者、业务源头以及数据的需求方和消费者等。
打通数据供应通道,为数据消费提供丰富的数据原材料、半成品以及成品,满足公司自助分析、数字化运营等不同场景的数据消费需求。
确保公司数据完整、一致、共享。监控数据全链路下的各个环节的数据情况,从底层数据存储的角度,诊断数据冗余、重复以及“僵尸”问题,降低数据维护和使用成本。
保障数据安全可控。基于数据安全管理策略,利用数据权限控制,通过数据服务封装等技术手段,实现对涉密数据和隐私数据的合法、合规地消费。
华为数据底座的总体架构
华为数据底座由数据湖、数据主题联接两层组成,将公司内外部的数据汇聚到一起,并对数据进行重新的组织和联接,为业务可视化、分析、决策等提供数据服务,如图1 所示。
图1 华为数据底座总体架构
数据湖是逻辑上各种原始数据的集合,除了“原始”这一特征外,还具有“海量”和“多样”(包含结构化、非结构化数据)的特征。数据湖保留数据的原格式,原则上不对数据进行清洗、加工,但对于数据资产多源异构的场景需要整合处理,并进行数据资产注册。
数据入湖必须要遵循 6 项标准,共同满足数据联接和用户数据消费需求。具体细节本文将不展开,感兴趣的读者可以阅读华为官方出版的《华为数据之道》。
数据主题联接是对数据湖的数据按业务流 / 事件、对象 / 主体进行联接和规则计算等处理,形成面向数据消费的主题数据,具有多角度、多层次、多粒度等特征,支撑业务分析、决策与执行。基于不同的数据消费诉求,主要有多维模型、图模型、指标、标签、算法模型 5 种数据联接方式。
华为数据底座的建设策略
数据底座建设不能一蹴而就,要从业务出发,因势利导,持续进行。具体来说,华为数据底座采取“统筹推动、以用促建、急用先行”的建设策略,根据公司数字化运营的需要,由公司数据管理部统一规划,各领域分别建设,以满足本领域和跨领域的数据需求。其中,数据 Owner 是各领域数据底座建设的第一责任人,各领域数据部负责执行。数据底座资产建设遵从下面四项原则。
1)数据安全原则
数据底座数据资产应遵循用户权限、数据密级、隐私级别等管理要求,以确保数据在存储、传输、消费等全过程中的数据安全。技术手段包括但不限于授权管理、权限控制、数据加密、数据脱敏。
2)需求、规划双轮驱动原则
数据底座数据资产基于业务规划和需求触发双驱动的原则进行建设,对核心数据资产优先建设。
3)数据供应多场景原则
数据底座资产供应需根据业务需求提供离线 / 实时、物理 /虚拟等不同的数据供应通道,满足不同的数据消费场景。
4)信息架构遵从原则
数据底座数据资产应遵从公司的信息架构,必须经 IA-SAG(信息架构专家组)发布并完成注册。
本文只是提纲挈领地讲述了华为数据底座建设的架构与策略,具体实施时,数据湖的建设以及数据主题的联接是重中之重,关于这两点内容,本文不展开讲,如果您对其中的细节感兴趣,推荐您详细阅读华为官方出版的《华为数据之道》。
#欢迎留言在评论区和我们讨论#
看完本文,对于数据底座建设你有什么想说的?
欢迎在评论区留言
我们将在 11 月 25 日精选出 3 条优质留言
赠送华为官方出品《华为数据之道》纸质书籍一本哦!
更多阅读推荐
大神们都是如何在时间序列中进行特征提取的?看完就懂了!
如何破解“中国开源拿来主义”?包云岗的几点分析
打钱!我的数据库被黑客勒索了!
赠书 | 图像分类问题建模方案探索实践
Value DeFi遭黑客攻击始末,闪电贷这次又带走了700万美元