云计算de小白
随着数字化转型的普及与深入,大数据技术在各行业被广泛应用,企业生产、营销、运营等各个环节的数据将被广泛采集,数据应用开发需求的增长、数据使用者角色的复杂度导致企业数据开发、数据运维的工作量、数据应用交付协同难度大幅提升,海量数据的爆发式增长给数据价值挖掘带来了一系列挑战:数据孤岛阻碍数据共享统一、部门间数据协同困难、单点自动化无法支撑整体效率提升。DataOps作为新兴的数据处理与管理方式,强调数据驱动的自动化,不仅能为数据工作者提供敏捷的数据开发支撑,还能简化数据交付周期,提高数据生产者与数据消费者之间的协同效率,成为企业通过数字化转型快速释放数据生产力的最佳解决方案。
1.什么是DataOps
DataOps 是一种通过自动化和协作来提升数据质量和分析能力的数据管理实践,它借鉴 DevOps 的原则,将文化、自动化、度量和共享等理念运用到数据管理和分析流程中,实现数据 DataOps 强调跨部门协作,融合数据生产者和数据消费者,打破数据孤岛,促进团队间协作,从而提高数据的可用性和分析准确性。
DataOps 的关键能力包括数据集成、数据开发、任务运维等全链路数据处理能力,以及数据地图、数据质量、数据安全等数据治理与运营能力,通过自动化技术简化数据传输、流程自动化等数据管理功能,提高数据可用性和准确性。DataOps 还鼓励对数据管道进行持续测试和监控,确保其正常运行并得到正确的治理。
在实际应用中,DataOps可以帮助企业实现一体化数据编辑、数据集成、数据管理等功能,提高数据研发效率,例如金融行业可以利用DataOps实现反洗钱、实时盈亏计算、监管报告等核心应用的自动化和实时性,提高业务流程的效率和准确性。
DataOps 趋势表明,数据可观测性将成为强制性要求,AI 将推动数据可观测性,数据基础设施现代化将由 AI 驱动。数据工程师的角色不会随着 AI 的发展而消失,对于他们来说,了解如何将生成式 AI 与数据管道相结合以自动捕获价值将变得更加重要。
Apache SeaTunnel、Apache DolphinScheduler等开源项目在DataOps领域取得了令人瞩目的成就,提供了实时多源数据集成工具和大数据工作流调度平台,并在多个行业得到应用。
2.DataOps关键技术
数据采集与集成:大数据系统需要解决各种场景下的数据采集与集成问题,例如不同的数据部署方式(本地部署、云端部署、跨云部署等)、多种数据格式(结构化、半结构化等)、数据集成问题(分布式、非结构化)、各种类型的数据(批量、增量/流数据)。
数据存储:随着结构化和非结构化数据的不断增长,以及分析数据源的多样化,以前的存储系统设计已经不能满足大数据应用的需求,存在很多挑战,比如容量问题、延迟问题、安全性问题、成本问题、高可用性要求、灵活性要求等。为了应对大数据对存储系统的挑战,数据存储领域一直在不懈地努力提高数据存储系统的能力。主要的改进有三个方面:提高系统的存储容量、提高系统吞吐量和系统容错能力。
批流计算:批计算处理的是“固定”、有界的数据集。数据的导入和计算通常严格分为两个阶段,先导入数据,再计算处理数据。一般注重高吞吐量。流计算处理的是“不固定”、无界的数据流。有些场景下,数据是连续产生的,产生后需要立即进行分析处理,这种情况下数据导入和计算往往是同时发生的。数据进入计算系统后,必须立即响应,一般注重低延迟。业界比较热门的话题是批流融合,包括计算的批流融合。将批流存储融合,可以降低系统维护成本,保证数据质量和一致性,通过混合调度进一步提高资源利用率。
湖仓一体化:湖仓一体化是将数据湖的灵活性与数据仓库的易用性、标准化、高性能相结合的一种新型融合架构,类似于在湖边搭建很多个小仓库,有的负责数据分析,有的负责机器学习,有的负责音视频检索等等,数据源流都可以很方便的从数据湖中获取,这样就把数据仓库与数据湖连接了起来,将数据仓库的高性能和管理能力与数据湖的灵活性融为一体。底层支持多种数据类型共存,可以实现数据的相互共享,上层通过统一封装的接口即可访问,同时可以支持实时查询分析,给企业在数据治理上带来更多的便利。
多维分析:多维数据中的维度是指人们观察事物的角度,同一数据从不同的维度观察可能会得到不同的结果,这也使人们能够更全面、更清晰地了解事物的本质。多维形式的数据可以进行切片、切块、上卷、下钻、旋转等分析操作,使分析人员和决策者可以从多角度、多方面观察和比较数据,从而更深入地了解数据中蕴含的信息和内涵。
数据可视化:数据可视化主要目的是通过图形方式清晰有效地传达和交流信息。但这并不意味着数据可视化为了实现其功能目的就必须是枯燥无味或乏味的。它看起来色彩缤纷,极其复杂。为了有效地传达思想和概念,美观性和功能性需要齐头并进,通过直观地传达关键方面和特征,可以实现对相对稀疏和复杂的数据集的深刻洞察。数据可视化技术的基本思想是将数据库中的每个数据项表示为单个图形元素。大量的数据集构成了数据图像。同时,将数据的每个属性值以多维数据的形式表示出来,这样就可以从不同的维度观察数据。更深入地了解和分析您的数据。
数据血缘:数据血缘是指数据在其整个生命周期中,从产生、加工、整合、流转到最终消亡过程中,数据之间的天然关系,记录了数据产生的链接关系,这些关系类似于人的血缘关系,所以被称为数据血缘关系。数据血缘关系分析是元数据管理的重要应用之一,梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系,利用图数据库进行可视化。
3.DataOps能力模型
DataOps能力模型围绕数据开发流水线,从业务需求出发,以创造业务价值为目标,形成了“4+3”能力框架,即4个核心环节、3个实践保障。DataOps能力模型框架的提出,旨在帮助企业建立DataOps工作的宏观视野,理解DataOps能力建设的核心原则与保障体系,为企业能力建设提供参考。
为不断提升数据产品交付效率和质量,实现高质量数字化发展的目标,DataOps数据管道以数据工程能力为核心,构建了数据研发管理、数据交付管理、数据运维、价值运营四大环节。
(1)数据研发管理
数据研发管理是指以研发与治理一体化为目标,构建规范的数据开发流程。在数据开发阶段,企业构建一体化的数据研发治理流程,把数据治理工作放在前面,将数据治理工作与数据开发工作有机结合起来,可以加强数据治理与开发工作的协同,同时降低数据治理后期带来的风险。另外,在数据开发阶段,加强对数据需求的约束,利用自助分析能力提前探索或解决一些数据需求,大大提高了数据需求的沟通效率,减轻了研发工作的一些压力。数据研发管理包括需求管理、设计管理、数据开发和自助分析四个部分。
(2)数据传送管理
数据交付管理是指以提高交付效率和质量为目标,构建持续测试和交付能力。在数据交付部署阶段,企业可以通过构建自动化测试和交付流水线,加强对数据版本和代码质量的管理。提高数据产品交付的自动化水平,加快交付速度,提高交付质量。数据交付管理包括配置管理、测试管理和部署发布管理。
(3)数据运维
数据运维是指以构建全链路可观测能力为目标,对数据问题进行全方位立体的持续监控、发现、处理。企业通过构建全链路数据可观测能力,可以提高数据研发和运营管理全生命周期的效率,对数据、资源、质量、成本等进行系统的监控和度量,帮助企业全面了解数据研发运营的各个环节,及时发现问题、反馈问题、解决问题,从而不断优化整个数据发展流程。数据运维包括监控管理、资源管理、变更管理、异常管理和持续优化五个部分。
(4)值运算
价值运营是指以精益运营数据为目标,通过量化手段驱动变革的能力,企业以量化指标为基础,精细化管理数据开发工作的成本,驱动企业不断优化业务管理、开发流程和系统工具,形成“以数管数,持续创新”的闭环运营。价值运营包括成本管理、持续变革、量化驱动三个部分。
4.DataOps开发实践
为了确保DataOps研发流水线能够持续高效迭代运行,企业需要强有力的保障,这些要求的目的是引导企业以全局优化为目标,保障数据研发流水线的平稳运行。
(1)系统工具
系统工具是指基于企业实际“业务使用数据、研发供给数据”流程构建的一体化技术平台。系统工具是企业践行DataOps理念的起点,通过构建完整成熟的DataOps工具链,为企业一体化数据研发治理能力提供强有力的技术支撑。DataOps系统工具应具备强大的工具链集成能力,能够整合企业现有的数据治理工具(如数据质量管理工具、数据安全管控工具、元数据管理工具等)和数据开发工具(如ETL工具、数据仓库、数据科学平台等)。通过高度整合这些工具,在企业内部形成完整、畅通的数据管道,支持通过统一的数据门户进行集中展示和管理,并为不同角色的用户提供轻松访问、使用、共享数据资源的能力,从而实现自助式、标准化的数据服务。
(二)组织管理
组织管理是以构建敏捷、协作的数据驱动组织为目标,优化组织架构、明确岗位职能,通过重构组织架构、岗位角色、协同机制等方式,实现DataOps流水线的运行、协同与协调三部分。
(3)安全控制
安全控制是指以确保个人隐私和数据安全为目标,将安全控制嵌入数据管道,构建数据研发全生命周期的安全管理能力。
数据的指数级增长和日益增长的业务需求,扩大了网络威胁攻击面并带来了新的挑战,数据安全问题由此上升为战略性业务问题,企业可以提升整个数据开发生命周期的安全意识,敏捷、全面地将安全属性嵌入数据开发流程中,从而帮助企业减少安全事故。安全管控包括安全风险策略、风险管理、安全测试三部分。
4. DataOps 总结
从业界DataOps Pipeline厂商的实践中我们可以看到,DataOps Pipeline有很多不同的做法,但都在向自动化、编排、可重复、可持续的方向演进。在数据工程能力方面,不同的厂商侧重构建不同方面的能力,各有千秋。有的侧重编排、测试、CI/CD、监控;有的侧重建模和治理;有的侧重数据分析。DataOps的实践和发展需要一个阶段性、渐进性的演进过程,一方面要看DataOps Pipeline等能力构建与业务场景匹配的成熟度,另一方面也与企业的数据治理水平有直接关系。