一文读懂DataOps

作者:彭锋 宋文欣等

来源:智领云科技

大部分企业的数据平台建设要想顺利过渡到第三阶段,则离不开一个关键方法论—DataOps(数据运维)的帮助。

DataOps 与 DevOps 十分形似,也有着与 DevOps 类似的软件开发角色,它是数据工程师简化数据使用、实现以数据驱动企业的方法,也是企业顺利实现第三阶段的关键。因此,本节将介绍 DataOps 的概念,解释为什么它对于企业从数据中获取真正价值、实现数字化运营以及建设数据中台都非常重要。 

 图 1 Gartner 对 DataOps 的定位

什么是 DataOps

维基百科对 DataOps 的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。DataOps 的这一定义会随着时间的推移而变化,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。

在2018年Gartner发布的《数据管理技术成熟度曲线》报告中,DataOps 的概念被首次提出(图 1)。该报告指出,DataOps虽然可以降低数据分析的门槛,但并不会使数据分析变成一项简单的工作。与 DevOps 的落地一样,实施成功的数据项目也需要做大量的工作,例如深入了解数据和业务的关系、树立良好的数据使用规范和培养数据驱动的公司文化。当然,DataOps 将极大提高人们使用数据的效率并降低使用数据的门槛,公司可以更快、更早、更好地使用数据,且成本和风险更低。

DataOps 解决的问题

大数据的大多数应用可以分为 AI(人工智能)或 BI(商业智能)。此处的 AI 是指广义的人工智能,包括机器学习、数据挖掘以及其他从数据中获取以前未知知识的技术。BI 则更多地使用统计方法将大量数据汇总成更简单的报告,方便人们理解。简而言之,AI 使用各种数据算法来计算新的东西,BI 则是统计人们可以理解的数字。

编写 AI 或 BI 程序并不难,你可以基于 TensorFlow 在几个小时内写一个人脸识别程序,或者使用 MATLAB 绘制一些数据可视化图形,甚至用 Excel 也不难实现 AI 或 BI 程序。问题在于,要实际使用生产结果来支持面向用户的产品或根据这些神奇的数字来决定公司的命运,你需要做的就不只是手动工作了。 根据 Dimensional Research 在 2017 年做的一项调查,对于想要实施大数据应用的公司来说,图 2 中列出的问题最为困难。

图 2 大数据实施主要困难

在“ Hidden Technical Debt in Machine Learning Systems ”这篇论文中,Google 的数据分析师研究发现,对于大多数机器学习项目,只有 5% 的时间花在编写 ML 代码上,另外 95% 的时间用于设置运行 ML 代码所需的基础设施(见图 3)。

图 3 Google 关于机器学习中隐藏的技术债的研究

在这两项研究中,我们可以很容易地看到许多艰苦的工作实际上并不是在编写代码。整个基础设施的准备工作以及高效运行生产级别的代码是非常费时费力的,而且经常伴随着各种风险。在 Google 的研究中,他们引用了来自 Twitter 大数据团队Jimmy Lin 和 Dmitry Ryaboy 的话:“我们的大部分工作可以被描述为‘数据管道工’。”实际上,DataOps 的目的就是使管道工的工作更简单和高效。

DataOps 的目标功能

DataOps 旨在缩短整个数据分析的周期。它的主要使用对象是数据应用开发人员,包括数据工程师和数据科学家。因此,从搭建基础架构到使用数据应用的结果,通常需要实现以下功能。

  • 部署:包括基础架构和应用程序。无论底层硬件基础设施如何,配置新系统环境都应该快速而简单。部署新应用程序应该花费几秒而不是几小时或几天时间。

  • 运维:系统和应用程序的可扩展性、可用性、监控、恢复和可靠性。数据应用开发人员不必担心运维,可以专注于业务逻辑。

  • 治理:数据的安全性、质量和完整性,包括审计和访问控制。所有数据都在一个支持多租户的安全环境中以连贯和受控的方式进行管理。

  • 可用:用户应该能够选择他们想要用于数据开发和分析的工具,随时拿到他们可用的数据,并根据需要轻松开发和运行数据分析应用。应将对不同分析、ML、AI 框架的支持整合到系统中。

  • 生产:通过调度和数据监控,可以轻松地将分析程序转换为生产应用,构建从数据抽取到数据分析的生产级数据流水线,并且数据应该易于使用并由系统管理。

简而言之,DataOpsi 遵循类似于 DevOps 的方法:从编写代码到生产部署的路径(包括调度和监控)应由同一个人完成,并遵循系统管理的标准。与提供许多标准 CI、部署、监控工具以实现快速交付的 DevOps 类似,通过标准化大量大数据组件,新手可以快速建立生产级的大数据应用并充分利用数据的价值。

DataOps 的主要技术

DataOps 的主要方法论仍处于快速发展阶段。像 Facebook 和Twitter 这样的公司通常会有专门的数据平台团队(Data Platform Team)处理数据运营并实现数据项目。但是,它们的实现方式大多与公司现有的 Ops 基础设施集成,因而不适用于其他公司。不过我们可以从它们的成功中学习经验,并建立一个可以由每家公司轻松实施的通用大数据平台。要构建 DataOps 所需的通用平台,一般需要以下技术。

  • 云架构:必须使用基于云的基础架构来支持资源管理、可扩展性和运营效率。

  • 容器:容器在 DevOps 的实现中至关重要,在资源隔离和提供一致开发、测试、运维环境中的作用也至关重要。

  • 实时和流处理:目前来看,实时和流处理在数据驱动平台中变得越来越重要,它们应该是现代数据平台中的“一等公民”。

  • 多分析引擎:MapReduce 是传统的分布式处理框架,但Spark 和 TensorFlow 等框架日常使用越来越广泛,应该进行集成。

  • 集成的应用程序和数据管理:应用程序和数据管理(包括生命周期管理、调度、监控、日志记录支持)对于生产数据平台至关重要。DevOps 的常规实践可应用于应用程序管理,但是数据管理及应用程序与数据之间的交互需要很多额外的工作。

  • 多租户和安全性:数据安全性可以说是数据项目中最重要的问题,如果数据无法得到保护,数据使用也就无从谈起。该平台应为每个人提供一个安全的环境,使每个人都可以使用这些数据并对每个操作进行授权、验证和审核。

  • DevOps 工具:该平台应为数据科学家提供有效的工具,以分析数据并生成分析程序,为数据工程师提供大数据流水线的工具,并为其他人提供消费数据和结果的方法。

DataOps 与数据中台

DataOps 的核心任务是提高数据分析的质量并缩短数据分析的周期,是高效打造数据中台的必经之路,因此可以将 DataOps作为数据中台建设必须参考的一个方法论。要建设一个高效的业务 IT 系统,采用 DevOps 并不是必要条件,但是绝大部分公司会采取 DevOps 的方法论和技术体系,因为这是经过实践检验的高效和普适的方式。

与 DevOps 一样,DataOps 的使用与发展也是一个需要正确工具和正确思维加持的持续过程。DataOps 的目标是以正确的方式更容易地实现大数据项目,以达到用更少的工作量从数据中获得最大的价值的目的。

在过去几年中,随着云计算和容器技术的成熟,大数据操作的标准化成为可能。加之数据驱动的企业文化被广泛接受,DataOps 终于准备好进入大家的视野。我们相信这一运动将降低实施大数据项目的门槛,使每个企业和机构都能够更容易地获取数据的最大价值。

可以看到,DataOps 与数据中台需要解决的问题其实是类似的,都希望能够更快、更好地实现数据价值,支持数字化运营,但是二者强调的重点不同:

  • 数据中台强调的是数据的统一管理和避免重复开发,是数据能力的抽象、共享和复用;

  • DataOps 强调的是数据应用的开发和运维效率,就像DevOps 解放了开发人员的生产力一样,DataOps 希望通过提供一整套工具和方法论,来让数据应用的开发和管理更加高效。

不过,虽然如此,但二者都是解决现有大数据平台问题的必经之路。数据中台强调的是战略层次的布局,必须有一个中台来承担所有数据能力的管理和使用;DataOps 强调的是战术层面的优化,如何让各个开发和使用实际数据应用的人员更加高效。可以说数据中台描述了最终的目标,而 DataOps 提供了一条实现这个目标的最佳路径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514539.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统初学者指南,观点|Linux 系统调用的初学者指南

在过去的几年中,我一直在做大量容器相关的工作。先前,我看到 Julien Friedman 的一个很棒的演讲,它用几行 Go 语言写了一个容器框架。这让我突然了解到容器只是一个受限的 Linux 进程中的机器。构建这个受限视图涉及到 Golang 系统调用包中的…

英特尔携手百度全方位深化合作 共筑智能生态

2021年7月29日,英特尔公司今日出席智能经济高峰论坛暨百度云智峰会2021并分享了一系列与百度在人工智能、云计算、智能边缘等方面的最新合作进展。在智能技术方面,百度基于第三代英特尔至强可扩展处理器,打造全功能AI开发平台Baidu Machine L…

山石网科蒋东毅:网络连接矩阵复杂化,传统安全防护框架需重构

编辑 | 宋慧 供稿 | 山石网科 头图 | 蒋东毅在 ISC 2021主题论坛发表演讲 7月28日上午,在ISC 2021 第九届互联网安全大会主题论坛上,山石网科高级副总裁、首席战略官(CSO)蒋东毅带来了一场主题为《政企安全面临的多重挑战和未来趋…

如何使用java来实现windows系统关机

可以使用Java代码来调用操作系统的命令行来实现Windows关机操作。具体步骤如下: import java.io.IOException;public class ShutdownWindows {public static void main(String[] args) {try {// 调用命令行执行关机命令Process process Runtime.getRuntime().exec…

“程序员千万不要选全栈开发”

作者 | 千鸟(网名) 小路助手开发者责编 | 晋兆雨出品 | CSDN(ID:CSDNnews)对于大多数人来说,大学毕业后选择一家满意的公司,一路升职加薪才是正解,但他却偏偏选择了一条鲜有人知的…

作为一名通信老司机,我是如何看待翼龙通信无人机救灾的?

作者:小枣君来源:鲜枣课堂昨天,关于翼龙无人机救灾的新闻,刷屏了整个网络。由国家应急管理部紧急调派的翼龙-2H应急救灾型无人机,搭载中国移动的基站设备,从贵州安顺出发,连续出动两次&#xff…

可信云十年,重磅研究成果与2021云计算十大关键词悉数发布

编辑 | 宋慧 出品 | CSDN云计算 头图 | 2021可信云大会现场 可信云从提出到发展至今,已经历经了十个年头,可信云大会也已举办到第八届。2021年7月27-28日,由中国信息通信研究院、中国通信标准化协会联合主办的“2021可信云大会”盛大开幕&am…

TechWorld2021技术嘉年华,解锁“不一样”的技术盛会

当今,网络空间和物理空间的边界不断融合,网络安全和信息化作为一体之两翼也在进行一种融合,网络安全产业伴随着“融合”持续升级发展。7月30日 ,以“融合•Convergency”为主题的TechWorld2021绿盟科技技术嘉年华在北京顺利召开&a…

统信软件启用全新LOGO,迎接中国操作系统大时代

编辑 | 宋慧 出品 | CSDN云计算 头图 | 统信软件发布会现场 在2020年底完成11亿元A轮融资的半年之后,统信软件在7月31日发布了全新品牌LOGO,并推出了200多项功能改进的统信UOS1040版本。 统信软件技术有限公司总经理刘闻欢表示,统信软件从成…

距离 Java 开发者玩转 Serverless,到底还有多远?

简介: 本文摘自 Spring Cloud Alibaba 开源项目创始团队成员方剑撰写的《深入理解 Spring Cloud 与实战》一书,主要讲述了 Java 微服务框架 Spring Boot/Cloud 这个事实标准下如何应对 FaaS 场景。 作者 | 方剑(洛夜) Spring Clo…

AI释放数字经济潜能!思谋科技受邀出席2021全球数字经济大会

8月2日,2021全球数字经济大会在北京举办。本次会议以“创新引领 数据驱动——建设全球数字经济标杆城市”为主题,由北京市人民政府、国家发展和改革委员会、工业和信息化部、商务部、国家互联网信息办公室共同主办。思谋科技作为承办单位参与论坛。思谋科…

终于有人把大数据讲明白了。。。

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等&a…

四大触点,教你从“用户视角”构建数据分析体系

简介: 做增长、做产品其实和谈恋爱的道理是一样的,想要把这件事情做好,需要建立一个好的用户基础,站在用户(女朋友)的角度看待问题、发现需求、建立场景、提出解决方案,这种需求大到可以是产品的…

数据中心 48 V 直流供电,Vicor 如何解决“最后一英寸”电源设计难题?

作者 | 伍杏玲出品 | CSDN云计算(ID:CSDNcloud)7 月 27 日,由 OCP 社区主办、浪潮承办的第三届 OCP China Day 2021 在北京举行。会上,笔者有幸和全球领先的电源厂商 Vicor 公司的高管进行交流,了解这个 40…

阿里云高效基因序列检索助力新冠肺炎病毒序列快速分析

简介: 阿里云高效基因序列检索助力新冠肺炎病毒序列快速分析 AnalyticDB for MySQL是云端托管的PB级高并发低延时数据仓库,通过AnalyticDB for MySQL向量检索功能构建基因检索系统,支持毫秒级针对10亿级别的向量数据进行查询分析,…

DTCC 2020 | 阿里云赵殿奎:PolarDB的Oracle平滑迁移之路

简介: Oracle兼容性是业务客户从Oracle生态迁移到PolarDB生态的第一步也是至关重要的一步,PolarDB通过不断沉淀支持大量实际业务的真实Oracle兼容性功能,确保客户业务可以真正做到平滑迁移。同时PolarDB带给Oracle生态客户的不仅仅是上的来的…

边缘计算助力云游戏成为5G时代的杀手级应用

作者:王超引言随着技术、架构以及商业模式的快速发展和完善,边缘计算作为一种成熟的计算范型已经得到广泛应用。边缘计算是为应用开发者和服务提供商在网络的边缘侧提供云服务和IT环境服务,“边缘”指的是位于管理域的边缘,尽可能…

阿里如何做好双11技术保障?大队长霜波分享4点经验

简介: 为什么说双11是阿里每年技术保障稳定性最困难的一次?50多个BU一起加入双11,怎么组织和运营?为了保障双11的顺利进行,又有哪些备战方案以及创新技术?在由阿里云CIO学院主办的【2020中国企业数字创新峰…

47 张图带你走进浏览器的世界!

作者: 零一0101来源:前端印象大家好,我是零一,每个开发者(尤其是前端工程师)或多或少会跟浏览器打交道,那么你们有没有想过去深入了解浏览器呢?无论是因为好奇还是为了面试&#xff…

一文教你轻松搞定ANR异常捕获与分析方法

简介: 选择一款有超强捕获能力的专业产品,对于开发者定位和修复稳定性问题至关重要。友盟U-APM SDK集成了UC 内核团队强大的技术及友盟超强的错误捕获能力,通过数万次捕获实践中积累了丰富经验,在产品、性能和研发能力上都极大保障…