DataOps真能“降本增效”?

在各行各业中,越来越多的公司开始重视收集数据,并寻找创新方法来获得真实可行的商业成果,并且愿意投入大量时间和金钱来实现这一目标。

file

据IDC称,数据和分析软件及云服务市场规模在 2021 年达到了 900 亿美元,随着企业继续对人工智能和机器学习 (AI/ML) 和现代数据计划进行投资,预计到 2026 年将增长一倍以上。

然而,尽管投入了大量资金,数据项目往往收效甚微。麦肯锡最近对高级主要分析项目进行的一项调查发现,公司 80% 的时间都花在准备数据等重复性任务上,而这些任务产生的增值作用有限。此外,他们还发现,只有 10% 的公司认为他们已经控制住了这个问题。

项目为何失败?

尽管增加了投资和关注,数据项目的失败率为什么仍然如此之高?

许多变量都会影响项目的成功,经常被提及的因素包括项目复杂性和对应的开发人才技术水平。企业也意识到,许多数据项目都失败了,是因为他们难以在生产中大规模实施数据计划。

这导致了 DataOps 的出现,成为克服大数据项目中常见挑战的新框架。DataOps 是敏捷工程和 DevOps 最佳实践在数据管理领域的应用,能帮助企业快速将新见解转化为完全可操作的生产交付成果,从而从数据中释放出商业价值。

数据调度的挑战

大多数数据工作流都非常复杂,需要跨多个不同的应用程序、数据源和基础架构技术运行,并且这些技术需要协同工作。虽然目标是在生产中实现这些流程的自动化,但现实情况是,如果没有强大的工作流调度平台,在企业规模上交付这些项目可能会非常昂贵,而且通常需要花费大量时间进行手动工作。

2023年1月份,白鲸开源正式发布了 Apache DolphinScheduler商业版Whalescheduler。相比于开源版本,商业版拥有更为专业的服务支持,感兴趣的小伙伴可以看下这篇文章进一步了解:什么是数据调度平台 WhaleScheduler

数据工作流调度项目有四个关键阶段:

  • 数据引入:这涉及从传统来源(如企业资源规划 (ERP) 和客户资源管理 (CRM) 解决方案、金融系统等)以及现代来源(如设备、物联网 (IoT) 传感器和社交媒体)收集数据。

  • 数据存储:存储数据的方式和地点取决于持久性、数据集的相对价值、分析模型的刷新率以及数据移动到处理阶段的速度。

  • 数据处理:处理阶段也面临许多挑战,包括需要多少处理能力?是恒定的还是可变的?是定期的、事件驱动的还是临时的?如何将成本降到最低?

  • 洞察传递:这需要将数据输出移动到分析系统。这一层同样复杂,有越来越多的工具代表数据管道中的最后一英里。

随着新数据和云技术的频繁推出,公司不断重新评估其技术堆栈。这种不断发展的创新带来了压力和客户流失,这可能是一个挑战,因为公司需要轻松采用新技术并将其扩展到生产中。

最终,如果新的数据分析服务没有大规模投入生产,公司就无法获得可操作的见解或实现价值。

实现规模生产

在生产中成功大规模运行业务关键型工作流程并非偶然。正确的工作流程调度平台可以帮助您简化数据管道并获得所需的可行见解。

考虑到这一点,以下是您在工作流调度平台中需要寻找的八个基本功能

  • 支持异构工作流:各公司正在迅速转向云,在可预见的未来,工作流将跨越高度复杂的混合环境。对于许多公司而言,这将包括支持跨数据中心和多个私有云和/或公共云的大型机和分布式系统。Apache DolphinScheduler 是一个强大的开源分布式工作流调度平台,能够处理多种应用程序和基础设施的多样性,提供一致的自动化策略。

  • SLA 管理:业务工作流(从预测风险的 ML 模型到财务结算和付款结算)都有完成 SLA,这些 SLA 有时受监管机构制定的准则的约束。您的调度平台必须能够理解并通知您复杂工作流中的任务失败和延迟,并且需要能够将问题映射到更广泛的业务影响。

  • 错误处理和通知:在生产中运行时,即使是设计得最好的工作流程也会出现故障和延迟,而海豚调度恰恰有非常完善的告警机制,并支持一些主流的平台

  • 自我修复和补救:响应业务工作流中的作业故障时,平台会采取纠正措施,例如重新启动作业、删除文件或刷新缓存或临时表。调度平台应允许自动化工程师配置此类操作,以便在下次发生相同问题时自动执行。

  • 端到端可视性:工作流跨混合技术栈执行互连的业务流程。调度平台应该能够清晰地显示工作流的沿袭。这对于帮助工程师了解应用程序与其支持的业务流程之间的关系至关重要。这对于变更管理也很重要。在进行变更时,了解流程上游和下游发生的情况至关重要。

  • 自助式用户体验:工作流调度是一项团队活动,涉及许多利益相关者,例如数据团队、开发人员、运营、业务流程所有者等。每个团队对于如何与调度工具交互都有不同的用例和偏好。

  • 生产标准:在生产中运行工作流需要遵守标准,这意味着使用正确的命名约定、错误处理模式等。您的调度平台应该有一个机制,提供一种非常简单的方法来定义这些标准,并在用户构建工作流时引导遵循适当的标准。

  • 支持 DevOps 实践:随着公司采用 DevOps 实践,例如持续集成和持续部署 (CI/CD) 管道、工作流开发、修改甚至工作流基础设施部署,您的调度平台应该能够适应现代发布实践。

对数据的需求正在上升,并且没有减弱的迹象,这意味着拥有存储、处理和操作数据的能力对于任何企业的成功仍然至关重要。DataOps 实践与强大的调度功能相结合,可以帮助企业调度数据管道、简化数据交付流程并改善业务成果。

WhaleStudio是白鲸开源根据全球领先的DataOps理念打造的新一代全栈数据集成调度产品,具有分布式、云原生并带有强大可视化界面的特点,将全球领先的调度开发组件Apache DolphinScheduler与数据集成组件Apache SeaTunnel集成在一起提供给全球用户领先的完整解决方案,支持170+数据源集成并全面支持信创环境,目前已服务于6000+企业。

本文来源于:https://www.datanami.com/2024/05/15/unlock-your-data-initiatives-with-dataops/ 如有侵权,请联系删除

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/31273.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSDN自定义模块全攻略,DIY系统原有样式打造专属个性化主页!

个人主页:学习前端的小z 个人专栏:HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! 文章目录 💯如何通过HTMLCSS自定义模板diy出自己的个性化csdn主页&#x…

明日开考!2024年全国青少年人工智能创新挑战赛及真题

Scratch实验室2024-06-21讯 2024年全国青少年人工智能创新挑战赛【编程创作与信息学专项赛】第二轮将在明天(2024年6月22日)举行,请参加的同学积极备考,参加选拔赛的青少年需通过“人工智能创新挑战赛”专题页面点击“参加选拔赛”…

RocketMQ快速入门:集成spring, springboot实现各类消息消费(七)附带源码

0. 引言 rocketmq支持两种消费模式&#xff1a;pull和push&#xff0c;在实际开发中这两种模式分别是如何实现的呢&#xff0c;在spring框架和springboot框架中集成有什么差异&#xff1f;今天我们一起来探究这两个问题。 1. java client实现消息消费 1、添加依赖 <depen…

正定矩阵(Positive Definite Matrix)

正定矩阵&#xff08;Positive Definite Matrix&#xff09; flyfish Positive&#xff08;正数&#xff09; &#xff1a;在数学和统计学中&#xff0c;通常指大于零的数。在矩阵理论中&#xff0c;一个矩阵被称为正定&#xff0c;是因为它的性质类似于正数的性质。 Defini…

裁员裁到大动脉,是一种什么体验!

大家好啊&#xff0c;我是董董灿。 降本增效是每个当老板的人都喜欢挂在嘴边的口头禅&#xff0c;尤其是行业不景气&#xff0c;公司发展遇到瓶颈的时候。 大部分公司降本增效的手段其实非常相似&#xff0c;比较容易实施的手段也就那几种。 要么搞设备自动化和流程自动化&a…

Anthropic 发布新AI模型Claude 3.5 Sonnet

&#x1f989; AI新闻 &#x1f680; Anthropic 发布新AI模型Claude 3.5 Sonnet 摘要&#xff1a;Anthropic 发布了其最强 AI 模型 Claude 3.5 Sonnet。速度更快、处理细微差别和幽默的能力提升&#xff0c;且支持编写、编辑和执行代码。该模型通过公司网站、iPhone 应用及 A…

数据库系统概念(第八周 第一堂)(规范化关系数据库设计)(强推学习!!!)

目录 前言 E-R模型质量低的深层原因 数据依赖 函数依赖 主属性/非主属性 逻辑蕴含与闭包 Armstrongs Axiom 求解F闭包算法 求解属性集闭包算法 属性集闭包的作用 候选码求解理论和算法 候选码求解理论 无关属性 检验方法 正则覆盖 关系模式的设计 关系…

【深度学习】GPT-2,Language Models are Unsupervised Multitask Learners,【语言建模】

论文&#xff1a;https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 文章目录 摘要引言方法2.1 训练数据集2.2 输入表示2.3 模型3. 实验3.1 语言建模3.2 Children’s Book Test3.3 LAMBADA3.4 Winograd Sc…

自动驾驶学习-车载摄像头ISP(2)

背景 智能驾驶ISP&#xff08;Image Signal Processor&#xff0c;图像信号处理器&#xff09;在自动驾驶和辅助驾驶系统中扮演着至关重要的角色。 典型的ISP通常会对摄像头输出的RAW数据先做黑电平矫正&#xff08;BLC&#xff09;、坏点矫正&#xff08;DPC&#xff09;、数…

如何DIY出专属个性化的CSDN主页?一招教你搞定!

个人主页&#xff1a;学习前端的小z 个人专栏&#xff1a;HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结&#xff0c;欢迎大家在评论区交流讨论&#xff01; 文章目录 &#x1f4af;如何通过HTMLCSS自定义模板diy出自己的个性化csdn主页&#x…

SD3发布,送你3个ComfyUI工作流

大家好&#xff0c;我是每天分享AI应用的萤火君&#xff01; 这几天AI绘画界最轰动的消息莫过于Stable Diffusion 3&#xff08;简称SD3&#xff09;的发布。SD3是一个多模态的 Diffusion Transformer 模型&#xff0c;其在图像质量、排版、复杂提示理解和资源效率方面具有显著…

ADC常用的十大滤波算法(C语言)

一、限幅滤波法 1、方法&#xff1a; 根据经验判断两次采样允许的最大偏差值&#xff08;设为A&#xff09; 每次检测到新值时判断&#xff1a; a. 如果本次值与上次值之差<A&#xff0c;则本次值有效 b. 如果本次值与上次值之差>A&#xff0c;则本次值无效&#xf…

QT MQTT (二)编译与集成

一、QT MQTT 提供 MQTT 客户端服务的 Qt 专用库基于标准化发布 / 订阅协议&#xff0c;用于在设备和组件之间可靠地共享数据。MQTT 是为保证状态正确性、满足高安全标准和交换最小数据而设计的协议&#xff0c;因此被广泛应用于各种分布式系统和物联网解决方案中。 Qt开发MQT…

【Oracle篇】Oracle数据库坏块处理:rman修复坏块实践与案例分析(第七篇,总共八篇)

&#x1f4ab;《博主介绍》&#xff1a;✨又是一天没白过&#xff0c;我是奈斯&#xff0c;DBA一名✨ &#x1f4ab;《擅长领域》&#xff1a;✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux&#xff0c;也在扩展大数据方向的知识面✌️…

git配置ssh key

一、生成ssh公钥和私钥对 打开终端&#xff0c;输入命令&#xff0c;-C 后是git邮箱&#xff0c;在 Enter file in which to save the key (/home/my/.ssh/id_rsa): 后可以输入公钥和私钥对保存路径及文件名&#xff0c;默认是 /home/my/.ssh/id_rsa&#xff0c;其它的全部按回…

从0开始C++(五):友元函数运算符重载

友元函数 介绍 C中的友元函数是一种特殊的函数&#xff0c;它可以访问和操作类的私有成员和保护成员。友元函数可以在类的内部或外部声明和定义&#xff0c;但在其声明和定义中需要使用关键字 friend 来标识。友元函数可以是全局函数&#xff0c;也可以是其他类的成员函数。 …

Web APIs--Dom获取属性操作

目录 1.DOM&#xff08;操作网页内容、用户交互&#xff09; 2.DOM对象获取&#xff08;querySelect(‘’)、querySelectAll(‘’)&#xff09; 总结&#xff1a; 3.操作元素内容&#xff08;修改元素的文本更换内容&#xff09; 1. 元素innerText 属性 2.元素.innerHTML…

第一百一十六节 Java 面向对象设计 - Java 终止块

Java 面向对象设计 - Java 终止块 ​try ​块也可以有零个或一个​ finally​ 块。 ​finally ​块总是与 ​try ​块一起使用。 语法 使用 ​finally​ 块的语法是 finally {// Code for finally block }​finally​ 块以关键字 ​finally​ 开始&#xff0c;后面紧跟一对…

深入分析 Android BroadcastReceiver (四)

文章目录 深入分析 Android BroadcastReceiver (四)1. 广播接收器的深入优化与应用1.1 实时性要求高的应用1.1.1 示例&#xff1a;音乐播放器中处理耳机插拔事件1.1.2 动态注册接收器 1.2 处理耗时操作1.2.1 示例&#xff1a;使用 IntentService 处理耗时操作 1.3 安全性管理1.…

【机器学习】深度学习赋能:基于 LSTM 的智能日志异常检测

目录 1. LSTM 简介 2. 日志序列异常检测概述 3. 数据预处理 3.1 日志解析 3.2 数据清洗 3.3 序列化 3.4 特征提取 示例代码 4. 构建 LSTM 模型 4.1 模型结构 4.2 模型构建示例 5. 训练 LSTM 模型 5.1 数据准备 5.2 模型训练 示例代码 6. 异常检测 6.1 异常分数…