从数据到洞察:DataOps加速AI模型开发的秘密实践大公开!

file

作者 | 代立冬,白鲸开源科技联合创始人&CTO

引言

在AI驱动的商业世界中,DataOps作为连接数据与洞察的桥梁,正迅速成为企业数据战略的核心。

在WOT全球技术创新大会2024·北京站白鲸开源联合创始人&CTO 代立冬 在「大数据技术与基础设施」专场深入分析DataOps的核心理念、AI大模型开发流程,并通过白鲸开源科技的实践案例,展望了DataOps的未来。

DataOps核心理念

DataOps是一种新兴的数据管理和开发方法论,旨在通过自动化和协作,提高数据管道的效率和质量。

DataOps 在大模型开发中的作用

大模型训练关键要素:

  • 数据集:大量、多样化、高质量的数据是训练和微调大模型的基础
  • 模型架构:包括网络层数、隐藏层的大小、参数的类型等
  • 算力:大模型训练需要极其强大计算资源,包括高性能的GPU,如 A100 等

DataOps与AI模型开发的融合,将加速AI模型的开发周期,提升模型的准确性和效率。

大模型训练流程

大模型训练是一个多阶段过程,涉及数据工程、算法工程和运维。

file

数据工程阶段包括:

  • 数据源:确定数据起点,包括云、SaaS、本地等混合数据源。
  • 数据准备与数据流管理:涉及数据抽取、转换、加载(ETL)和数据质量管理。
  • 大模型训练:利用高质量数据训练模型,包括模型评估与测试。
  • 数据质量管理:包括数据版本管理、数据质量管控、数据影响分析

算法工程阶段包括大模型训练、模型评估预测试,其中,经过预训练、指令微调、增强学习的步骤,并完成性能评估、模型验证和模型优化,训练编排的pipeline才算完成,最终将训练完成的模型应用于实际业务场景。

企业面临的数据挑战

企业在新技术环境下,面临数据源多样化、数据处理流程复杂化等挑战,具体包括:

  • 企业内拥有多组 “数据平台”,数据资源和流程分散在各部门,难以掌控;
  • 企业大数据开发处于“野蛮生长状态”,整体研发管理距离应用开发DevOps流程相差甚远;
  • 大数据、流数据、AI数据加工缺乏工具管控形成了企业新的“蜘蛛网”;
  • 多种新兴数据引擎、云原生、新数据架构的变化缺乏管控,数据血缘、同步、调度与数据发展严重落后。

新技术环境下EtLT架构出现

云、SaaS、本地混合数据源让传统的数据处理流程从ETL、ELT变为能更加快速满足业务需求的EtLT架构,EtLT能更加敏捷地应对离线/实时数据湖、数据仓库、AI模型训练当中的复杂多变的数据需求场景,从而解决以上企业面临的诸多数据挑战。

file

白鲸开源是一家开源原生的DataOps商业公司,由多个Apache Member成立,80%员工都是Apache Committer,主导2个 Apache顶级开源项目(Apache DolphinScheduler, Apache SeaTunnel),同时根据全球最佳实践发布商业版本 --WhaleStudio,帮助企业在大数据和AI时代智能化地完成多数据源、多云及信创环境的数据集成,数据开发、工作流编排运维及部署、数据质量管控、团队敏捷协作等一系列问题,已在 6000多家企业中得到实践和使用。

file

DataOps关键实践之任务调度平台

  • Apache DolphinScheduler:云原生调度引擎

作为云原生的调度引擎,DolphinScheduler支持大数据工作流,解决企业级场景中的多个任务单元、高执行频率、数据量大等痛点。

file

DataOps关键实践之数据集成工具

  • Apache SeaTunnel:新一代实时多源数据同步工具

在数据集成领域,企业面临的技术和业务挑战同样严峻:

  • 数据源多达几百种,版本间不兼容,而且不断有新的出现;
  • 数据丢失与重复,无法一致性
  • 出现问题无法回滚或者断点继续执行
  • 同步过程不透明,缺少监控
  • 频繁读取 binlog 对数据源端影响大
  • 大事务、Schema 变更影响下游
  • 低吞吐高时延导致数据无法及时到达
  • 离线同步和实时同步常被分开管理,维护困难
  • 数据割接人工进行

Apache SeaTunnel是新一代实时多源数据同步工具,支持130+种数据源,提供批量和实时数据集成。可以有效地解决以上企业面临的困境。

file

  • Apache SeaTunnel特点

file

同时,为了实现更高效的数据集成,Apache SeaTunnel社区还“重复造轮子”,自研了专门为数据引擎而设计的SeaTunnel Zeta Engine。

与Spark、Flink等流行引擎相比,Apache SeaTunnel在数据同步上的优势显而易见:

file

  • 典型案例

同样地,Apache SeaTunnel以其强大的数据同步和集成性能在数千家企业的大数据处理中作为重要的一环,发挥着不可替代的作用。典型的用户包括美国醉的商业银行摩根大通银行和哔哩哔哩,两者分别利用Apache SeaTunnel高效解决了跨云数据准备和异构数据实时数据同步的巨大挑战。

白鲸开源DataOps实践

白鲸开源科技是DataOps领域的领先实践者,提供开源解决方案和商业产品,为企业数据打造全流程DataOps闭环。

file

稳定高效的企业级dDataOps平台——WhaleStudio

WhaleStudio基于Apache DolphinScheduler和Apache SeaTunnel,是一个分布式、云原生并带有强大可视化界面的 DataOps系统,增加了商业客户所需的企业级特性:

  • 完全自主研发,上下游生态圈广阔,支持 160+ 种数据源
  • 全面支持云原生—云、仓、湖 实时/离线批流一体化任务管控
  • 低代码实现企业大数据的操作系统和高速公路
  • 完善的DataOps流程可无缝集成代码工具
  • 丰富的数据源对接和传统ETL数据组件支持
  • 一站式完成从开发-》测试-》上线-》的运维闭环

file

file WhaleStudio技术架构

工作流编排能力

WhaleStudio具有强大的工作流编排能力:

  1. 支持各类计算任务组件:Amazon DMS、Azure Datafactory,Amazon Datasync、Apache Linkis,DataX,Sqoop,SeaTunnel等
  2. 支持各类云数据库和计算架构,支持 K8S、MLDB。
  3. 平台采用插件式设计,支持自由扩展数据源支持。
  4. 可视化的数据源管理,数据源统一集中管理,一次配置,到处使用,大大减少配置修改带来的工作量。
  • 支持160种数据源接口,多种数据集成方式

支持160+种数据源

WhaleTunnel支持160+种数据源,例如MySQL,SAP Hana,Oracle,DB2,SQLServer,Gbase,Kafka,ClickHouse,RedShift、达梦等。平台采用插件式设计,支持自由扩展数据源。

  • 支持多种数据同步方式:

    • 批量数据全量、增量集成
    • 实时数据集成
    • 批量无主键增量集成等
  • 支持商业数据库实时CDC

  • Mysql

  • PostGreSQL

  • SQLServer

  • Oracle

  • DB2

  • AWS Aurora

  • 翰高

  • StarRocks

  • 达梦

  • 人大金仓

  • PolarDB

file

实时数据同步支持DDL变更触发暂停、报警以及延迟告警

实时数据处理支持多种实时数据监测处理:

  • DDL变更暂停
  • DDL变更告警
  • DDL暂停加表
  • DDL手工处理

支持多种方式控制&监测速率:

  • 数据采集速率控制
  • 并发控制
  • 数据延迟告警
  • 数据全量完成告警
  • 数据CDC增量启动告警

file file file file

数据开发能力-在线IDE&集成,实现DataOps

file

数据质量把控–数据工作流血缘关系

  • 全局跨工作流的任务和及实例间的依赖关系
  • 结合任务与表定义,实现表及血缘分析以及任务操作
  • 支持实例级别的依赖链路展示
  • 支持全局视图进行停止、暂停、重跑、依赖链重跑等操作

file

智能基线–提前预知任务延迟从而提前采取行动

配置智能基线帮助“智能”告警: ✅定义核心任务基线,多一双“智能”的眼镜 ✅根据任务的执行历史只能推算时长 ✅设置安全预警时间,智能告警

file

多种运维管理手段帮助运维人员快速处理故障

任务上线之后,面对各种突发情况,有多种手段来确保在任务发生异常时可以协助运维人员快速处理异常。

file file

实践案例分析

中信建投DataOps布局

在经过对比调研后,中信建投采用了WhaleStudio平台来解决当时在谁开发中存在的挑战。

file

通过WhaleStudio平台,中信建投实现了数据一体化编辑、上线和管控,极大提升了数据研发效率。

file file file

  • 工作流编排:定义超过3000个工作流,上线任务数量接近16000个。
  • 核心应用:应用于反洗钱、实时盈亏计算、监管报送、数据精算等核心业务。
  • 效率提升:日均运行工作流实例超过5000个,日均任务执行数量超过20000个。

目前公司各业务线数据处理任务还在持续上线DataOps平台,整个平台规模还在持续增长中。

DataOps未来

DataOps的未来将由AI技术进一步推动,实现更智能化的数据处理、数据安全保护和跨平台/云数据治理。

大模型在数据处理流程中可以扮演多种角色,提高整个数据处理流程的效率和智能化水平。大模型将应用于以下方面:

智能调度策略

数据处理涉及复杂的任务调度,大模型可以分析历史作业执行情况、资源使用状况,从而预测未来的工作流需求,智能地调度任务和分配资源。减少延迟,提高整体处理速度,并优化资源利用率。

数据质量检测与清洗

在数据同步过程中,大模型可以辅助自动检测数据质量问题,比如识别异常值、缺失数据或不一致性。通过机器学习算法,模型可以学习数据特征,自动清洗和修正数据,确保数据同步后的质量。

智能数据分类与标签

对于需要分类或标签化的数据,大模型可以自动分析数据内容,对其进行分类或附加有意义的标签,特别是在多模态数据处理场景下,这对于后续的数据分析和应用至关重要。

自适应数据同步策略

根据网络状况、数据变化频率和业务需求,大模型可以帮助动态调整数据同步策略,比如选择最合适的同步频率、确定优先级高的数据流,以优化同步效率和减少带宽消耗。

自动化异常处理

在数据传输或处理过程中遇到异常时,大模型可以基于历史数据和模式识别,自动识别异常原因并触发相应的处理机制,减少人工干预,提高处理效率。

结语

DataOps不仅是一种技术实践,更是一种文化和思维方式。随着AI技术的不断进步,DataOps将继续推动企业数据管理和AI模型开发的创新和发展。

相关资源

  • 白鲸开源官网:https://www.whaleops.com
  • Apache Dolphin Scheduler官网:https://dolphinscheduler.apache.org
  • Apache SeaTunnel官网:https://seatunnel.apache.org

作者介绍

代立冬

  • 白鲸开源科技联合创始人
  • Apache 孵化器导师
  • Apache DolphinScheduler PMC Chair
  • Apache SeaTunnel PMC
  • ApacheCon 亚洲大数据湖仓论坛出品人
  • 中国科协 “2023开源创新榜” 优秀人物

    本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/42927.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

严重的OpenSSH漏洞威胁数百万Linux系统

Qualys威胁研究部门(TRU)发现了OpenSSH服务器 (sshd) 中的一个严重漏洞,可能影响全球超过 1400 万个Linux系统。该漏洞被指定为 CVE-2024-6387,允许在基于 glibc 的 Linux 系统上以 root 权限进行远程未经身份验证的代码执行 (RCE)。 此漏洞源于信号处理…

Python 处理Excel 文件, openpyxl 库的使用:

下载&#xff1a; pip install openpyxl 基本使用&#xff1a; 新建一个Excel 工作簿&#xff1a; 使用openpyxl 需要先导入一个Workbook 类&#xff0c; 使用它可以创建一个Workbook<工作簿>对象&#xff0c; 也就是创建一个Excel表文件&#xff0c; web.active 可用来…

5款好用公司监控软件分享|管理者必看

当今社会&#xff0c;企业数据安全和员工工作效率成为了管理者不可忽视的重要议题。 选择合适的公司监控软件&#xff0c;不仅有助于提升管理效率&#xff0c;还能有效保障企业信息安全。 下面小编将为您分享五款备受好评的公司监控软件&#xff0c;助力管理者更好地管理企业…

公司可以拿监控辞退员工吗?有什么法律依据?

李经理&#xff1a;小张&#xff0c;我听说最近人力资源部打算使用我们新安装的安企神软件来监控员工的工作行为&#xff0c;以提高工作效率和确保公司信息安全。不过&#xff0c;我有点担心这会不会触及法律红线&#xff0c;比如如果我们发现某位员工严重违反公司规定&#xf…

ElasticSearch学习篇14_《检索技术核心20讲》进阶篇之大倒排索引

背景 学习极客实践课程《检索技术核心20讲》https://time.geekbang.org/column/article/215243&#xff0c;文档形式记录笔记。 内容 主要是海量数据的大倒排索引的一些原理设计思想&#xff0c;ES底层就是基于这些设计思想以及原理&#xff0c;主要涉及读写分离、索引分层等…

什么是离散化?

离散化 题目 你会这个题 吗&#xff1f; 题目 假定有一个无限长的数轴&#xff0c;数轴上每个坐标上的数都是 0 0 0。 现在&#xff0c;我们首先进行 n n n 次操作&#xff0c;每次操作将某一位置 x x x 上的数加 c c c。 接下来&#xff0c;进行 m m m 次询问&#x…

第十二节 设置默认文本提示

原型中我们常会用到文本框默认提示一些文本&#xff0c;获取焦点后消失文本提示&#xff0c;那如何实现呢&#xff1f;请看下面这个简单案例。 一、添加文本框也可以是矩形或者其他元件 二、添加文本样式 三、设置提示文本 四、元件获取焦点时将以隐藏提示 五、看效果 默认提示…

ShardingSphereConnection@4691d] will not be managed by Spring

boot整合分库分表后启动执行&#xff0c;提示链接不被spring管理&#xff0c; 应该看自己需要&#xff0c; 解决&#xff1a;

vue3+ts 重复参数提取成方法多处调用以及字段无值时不传字段给后端

参数提取前的写法&#xff0c;此写法值为空的时候也会传空字段给后端 会把无值的空字段传给后端 修改后的写法&#xff0c;不会把没有值的字段传给后端 // 列表和导出需要传给后端的公共参数&#xff08;加 || undefined即可过滤空字段&#xff09; const getCurentParam () …

昇思25天学习打卡营第14天|Pix2Pix实现图像转换

Pix2Pix是基于条件生成对抗网络&#xff08;cGAN, Condition Generative Adversarial Networks &#xff09;实现的一种深度学习图像转换模型&#xff0c;该模型是由Phillip Isola等作者在2017年CVPR上提出的&#xff0c;可以实现语义/标签到真实图片、灰度图到彩色图、航空图到…

leetcode--二叉搜索子树的最大键值和

leetcode地址&#xff1a;二叉搜索子树的最大键值和 给你一棵以 root 为根的 二叉树 &#xff0c;请你返回 任意 二叉搜索子树的最大键值和。 二叉搜索树的定义如下&#xff1a; 任意节点的左子树中的键值都 小于 此节点的键值。 任意节点的右子树中的键值都 大于 此节点的键值…

IOC、DI<4> Unity

IOC&#xff08;&#xff09;&#xff1a;控制反转&#xff0c;把程序上层对下层的依赖&#xff0c;转移到第三方的容器来装配 是程序设计的目标&#xff0c;实现方式包含了依赖注入和依赖查找&#xff08;.net里面只有依赖注入&#xff09; DI&#xff1a;依赖注入&#xff0c…

基于jeecgboot-vue3的Flowable流程-集成仿钉钉流程(一)一些样式的调整使用

因为这个项目license问题无法开源&#xff0c;更多技术支持与服务请加入我的知识星球。 1、比如下面的发起人双击后出现的界面不正常&#xff0c; 看它的样式主要是这个里面的margin-left应该太小了&#xff0c; [data-v-45b533d5] .el-tabs__content { margin-top: 50px;mar…

7.1作业6

uart4.h #ifndef __UART4_H__ #define __UART4_H__ #include "stm32mp1xx_gpio.h" #include "stm32mp1xx_rcc.h" #include "stm32mp1xx_uart.h" //rcc/gpio/uart4初始化 void hal_uart4_init(); //发送一个字符 void hal_put_char(const char s…

香橙派编译linux内核支持ebpf和虚拟WIFI

前言 上一篇文章香橙派5plus上跑云手机方案一 redroid(带硬件加速)中说了怎么运行redroid&#xff0c;这篇补一下怎么修改参数编译内核。 补充 上篇文章有个内容需要补充一下&#xff1a;更新完内核需要用下面的命令防止内核被apt更新&#xff0c;不然后面使用apt update又回…

浅析C++引用

浅析C引用"&" ​ C中引入了一个新的语言特性——引用(&)&#xff0c;它表示某一对象的别名&#xff0c;对象与该对象的引用都是指向统一地址。那么我们就来看看关于引用的一些知识点吧&#x1f9d0; 特性 引用在定义时必须初始化一个变量可以有多个引用引…

【Python】一文向您详细介绍 np.inner()

【Python】一文向您详细介绍 np.inner() 下滑即可查看博客内容 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地&#xff01;&#x1f387; &#x1f393; 博主简介&#xff1a;985高校的普通本硕&#xff0c;曾…

JavaWeb系列二十二: 线程数据共享和安全(ThreadLocal)

韩顺平-线程数据共享和安全ThreadLocal 什么是ThreadLocal?ThreadLocal环境搭建ThreadLocal快速入门ThreadLocal源码阅读threadLocal.set()源码threadLocal.get()源码 什么是ThreadLocal? ThreadLocal的作用: 可以实现在同一个线程数据共享, 从而解决多线程数据安全问题.Thr…

小阿轩yx-Haproxy搭建Web群集

小阿轩yx-Haproxy搭建Web群集 Haproxy 简介 提供高可用性 能做出标准的负载均衡 支持虚拟主机 具备健康检查能力 能用于各式各样的代理 轻量级代理环境 解决方案优势 免费 快速 可靠 特性 特别适用于那些负载特大的web站点&#xff0c;这些站点通常又需要会话保持或…

前端面试题24(css3)

下面是一些常见的 CSS3 面试题&#xff0c;这些问题可以帮助你评估应聘者对 CSS3 的掌握程度&#xff1a; 1. 解释 CSS3 中的动画关键帧&#xff08;keyframes&#xff09;和它们是如何工作的&#xff1f; 回答要点&#xff1a;keyframes 规则用于创建动画&#xff0c;它可以…