为什么数据平台需要敏捷版|直播回顾

在这里插入图片描述

11月28日,我们邀请到StartDT合伙人、CTO地雷和StartDT资深战略咨询专家何夕,围绕“为什么数据平台需要敏捷版”这个话题,向大家汇报了DataSimba敏捷版这半年来的最新进展,并带来了详细的产品解读。

敏捷版支持StarRocks、ClickHouse和Apache Doris等新型MPP数据库,还支持Flink和Kafka等技术栈增购包,不仅能够处理离线数据分析、即席查询任务,还能满足客户实时写入等需要。

如果您数据量在3TB以下、节点数量在3-9个、产品总预算不超过50万,存在集成、研发、运维、服务、治理等任何数据需求,就请一起阅读下去吧!

1 DataSimba敏捷版产品解读

现在的数据技术栈是比较复杂的,其集群规模大,运维和数据治理成本高。此前我们服务的客户,大多数都是数据量达到PB级别,拥有百万预算,且数据团队相对完整的头部客户。

随着数字化转型效果明显增强,越来越多的企业重视数据分析并进行立项,这其中就包括数据量较小、预算有限、团队规模欠完备的企业。对他们来说,大型全家桶型的传统数据平台就显得有些超配了。为此,DataSimba推出敏捷版,积极响应中小企业,以及大型企业中一些独立的部门和团队的需求,也就是腰部客户的需求。

我们优化掉了许多传统大数据技术栈中的复杂组件,使得敏捷版可以在最小3个节点的集群环境中运行,并且经过了RAS压力测试(点击了解RAS),确保能够满足生产环境的要求。

DataSimba敏捷版支持StarRocks、ClickHouse和Apache Doris等新型MPP数据库,能够处理离线数据分析和即席查询任务。我们还支持Flink和Kafka等技术栈增购包,满足客户实时写入需求。敏捷版能够满足多样化的数据场景需求,大大简化了部署和运维的复杂度,同时保持了高效的数据处理能力。

此外,为了响应客户的强烈需求,在标准接口方面,除了已有的北向对象接口外,今年会逐渐开放南向接口,包括引擎对接、任务调度、用户对接、安全审计,元数据、外表存储接口等,以降低集成难度,提供更灵活的对接方式。

值得注意的是,随着企业数据量增多和业务发展,可能需要增加引擎以适应不同计算需求。因此,我们建议客户提前统一数据存储格式,打开数据湖开关,如Hudi或Iceberg等,以便降低未来数据迁移的难度。

最后,DataSimba敏捷版与标准版的主要区别在于底层引擎和技术栈的选择,而在功能层面上二者一致,即都能够满足客户集成、研发、运维、服务、治理的全链路需求。因此,对于数据量达到PB级及以上的大型客户我们推荐标准版。而数据量适中的客户,敏捷版就是您的性价比之选。
在这里插入图片描述

2 为什么数据平台需要敏捷版?

2.1 DataSimba敏捷版基于市场需求明确客户画像

此前,我们进行了深入的市场调研和用户访谈,发现随着市场环境的变化,DataSimba的客户群体更加丰富了,需求也更加多样化。

首先,越来越多腰部客户开始重视管理数据,他们倾向于业务分析而非复杂的大数据技术栈运维,需要易于使用、维护简便的产品,其中不少客户也有建立数据仓库或数据平台的需求。其次,由于Teradata等国际厂商退出中国市场,许多传统数仓用户正在寻找国产替代。这类客户通常有稳定的数据量增长,并寻求数据迁移和维护。另外,调研发现,明确表示不需要实时计算功能和强烈要求实时计算的客群比例近乎一致。客户期望产品提供“搭积木”的功能,灵活满足当前及未来的发展需求。

DataSimba敏捷版基于调研结果不断调整,目前不仅能够支持StarRocks等新MPP引擎,确保高性能的数据处理能力,还降低了部署、使用和集成的难度,帮助腰部客户轻松操作和管理。我们支持客户通过“增购包”的形式逐步投入资源,按需扩展功能,确保可以平滑升级至更高级别的服务。

敏捷版的客户画像也很明确,即数据量通常在3TB以下;节点数量在3-9个(超过9个就要使用基于Hadoop的大数据平台,比如DataSimba标准版);产品总预算不超过50万;缺乏资深数据团队运维大型数据集群;需要易于部署、使用简单且具有良好扩展性的解决方案的腰部客户。可以说,只要是数据量较小、预算较少,且想要快速产出业务成果的客户都可以尝试DataSimba敏捷版。

2.2 DataSimba敏捷版和标准版均是主力产品

DataSimba敏捷版和标准版的差异主要体现在它们各自针对的不同客户场景和技术实现上,而不是简单的高低配置或价格体系上的区别。两者都是专门为解决特定类型的客户需求而设计的产品版本,不存在主次关系。

标准版主要面向头部客户或大型企业的平台需求,能够提供复杂和全面的功能集群以满足其多样化的数据处理需要,并给予数据团队更多的专业调整空间,以实现高度定制化的配置和优化。

敏捷版使用单一的新型MPP引擎,简化了技术栈,降低了运维难度和成本,主要面向腰部客户的平台需求。由于敏捷版优化了调度机制和资源利用效率,尽管其规模较小,但性能表现优异,某些情况下甚至可能超过标准版。另外,敏捷版更加注重自动化配置,使得非专业人员也能轻松操作。
在这里插入图片描述

2.3 DataSimba敏捷版具备灵活扩展的升级路径

客户选择了DataSimba敏捷版后,未来的发展路径可以根据其业务增长和技术需求逐步扩展和升级。如果客户的节点数超过9个或者单一MPP引擎无法满足复杂需求时,可以选择通过增加引擎、功能和服务来增强系统能力,而不必将敏捷版铲平。

在处理大规模原始数据的场景中,客户可在引入Hive、Spark等大数据引擎进行ETL处理,并保留StarRocks、ClickHouses或Apache Doris等MPP引擎用于数据分析和即席查询等需求。当客户需要增加实时处理能力时,也可以增购实时计算包。此外,DataSimba还提供了细化的服务增购选项,包括单次服务、VIP运维服务等。

这种渐进式的升级过程类似于登山图所描绘的成长路径,客户从数仓优化逐渐发展为全面的数据平台,并基于此开展各项应用。最终,敏捷版可能会被DIY成一个功能完备的标准版系统,且整个过程是灵活的、可定制的,帮助客户实现从简单到复杂的全面数智化转型。
在这里插入图片描述

2.4 DataSimba敏捷版为AI开发搭建平台

作为中立安全、稳定易用的数据云平台,DataSimba支持多云、多引擎、多数据源,以及不同的服务器、计算框架和GPU集群。我们还具备统一的底层基础设施,以及综合调度、安全隔离等功能,能够在集群内部进行数据分析,确保了数据安全和资源的有效利用,能够为企业开发AI技术保驾护航。

如果数据团队或者DataSimba敏捷版客户想要利用数据平台进行AI应用或创新,我们建议可以在两方面发力:一是数据分析,二是数据预处理。特别是对于那些历史上积累的大量半结构化或非结构化的数据,利用大模型来读取并整理成结构化表格是一个非常可行的方向。

值得注意的是,无论是AI应用还是大模型训练,干净的、高质量的数据输入是必不可少的前提。同时,数据安全和隐私保护也不容忽视,在不损害信息安全的基础上使用提效工具才能有效地促进业务发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/63739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot【九】mybatis-plus之自定义sql零基础教学!

一、前言🔥 环境说明:Windows10 Idea2021.3.2 Jdk1.8 SpringBoot 2.3.1.RELEASE mybatis-plus的基本使用,前两期基本讲的差不多,够日常使用,但是有的小伙伴可能就会抱怨了,若是遇到业务逻辑比较复杂的sq…

Android后端签到flask迁移到rust的axum的过程-签到性能和便携

本次变更了以下内容: 为了使用之前ip2sta的ip到端点名的python,dic变量,将其存入redis hashset.使用地址/api/ip2dic 手动执行之.并且定义在/station/init,这个每天初始化redis的路径下.在rust axum使用redis 连接池在test中 ip2dic,IP转端点名,转本日此端网址.在前端的人名下…

ThinkPHP知识库文档系统源码

知识库文档系统 一款基于ThinkPHP开发的知识库文档系统,可用于企业工作流程的文档管理,结构化记录沉淀高价值信息,形成完整的知识体系,能够轻松提升知识的流转和传播效率,更好地成就组织和个人。为部门、团队或项目搭…

交换排序(Swap Sort)详解

交换排序Swap Sort详解 冒泡排序冒泡算法代码实现冒泡分析 快速排序快排算法代码实现快排分析 交换类排序主要是通过两两比较待排元素的关键字,若发现与排序要求相逆,则交换之。在这类排序方法中最常见的是起泡排序(冒泡排序)和快…

091 脉冲波形的变换与产生

00 如何获得脉冲波形 01 单稳态触发器 1.分类 2.工作特点: ① 电路在没有触发信号作用时处于一种稳定状态。 ② 在外来触发信号作用下,电路由稳态翻转到暂稳态; ③ 由于电路中RC延时环节的作用,暂稳态不能长保持, 经过一段时间后&#xff0c…

高级排序算法(二):归并排序与堆排序详解

引言 在上一章中,我们探讨了高效的快速排序及其分治思想。这一次,我们将继续探索两种同样重要的排序算法:归并排序(Merge Sort) 和 堆排序(Heap Sort)。 它们与快速排序一样,都是O(…

JVM调优之如何排查CPU长时间100%的问题

对于CPU长时间100%的问题,其实有一个比较标准的排查流程,现在模拟一个垃圾回收导致的cup占用率过高的排查方法。 步骤如下: 1.先通过top命令找到消耗cpu很高的进程id 在服务器上输入top,显示如下: 通过top命令定位到…

中间件--MongoDB部署及初始化js脚本(docker部署,docker-entrypoint-initdb.d,数据迁移,自动化部署)

一、概述 MongoDB是一种常见的Nosql数据库(非关系型数据库),以文档(Document)的形式存储数据。是非关系型数据库中最像关系型数据库的一种。本篇主要介绍下部署和数据迁移。 在 MongoDB 官方镜像部署介绍中&#xff…

SkyWalking Helm Chart 4.7.0 安装、配置

https://skywalking.apache.org/events/release-apache-skywalking-kubernetes-helm-chart-4.7.0/https://github.com/apache/skywalking-helm/tree/v4.7.0https://skywalking.apache.org/zh/2020-04-19-skywalking-quick-start/简介 skywalking 是分布式系统的 APM(Applicat…

HTA8998 实时音频跟踪的高效内置升压2x10W免电感立体声ABID类音频功放

1、特征 输出功率(fIN1kHz,RL4Ω,BTL) VBAT 4V, 2x10.6W(VOUT9V,THDN10%) VBAT 4V, 2x8.6W (VOUT9V,THDN1%) 内置升压电路模式可选择:自适应实时音频跟踪 升压(可提升播放时间50%以上)、强制升压 最大升压值可选择,升压限流值可设置 ACF防破音功能 D类…

时间敏感网络与工业通信的融合:光路科技电力专用交换机和TSN工业交换机亮相EP电力展

12月7日,第三十一届中国国际电力设备及技术展览会(EP Shanghai 2024)暨上海国际储能技术应用展览会在上海新国际博览中心圆满落幕。本届展会以“数字能源赋能新质生产力”为主题,系统地呈现了电力设备行业在技术融合、转型升级及上…

前端请求后端接口报错(blockedmixed-content),以及解决办法

报错原因:被浏览器拦截了,因为接口地址不是https的。 什么是混合内容(Mixed Content) 混合内容是指在同一页面中同时包含安全(HTTPS)和非安全(HTTP)资源的情况。当浏览器试图加载非…

【Golang】Go语言编程思想(六):Channel,第四节,Select

使用 Select 如果此时我们有多个 channel,我们想从多个 channel 接收数据,谁来的快先输出谁,此时应该怎么做呢?答案是使用 select: package mainimport "fmt"func main() {var c1, c2 chan int // c1 and …

SpringBoot【八】mybatis-plus条件构造器使用手册!

一、前言🔥 环境说明:Windows10 Idea2021.3.2 Jdk1.8 SpringBoot 2.3.1.RELEASE 经过上一期的mybatis-plus 入门教学,想必大家对它不是非常陌生了吧,这期呢,我主要是围绕以下几点展开,重点给大家介绍 里…

算法-字符串-32.最长有效括号

一、题目 二、思路解析 1.思路: 滑动窗口!!! 2.常用方法: 无 3.核心逻辑: 1.特殊情况:当字符串为空或不存在 if(snull||s.length()0)return 0; 2.一般情况 a.记录最长有效括符res;初…

9. Win11上原生运行Ubuntu

本文介绍如何在win11原生系统上运行ubuntu,不需要额外安装虚拟机,以及如何配置网络等。 1.安装正版Win11 由于正版Win11需要钱,网上能破解的win11可能有问题,但是它们的破解工具,却是能正常用的,所以&…

【CSS in Depth 2 精译_075】12.2 Web 字体简介 + 12.3 谷歌字体的用法

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第四部分 视觉增强技术 ✔️【第 12 章 CSS 排版与间距】 ✔️ 12.1 间距设置 12.1.1 使用 em 还是 px12.1.2 对行高的深入思考12.1.3 行内元素的间距设置 12.2 Web 字体 ✔️12.3 谷歌字体 ✔️12.…

【学习笔记】目前市面中手持激光雷达设备及参数汇总

手持激光雷达设备介绍 手持激光雷达设备是一种利用激光时间飞行原理来测量物体距离并构建三维模型的便携式高科技产品。它通过发射激光束并分析反射回来的激光信号,能够精确地获取物体的三维结构信息。这种设备以其高精度、适应各种光照环境的能力和便携性&#xf…

SQL汇总数据:聚集函数

我们经常需要汇总数据而无需实际检索出这些数据,为此SQL提供了专门的函数。使用这些函数,SQL查询能够高效地检索数据,以便进行分析和报表生成。这类检索的例子包括: 确定表中行数(或者满足某个条件或包含某个特定值的…

Midjourney基础教程-功能界面详解

基础入门教程: 一.Midjourney快速入门(3步画出你的第一张图) 注: 1.平台为大家设置了自动翻译,可以直接写中文提示词,自动翻译成英文。当然要求更准确,大家可以先翻译成英 文在输入进来。 2.提示词如何去…