StarRocks上新,“One Data、All Analytics”还有多远?

K.K在《未来十二大趋势》中认为,我们正处于一个数据流动的时代。商业乃数据之商业。归根结底,你在处理的都是数据。

的确,当数据成为新的核心生产要素之际,数据分析就犹如最重要的生产工具之一,决定着企业在数字化时代生产力水平。近年来,无论国外的Snowflake、Databricks,还是国内StarRocks、PingCAP,大批数据分析型公司涌现,都旨在满足越来越多的数据分析需求,帮助各种企业充分释放数据生产力。

这其中,StarRocks就是数据分析领域一颗冉冉升起的新星。在短短几年时间里,StarRocks在Github获得star 6300+,成为同类开源数据库项目里增长最快的,并且在2022年底正式捐赠给 Linux Foundation,吸引到全球开发者和用户参与未来社区的建设。

正如StarRocks TSC Member、镜舟科技 CTO 张友东所言,StarRocks希望通过技术创新来简化数据技术栈,通过一个引擎实现全场景的“One Data、All Analytics”愿景。

为何需要“One Data,All Analytics”

当前,人工智能、大数据、物联网等数字化技术在不断提升企业生产力的同时,随之而来就是复杂性的持续提升。这种复杂性在数据领域体现的尤为明显,尤其是数据技术与业务场景的不断融合,复杂性困扰着诸多身处数字化转型的企业。

复杂性首先体现在数据本身,数据正加速走向海量化和多样化。过去,一家企业往往以结构化数据为主,数据规模通常是TB级别;现在,文本数据、轨迹数据、日志数据等非结构化数据大幅增加,PB级数据量正成为越来越多企业的常态。

其次,企业如今的业务场景日趋复杂,随之而来的就是数据栈相关技术、工具、产品大量增加。从过去单一的数据仓库,到现在指标平台、交互式分析、实时分析、流计算等等,企业面临的数据栈环境复杂程度远胜以往,并且随着AI相关技术融入,这种复杂性还在持续增加。

第三,数据消费需求的复杂性大幅提升。过去,数据消费仅仅是管理层少数人的“权力”;现在,“人人用数”已经成为众多企业追求的目标。例如,有些走在前沿的互联网、金融等企业,甚至一名普通业务员工都是数据消费者,并且在日常业务中随时会进行数据分析。

因此,在海量数据环境成为既定事实的情况下,企业在数据领域所面临的复杂性挑战将是数字化转型中一道必须面临的难题。在张友东看来,“One Data,All Analytics”是化解数据分析复杂性的关键,而StarRocks3.0版本的推出,为实现“One Data,All Analytics”目标前进了一大步。

StarRocks 3.0,产品大进阶

众所周知,数据分析类产品拥有多年历史。在大数据兴起之前,Teradata、Greenplum等传统数据仓库一直占据着主流市场位置;随着大数据兴起,以Hadoop 为代表的大数据平台迅速成为数据分析的基础平台;如今,云原生、湖仓一体等技术的兴起,加速推动着数据分析产品的创新。

当前,数据分析类相关的公司众多。不过,StarRocks用出色表现吸引了业界的大量关注。自从2021年9月份正式开源以来,StarRocks已成长为开源领域的明星项目,获得了全球开发者的认可。在笔者看来,StarRocks之所以在短时间即获得阶段性的成功,关键在于产品的迭代速度和创新能力。

从开源至今,StarRocks已经历了三个大版本的迭代,从1.0版本主打性能,到2.0版本围绕融合统一,再到现在3.0版本围绕湖仓一体的创新,StarRocks成为当下数据分析领域现象级的产品。

以数据仓库架构为例,存算分离是大势所趋。随着云原生等技术的高速发展,通过存算分离架构,计算、存储等资源可以更好地弹性化,以应对业务对于资源的使用,从而实现成本、效率的最优化。StarRocks 3.0同样采用了存算分离架构,架构设计高度抽象且极简,无需依赖复杂组件,具有极强的扩展性和弹性;并且支持Multi-Warehouse,多个Warehouse共享一份数据,不同 Warehouse 应用在不同工作负载,计算资源可以进行物理隔离,内部按需独立弹性伸缩。

“存算分离架构真正带来两大价值:降本增效和弹性伸缩。像在存储层面,采用存算分离架构后的StarRocks 3.0整体存储成本可以下降80%,而计算节点则因为无状态,可以通过快速弹性、跨可用区部署等方式来提高计算的可用性,并且计算资源能够进行物理隔离,按需独立弹性伸缩。”张友东介绍道。

另外,湖仓走向一体化也是数据分析产品的一大重要趋势。通常,企业在经历了多年的数字化转型之后,都会存在着数据仓库和数据湖两种数据分析技术栈,它们各具特点与优势,数据仓库往往具备数据质量高、性能出色、实时分析强等优势,而数据湖则可以存储各种不同类型的数据,扩展性和开放性强。因此,融合数据仓库与数据湖的各自优势就成为业界努力的方向。

当前,业界并不缺少湖仓相关的解决方案。比如在湖上性能不满足,采用湖上建仓的方案加速查询;再如数据仓库扩展查询外部数据湖能力等。

张友东直言,这些方案更像是一种组合式方案,并没有真正做到湖仓一体,“湖仓一体意味着一套架构满足所有数据分析的需求,也即One Data,All Analytics。”

以StarRocks 3.0的湖仓一体化架构为例,实现了数据统一存储管理,一份数据作为 Single source of truth;另外,强大的分析引擎可以基于一份数据,满足包括BI 报表、交互式分析、实时分析、ETL 数据加工等场景的查询诉求;更加关键的是,具备按需数据加工/查询加速的能力。

“未来数据分析演进的趋势肯定是湖仓一体,用户无需关注建湖还是建仓,核心目标是低成本、高效的解决数据分析问题。”张友东补充道。

此外,随着数据量和业务复杂性的大幅提升,使得ETL成为一件极为辛苦的工作,通常需要耗费大量人力、精力在ETL相关工作上。对此,StarRocks 3.0也在瞄准No ETL的方向,在整个数据管理中减少ETL的工作量,并且通过物化视图让用户尽量不感知ETL,从全链路层面致力于简化ETL的pipeline。

毫无疑问,StarRocks 3.0版本的推出是StarRocks项目发展的一个关键节点。这意味着StarRocks 产品力已经实现重要的突破,可以助力用户实现全场景的数据分析架构统一,也为自身带来了更加广阔的市场空间。

多个头部客户青睐,StarRocks未来值得期待

随着数据驱动型应用大量涌现,数据分析、数据消费需求也随之产生。Gartner认为,数据分析已成为企业数字化转型中致力于建设的核心能力。因此,数据分析赛道未来具有极为光明的前景。

毫无疑问,从StarRocks的社区发展、用户群、商业生态建设等情况拉看,StarRocks正处于一个高速发展的极端,未来值得更多的期待。

其一,得益于对于开源理念的坚持,StarRocks 开源社区一直处于非常活跃的状态,为后续的发展带来了十足的生命力。目前,社区开发工作由镜舟科技主导推进,并且贡献了70%以上的核心代码;此外,阿里云、腾讯、火山引擎、滴滴出行等头部企业已经积极参与到社区之中,并且持续给社区贡献了物化视图、CN 弹性节点等诸多重要特性。

其二,得益于行业头部客户的积极参与和产品创新力的提升,StarRocks产品在金融、零售、物流、制造和互联网等多个行业头部用户的复杂业务场景中得到锤炼。据悉,目前有超过 300家市值10亿美金以上的大型用户在生产环境使用 StarRocks,场景覆盖 BI 报表、交互式探寻分析、实时分析、湖仓分析等一系列场景,未来有望在场景应用中持续推动产品创新与快速迭代。

其三,StarRocks 重视商业生态的建设。除了头部行业用户使用之外,StarRocks目前与国内各大云服务商均有合作,致力于借助云计算这个大生态来推动开源项目的商业化,让产品走向更加广泛的市场群体,在市场竞争中获得成长。

“相比于北美等发达市场,中国市场的数据分析还有巨大的潜力空间,StarRocks希望通过技术创新帮助更多用户实现One Data,All Analytics。”张友东最后表示道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/195936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python爬虫超详细讲解(零基础入门,包教包会)

先看后赞,养成习惯。 点赞收藏,人生辉煌。 讲解我们的爬虫之前,先概述关于爬虫的简单概念(毕竟是零基础教程) 爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络…

【Avue】select的远程搜索 [模糊搜索]

一、需求 【模糊搜索】 二、实现avue的远程搜索 1、search为搜索 2、remote远程搜索 3、dictValue{{key}}为输入的值

数实融合!低代码推动工业数字化转型走“深”向“实”

当下,“数字化、智能化”已经不再是新鲜词。毕竟,在早几年前就已经有企业喊出大举进军数字化的口号,轰轰烈烈的数字化转型运动也持续了很长一段时间,有一些业内人士甚至判断“如今的企业数字化已经走过了成熟期,来到了…

使用群晖Docker搭建HomeAssistant并实现异地公网访问家中智能设备

最近,我发现了一个超级强大的人工智能学习网站。它以通俗易懂的方式呈现复杂的概念,而且内容风趣幽默。我觉得它对大家可能会有所帮助,所以我在此分享。点击这里跳转到网站。 使用群晖Docker搭建HomeAssistant并实现异地公网访问 文章目录 使…

Shopee买家通系统内置防指纹技术可解决多账号管理操作

为了解决多账号管理的难题,我们发现了一款强大的利器——Shopee买家通系统,它为我们提供了便捷而高效的辅助操作。这款系统基于先进的指纹浏览器技术开发,实现了全自动化的操作,让多账号管理变得轻而易举。 Shopee买家通系统内置了…

element-ui upload组件中将file文件数据转成二进制流数据格式

方法一 handleBeforeUpload (file)const reader new FileReader()reader.readAsArrayBuffer(file)reader.onload async function (theFile) {const binary new Blob([theFile.target.result]) // 转成二进制流数据 即binary数据格式}}方法二 const aBlob new Blob([file],…

有关ADW400环保监测模块的详细介绍-安科瑞 蒋静

1 概述 ADW400 环保监测模块主要用于计量低压网络的三相有功电能,同时可选择最大四个回路的电流输入,具有 RS485 通讯和 470MHz 无线通讯功能,方便用户进行用电监测、集抄和管理。可灵活安装于配电箱内,实现对不 同区域和不同负荷…

深入探讨网络抓取:如何使用 Scala 和 Dispatch 获取 LinkedIn 图片

网络抓取是一种从互联网上获取数据的技术,它可以用于各种目的,例如数据分析、信息检索、竞争情报等。网络抓取的过程通常包括以下几个步骤: 发送 HTTP 请求到目标网站解析响应的 HTML 文档提取所需的数据存储或处理数据 在本文中&#xff0…

【1】基于多设计模式下的同步异步日志系统-项目介绍

1. 项目介绍 本项⽬主要实现⼀个日志系统, 其主要支持以下功能: • 支持多级别日志消息 • 支持同步日志和异步日志 • 支持可靠写⼊日志到控制台、文件以及滚动文件中 • 支持多线程程序并发写日志 • 支持扩展不同的日志落地⽬标地 2. 开发环境 • CentOS 7 • vs…

Python 类:探索面向对象编程的奇妙世界

在 Python 中,类是一种强大的工具,可以让你更有组织地编写代码,实现真正的面向对象编程。 本篇文章将详细介绍 Python 类的知识点和使用方法,通过通俗易懂的解释和使用案例,帮助大家轻松理解并掌握类的奥秘。 1、类和…

封装带插槽的表格

子组件 <template><div><table><thead><tr><th v-for"col,colIndex in columns" :key"colIndex">{{ col.title }}</th></tr></thead><tbody v-if"instList.length >0"><tr …

Altair 电子可靠性解决方案

原文链接&#xff1a;Altair 电子可靠性解决方案

fpga rom 初始化文件的一些心得

目录 可能遇到的问题 问题 解决方案 rom的初始化 用途 文件类型 如何生成初始化文件 示例 Altera Xilinx 可能遇到的问题 问题 altera FPGA的rom找不到初始化文件&#xff0c;编译过程会提示类似的问题 Error(127001): Cant find Memory Initialization File or He…

运行游戏找不到x3daudio1_7.dll怎么解决?教你如何快速修复的教程

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“x3daudio1_7.dll丢失”。这个错误提示可能让我们感到困惑和烦恼&#xff0c;但是不用担心&#xff0c;本文将为您介绍x3daudio1_7.dll丢失的原因以及五种修复方法&#xff0c;帮助您解决这…

Nginx(缓存机制)

对于性能优化而言&#xff0c;缓存是一种能够大幅度提升性能的方案&#xff0c;因此几乎可以在各处都能看见缓存&#xff0c;如客户端缓存、代理缓存、服务器缓存等等&#xff0c;Nginx的缓存则属于代理缓存的一种。对于整个系统而言&#xff0c;加入缓存带来的优势额外明显&am…

Redis Desktop Manager for Mac:高效管理Redis数据的必备工具

Redis是一种快速、可扩展的内存数据库&#xff0c;被广泛应用于缓存、消息队列和实时分析等领域。而Redis Desktop Manager for Mac作为一款专为Mac用户设计的Redis桌面管理工具&#xff0c;为用户提供了高效便捷的方式来管理和操作Redis数据。 首先&#xff0c;Redis Desktop…

【已解决】xxljob连接报错HTTP 302(HTTP 401账号或密码错误)

目录 问题现象&#xff1a; 问题分析&#xff1a; 1、密码中的特殊字符。 2、密码长度问题。 解决方法&#xff1a; 拓展&#xff1a; 问题现象&#xff1a; 今天在生产环境使用xxljob任务调度来创建并执行任务时&#xff0c;出现了程序报错&#xff1a; 通过查询xxljob日志…

降本增笑?滴滴史上最严重服务故障,裁员真不能裁测试

2023 年 11 月 27 日晚间&#xff0c;滴滴因系统故障导致 App 服务异常&#xff0c;不显示定位且无法打车。11 月 27 日晚&#xff0c;滴滴出行进行了回复&#xff1a;非常抱歉&#xff0c;由于系统故障。 2023 年 11 月 28 日早间&#xff0c;滴滴出行消息称&#xff0c;网约…

Spring AOP 概念及其使用

目录 AOP概述 什么是AOP&#xff1f; 什么是Spring AOP ? Spring AOP 快速入门 1.引⼊ AOP 依赖 2.编写AOP程序 Spring AOP 核心概念 1.切点 2.连接点 3.通知 4.切面 通知类型 注意事项: PointCut&#xff08;定义切点&#xff09; 切面优先级 Order 切点表达…

Java中的Future源码讲解

JAVA Future源码解析 文章目录 JAVA Future源码解析前言一、传统异步实现的弊端二、what is Future ?2.1 Future的基本概念2.2Future 接口方法解析2.2.1 取消任务执行cancel2.2.2 检索任务是否被取消 isCancelled2.2.3 检索任务是否完成 isDone2.2.3 检索任务计算结果 get 三、…