starRocks搭建

公司要使用新的大数据架构,打算用国产代替国外的大数据平台。所以这里我就纠结用doris还是starrocks,如果用doris,因为是开源的,以后就可以直接用云厂商的。如果用starrocks就得自己搭建,但是以后肯定会商业化,也是要收钱的。doris我以前用过,没用过starRocks,想试下是不是真的像下面参考链接里的高性能,所以我选择了starrocks。用他来做数仓,代替我们以前cdh里的hive-presto或者kudu-impala。

大家觉得starRocks可以替代hive吗?我觉得是可以的,hadoop那一套的都是20年前google玩腻的了,hadoop那套组件太多了,好处就是非常稳定,20年了,几乎遇到的大bug都修完了。彻底不用hadoop那套,可以用starRocks代替。

检测cpu是否支持

cat /proc/cpuinfo | grep avx2

如果什么都没有打印,那么你可以换cpu了。

Be是负责计算的,你没有这个指令集,那么部署不了

介绍

startrocks是做【数据分析】的【数据仓库】,可以替代传统的hive,他具有向量化MMP架构列式存储引擎,支持实时分析,并发计算。兼容mysql协议,可使用mysql客户端对接。支持水平扩展。全系统无外部依赖,也就是不需要zookeeper来管理,或者元数据存在mysql,只用维护自身。

他不适合做事务操作,比如更新等操作,用来分析的数据都是写入了就不变的,比如日志数据,或者是体检报告等。

向量化:指的是将数据向量化后,cpu原本只能处理一条,现在可以同时处理多条

MPP架构:大规模并行处理架构,将数据拆分给多台机器一起执行,处理大量数据

列式存储引擎:将列进行管理,支持大宽表存储和分析,mysql就不行,字段多了就崩了,单独查列很快,可以实时更新列

实时分析:查询分析速度比较快,毫秒级

mysql客户端对接:比如navicat,或者jdbc都可以直接链接它?待验证

水平扩展:1台太弱,我可以继续加机器,让他分析能力变强

支持以下BI对接:包括 Tableau、Power BI、FineBI 和 Smartbi。

作为实时数仓,他只能【秒级】同步数据,可以实时【毫秒级查询

系统架构(维护以及搭建必看)

系统的核心只有 FE(Frontend)、BE (Backend) 或 CN (Compute Node) 进程。

前端(显示界面)、后端(逻辑控制)、节点

3.0后支持了存算分离,存储持久化数据必须放到hdfs上。当然你也可以选择存算一体。

3.0同样支持这两种架构。

这2个有啥区别,存算一体的话,你必须将【数据复制】到startRocks里一份,存算分离的话,你【直接用hdfs】的数据就行了。少了一步复制,存算分离的话更加省钱,省磁盘,更好的动态扩容,扩容就不用管存储了,直接扩容计算节点就行。缺点就是要多维护一套外源数据。

不支持混合部署,存算一体选择了,就不能弄存算分离了。

Fe负责协调、和目录管理

存算一体

Be负责存储计算

Fe(详细版)

负责管理元数据,管理客户端的连接,查询规划、查询调度。

FE的元数据是存储在内存里的,磁盘中也有一份。

FE有3种角色,leader,follower,observer

Leader是选举出来的,他负责读写。然后写入后,将元数据更新完,同步给follwer和observer,只有一半的follwer成功了才算成功。

Follwer没有写入权限,只有读取权限

Observer和follwer一样,可选部署,能提高查询速度,不参与选举,相当于是如虎添翼

Be(详细版)

每个BE是一样的(没有啥leader,follwer),但是并不是每一个be都有完整的数据,BE负责是存储和计算,FE将数据分配到BE,BE将他存下来,并且生成索引。

Be计算,会将sql根据语法意思,分成逻辑单元(代码层面),然后根据数据分布变成物理单元(硬件层面),然后会在本地执行。

元数据:这个不会没人知道吧,说实话我都不想写,只是为了照顾小白。比如这个数据是什么类型的,是字符串还是数字,这就是元数据,用来修饰数据的数据。

查询规划:计划要消耗多少性能,用什么sql,进行优化,转换成物理计划

查询调度:选择哪台be去执行这个物理计划

存算提一体数据管理

starRocks最小的存储单元叫做tablet。我们可以自行分区,然后指定分桶。

图中是按时间列分区,然后对指定4个字段进行分桶(4列,其实用1列都可以),然后指定了3个副本,每个列的数据每个单元数据,分布在不同的节点下。A-1和A-2还有A-3都是相同的数据,是A的备份。

他扩容的时候,不需要停止服务,增加节点会自动迁移,节点减少时也会自动均横分布数据。

存算分离

引入了【缓存】的概念,Be【只】负责计算,然后改名叫做Cn(计算节点-compute node)

缓存:会自动根据查询频率将数据进行动态变化

动态变化:分为3级,内存,本地,外源。最热的数据在内存中,然后其他是本地磁盘中,然后冷数据(不经常用的)在外源中。随着你的访问频率进行动态数据调整

存算分离建表时候,需要告诉他是否开启缓存。

支持以下后端存储:

  • 兼容 AWS S3 协议的对象存储系统(支持主流的对象存储系统如 AWS S3、Google GCP、阿里云 OSS、腾讯云 COS、百度云 BOS、华为云 OBS 以及 MinIO 等)
  • Azure Blob Storage
  • 传统数据中心部署的 HDFS


这里官网的系统架构的每句话,我都已经用自己话讲完了。下面开始搭建。

快速上手体验

他是用docker容器帮你打包好环境了,所以可以直接启动。

首先安装docker,至少4G内存,10GB空间。

我们服务器的cpu不支持avx2,这里我在下虚拟机,打算在windows上面弄一个Ubuntu.22,因为我个人电脑是支持avx2的。---等我下载完,在开始写后面的。


 

参考:

📚 【源码解析】StarRocks 查询优化系列文章 - 原理解读 - StarRocks中文社区论坛

StarRocks | StarRocks

部署前提条件 | StarRocks

https://www.cnblogs.com/huanghanyu/p/18186894

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/46456.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

医院护士站卫星电子钟,时间精准,为众人提供精确的时间引导

在医院这个充满紧张与关怀的环境中,每一刻的时间都承载着生命的重量。医院护士站卫星电子钟以其精准的时间显示,成为了为众人提供精确时间引导的重要存在。 一、医院卫星电子钟应用原因 首先,护士站是医院内信息交流和医疗服务协调的核心区域…

Springboot自定义banner启动动画

一、banner文件自定义编写 1、创建banner文件 banner文件的文件名称默认为“banner.txt”,这个在SpringApplication.java中定义的 一般自定义就新建一个banner.txt文件,放在项目resources中。这时在banner.txt中编写启动动画展示内容。例如: banner.t…

【排序算法】—— 归并排序

归并排序时间复杂度O(NlongN),空间复杂度O(N),是一种稳定的排序,其次可以用来做外排序算法,即对磁盘(文件)上的数据进行排序。 目录 一、有序数组排序 二、排序思路 三、递归实现 四、非递归实现 一、有序数组排序 要理解归…

mysql(5.5)启动服务和环境配置

正常启动 参考:Javaweb基础之mysql回溯笔记(一) 总的来说就是在mysql的安装目录下,找到bin下面的msyqld.exe,双击即启动了mysql服务; 启动方式二 也可以直接找到windows的服务项进行启动,操作如下: 打开…

Mac电脑下运行java命令行出现:错误: 找不到或无法加载主类

mac 电脑 问题复现 随手写了一个main方法,想用命令行操作 进入 BlockDemo.java 所在目录: wnwangnandeMBP wn % cd /Users/wn/IdeaProjects/test/JianZhiOffer/src/main/java/com/io/wn wnwangnandeMBP wn % ls -l total 16 -rw-r--r-- 1 wangnan …

换手机了怎么恢复微信聊天记录?教你3招实用技巧

随着科技的飞速发展,手机更新换代的速度也越来越快。当我们换上一部新手机时,最头疼的问题之一往往是如何将旧手机中的重要数据,尤其是微信聊天记录,迁移到新手机上。微信聊天记录不仅记录了我们的日常沟通,还承载了许…

踩坑日记 | 记一次流程图问题排查

踩坑日记:记一次流程图问题排查 标签: activiti | 流程 引言 今天排查了一个流程图问题,耗时2个小时终于解决,记录下来 现象 流程审批驳回报错:Unknown property used in expression: ${xxxx} 使用的是 activiti …

[C/C++入门][循环]12、等差数列和等差数列末项计算

等差数列是什么? 想象一下,你获得了一个神奇的糖果盒,他有一个神奇的功能,每次你打开盒子时,里面都会多出同样数量的糖。你只要给里面放上1颗糖,然后想着可以多几颗,比如我希望打开的时候多两颗…

【C++练级之路】【Lv.26】类型转换

快乐的流畅:个人主页 个人专栏:《算法神殿》《数据结构世界》《进击的C》 远方有一堆篝火,在为久候之人燃烧! 文章目录 一、C风格类型转换1.1 隐式类型转换1.2 显式类型转换 二、C风格类型转换2.1 static_cast2.2 dynamic_cast2.3…

配置Redis时yml的格式导致报错

报错如下 java.lang.IllegalStateException: Failed to load ApplicationContext at org.springframework.test.context.cache.DefaultCacheAwareContextLoaderDelegate.loadContext(DefaultCacheAwareContextLoaderDelegate.java:98) at org.springframework.test.context.su…

Unity 优化合集

1️⃣ 贴图优化 1. Read/Write Enable 这个属性勾选后允许你在运行时读取和写入纹理数据,这对于需要实时生成内容或者需要动态修改纹理的场合非常有用但在大部分情况下这是不必要的。如果打开这个属性,会使运行时贴图大小翻倍,内存中会额外…

gptpdf:使用大模型(如 GPT-4o)将 PDF 解析为 markdown。

今天给大家分享一个开源的项目, 使用视觉大语言模型(如 GPT-4o)将 PDF 解析为 markdown。 方法非常简单(只有293行代码),但几乎可以完美地解析排版、数学公式、表格、图片、图表等。 使用 GeneralAgent lib 与 OpenAI API 交互。…

香橙派AIpro部署YOLOv5:探索强悍开发板的高效目标检测能力

香橙派AIpro部署YOLOv5:探索强悍开发板的高效目标检测能力 一、香橙派AIpro开箱使用体验 1.1香橙派AIpro开箱 拿到板子后第一件事情就是开箱: 开箱后可以看见一个橘子的标识,也就是香橙派了,并且还有四个大字:为AI…

RABBITMQ的本地测试证书生成脚本

由于小程序要求必须访问wss的接口,因此需要将测试环境也切换到https,看了下官方的文档 RabbitMQ Web STOMP Plugin | RabbitMQ里面有这个信息 然后敲打GPT一阵子,把要求输入几个来回,得到这样一个脚本: generate_cer…

双向带头循环链表

一、概念 何为双向:此链表每一个节点的指针域由两部分组成,一个指针指向下一个节点,另一个指针指向上一个节点,并且两头的节点也是如此,头节点的下一个节点是尾节点,尾节点的上一个节点是头节点&#xff1b…

R语言实战——栅格聚合方法(超方便)

今天给大家分享一个栅格聚合方法,使用R语言实现! 1 为什么要做栅格聚合 栅格数据是我们地理学使用最广泛的数据类型之一。所谓栅格聚合其实就是根据栅格数据进行一系列运算得到一个我们想要的数据。 我个人认为,应用最广泛的,可…

notepad++中文出现异体汉字,怎么改正

notepad显示异体字,如何恢复? 比如 “门” 和 “直接” 的"直"字,显示成了 方法 修改字体, 菜单栏选择 Settings(设置),Style Configurator…(语言格式设置…)&#xf…

SSM城镇居民社区再生资源回收系统-计算机毕业设计源码04175

摘 要 本论文介绍了一个基于SSM(Spring Spring MVC MyBatis)技术的城镇居民社区再生资源回收系统的设计与实现。随着社会对环境保护意识的不断提高,再生资源回收成为了一种重要的环保行动。然而,传统的再生资源回收方式存在着信…

[数仓]十二、离线数仓(Atlas元数据管理)

第1章 Atlas入门 1.1 Atlas概述 Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。 Atlas的具体功能如下: 元数据分类 支持对元数据进行分类管理,例…

springboot3——项目部署

springboot的项目开发完了,怎么样把他放到服务器上或者生产环境上让他运行起来跑起来。就要牵扯到项目部署,打包的方式了。 springboot支持jar和war: 打jar包:默认方式,项目开发完打个jar包,通过命令把jar包起起来就…