StarRocks 存算分离成本优化最佳实践

序言

StarRocks 存算分离借助对象存储来实现计算和存储能力分离,而存算分离版本 StarRocks 一般来说有以下三方面成本:

  1. 计算成本,也即机器使用成本,尤其是运行在公有云上时
  2. 存储成本,该部分与对象存储上存储的数据量相关
  3. API 访问成本,这部分与访问对象存储各种 API 的频率相关

优化数据导入模式

在存算分离中,我们推荐积攒更大批量的数据,使用低频大批量写入来代替高频微批写入,从而可以降低对象存储如 S3 的写入次数,以达到降低降低成本的作用。同时,降低写入频次还可以降低后台数据版本 Compaction 的频率,进一步降低对象存储的写入次数。

除此之外,对于某些导入模型,例如 Routine Load,我们还可以降低 Job 的并发 Task 数量来降低对象存储的写入频率,我们可以观察 BE 日志中每个 Task 的单次 KafKa 消费数据量,如果发现量较小,那我们就可以降低 并发 Task 数量来降低对象存储写入次数。

例如,下面的例子就展示了一个真实用户案例,该用户存在大量 Routine Load Job,优化之前每个 Job 的并发度为3,导致每小时可产生约15-20w 次 S3 PUT Object 调用请求。我们分析了它的 Job,发现每个 Task 单次只能从 Kafka 消费 数百行数据,于是我们果断调整了任务的并发数,从3降低为1,通过监控我们也发现,每个 BE 节点上的 IOPS 有了明显的下降,如下图所示(约从15:00 完成调整):

872b1d2d8b4f31ddfbae026d3a8b24c4.jpeg

优化分桶数

简单解释下分桶数过多对于成本的负面影响:

  1. 导入时,会将数据根据分桶键 Hash 写入所有 Tablet,每个 Tablet 都会产生 S3 的 PUT Object 调用。因此,分桶数越多,PUT Object 调用也就越多
  2. Compaction 也会产生写入,原理同上
  3. 查询时,如果使用独立的 Warehouse 服务查询,首次查询时都会访问 S3,而 Tablet 越多,产生的 S3 GET Object 请求也就相应地增加。

因此,我们也需要根据业务模式和成本来合理选择创建表时的分桶数,我们一般建议:

  1. 如果可以,尽量创建分区表
  2. 根据数据量来决定分桶数,原则上我们一般建议每 1-3GB 数据量对应一个 Tablet,当然,需要还要从业务性能层面再来测试下这种策略的分桶数是否满足性能需求


读取成本优化

云上对象存储一般也会对 GET Object 调用收费(读取带宽与读取次数),因此,我们也需要特别关注该方面的成本消耗,针对这方面,我们有以下建议:

  1. 开启 Cache,并根据业务访问模式尽量设置合适的 Cache 策略(如选择合适大小的 disk 以及 partition_duration 等参数)
  2. 在新版本(3.1.7 or 3.2.2 之后)中,开启 Block Cache,能带来更高的效率和更低的成本


存储成本优化

由于 StarRocks 使用了多版本存储机制,用户通过 show data 命令看到的表的大小与表实际在对象存储可能会有所差距,因此,我们建议用户应当特别关注在对象存储上实际占据的存储容量。

目前可能有以下几点原因会造成对象存储实际消耗超过用户 show data 看到的大小:

  1. 导入或者 Compaction 任务失败时产生了垃圾数据未清理(在后续版本包含垃圾数据自动清理能力),如果遇到该情况,可以使用社区提供的垃圾数据清理工具扫描并清理(慎重使用,避免误删数据)
  2. Compaction 或者 Vacuum 不及时造成了历史版本回收不及时,此时应该重点关注并优先解决 Compaction 跟不上的问题


无论如何,我们都建议用户在日常的巡检中特别关注对象存储实际的数据使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/860296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GLM4-9B-chat模型微调

文本记录GLM4-9B-Chat模型进行LoRA微调的过程。 一、环境: 操作系统: Ubuntu 22.04CUDA: 12.1GPU: 3090 x 2 创建conda环境: conda create -n glm4 python3.10.14 conda activate glm4cd /home/data/chatglm4-finetune 二、数据准备 运行d…

探索SoMeLVLM:面向社交媒体处理的大型视觉语言模型

SoMeLVLM: A Large Vision Language Model for Social Media Processing 论文地址: https://arxiv.org/abs/2402.13022https://arxiv.org/abs/2402.13022发表在ACL 2024 1.概述 在线社交媒体平台涌现出海量的文本与视觉内容,深刻揭示了人们如何交流、互动以及自我表达。随着通…

论文辅导 | 基于贝叶斯优化LSTM的锂电池健康状态评估方法

辅导文章 模型描述 在传统的 LSTM 神经网络中,超参数的取值对模型性能有很大影响,但人工调参很难得到最优解。 因此,本文加入了 BO 来迭代出最优超参数。 在利用LSTM 神经网络评估锂电池 SoH 的基础上,通过 BO来提高评估的精确度。 预测效果

ubuntu卸载python3,重装python2.7

卸载py3 Linux(Ubuntu)环境下安装卸载Python3(避免踩坑)_ubuntu卸载python-CSDN博客https://blog.csdn.net/BLee_0123/article/details/136075374 安装py2.7 Ubuntu上重装Python2(强烈建议在不删除数据情况下&#…

LLC开关电源开发:如何使用信号发生器与示波器设计环路

如何使用信号发生器与示波器设计环路 一、主回路二、小信号注入三、LLC 数字环路计算书一、主回路 如下图所示为系统整体架构,包括 LLC 主功率线路,采集线路、RC 滤波线路,DSP 运算。DSP 通过采集由差分运放转化而来的输出电压量(一阶 RC 滤除线路杂波),经数字环路产生特…

北方访问延迟低云主机选购指南:弹性云济南互通线路的优势

在选择云主机时,访问延迟是一个不可忽视的关键因素,特别是对于北方地区的企业来说,选择一款访问延迟低的云主机更是至关重要。快快网络弹性云济南互通线路凭借其独特的优势,成为了北方企业上云的理想选择。 一、弹性云济南互通线…

apk反编译修改教程系列-----去除apk软件更新方法步骤列举 记录八种最常见的去除方法

在前面几期博文中 有说明去除apk软件更新的步骤方法。我们在对应软件反编译去除更新中要灵活运用。区别对待。同一个软件可以有不同的去除更新方法可以适用。今天的教程对于软件更新去除列举几种经常使用的修改步骤。 通过基础课程可以了解 1-----软件反编译更新去除的几种常…

Java中Callable的应用

在Java中,Callable接口是一种用于并发编程的接口,它与Runnable类似,但有一些重要的区别和优势。Callable接口提供了一种在多线程环境下执行任务并返回结果的方法。以下是一些Callable接口的常见应用场景和使用示例: Callable vs.…

【脚本工具库】随机删除数据 - 图像和标签对应(附源码)

在处理数据集时,我们有时需要随机删除一定数量的图像及其对应的标签文件,以达到平衡数据集或进行其他数据处理的目的。手动删除这些文件不仅耗时,而且容易出错。为了解决这个问题,我们可以编写一个Python脚本,使用os和…

Kubernetes网络性能测试

Kubernetes 网络性能测试 基于已经搭建的Kubernetes环境,来测试其网络性能。 1. 测试准备 1.1 测试环境 测试环境为VMware Workstation虚拟机搭建的一套K8S环境,版本为1.19,网络插件使用flannel。 hostnameip备注k8s-master192.168.0.51…

Streamlit搭建聊天UI

使用Streamlit搭建聊天UI是一个快速而有效的方法,用于构建数据科学和机器学习项目的交互式界面。以下是一个基于参考文章提供的信息,关于如何使用Streamlit搭建聊天UI的详细步骤和要点: 1. 导入必要的库 首先,你需要导入Streamlit库以及任何你计划使用的语言模型库(如Op…

北邮《计算机网络》蒋老师思考题及答案-传输层

蒋yj老师yyds! 答案自制,仅供参考,欢迎质疑讨论 问题一览 传输层思考题P2P和E2E的区别使用socket的c/s模式通信,流控如何反映到编程模型三次握手解决什么问题举一个两次握手失败的例子为什么链路层是两次握手而非三次?…

在整合spring boot+layui中解决Could not parse as expression: “的问题

首先查看报错信息,这里提示我们78行有问题 这里是[[]] 这个内联表达式出了问题,在当前所在的script标签中加入th:inlinenone,然后重启项目,成功解决!

2>/dev/null 怎么理解

2>/dev/null 是一个重定向操作符,用于将命令执行过程中产生的错误输出(标准错误流)重定向到 /dev/null,从而忽略这些错误信息。 具体来说,Linux 系统中的文件描述符有以下几种: 0:标准输入…

RabbitMQ使用交换机进行消息转发

使用交换机进行转发到队列 第一步:创建队列 第二步:创建交换机 第三步:交换机绑定队列 第四步:修改消息生产者发送业务 第五步:修改消息接收者业务代码 RabbitListener(queues "fanout.queue1")public vo…

人工智能与大数据:新时代的技术融合与未来展望

引言 在信息化和数字化迅猛发展的今天,人工智能(AI)和大数据(Big Data)已成为推动社会变革和技术进步的两大支柱。随着互联网的普及、计算能力的提升以及数据获取手段的多样化,AI和大数据技术的应用愈发广泛…

守护公共安全,从可燃气体报警器检验周期开始:国家法规的解读

在现代社会,安全始终是首要考虑的问题。随着工业化、城市化的快速发展,各种潜在的安全隐患也逐渐浮现,尤其是可燃气体泄漏所带来的火灾和爆炸风险。 为了确保公众和企业的生命财产安全,可燃气体报警器作为一种重要的安全监测设备…

达梦(DM8)数据库备份与还原(逻辑备份)二

一、达梦数据库的逻辑备份分四种级别的导出(dexp)与导入(dimp)的备份 第一种是:数据库级:导出或导入数据库中所有的对象。主要参数是:FULL 第二种是:用户级别:导出或导…

软件工程——保护手段

软件工程——保护手段 1 容灾 容灾保护,也称为容灾(Disaster Tolerance),是指在自然灾害、设备故障、人为操作破坏等灾难发生时,通过一系列技术手段和策略,保证生产系统的数据尽量少丢失,同时…

中霖教育怎么样?中霖教育好吗?

中霖教育怎么样?中霖教育好吗? 中霖教育包括师资力量、课程设置、教学方法等都是经过不断完善来制定的,我们拥有专业且经验丰富的师资队伍,在教学过程中更注重个性化教学方式,针对每个学员的需求和学习情况制定专属的学习计划。 无论是在…