ByConity BSP 解锁数据仓库新未来

在这里插入图片描述

在这里插入图片描述

文章目录

    • 前言
    • BSP 模式简介
    • 基于 TPC-DS 的 ELT 活动
      • 测试环境
      • 登录 ECS
      • 数据查询配置
    • 执行 02.sql
      • sql解释:
        • 1. 第一步:创建 wscs 临时表
        • 2. 第二步:创建 wswscs 临时表
        • 3. 第三步:对比 2001 年和 2002 年的数据
          • 子查询 1:提取 2001 年数据
          • 子查询 2:提取 2002 年数据
          • 主查询:对比相邻年份的销售额
        • 最终输出:
    • 测试结果与心得
    • 总结

前言

在现代数据分析场景中,实时数仓与离线数仓各有侧重:实时数仓注重低延迟的数据入库与即时分析能力,而离线数仓则强调复杂任务的稳定执行及高效的内存管理。为满足用户多样化的数据需求,ByConity 作为一款开源云原生数据仓库,提供了全新的 BSP 模式,大幅提升了数据仓库的适用场景与性能表现。

BSP 模式简介

BSP 模式(Bulk Synchronous Parallel)为 ByConity 带来了以下关键能力:

  1. Task 级容错:在数据处理过程中实现更高效的错误恢复机制,确保任务的稳定性。
  2. 更细粒度的调度:以任务为单位进行资源调度,优化计算资源的使用效率。
  3. 资源感知调度:根据当前资源情况动态调整任务分配,提升并行执行的效率。

通过 BSP 模式,ByConity 实现了一站式的数据接入、加工和分析流程,为用户提供了更加便捷、高效的数据分析工具。

基于 TPC-DS 的 ELT 活动

为了让用户直观感受 BSP 模式的强大性能,ByConity 提供了基于 TPC-DS 1TB 数据集 的测试活动。以下是完整的测试过程分享。

测试环境

测试环境基于火山引擎 ECS,采用以下配置:

组件规格
ByConity 版本v1.0.1
Worker 节点4 * 16core 64G
Server 节点1 * 16core 64G
TSO1 * 4core 16G
Daemon Manager1 * 4core 16G
Resource Manager1 * 8core 32G
存储对象存储 TOS
FoundationDB3 * 4core 16G

登录 ECS

根据活动提供的登录凭据,通过 SSH 连接到远程 ECS 服务器。以下为登录过程:

  • MacOS 用户

    • 打开终端,输入以下命令并回车:
      ssh -p 23 root@14.103.145.182
      
    • 输入 yes 确认连接,并输入提供的登录密码。
  • 避免断连:创建 tmux 会话:

    tmux new -s your_session_name
    

  • 启动客户端:
    clickhouse client --port 9010
    

数据查询配置

  • 切换至测试数据库:
    use test_elt;
    

  • 设置 SQL 方言:
    set dialect_type = 'ANSI';
    

执行 02.sql

执行 TPC-DS 测试集查询, source 02.sql; 如下:

with wscs as(select sold_date_sk,sales_pricefrom (select ws_sold_date_sk sold_date_sk,ws_ext_sales_price sales_pricefrom web_sales union allselect cs_sold_date_sk sold_date_sk,cs_ext_sales_price sales_pricefrom catalog_sales) x),wswscs as (select d_week_seq,sum(case when (d_day_name='Sunday') then sales_price else null end) sun_sales,sum(case when (d_day_name='Monday') then sales_price else null end) mon_sales,sum(case when (d_day_name='Tuesday') then sales_price else  null end) tue_sales,sum(case when (d_day_name='Wednesday') then sales_price else null end) wed_sales,sum(case when (d_day_name='Thursday') then sales_price else null end) thu_sales,sum(case when (d_day_name='Friday') then sales_price else null end) fri_sales,sum(case when (d_day_name='Saturday') then sales_price else null end) sat_salesfrom wscs,date_dimwhere d_date_sk = sold_date_skgroup by d_week_seq)select d_week_seq1,round(sun_sales1/sun_sales2,2),round(mon_sales1/mon_sales2,2),round(tue_sales1/tue_sales2,2),round(wed_sales1/wed_sales2,2),round(thu_sales1/thu_sales2,2),round(fri_sales1/fri_sales2,2),round(sat_sales1/sat_sales2,2)from(select wswscs.d_week_seq d_week_seq1,sun_sales sun_sales1,mon_sales mon_sales1,tue_sales tue_sales1,wed_sales wed_sales1,thu_sales thu_sales1,fri_sales fri_sales1,sat_sales sat_sales1from wswscs,date_dim where date_dim.d_week_seq = wswscs.d_week_seq andd_year = 2001) y,(select wswscs.d_week_seq d_week_seq2,sun_sales sun_sales2,mon_sales mon_sales2,tue_sales tue_sales2,wed_sales wed_sales2,thu_sales thu_sales2,fri_sales fri_sales2,sat_sales sat_sales2from wswscs,date_dim where date_dim.d_week_seq = wswscs.d_week_seq andd_year = 2001+1) zwhere d_week_seq1=d_week_seq2-53order by d_week_seq1;

sql解释:

这段 SQL 语句实现了对比两个年份(2001年和2002年)的每周日到周六的销售数据的相对变化。以下是对其结构和逻辑的详细解析:

1. 第一步:创建 wscs 临时表
with wscs as(select sold_date_sk, sales_pricefrom (select ws_sold_date_sk sold_date_sk, ws_ext_sales_price sales_pricefrom web_sales union allselect cs_sold_date_sk sold_date_sk, cs_ext_sales_price sales_pricefrom catalog_sales) x)

功能:

  • web_salescatalog_sales 两个表的数据合并到一个统一的临时表 wscs 中。
  • 提取销售日期键 (sold_date_sk) 和销售价格 (sales_price) 两列。

逻辑:

  1. web_sales 表:
    • 提取 ws_sold_date_sk(销售日期)和 ws_ext_sales_price(销售额)。
  2. catalog_sales 表:
    • 提取 cs_sold_date_sk(销售日期)和 cs_ext_sales_price(销售额)。
  3. union all
    • 不去重地合并两表的记录。
2. 第二步:创建 wswscs 临时表
 wswscs as (select d_week_seq,sum(case when (d_day_name='Sunday') then sales_price else null end) sun_sales,sum(case when (d_day_name='Monday') then sales_price else null end) mon_sales,sum(case when (d_day_name='Tuesday') then sales_price else  null end) tue_sales,sum(case when (d_day_name='Wednesday') then sales_price else null end) wed_sales,sum(case when (d_day_name='Thursday') then sales_price else null end) thu_sales,sum(case when (d_day_name='Friday') then sales_price else null end) fri_sales,sum(case when (d_day_name='Saturday') then sales_price else null end) sat_salesfrom wscs,date_dimwhere d_date_sk = sold_date_skgroup by d_week_seq)

功能:

  • 按照每周的编号(d_week_seq)计算每周每天(周日到周六)的总销售额。

逻辑:

  1. 关联 wscsdate_dim 表:
    • 利用 d_date_sk = sold_date_sk,将销售日期与日期维表匹配。
  2. 按周聚合:
    • 利用 d_week_seq 对每周数据分组。
  3. case when 语句:
    • 对每天的销售额分别求和,忽略不属于该天的数据。

结果:
wswscs 包含每周每天的销售额字段,例如 sun_salesmon_sales 等。

3. 第三步:对比 2001 年和 2002 年的数据
子查询 1:提取 2001 年数据
 (select wswscs.d_week_seq d_week_seq1,sun_sales sun_sales1,mon_sales mon_sales1,tue_sales tue_sales1,wed_sales wed_sales1,thu_sales thu_sales1,fri_sales fri_sales1,sat_sales sat_sales1from wswscs, date_dim where date_dim.d_week_seq = wswscs.d_week_seq andd_year = 2001)
  • 提取 2001 年的每周每天销售额,并标记为 *_sales1
  • d_week_seq1 表示 2001 年的周编号。
子查询 2:提取 2002 年数据
 (select wswscs.d_week_seq d_week_seq2,sun_sales sun_sales2,mon_sales mon_sales2,tue_sales tue_sales2,wed_sales wed_sales2,thu_sales thu_sales2,fri_sales fri_sales2,sat_sales sat_sales2from wswscs, date_dim where date_dim.d_week_seq = wswscs.d_week_seq andd_year = 2002)
  • 提取 2002 年的每周每天销售额,并标记为 *_sales2
  • d_week_seq2 表示 2002 年的周编号。
主查询:对比相邻年份的销售额
 select d_week_seq1,round(sun_sales1/sun_sales2,2),round(mon_sales1/mon_sales2,2),round(tue_sales1/tue_sales2,2),round(wed_sales1/wed_sales2,2),round(thu_sales1/thu_sales2,2),round(fri_sales1/fri_sales2,2),round(sat_sales1/sat_sales2,2)from ...where d_week_seq1 = d_week_seq2 - 53order by d_week_seq1;

功能:

  • 对比 2001 年每周与对应的 2002 年同一周(相差 53 周)的销售额。

逻辑:

  1. 字段匹配:
    • 根据 d_week_seq1 = d_week_seq2 - 53 确保对比的是相邻年份的同一周。
  2. 字段计算:
    • 利用 round(sun_sales1 / sun_sales2, 2) 等公式计算每周日到周六的销售额变化比率。
  3. 排序:
    • 按周编号(d_week_seq1)从小到大排序。
最终输出:

表格展示 2001 年相较于 2002 年的每周每天销售额变化百分比。

周编号周日变化周一变化周二变化周三变化周四变化周五变化周六变化
Week11.100.951.201.050.981.151.00

执行后截图如下:

测试结果与心得

通过执行 TPC-DS 的模拟查询,实际验证了 ByConity 在 ELT 任务中的强大表现:

  1. 性能提升:BSP 模式在任务分解与调度上表现优异,查询任务耗时显著减少。
  2. 任务稳定性:在高并发与复杂场景下依旧保持出色的容错能力。
  3. 一站式体验:用户无需额外切换工具即可完成数据加工与分析,全流程高效流畅。

总结

ByConity 的 BSP 模式为实时数仓和离线数仓之间架起了一座桥梁,其灵活性与高效性让企业能够更好地应对多变的数据分析需求。本次测试验证了其在 ELT 场景中的实际效果,也展示了 ByConity 在未来数据仓库领域的潜力与前景。

如果您也想体验 ByConity 的强大功能,欢迎参与测试活动,亲自感受开源数据仓库的无限可能!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/65328.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文解读 | EMNLP2024 一种用于大语言模型版本更新的学习率路径切换训练范式

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 点击 阅读原文 观看作者讲解回放! 作者简介 王志豪,厦门大学博士生 刘诗雨,厦门大学硕士生 内容简介 新数据的不断涌现使版本更新成为大型语言模型(LLMs&#xff…

Android OpenGl(二) Shader

一、Shader 1、什么是Shader,为什么要使用Shder (1)shader运行在gpu上的小程序 (2)以前使用固定管线,但缺点是灵活度不够,无法满足复杂需求,为了解决固定管线的缺点,出…

软考:系统架构设计师教材笔记(持续更新中)

教材中的知识点都会在。其实就是将教材中的废话删除,语言精练一下,内容比较多,没有标注重点 系统架构概述 定义 系统是指完成某一特定功能或一组功能所需要的组件集,而系统架构则是对所有组件的高层次结构表示,包括各…

TDengine 新功能 VARBINARY 数据类型

1. 背景 VARBINARY 数据类型用于存储二进制数据,与 MySQL 中的 VARBINARY 数据类型功能相同,VARBINARY 数据类型长度可变,在创建表时指定最大字节长度,使用进按需分配存储,但不能超过建表时指定的最大值。 2. 功能说明…

虚拟机桥接模式

主机Win10,虚拟机xp 1.虚拟机设置中选择桥接模式 2.在虚拟机菜单:编辑>虚拟机网络编辑,点击“更改设置”,可以看到三个网卡,这三个网卡分别对应不同的网络共享模式。桥接模式须使用VMnet0,如果没看到这个网卡&…

游戏开发线性空间下PS工作流程

前言 使用基于物理的渲染,为了保证光照计算的准确,需要使用线性空间; 使用线性空间会带来一个问题,ui 在游戏引擎中的渲染结果与 PS 中的不一致: PS(颜色空间默认是sRGB伽马空间)&#xff1a…

MAC M4安装QT使用国内镜像源在线安装

MAC M4安装QT使用国内镜像源在线安装 一、下载安装包1. 访问[https://www.qt.io/](https://www.qt.io/)下载在线安装包2. 下载结果 二、创建QT账户,安装的时候需要三、安装1. 终端打开安装包2. 指定安装源3. 运行安装完的QT 一、下载安装包 1. 访问https://www.qt.…

Linux应用软件编程-多任务处理(线程)

线程:轻量级的进程,线程的栈区独立(8M),与同一进程中的其他线程共用进程的堆区,数据区,文本区。 进程是操作系统资源分配的最小单位;线程是cpu任务调度的最小单位。 1. 线程的创建…

BFS中的多源BFS、最小步数模型和双端队列广搜

多源BFS 多源BFS时有从多个源点出发的bfs算法,只需要将多个源点都连一条边权为0的边到虚拟源点,那么问题就等价于从虚拟源点开始BFS。 一开始直接将所有源点加入BFS的队列即可. 173. 矩阵距离 给定一个 N N N 行 M M M 列的 01 01 01 矩阵 A A A, A [ i ] […

分布式版本管理工具——git 中忽略文件的版本跟踪(初级方法及高级方法)

git工具忽略指定文件的版本跟踪 一、简单方式实现二、复杂方式实现(模式匹配)1. 相关规则2. 应用案例a) 忽略所有内容b) 忽略所有目录(不忽略当前目录的具体文件)c)忽略指定目录下的所有文件,但排除某文件d&#xff09…

1225. 报告系统状态的连续日期 - 力扣(LeetCode)

目录 1. 力扣链接 2. 题目 3. 分析 4. 代码实现 5. 代码验证 6. 总结 1. 力扣链接 1225. 报告系统状态的连续日期 - 力扣(LeetCode) 2. 题目 表:Failed ----------------------- | Column Name | Type | -----------------------…

jenkins集成工具(一)部署php项目

目录 什么是CI 、CD Jenkins集成工具 一、Jenkins介绍 二、jenkins的安装和部署 环境部署 安装jenkins 安装gitlab 配置镜像源进行安装 修改密码 安装git工具 上传测试代码 Jenkins部署php项目wordpress 发布php代码 安装插件 测试代码发布 实现发布成功发送邮件…

STM32F103RCT6学习之一:基本开发流程

开发方式 1.基于寄存器开发---与51类似 2.基于标准库开发----基于寄存器进行函数的封装 3.基于HAL库开发----对标准库进行更深入的封装,有句柄、回调函数等概念 STM32Cube 一种STM32硬件配置开发工具,可根据需要生成项目模版 1.选择芯片 2.配置管…

汽车IVI中控开发入门及进阶(46):FFmpeg

概述: FFmpeg 是领先的多媒体框架,能够解码、编码、 转码、复用、解复用、流、过滤和播放 几乎所有人类和机器创建的东西。它支持最模糊的古老格式,直到最前沿。无论它们是由某个标准委员会、社区还是公司设计的。它还具有高度的可移植性:FFmpeg 在各种构建环境、机器架构…

.NET平台用C#通过字节流动态操作Excel文件

在.NET开发中,通过字节流动态操作Excel文件提供了一种高效且灵活的方式处理数据。这种方法允许开发者直接在内存中创建、修改和保存Excel文档,无需依赖直接的文件储存、读取操作,从而提高了程序的性能和安全性。使用流技术处理Excel不仅简化了…

Word论文交叉引用一键上标

Word论文交叉引用一键上标 1.进入Microsoft word使用CtrlH快捷键或单击替换按钮 2.在查找内容中输入[^#] 3.鼠标点击,标签为“替换为:”的文本框,注意光标一定要打在图红色方框圈中的文本框中! 4.点击格式选择字体 5.勾选上标…

直流有刷电机多环控制(PID闭环死区和积分分离)

直流有刷电机多环控制 提高部分-第8讲 直流有刷电机多环控制实现(1)_哔哩哔哩_bilibili PID模型 外环的输出作为内环的输入,外环是最主要控制的效果,主要控制电机的位置。改变位置可以改变速度,改变速度是受电流控制。 实验环境 【 !】功能简介: 按下KEY1使能电机,按下…

计算机网络实验室建设方案

一、计算机网络实验室拓扑结构 计算机网络综合实验室解决方案,是面向高校网络相关专业开展教学实训的综合实训基地解决方案。教学实训系统采用 B/S架构,通过公有云教学实训平台在线学习模式,轻松实现网络系统建设与运维技术的教学…

soular使用教程

用 soular 配置你的组织,工作更高效!以下是快速上手的简单步骤:  1. 账号管理 可以对账号信息进行多方面管理,包括分配不同的部门、用户组等,从而确保账号权限和职责的清晰分配。  1.1 用…

FPGA的DMA应用——pcileech

硬件通过pcie总线,访存本机的内存,并进行修改,可以进行很多操作。 学习视频:乱讲DMA及TLP 1-pcileech项目简介和自定义模块介绍_哔哩哔哩_bilibili vivado2024.1的下载文章链接和地址:AMD-Xilinx Vivado™ 2024.1 现…