【运维 Pro】时序场景实践与原理 - 1. 分布与分区

【运维 Pro】: 是由 YMatrix 售前和售后团队负责的栏目。除了介绍日常的数据库运维和使用知识,我们更希望能够通过介绍这些知识背后的原理,让大家和我们一起感知数据库的美妙。

摘要

有别于其它场景,时序场景中的数据、查询都有着更为明显的特征;也因此,YMatrix 可以针对这些特征进行深度优化,最终带来出色的性能表现。

然而在时序场景中使用 YMatrix 时,会发现不同的使用方式有时会带来明显的性能差异;究其原因,只有针对时序场景精心设计,才能最大的发挥 YMatrix 在时序场景的性能优势。

我们会从 YMatrix 在时序场景中的最佳实践出发,深入逻辑和原理,一起讨论我们做什么、如何做、为什么。

作者:徐福贵|YMatrix 售后工程师 & 王任远|YMatrix MXUI 研发工程师

01 准备知识

作为本系列的第一篇文章,我们先简单介绍一些准备知识。

什么是时序数据

简单来说,时序数据就是: 设备标识 + 时间戳 + 指标 * N 。

以一个传感器记录的温度数据作为简单的例子:

  1. 设备标识:1 或多个字段组成的设备唯一标识

  2. 时间戳:指标采集时刻的时间戳

  3. 指标:设备采集到的许多不同的指标值

关于时序场景和时序数据的更多介绍,可以阅读 YMatrix 官方文档。(参考:时序数据模型)

使用 MARS3 存储引擎创建分区表

通常的,在时序场景会使用分区表进行存储。相比较其他数据库,YMatrix 针对时序场景进行了全方位优化,拥有诸多优势。这里我们以最新的 MARS3 存储引擎为例(其他存储类型也可参考),初步介绍如何针对使用场景创建表,以及其背后的基础逻辑。

MARS3 是在 YMatrix 5.1 中发布的最新存储引擎,相比 MARS2, 提供了数据更新与删除功能,并支持增删列,及 MVCC 机制,在 AP 和 TP 场景下都有明显的性能提升。

对应上面的例子,我们可以这样创建表:

CREATE TABLE  ts_demo(     ts timestamp WITH time zone,     device_id varchar(20) ,    temperature float)USING mars3DISTRIBUTED BY (ts, device_id)  -- 分布键:ts + device_idORDER BY (ts,device_id)         -- MARS3 特有排序列PARTITION BY RANGE(ts)          -- 分区键: ts(                               -- 分区策略:每天一个分区 START ('2023-07-01') INCLUSIVE  END ('2023-07-10') EXCLUSIVE  EVERY (interval '1 day'),  DEFAULT PARTITION default_p) ;

复制代码

针对时序场景,在创建表时,除了数据对应的字段类型,我们还需要重点关注和理解两个基础的问题:

02 如何选择分布键

在 YMatrix 中,一张表的数据会根据分布键和分布算法分散在不同节点上。

当执行查询时,如果涉及的数据均匀的分布在所有计算节点上,那么负载就会平均分配到每个节点上,自然能在并行执行时更充分的利用硬件资源,达到最佳性能表现。

反之,如果查询涉及的数据分布不均,那么执行查询时,就会出现数据量大的节点负载大,数据量小的节点负载小的问题;负载分布不均就意味着一些节点的资源未能充分利用,最终性能表现就可能不达预期。

因此,我们选择表的分区键,基本原则是让查询时涉及的数据尽可能均匀分布至各个节点上,数据分布越均匀,查询性能就越好。

要达到这一目的,首先需要理解时序场景查询的特点。

通常来讲,时序场景查询的条件均包含 时间戳(和设备标识 )的限定条件,比如:

1. 某一时刻,所有设备的某个指标的均值 。

--- SQL 1:求某一个时刻("2023/07/01 13:50:00") 所有设备的温度的平均值SELECT AVG(temperature) FROM test_demo WHERE ts = "2023/07/01 13:50:00"

复制代码

2. 指定时间段内,所有设备的某个指标的最大最小值。

--- SQL 2:求指定设备(D0001) 的在指定时间区间( [2023/07/01 13:00 ~ 14:00) )的温度的平均值SELECT AVG(temperature) FROM test_demoWHERE device_id = "D0001"AND ts >= "2023/07/01 13:50:00" AND ts < "2023/07/01 14:00:00";

复制代码

设备标识 + 时间戳

针对这两个典型的时序场景查询,使用 设备标识 + 时间戳 作为分布键,是最佳方案,可以使查询时涉及的数据分布更均匀。

此时,数据分布的情况如下:

扫描命中的数据

下图描述了这两个查询在执行时,命中数据的分布情况。从图中我们看出,命中的数据是在 2 个计算节点上均匀分布的,此时查询性能最佳。

SQL 1

扫描命中的数据

SQL 2

扫描命中的数据

为什么不能只用时间戳?

如果只用时间戳,会导致所有设备在某个时间点采集的数据都落在一个节点上,那么查询时只有一个数据节点的资源能够被充分利用。

扫描命中的数据

为什么不能只用设备标识?

这样的话一个设备的数据都在同一个计算节点上,当查询该设备的历史数据时,又仅有一个节点的资源能够被充分利用。

为什么不能用指标列?

一个指标列通常在一定取值范围内波动,并会有大量重复、空值;当指标列作为分布键,就会有大量同值数据分布在同一个节点上,不仅不能做到查询时涉及的数据均匀分布,连存储时的均匀分布都做不到。

03 如何选择分区键

由于几乎所有时序场景的查询,都包含时间戳作为限定条件,所以将时间戳作为分区键,无论是在插入数据还是在执行查询时,都能保证直接找到对应的分区,因此,将时间戳作为分区键,是最为合理的。

04 如何设计分区策略

简单来说,分区策略就是设置多长时间为一个分区。

分区机制对查询的加速主要在于能够能够减少查询时扫描数据的数量:当查询条件命中表中的某个分区时,数据库仅会对命中分区中的数据进行扫描,因此,查询条件命中的分区越少,其中的存储的数据越少,最终所扫描的数据就越少,执行速度也就越高。

因此,在设计分区策略时,我们的目标是尽可能的让查询条件命中的分区更少。

以两个典型的查询为例,我们来估算不同分区策略带来的查询开销差异:

  1. 指定的某个日期(如 7 月 3 日)的所有设备的平均温度。

  2. 指定的某周(如 7 月 3 日 ~ 7 月 9 日)某个设备的温度最大值/最小值。

假定每天的数据量为 N 条,有两种策略:

  1. 按日分区:每天一个分区,每个分区含 N 条数据

  2. 按周分区:每周一个分区,每个分区含 7N 条数据

对于按日分区策略,查询时扫描的分区和对应的数据量为:

对于按周分区策略,查询时扫描的分区和对应的数据量为:

由此可见,对于给定的查询,相比按周分区,按天分区策略在查询时扫描的数据量要小的多,所以效率要更高;而如果查询 1 被更频繁执行的,业务查询的整体耗时差异会更大。

总之,分区策略需要根据具体查询来设计。比如,当小时粒度的查询更多,那么按小时进行分区就会是更为合理的策略。

冷热数据:实际生产环境中,距离当前时间较远数据(冷数据)更有可能被按照更长的周期进行查询(比如按月),而距离当前时间较近(热数据)则更有可能被按照较短间隔查询(比如按小时)。因此,冷数据适宜设置更长的分区间隔(按月),热数据设置更小的分区间隔(按小时)。在最新的 YMatrix 5.1 中提供了降级存储功能,能够实现数据的全自动冷热分级。

本文为 YMatrix 原创内容,未经允许不得转载。

欲了解更多超融合时序数据库相关信息,请访问 “YMatrix 超融合数据库”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/76732.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Scrum敏捷开发流程及敏捷研发关键环节

Scrum是一个迭代式增量软件开发过程&#xff0c;是敏捷方法论中的重要框架之一。它通常用于敏捷软件开发&#xff0c;包括了一系列实践和预定义角色的过程骨架。Scrum中的主要角色包括Scrum主管&#xff08;Scrum Master&#xff09;、产品负责人&#xff08;Product Owner&…

php+mysql实现补齐24小时时间段同时赋值0的后端解决方案

javascript对象数据合并实现补齐24小时时间段同时赋值0的解决方案(1)javascript对象数据合并实现补齐24小时时间段同时赋值0升级版解决方案(2) 项目需求 在php中使用mysql生成 arr [{"dataKey": "00","totalTrans": "4","tot…

坚果投影人事地震:IPO之前,创始人被投资人踢出公司

大数据产业创新服务媒体 ——聚焦数据 改变商业 一份流传于网络的《董事会函件》以及一张微信截图显示&#xff0c;智能投影行业市占率第二的坚果投影8月28日发生人事地震&#xff0c;公司创始人胡震宇被董事会罢免董事长一职&#xff0c;由资方代表连萌担任临时董事长一职。 …

ip地址会随网络变化而变化吗

随着科技的飞速发展&#xff0c;互联网已深入我们生活的方方面面。在这庞大的网络世界中&#xff0c;IP地址作为网络通信的基础元素&#xff0c;引起了广泛关注。网络变化与IP地址之间存在着密切的关系。那么&#xff0c;IP地址是否会随着网络变化而变化呢&#xff1f;虎观代理…

企业架构LNMP学习笔记21

URL重写&#xff1a; ngx_http_rewrite_module 模块用于使用PCRE正则表达式更改请求URI&#xff0c;返回重定向&#xff0c;以及有条件地选择配置。 return 该指令用于结束结束规则的执行并返回状态码给客户端。 403 Forbidden.服务器已经理解请求,但是拒绝执行它 404 Not…

Nginx反向代理联动Tomcat实现多实例部署、动静分离、负载均衡

文章目录 1. 配置反向代理1.1 前置准备1.2 代理服务器配置1.3 真实服务器配置1.4 客户机配置 2. Tomcat 多实例部署2.1 部署JDK2.2 设置JDK环境变量2.3 部署Tomcat服务2.4 路径启动 3. Nginx联动Tomcat实现动静分离、负载均衡3.1 基本原理3.2 前置准备3.3 配置nginx1实现四层代…

Weblogic下启用Gzip压缩

一、首先,去FilterLib download | SourceForge.net网站下载tk-filters-1.0.1.zip。 二、解压这个tk-filters-1.0.1.zip压缩文件&#xff0c;将解压后的文件tk-filters.jar放在Ext项目的WEB-INF/lib/下。 三、打开解压后的文件夹tk-filters\conf\tk-filters.properties GZIPFilt…

HCS 中的一些概念(二)

一、Service OM 1、首页&#xff08;资源状态&#xff09; 2、服务列表 计算资源&#xff1a;计算资源又分为可用分区&#xff08;AZ&#xff09;、规格和虚拟机组&#xff0c;可在此处创建虚拟机、虚拟机组、主机组和规格 网络资源&#xff1a;网络资源又分为物理网络…

Excel VSTO开发6 -Range对象

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请在显著位置标明本文出处以及作者网名&#xff0c;未经作者允许不得用于商业目的。 6 Range对象 Excel中最重要的一个对象是Range对象&#xff0c;它可以代表某一单元格、某一行、某一列、某一区域&#xff08;该区域…

分享一下微信小程序开发步骤是什么

微信小程序开发步骤是开发微信小程序所需要遵循的一系列步骤。以下是微信小程序开发的步骤&#xff1a; 一、注册开发者账号 首先&#xff0c;需要注册一个微信开发者账号。可以在微信公众平台上注册并选择“小程序”开发者类型。在注册过程中&#xff0c;需要提供一些必要的信…

Vue 报错error:0308010C:digital envelope routines::unsupported 解决方案(三种)

新换的电脑&#xff0c;系统装的win11&#xff0c;node也是18的版本。 跑了一下老项目&#xff0c;我用的是HbuilderX&#xff0c;点击运行和发行时&#xff0c;都会报错&#xff1a; Error: error:0308010C:digital envelope routines::unsupported 出现这个错误是因为 node.j…

掌握信息利器,快速发现潜在商机——介绍一款高效的数据检索软件

掌握信息利器&#xff0c;快速发现潜在商机——介绍一款高效的数据检索软件 在当今信息爆炸的时代&#xff0c;获取准确、实时的信息变得至关重要。为了帮助您快速发现潜在商机&#xff0c;我们推出了一款功能强大的数据检索软件。无论您是市场调研人员、销售专员还是企业经营者…

CSP 201403-1 相反数

答题 用两个优先队列&#xff0c;一个记录正数升序排序&#xff0c;一个记录负数降序排序&#xff0c;然后在两个队列都不为空的情况下取二者top相加与0比较大小&#xff0c;如果等于0&#xff0c;那么相反数的数目增加一对并同时弹出队列&#xff0c;如果小于0&#xff0c;那…

PostgreSQL 中 serial 与 bigserial 类型的理解与转换

1. serial 与 bigserial 类型理解 serial 与 bigserial 在 PostgreSQL 中属于伪类型&#xff0c;实际只在 create table 时可以引用该类型。serial 和 bigserial 类型&#xff0c;实际上在这个字段上做的操作就是&#xff1a; 创建了一个 integer (serial) 和 bigint (bigser…

JVM之强软弱虚引用

在Java虚拟机&#xff08;JVM&#xff09;中&#xff0c;有几种不同类型的引用&#xff0c;它们分别是&#xff1a;强引用&#xff08;Strong Reference&#xff09;、软引用&#xff08;Soft Reference&#xff09;、弱引用&#xff08;Weak Reference&#xff09;、虚引用&am…

Tauri之单例+多窗口

Tauri之单例多窗口 Tauri 1.4 React 18 单例可以通过tauri_plugin_single_instance实现&#xff0c;多窗口可以简单通过路由来实现 单例 tauri::Builder::default().setup(|app| {let mut label "home";let args: Vec<String> std::env::args().collect();i…

SpringMVC之CRUD------增删改查

目录 前言 配置文件 pom.xml文件 web.xml文件 spring-context.xml spring-mvc.xml spring-MyBatis.xml jdbc.properties数据库配置文件 generatorConfig.xml log4j2日志文件 后台 PageBaen.java PageTag.java 切面类 biz层 定义一个接口 再写一个实现类 …

1. 约瑟夫问题

题目&#xff08;要求用循环链表实现&#xff09; 约瑟夫问题是一个经典的问题。已知n个人&#xff08;不妨分别以编号1&#xff0c;2&#xff0c;3&#xff0c;…&#xff0c;n 代表 &#xff09;围坐在一张圆桌周围&#xff0c;从编号为 k 的人开始&#xff0c;从1开始顺时针…

【赠书活动】考研备考书单推荐

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

【C++】哈希——哈希的概念,应用以及闭散列和哈希桶的模拟实现

前言&#xff1a; 前面我们一同学习了二叉搜索树&#xff0c;以及特殊版本的平衡二叉搜索树&#xff0c;这些容器让我们查找数据的效率提高到了O(log^2 N)。虽然效率提高了很多&#xff0c;但是有没有一种理想的方法使得我们能提高到O(1)呢&#xff1f;其实在C语言数据结构中&a…