Redis遍历方式思考--字典扩容方式

全量遍历keys

  • 工作中线上Redis维护,有时候我们需要查询特定前缀的缓存key列表来手动处理数据。可能是修改值,删除key。那么怎么才能快速的从海量的key中查找到对应的前缀匹配项。
  • Redis提供了一下简单的指令,例如keys用来满足特定正则下的key如下:
//查找nettyim前缀的key
keys nettyim*
//查询所有key
keys *
  • 以上命令特别简单,只需要提供一个简单的正则字符串即可,但是缺点明显:
    • 没有offset,limit参数,一次查询所有满足条件的key,如果实例中有几百万key匹配到,那查询到了也没有任何意义。
    • keys算法是遍历算法,复杂度是O(n),如果Redis实例中有千万级数据key,这个指令就会导致Redis服务器卡顿,所有读写Redis的其他指令都会被延后甚至会超时报错,因为Redis是单线程,顺序执行所有指令,其他指令必须等到当前keys指令执行完才可以继续

大海捞针指令scan

  • scan 指令有一下几个特点:
    • 复杂度也是O(n)。但是scan命令可以通过游标分布进行查询,不会阻塞线程,相当于分页查找
    • 提供limit参数,可以控制每次放回结果的条数,limit只是一个hint,返回的结果可多可少。
    • 同keys一样,他提供了模式匹配功能
    • 服务器不需要为游标保存状态,右边的唯一状态就是scan返回给客户端的游标整数
    • 返回的结果可能会重复,需要客户端去重
    • 变量过程如果有数据修改,改动后的数据能否查询到是不确定的
    • 单次返回的结果是空的并不意味着遍历结束,而要看返回的游标值是否为零
scan基本用法
  • sacn提供三个参数,第一个cursor整数值,第二个是key的正则模式,第三个是遍历limit hint。scan每次查询会返回一个游标值,标识现在已经遍历到此处游标位置,我们下一次遍历可以按照游标开始,如下
scan 0 match nettyim* count 1000
scan 641024 match nettyim* count 100
scan 1812480 match nettyim* count 100
scan 7071744 match nettyim* count 100
....
  • 查询过程中,我们设定limit = 1000,但是并不是每次都能查询到一千条数据,因为limit不是限制返回的数量,二手限制服务器每次遍历的Redis服务器存储数据的字典槽个数。如果将limit设置为10,可能返回0个数据,但是游标值不为0 ,那是因为前10个槽中没有数据而已。

字典结构

  • Redis中所有key存储在一个很大的字典中,这个字典结构和java中HashMap类似,如下图中所示,他是一位数组结构,加上二维链表结构。第一位数组的大小总数(2 ^ n) 扩容一次数组,大小空间加倍 (2^n+1)
  • scan指令返回的游标就是第一位数组的位置索引,这个就是上面说的数据槽(slot),如果不考虑字典的扩容,缩容直接按数组下标逐个遍历就行。limit参数标识需要遍历的槽位数,之所以返回的结果可能多可能少,是因为不是所有的槽位上都挂载了链表,有可能槽位是空的,每次遍历都会将limit数量的槽位上挂接的所有链表元素进行模式匹配过滤后一起返回客户端。
    在这里插入图片描述

scan遍历顺序

  • scan遍历的凡是不是从一维数组的第0 位开始遍历,而是采用高位进位的方法来遍历。之所以用这样的方式是考虑到Redis的扩容规则,当扩容的时候这样遍历就能避免槽位的重复遍历,和遗漏
  • 如下图,是普通的加法和高位进位加法的区别:
普通遍历

在这里插入图片描述

高位进位遍历

在这里插入图片描述

  • 上图中看出高位进位加法也是一样遵循二进制的规则,只不过进位从左边开始增加移动,同普通加法正好相反,但是最终还是可以遍历所有槽位并且没有重复。

字典扩容

  • java中HashMap也有扩容的概念,当LoadFactor达到阀值的时候,需要重新分配一个新的2倍大小的数组,然后将所有元素全部rehash挂到新的数组下面。rehash是将原始的hash值对数组长度取模运算,因为长度变量,所有每个元素挂载的位置槽就可能变化。有因为数组长度是2的n次方,取模运算等价于位与操作(&);
  • Redis中扩容方法如下图中所示,当字典长度由8 为扩容到16位,那么3号槽的数据011 将会被rehash到3号槽和11号槽中。也就是该槽位链表中大约有一半的元素还在3号槽位中,其他元素被放到11号槽位中,11 这个数字正好是1011,就是3 的二进制数011 高位添加一个1.
    在这里插入图片描述
  • 按如上方式加上槽位二进制是XXX,你们该槽位中元素将被rehash到0XXX和1XXX中(XXX+8),如果字典长度由16 扩容到
    32,你们XXXX中元素rehash后到0XXXX 和1XXXX(XXXX+16)
对比扩容前,缩容后的遍历顺序

在这里插入图片描述

  • 如上扩容缩容示意图,我们发现用高位进位加法的遍历方式,rehash后的槽位在遍历顺序上是相邻的,
  • 扩容情况:如上加入我们要遍历100 这个槽位,那么扩容后,当前槽位上所有元素到新的槽位0100,1100,也就是在槽位二进制高位添加0,1。这时候,我们可以直接从0100开始往后遍历,而按照scan的变量规则,下一个正好是1100(高位加1),之前的已经都遍历完了之后的按照这个变量方式也不会遗漏。
  • 缩容情况:加入当前变量101,那么缩容后当前槽位所有的元素对应的01,也就是去掉高位的1,这个时候我们可以直接从01这个槽位继续向后遍历,01 之前的槽位已经遍历完了,这样就可以避免缩容重复遍历,缩容有一点不一样的地方是,会对101中的元素进行遍历,因为缩容的时候01 中的数据是结合了001 和101 链表中所有的数据。

渐进式rehash

  • java中HashMap在扩容时候,会一次性将旧的数据数组下挂载的元素全部转移到新的数组下,如果Hashmap中元素特别多,线程会出现卡顿现象。Redis为了解决这个问题采用渐进式rehash
  • 同事保留新旧数组。让后在定时任务中对后续hash的指令操作渐渐的将数组中挂载的元素迁移到新的数组中区。scan此时遍历处于rehash阶段的字典需要同时访问新旧两个数组结构。如果在就数组下面找不到元素,需要到新数组中在找一次。

更多scan指令

  • scan指令是一系列指令,除了可以遍历所有key,还有其他指定数据结构的特定指令。例如zscan遍历zset集合元素,hscan遍历hash字典元素,sscan遍历set集合元素
  • 原理同scan类似,因为hash底层就是字典,set也是特殊hash(所有value都是null)zset内部也是使用字典来存储所有元素内容

大key扫描

  • 有时候因为业务使用不当,在Redis实例中存在一个很大的对象,比如一个很大的zset。这样的对象给Redis继续数据迁移带来很大的问题。在数据迁移过程中集群环境下key太大,导致迁移数据变慢造成服务卡顿。同时扩容时候会一次性申请更大的一块内存,也会导致卡顿。如果这个key被删除内存会被一次性回收卡顿现象也会再次产生
  • 平时应该避免大key的产生
  • 如果Redis内存波动大,极有可能因为大key导致的,这时候需要定位具体那个key,进一步定位出具体的业务,然后在改进。
  • scan指令遍历,用type指令获取key类型,size或者len得到大小,用脚本扫描出来,不过此方法比较繁琐
  • Redis官方在redis-cli指令中提供这样的扫描功能,我们可以直接用如下:
redis-cli -h 127.0.0.1 -p 7001 --bigkeys
  • 以上命令会自动的查询大key,但是会导致Redis的ops(operation pre seconds 每秒操作次数)大幅提高,我们可以增加一个休眠时间,如下:
redis-cli -h 127.0.0.1 -p 7001 --bigkeys -i 0.1
  • 上面指令每隔100条scan指令休眠0.1秒,这样ops就不会剧烈提高,只是扫描时间变长而已。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/310518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从项目到产品: 软件时代需要价值流架构师 | IDCF

译者:无敌哥原文地址: https://thenewstack.io/the-age-of-software-needs-value-stream-architects/ 本文翻译仅供学习交流之用。原文作者 Mik Kersten 出版了《Project to Product》本系列共四篇文章,分别是01 从项目到产品:软件需要从物理…

Redis高效性探索--线程IO模型,通信协议

Redis线程IO模型 Redis是单线程,这个毋庸置疑Redis单线程能做到这么高的效率?不用怀疑,还有很多其他的服务都是单线程但是也有超高的效率,比如Node.js,Nginx也是单线程。Redis单线程高效原因: Redis所有数…

Redis持久化-深入理解AOF,RDB

持久化 Redis数据全部在内存中,如果宕机,数据必然丢失,因此必须有一种机制保证Redis数据不会因为故障丢失,这就是Redis的持久化机制持久化方式两种:AOF,RDB,如下图 RDB快照模式是一次全量备份&…

推荐一个集录屏、截图、音频于一体的软件给大家

捕获屏幕,网络摄像头,音频,光标,鼠标单击和击键GitHub:https://github.com/MathewSachin/Captura特性 免费 100%免费,你不需要花一分钱开源 根据MIT许可的条款,可以在Github上获得Captura的源…

Redis高效性探索--管道

管道 开始接触Redis时候,对应Redis管道有一个错误认识,任务是redis服务器提供的一种特别的技术,有了这种技术可以加速Redis的存取效率,但是实际上Redis的管道计算(Pipeline)本身是客户端提供的技术&#x…

Redis--事务理解

事务 一个成熟的数据库系统一般都会有事务的支持,Redis作为一个缓存数据库也不例外,Redis的事务比之关系型数据库mysql,oracle等算比较简单的,Redis中无需理解那么多事务模型,可以直接使用。不过也正是因为简单&#…

.NET中的内存管理

原文来自互联网,由长沙DotNET技术社区编译。 .NET中的内存管理资源分配Microsoft .NET公共语言运行时要求从托管堆分配所有资源。当应用程序不再需要对象时,它们将自动释放。初始化进程后,运行时将保留地址空间的连续区域,该区域最…

Redis存储优化--小对象压缩

小对象压缩 Redis是一种内存数据库,内存是计算机中一种比较宝贵的资源,如果我们不注意节约,Redis很可能出现内存不足,最终导致崩溃。Redis为了优化数据结构的内存占用,增加了非常多的优化点,这些优化也是牺…

.Net微服务实战之技术架构分层篇

一拍即合上一篇《.Net微服务实战之技术选型篇》,从技术选型角度讲解了微服务实施的中间件的选择与协作,工欲善其事,必先利其器,中间件的选择是作为微服务的基础与开始,也希望给一直想在.Net入门微服务的同行有一个很好…

Redis高可用基石--主从同步

主从同步 当我们将Redis用于线上环境,单机肯定是不行的,即使不做集群,我们也应该做主从,有了主从,当主节点(master)挂掉时候,让运维将从节点(slave)接管&…

.NET 下基于动态代理的 AOP 框架实现揭秘

.NET 下基于动态代理的 AOP 框架实现揭秘Intro之前基于 Roslyn 实现了一个简单的条件解析引擎,想了解的可以看这篇文章 基于 Roslyn 实现一个简单的条件解析引擎执行过程中会根据条件的不同会在运行时创建一个类,每一次创建都会生成一个新的程序集&#…

C++实现链式基数排序

代码如下: #include <iostream> #include <cmath> using namespace std; typedef int KeyType; const int END -1; const int Radix 10;typedef struct Node {KeyType key;struct Node *next; };Node *CreateList() {KeyType x;Node *q nullptr;cin >> x…

Blazor WebAssembly 3.2.0 Preview 4 如期发布

ASP.NET团队如期3.16在官方博客发布了 Blazor WebAssembly 3.2.0 Preview 4&#xff1a;https://devblogs.microsoft.com/aspnet/blazor-webassembly-3-2-0-preview-4-release-now-available/ &#xff0c;同时在twitter上发了一条信息带上了下面这张图&#xff0c;这张图很形象…

C#/.Net Core/WPF框架初建(国际化、主题色)

English | 简体中文作为 TerminalMACS 的一个子进程模块 - WPF管理端&#xff0c;目前搭建框架部分功能&#xff1a;本地化、国际化、主题色修改等。导航目录1.框架已添加功能说明1.1. 国际化、本地化1.2. Metro风格主窗体1.3. 动态更换主题色2.关于TerminalMACS及本WPF管理端 …

Redis底层实现--字符串

Redis字符串存储实现原理 Redis 中的字符串是可以修改的字符串&#xff0c;在内存中他是以字节数组的形式存在的。我们在入门语言C语言里面的字符串标准形式是以NULL&#xff08;即0x\0&#xff09;作为结束符&#xff0c;但是Redis里面&#xff0c;字符串表示方法不是这样&am…

[C++STL]C++实现string容器

代码如下: #pragma once #define _CRT_SECURE_NO_WARNINGS #include <iostream> #include <assert.h> #include <cstring> using namespace std;class String { public:String(const char *str ""){assert(str ! nullptr);_size strlen(str);_s…

ASP.NET Core 日志框架:Serilog

在 ASP.NET Core 日志模型 中对日志整体实现方式进行了介绍&#xff0c;通过使用内置日志记录器来实现日志的输出路径。而在实际项目开发中&#xff0c;使用第三方日志框架来记录日志也是非常多的&#xff0c;首先一般基础的内置日志记录器在第三方日志框架中都有实现&#xff…

[C++STL]C++实现vector容器

代码如下: #pragma once #include <iostream> #include <assert.h> using namespace std;template<typename T> class Vector { public:typedef T* iterator;typedef const T* const_iterator;Vector() :_start(nullptr), _finish(nullptr), _endOfStorage(…

数据结构与算法--简单栈实现及其应用

栈 栈&#xff08;Stack&#xff09;是一种限制插入和删除只能在一个位置上进行的表&#xff0c;改位置是表的末端&#xff0c;叫做栈顶top。栈的基本操作有push &#xff08;进栈&#xff09;pop&#xff08;出栈&#xff09;栈又叫做LIFO&#xff08;后进先出&#xff09;表…

树莓派销量突然猛增

树莓派基金会负责人 Eben Upton 近日在推特上公布&#xff0c;树莓派在三月份的销量达到 640,000 套&#xff0c;三月也成为有史以来销售量第二高的时期。Eben 认为&#xff0c;这大概是由于受 COVID-19 冠状病毒肺炎影响&#xff0c;在居家隔离期间&#xff0c;树莓派能够以低…