单个节点的缓存容量达到上限 Hash算法一致性

场景

 

单个节点的缓存容量达到上限,无法继续单点增加内存,如何解决?

单个节点支撑的QPS达到上限,如何解决? 

初步方案

 

增加N个缓存节点,为了保证缓存数据的均匀,一般情况会采用对key值hash,然后取模的方式,然后根据结果,确认数据落到哪台节点上:如下:

hash(key)%N 

很好,这个的确解决了上面的问题,实现了初步的分布式缓存,数据均匀分散到了各个节点上,流量请求也均匀的分散到了各个节点。

但是如果出现以下情况,会带来什么问题?

1、某台服务器突然宕机。缓存服务器从N变为N-1台。

2、缓存容量达到上限或者请求处理达到上限,需要增加缓存服务器,假定增加1台,则缓存服务器从N变为N+1

上面的情况带来的问题:

增加或者删除缓存服务器的时候,意味着大部分的缓存都会失效。这个是比较致命的一点,缓存失效,如果业务为缓存不命中,查询DB的话,会导致一瞬间DB的压力陡增。可能会导致整个服务不可用。 

换种描述方式,我们需要解决怎么样的问题?或者需求是怎样的?

     增删机器时,希望大部分key依旧在原有的缓存服务器上保持不变。举例来说:key1,key2,key3原先再Cache1机器上,现在增加一台缓存服务器,希望key1,key2,key3依旧在Cache1机器上,而不是在Cache2机器上。 

 

改进方案(一致性Hash)

 

一致性哈希算法的简单背景介绍 (此段内容来自网络)

一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正得到应用。 

一致性hash算法提出了在动态变化的Cache环境中,判定哈希算法好坏的四个定义:(来自百度百科

  1. 平衡性(Balance):平衡性是指哈希的结果能够尽可能分布到所有的缓冲中去,这样可以使得所有的缓冲空间都得到利用。很多哈希算法都能够满足这一条件。

  2. 单调性(Monotonicity):单调性是指如果已经有一些内容通过哈希分派到了相应的缓冲中,又有新的缓冲加入到系统中。哈希的结果应能够保证原有已分配的内容可以被映射到原有的或者新的缓冲中去,而不会被映射到旧的缓冲集合中的其他缓冲区。 

  3. 分散性(Spread):在分布式环境中,终端有可能看不到所有的缓冲,而是只能看到其中的一部分。当终端希望通过哈希过程将内容映射到缓冲上时,由于不同终端所见的缓冲范围有可能不同,从而导致哈希的结果不一致,最终的结果是相同的内容被不同的终端映射到不同的缓冲区中。这种情况显然是应该避免的,因为它导致相同内容被存储到不同缓冲中去,降低了系统存储的效率。分散性的定义就是上述情况发生的严重程度。好的哈希算法应能够尽量避免不一致的情况发生,也就是尽量降低分散性。 

  4. 负载(Load):负载问题实际上是从另一个角度看待分散性问题。既然不同的终端可能将相同的内容映射到不同的缓冲区中,那么对于一个特定的缓冲区而言,也可能被不同的用户映射为不同 的内容。与分散性一样,这种情况也是应当避免的,因此好的哈希算法应能够尽量降低缓冲的负荷。

所以通过上面的定义可以看到,简单的hash(key)%N的方式,违背了 单调性 的这个原则。原因如上面提到的,增删机器的时候,原有的缓存大部分会失效,也就违背了单调性的原则。

 

介绍:

    大部分文章都提到环形的hash空间,但是没有讲为什么是环形的。后面我会聊下我的想法。 

    使用常见的hash算法可以把一个key值哈希到一个具有2^32个桶的空间中。也可以理解成,将key值哈希到 [0, 2^32) 的一个数字空间中。 我们假设这个是个首尾连接的环形空间。如下图:

blob.png

  假设我们现在有key1,key2,key3,key4 4个key值,我们通过一定的hash算法,将其对应到上面的环形hash空间中。

   k1=hash(key1);

   k2=hash(key2);

   k3=hash(key3);

   k4=hash(key4);

blob.png

同样的,假设我们有3台cache服务器,把缓存服务器通过hash算法,加入到上述的环中。一般情况下是根据机器的IP地址或者唯一的计算机别名进行哈希。

c1=hash(cache1);

c2=hash(cache2);

c3=hash(cache3);

blob.png

接下来就是数据如何存储到cache服务器上了,key值哈希之后的结果顺时针找上述环形hash空间中,距离自己最近的机器节点,然后将数据存储到上面, 如上图所示,k1 存储到 c3 服务器上, k4,k3存储到c1服务器上, k2存储在c2服务器上。用图表示如下:

blob.png

增删机器的情况

假设cache3服务器宕机,这时候需要从集群中将其摘除。那么,之前存储再c3上的k1,将会顺时针寻找距离它最近的一个节点,也就是c1节点,这样,k1就会存储到c1上了,看一看下下面的图,比较清晰。

blob.png

摘除c3节点之后,只影响到了原先存储再c3上的k1,而k3、k4、k2都没有受到影响,也就意味着解决了最开始的解决方案(hash(key)%N)中可能带来的雪崩问题。

增加节点原理和删除时差不多~

blob.png

新增C4节点之后,原先存储到C1的k4,迁移到了C4,分担了C1上的存储压力和流量压力。

几个问题:

1、为什么需要想象成环形?

    为了保证节点宕机摘除之后,原先存储在当前节点的key能找到可存储的位置。举个极端的例子,在不是环状hash空间下,刚好缓存的服务器处于0这个位置,那么0之后是没有任何节点信息的,那么当缓存服务器摘除的时候,以前存储在这台机器上的key便找不到顺时针距离它最近的一个节点了。但如果是环形空间,0之后的最近的一个节点信息有可能是2^32-1这个位置,他可以找到0之后的节点。如下图描述可能清晰一点。

blob.png

 

2、为什么是2^32个桶空间?

  没有搞清楚,个人理解是为了保证足够的灵活性,减少hash带来的key值冲突。也方便后续增删节点。 

继续改进

 

上面的简单的一致性hash的方案在某些情况下但依旧存在问题:一个节点宕机之后,数据需要落到距离他最近的节点上,会导致下个节点的压力突然增大,可能导致雪崩,整个服务挂掉。

如下图所示,

blob.png

当节点C3摘除之后,之前再C3上的k1就要迁移到C1上,这时候带来了两部分的压力:

     1)、之前请求到C3上的流量转嫁到了C1上,会导致C1的流量增加,如果之前C3上存在热点数据,则可能导致C1扛不住压力挂掉。

     2)、之前存储到C3上的key值转义到了C1,会导致C1的内容占用量增加,可能存在瓶颈。

当上面两个压力发生的时候,可能导致C1节点也宕机了。那么压力便会传递到C2上,又出现了类似滚雪球的情况,服务压力出现了雪崩,导致整个服务不可用。

如果解决上面的问题?

虚拟节点。歪果人的脑子真好使,想出这么一个牛逼的方式,虚拟节点。

如上描述,一个节点宕机之后可能会引起下个节点的存储及流量压力变大,这一点违背了最开始提到的四个原则中的 平衡性, 节点宕机之后,流量及内存的分配方式打破了原有的平衡。

虚拟节点,从名字可以看出来,这个节点是个虚拟的,每个实际节点对应多个虚拟节点。比较专业的说法如下:

“虚拟节点”( virtual node )是实际节点(机器)在 hash 空间的复制品( replica ),一实际个节点(机器)对应了若干个“虚拟节点”,这个对应个数也成为“复制个数”,“虚拟节点”在 hash 空间中以hash值排列。

依旧用图片来解释,假设存在以下的真实节点和虚拟节点的对应关系。

Visual100—> Real1

Visual101—> Real1

Visual200—> Real2

Visual201—> Real2

Visual300—> Real3

Visual301—> Real3

同样的,hash之后的结果如下:

hash(Visual100)—> V100  —> Real1

hash(Visual101)—> V101  —> Real1

hash(Visual200)—> V200  —> Real2

hash(Visual201)—> V201  —> Real2

hash(Visual300)—> V300  —> Real3

hash(Visual301)—> V301  —> Real3

key值的hash结果如上,这里暂时不写了。

如图解释:

blob.png

和之前介绍的不添加虚拟节点的类似,主要聊下如果宕机之后的情况。 

假设Real1机器宕机,则会发生一下情况。

1、原先存储在虚拟节点V100上的k1数据将迁移到V301上,也就意味着迁移到了Real3机器上。 

2、原先存储再虚拟节点V101上的k4数据将迁移到V200上,也就意味着迁移到了Real2机器上。

结果如下图:

12160867-2438-46F8-B74E-0B8E21F32187.png

这个就解决之前的问题了,某个节点宕机之后,存储及流量压力并没有全部转移到某台机器上,而是分散到了多台节点上。解决了节点宕机可能存在的雪崩问题。

当物理节点多的时候,虚拟节点多,这个的雪崩可能就越小。

PS:只有2个节点的时候,加入虚拟节点没有用。你懂的。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387035.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java学习笔记11 (构造方法 this深探)

在开发中,经常需要在创建对象的同事明确对象对的属性值,比如一个person对象创建的时候就应该有name和age 等属性,那么如何做到在创建对象的同时给对象的属性值初始化值呢? 这里介绍构造方法 1 构造方法没有返回值类型,…

编程算法 - 将排序数组按绝对值大小排序 代码(java)

一个含有多个元素的数组&#xff0c;有多种排序方式。它可以升序排列&#xff0c;可以降序排列&#xff0c;也可以像我们以前章节说过的&#xff0c;以波浪形方式排序&#xff0c;现在我们要看到的一种是绝对值排序。对于数组A,绝对值排序满足以下条件&#xff1a;|A[i]| < …

数据结构09图

第七章 图 Graph 7.1 图的定义和术语 顶点 Vertex V 是顶点的有穷非空集合&#xff0c;顶点数 |V| n VR 两个顶点之间关系的集合&#xff0c;边数 |VR| e 有向图 Digraph <v, w> Arc v Tail / Inital node w Head / Terminal node 无向图 Undigraph <v, w> 必…

aspnetcore源码学习(一)

---恢复内容开始--- 笔者从事netcore相关项目开发已经大半年了&#xff0c;从netcore 1.0到现在3.0大概经过了3年左右的时间&#xff0c;记得netcore刚出来的时候国内相关的学习资料缺乏&#xff0c;限制于外语不大熟练的限制国外的相关书籍看起来相当吃力&#xff0c;于是在当…

评估一个垃圾收集(GC)

在实践中我们发现对于大多数的应用领域&#xff0c;评估一个垃圾收集(GC)算法如何根据如下两个标准&#xff1a; 吞吐量越高算法越好暂停时间越短算法越好 首先让我们来明确垃圾收集(GC)中的两个术语:吞吐量(throughput)和暂停时间(pause times)。 JVM在专门的线程(GC threads…

CAP和BASE理论

几个名词解释&#xff1a; 网络分区&#xff1a;俗称“脑裂”。当网络发生异常情况&#xff0c;导致分布式系统中部分节点之间的网络延时不断变大&#xff0c;最终导致组成分布式系统的所有节点中&#xff0c;只有部分节点之间能够进行正常通信&#xff0c;而另一些节点则不能…

Mysql案例5:取得平均薪资最高的部门的部门名称

一、要求&#xff1a;查询平均薪水最高部门的部门编号 二、背景&#xff1a;当前数据库有employee表和department表&#xff0c;数据分别如下&#xff1a; employee表&#xff1a; department表&#xff1a; 三、难点&#xff1a; 1、需要考虑最高平均薪资可能在多个部门同时出…

Spring 处理过程分析

一、处理过程分析 1、首先&#xff0c;Tomcat每次启动时都会加载并解析/WEB-INF/web.xml文件&#xff0c;所以可以先从web.xml找突破口&#xff0c;主要代码如下&#xff1a;<servlet ><servlet-name >spring-mvc</servlet-name><!-- servlet类 --><…

python全栈开发中级班全程笔记(第二模块、第四章)(常用模块导入)

python全栈开发笔记第二模块 第四章 &#xff1a;常用模块&#xff08;第二部分&#xff09; 一、os 模块的 详解 1、os.getcwd() &#xff1a;得到当前工作目录&#xff0c;即当前python解释器所在目录路径 import os j os.getcwd() # 返回当前pyt…

基于 Spring Cloud 完整的微服务架构实战

本项目是一个基于 Spring Boot、Spring Cloud、Spring Oauth2 和 Spring Cloud Netflix 等框架构建的微服务项目。 作者&#xff1a;Sheldon地址&#xff1a;https://github.com/zhangxd1989 技术栈 Spring boot - 微服务的入门级微框架&#xff0c;用来简化 Spring 应用的初…

ipython notebook 中 wavefile, display, Audio的使用

基于ipython notebook的 wavefile以及display, Audio的使用首先是使用的库使用 wavfile 读取.wav文件使用display,Audio播放声音最近在做声音信号处理的时候&#xff0c;使用了ipython notebook。发现相较于matlab&#xff0c;python在有关生成wave文件和播放音频需要利用到sci…

spring 设计模式

设计模式作为工作学习中的枕边书&#xff0c;却时常处于勤说不用的尴尬境地&#xff0c;也不是我们时常忘记&#xff0c;只是一直没有记忆。 今天&#xff0c;螃蟹在IT学习者网站就设计模式的内在价值做一番探讨&#xff0c;并以spring为例进行讲解&#xff0c;只有领略了其设计…

ROS(Robot Operating System)笔记 : 1.使用launch file在gazebo中生成urdf机器人

ROS(Robot Operating System) 1.使用launch file在gazebo中生成urdf机器人 最近接触了ROS(Robot Operating System),发现单单学习官网http://wiki.ros.org/上的教程&#xff0c;在实际操作过程中仍然会遭遇许多困难。这一系列关于ROS的文章记录了ROS学习过程中可能遇到的问题…

Python音频信号处理 1.短时傅里叶变换及其逆变换

短时傅里叶变换及其逆变换 本篇文章主要记录了使用python进行短时傅里叶变换&#xff0c;分析频谱&#xff0c;以及通过频谱实现在频域内降低底噪的代码及分析&#xff0c;希望可以给同样在学习信号处理的大家一点帮助&#xff0c;也希望大家对我的文章多提意见建议。 一. 短…

Java多线程同步机制

一段synchronized的代码被一个线程执行之前&#xff0c;他要先拿到执行这段代码的权限&#xff0c;在 java里边就是拿到某个同步对象的锁&#xff08;一个对象只有一把锁&#xff09;&#xff1b; 如果这个时候同步对象的锁被其他线程拿走了&#xff0c;他&#xff08;这个线程…

Python音频信号处理 2.使用谱减法去除音频底噪

使用谱减法去除音频底噪 上一篇文章我主要分享了短时傅立叶变换及其逆变换在python中的实现&#xff0c;有兴趣的可以阅读一下该篇文章&#xff0c;地址如下&#xff1a; Python音频信号处理 1.短时傅里叶变换及其逆变换 那么在本篇文章中&#xff0c;我们将利用短时傅立叶变…

线程池的优点

线程池的优点 1、线程是稀缺资源&#xff0c;使用线程池可以减少创建和销毁线程的次数&#xff0c;每个工作线程都可以重复使用。 2、可以根据系统的承受能力&#xff0c;调整线程池中工作线程的数量&#xff0c;防止因为消耗过多内存导致服务器崩溃。 线程池的创建 public…

linux运维、架构之路-jumpserver

linux运维、架构之路-jumpserver 一、jumpserver介绍 是一款由python编写开源的跳板机(堡垒机)系统&#xff0c;实现了跳板机应有的功能。基于ssh协议来管理&#xff0c;客户端无需安装agent。 特点&#xff1a; 完全开源&#xff0c;GPL授权 Python编写&#xff0c;容易再次开…

C++ STL学习笔记 : 1. template 模板函数

本篇文章是学习C STL库的第一篇笔记&#xff0c;主要记录了使用template关键字创建模板函数的方法。 下面用一个非常简单的例子解释模板函数的用法 : #include <iostream> using namespace std;template <class T> void myswap(T& a, T& b) {T temp a;a…

C++ STL学习笔记 : 2. unordered map 容器

本文中&#xff0c;简单总结一下使用unordered map 的心得。unordered_map容器属于STL中关联表的一种&#xff0c;常用的map容器与unordered_map容器在使用中有着很大程度的相同点&#xff0c;在之后的文章中我可能会针对二者的相同点与不同点进行细致的分析&#xff0c;这里就…