VMware vSAN OSA存储策略 - 基于虚拟机的分布式对象存储

简介

博客:https://songxwn.com/

存储策略 (Storage Policy) 是管理员定义的一组规则,这组规则定义了数据对象在 vSAN 存储上是如何保存的,存储策略定义了数据存储的可靠性、访问性能等特性。vSAN 提供了基于存储策略的存储管理 SPBM (Storage Policy-Based Management),管理员创建多个存储策略,利用 SPBM 来对 vSAN 存储进行灵活地管理,SPBM 是 vSAN 的一个重要特色。

本文简单介绍了vSAN 的OSA架构,从vSphere 5.5版本开始到7.0,只支持OSA,8.0以后除了支持OSA外,还支持ESA(Express Storage Architecture)。

OSA为传统架构,支持SSD+HDD的混合组,或者容量SSD+高速SSD的全闪存组。有容量和性能存储分层。

ESA为全新闪存架构,要求使用4块以上的NVME SSD,512G内存、25G网络。无存储分层。

起源

据说啊OSA架构是借鉴了路坦力(Nutanix)的设计,大概是2013年,SSD的价格还很贵,这个设计就是利用SSD的高性能,作为读写缓存,提升超融合存储的性能,算是个划时代的产品。VMware的vSAN借鉴了这个思路,当年路坦力的产品依附在VMware平台上,而VMware几乎是抄袭了路坦力,把路坦力气的嘚嘚的,最后导致路坦力和VMware翻脸。

vSAN 基于虚拟机为对象的超融合分布式存储

Distributed RAID:

vSAN将数据按一定的规则(Storage Policy)分布到集群各个物理主机上,确保数据可以在发生主机或存储设备故障的时候可以恢复,类似于磁盘整理上的RAID技术,可以理解成分布式的RAID

Objects:

vSAN是一个对象存储,虚拟机是由多个对象组成,如虚拟机磁盘(VMDK),存储虚拟机配置的VM home namespace,namespace这种对象,可以理解成目录,vSAN的性能数据,ISO文件,内容库这些都是以namesapce的类型存储的;当虚拟开机的时候,VM swap object会被创建;当故障发生的时候,vSAN会创建叫“durablility componet”的对象,以存储新写入的数据。

每个虚拟机都可以应用一个存储策略,这代表每台虚拟机冗余方法都可以不一样。而数据分布也是每台都是不同,分布在不同容量硬盘上。

Component

为了Object可以在故障的时候恢复,所以vSAN将Object切成更小的块(chunk),一个object由多个componet构成,可以理解为下图

重要的存储策略概念

对象磁盘条带数 (Number of disk stripes per object)

把虚机对象分成多个条带 (stripe) 分布存储在多个硬盘上,这样有助于提高数据读取的性能。在下图的例子中,所示的虚机被分为两个条带 a 和 b 进行存储;因为同时又采用了 Raid-1,所以虚机对象又被保存了两个副本,一个副本在服务器 ESX01 的磁盘组中,另一个副本存放在位于服务器 ESX02 和 ESX03 上的磁盘组中。(其实就相当于 RAID 10

对象条带数实际上就是 Raid-0 的概念,只不过我们在定义 Raid-0 的配置时,更多使用的是条带宽度 (stripe width) 的概念,条带宽度是指每一块条带块的大小,条带数量取决于组成 Raid-0 阵列的磁盘数量。vSAN 中对象条带数缺省为1 (建议不要改动这个值),最大值为12。把这个值设置成大于1能够提高系统性能,但是会引起更多的资源消耗。

vSAN-RAID1+0

读缓存预留 (Flash read cache reservation %)

无论是机械硬盘和 SSD 组成的混合架构,还是由高速NVME SSD 和普通SAS/SATA SSD 组成的全闪存架构,vSAN 都会把两种设备中性能更高的那种设备用作读写缓存(全闪只会用于写缓存),从而来提高整个系统的性能。这个参数指定了为虚机对象保留的缓存 SSD 空间占比 (相对于虚机大小),缺省为0% ;建议一般情况下不要改动这个值,仅当特定情况下需要提高性能时才改动。

vSAN OSA 混合硬盘组里面的缓存盘划分写缓冲区(30%)和读缓存区(70%)。

vSAN OSA 全闪存硬盘里面的缓存盘只用于写缓存,最高利用容量为 600G / 1.6TB。(vSAN8 可扩展到1.6TB)

vSAN OSA 缓存和容量硬盘比应该是 1/10。

对象空间预留 (Object space reservation %)

vSphere 在创建虚机时虚拟硬盘有三种格式可以选择:

  • Thick Provision Lazy Zeroed(厚置延迟置零):一开始就分配足额空间给虚拟硬盘,但是等真正写入数据时才初始化(写 0);

  • Thick Provision Eager Zeroed(厚置快速置零):一开始就分配足额空间给虚拟硬盘,并且完全初始化(写 0),性能最优;

  • Thin Provision(精简置备):根据虚拟硬盘的实际使用来分配空间,但在性能上要比上面两种差一些。

一般为了节省存储空间的话,会使用精简置备。

对象空间预留参数定义了创建虚机对象时,如果虚机采用的是 Thin Provision 方式的话,必须为虚机保留的存储空间比例 (相对于虚机的大小)。

可以忍受的故障数 FTT (Failure to Tolerate)

FTT (Failure to Tolerate) 是定义数据保护等级的一个重要参数,FTT = 1 意味着可以忍受一个节点的故障。跟 FTT 紧密相关的另一个参数是数据保护方法 FTM (Failure Tolerance Method),FTM 也定义了数据布局的方式,vSAN 中的 FTM 主要有 Raid-1、Raid-5 和 Raid-6 这几种。

Raid-1 就是镜像 (Mirroring),在另一台服务器的磁盘组上保存数据的副本,当其中一台服务器发生故障时,也可以保证数据不丢失。下图展示了 Raid-1 的工作原理,同一个数据对象存在两个副本分别存放在两台服务器上,这种情况下对应 FTT = 1。

Raid-5 跟传统的 Raid 5 磁盘阵列类的概念类似,只不过阵列不是由同一台服务器上磁盘组成,而是由多台服务器上的磁盘组成,通过增加奇偶校验块来提高数据的容错能力。Raid-5 最少要求4个服务器节点,可以实现 FTT = 1 的容错要求。跟 Raid-1 相比,Raid-5 可以至少节省 30% 的存储空间。(在OSA架构下,性能会有一定下降。)

Raid-6 的工作原理跟 Raid-5 类似,只不过采用了双份的奇偶校验块,从而使数据的容错能力进一步提高。Raid-6 最少要求6个服务器节点,可以实现 FTT = 2 的容错要求。跟 Raid-1 相比,Raid-6 可以至少节省 50% 的存储空间。(在OSA架构下,性能会有一定下降。)

vSAN 中的 Raid-5/6 也称之为纠删码 (Erasure Coding),我们可以把它理解成一种跨服务器的 Raid 阵列实现。

在ESA架构中 Raid-5/6 的性能被优化到和RAID1 接近。

IOPS (Input / Output Per Second) 限制

IOPS 是衡量存储性能的一个重要指标,vSAN 通过为虚机指定 IOPS 限制值,来控制虚机可以获得的存储访问 QoS (Quality of Service) 服务质量等级。通过这个值的设定可以限制某些非关键应用虚机对于 vSAN 性能的占用,从而保证关键应用虚机的存储访问性能。

校验和 (checksum) 验证

校验和 (checksum) 是在数据处理和数据通信领域中,用于校验数据正确性的一种方法:把数据的各个位数累加起来,在处理数据结束之后根据这个数值判断是否接收到的数据是否正确,如果数值匹配那么说明数据被正确地处理了。校验和通常是以十六进制为数制表示的形式来进行计算,如十六进制串: 0102030405060708 的校验和是 24 (十六进制,十进制累加结果为36)。

vSAN 在写入数据时同时也写入该数据的校验和,作为日后比对的依据。打开该功能时,vSAN 在后台执行磁盘扫描 (Disk Scrubbing),如果通过校验和验证发现了错误,则重建数据,能够自动检测和解决静态磁盘错误 (silent disk errors)。

强制调配 (Force Provisioning)

当存储策略中设定的规则不能满足时,vSAN 也可以强制为虚机分配存储空间,保证在一些极端条件下 (如存储空间不够) 也能够为虚机分配空间,让系统能够正常地运行下去。

存储策略的定义和使用

定义存储策略

存储策略必须在虚机创建之前建立,这样才可以在虚机创建时选择使用;当然 vSAN 有缺省的存储策略,如果没什么特殊需求的话,就可以使用缺省的策略。下图示意了虚机存储策略是如何被创建的,创建之后就可以在 web client 管理控制台中看到 vSAN 集群中现有的存储策略。

使用存储策略

接下来就可以在创建虚机的时候指定它所使用的存储策略了,或是修改现有虚机的存储策略。下图示意了修改一个虚机存储策略的过程,管理员修改了虚机的存储策略后,vSAN 会根据新的策略来调整虚机数据的存储布局,以符合新的存储策略的要求。

检查存储策略的合规性 (Compliant)

管理员也可以去检查虚机对象的存储是否符合存储策略的规定,合规 (Compliant) 的意思就是 vSAN 存储满足了存储策略定义的要求。在存储空间资源短缺的情况下,也会产生不合规的情况,例如要求采用镜像来保存虚机对象,如果其他服务器上没有足够空间的话,结果只保存了一份虚机对象副本。如果出现不合规情况的话,就意味着数据对象没有得到应有的安全保护,也有可能是存储策略设置得不合理,管理员就要立即采取行动,找出造成违规的原因。

vSAN规划注意

  • 至少单台物理服务器256G 内存以上。

  • 每台服务器CPU是同型号,最少是同代。建议近三年发布的。

  • 要求有单独的接入交换机(方便网络接入)。

  • 要求集群数量最少三台,推荐为四台以上。

  • vSAN 集群网络之间延迟要求小于1毫秒,最好独立VLAN。

  • 要求有单独两块硬盘做RAID1 作为系统盘,独立于vSAN。

  • vSAN 至少要求一个SSD+一个HDD,推荐为两块SDD 作为缓存层,两块HDD作为容量层,作为两个硬盘组。

  • 缓存硬盘和容量硬盘的总容量比应该为1:10

  • vSAN网络要求10G起步,推荐使用25G*2

  • 缓存盘和容量盘要求直通或RAID0,推荐用SAS卡接入,有一定队列深度要求。

  • 集群中所有vSAN主机相互访问延迟不应该大于1MS.

  • 网卡要求四个10G网卡,其中两个作为管理、虚拟机迁移、vSAN网络。其他两个为业务网卡。

  • 单个阵列卡,RAID和直通模式不能混用,否则vSAN会有问题。vSAN告警

  • vSAN 规定每个磁盘组最少需要一块SSD作为缓存+一块HDD/SSD作为容量层,最多一块+7块HDD/SSD作为容量层。每台主机不能多于 5 个磁盘组。(vSAN会占用内存、 HA也会预留内存)

  • vSAN缓存盘,30%作为写缓存 70%作为读缓存。每个磁盘组仅可以有一个缓存盘。

  • vSAN OSA 混合硬盘组,缓存层和容量层的大小比应该最小为 1:10

  • vSAN OSA 全闪存硬盘组,缓存盘最大利用率为600G。可增加使用到1.6TB

  • vSAN ESA 架构,需要每台至少有512G内存,四个NVME SSD,两个25G网卡。

  • vSAN可以部署RDMA 增加性能,但需要网卡+交换机支持。

硬件兼容性查询:https://www.vmware.com/resources/compatibility/search.php

延伸阅读

将 VMware vSphere / vSAN 软件与 Intel 的最新硬件平台技术相结合,可以为用户交付最佳的超融合架构平台,帮助用户简化数据中心管理,降低采购和运维成本,轻松应对企业在数字化转型中面对的各种挑战。(AMD目前的服务器CPU性价比更高。)

  • VMware vSAN 是最佳的存储方案平台,具有管理简便、高性能、低成本、易扩展的特点,在 vSAN 平台上可以支持任何类型的应用。

  • Intel 至强处理器提供最强计算能力,基于傲腾 (Optane) 和 3D NAND 技术的固态盘是理想的高速缓存,以太网融合网卡提供稳定的网络带宽和低网络延迟。(傲腾 产品线已经被放弃了。)

参考文档

https://blogs.vmware.com/china/2018/12/29/vsan-%E5%AD%98%E5%82%A8%E7%AD%96%E7%95%A5%E6%BC%94%E7%A4%BA/

https://communities.vmware.com/t5/VMware-vSAN-Discussions/cache-size-in-vSAN-6-2/td-p/2225513

https://zhuanlan.zhihu.com/p/686508940

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/776808.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于java实现的高校二手交易平台

开发语言:Java 框架:ssm 技术:JSP JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7(一定要5.7版本) 数据库工具:Navicat11 开发软件:eclipse/myeclip…

无服务数据库是未来的趋势吗?

无服务数据库是未来的趋势吗? 无服务器数据库是未来的趋势吗?无服务器数据库与传统云数据库有何不同? Amazon Aurora Serverless(如下图所示)是 Amazon Aurora 的一种配置方式,可以按需自动扩展。 Aurora…

针对ETC系统的OBE-SAM模块设计方案

ETC系统组成及工作原理 ETC系统由前端系统和后台数据库系统组成,总体的架构如下图所示: 前端系统包含安装在汽车挡风玻璃上的车载单元(On Board Unit,简称OBU)、路侧单元(Roadside Unit,简称RS…

深入解析Spring MVC: 原理、流程【面试版】

什么是SpringMV? 1.是一个基于MVC的web框架; 2.是spring的一个模块,是spring的子容器,子容器可以拿父容器的东西,但是反过来不可; 2.SpringMVC的前端控制器是DispatcherServlet,用于分发请求。使开发变…

python--切片

1.切片: 切片是编程语言为有序序列(sequence)准备的,用来切割或者截取某个片段 一个完整的切片是包含三个参数和两个冒号" : " ,用于分隔三个参数(start_index、end_index、step)。当只有一个“:”时,默认第…

深度学习(三)vscode加jupyter notebook插件使用

0.前言 哎呀,我本次的实验是在新电脑上使用的,之前的笔记本上的环境什么的我都是很久以前弄好了的,结果到了新电脑上我直接忘了是该怎么配的了,不过万幸,花了点时间,查查补补,现在总算是可以了。…

elasticsearch 6.8.x 索引别名、动态索引扩展、滚动索引

文章目录 引言索引别名(alias)创建索引别名查询索引别名删除索引别名重命名索引别名 动态索引(index template,动态匹配生成索引)新建索引模板新建索引并插入数据索引sys-log-202402索引sys-log-202403索引sys-log-202…

Llama模型下载

最近llama模型下载的方式又又变了,所以今天简单更新一篇文章,关于下载的,首先上官网,不管在哪里下载你都要去官网登记一下信息:https://llama.meta.com/llama2 然后会出现下面的信息登记网页: 我这里因为待…

MoonBit MeetUp回顾——狼叔:我在期待下一个十年,目前没有找到更好的方向,所以从月兔开始!

狼叔在他的发言中,分享了自己对前端与后端技术、个人职业发展的思考,以及对独立开发者和技术栈变化的探索。 狼叔讲述了在大厂工作的经验,包括面对裁员和职业焦虑的挑战。狼叔强调了编码技能的重要性:“首先,编码是一项…

【LeetCode热题100】236. 二叉树的最近公共祖先(二叉树)

一.题目要求 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个节点 p、q,最近公共祖先表示为一个节点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可…

[SpringCloud] Feign Client 的创建 (一) (四)

文章目录 1.FeignClientsRegistrar2.完成配置注册2.1 registerDefaultConfiguration方法2.2 迭代稳定性2.3 registerFeignClients方法 1.FeignClientsRegistrar FeignClientsRegistrar实现ImportBeanDefinitionRegistrar接口。 2.完成配置注册 public void registerBeanDefinit…

浏览器工作原理与实践--作用域链和闭包 :代码中出现相同的变量,JavaScript引擎是如何选择的

在上一篇文章中我们讲到了什么是作用域,以及ES6是如何通过变量环境和词法环境来同时支持变量提升和块级作用域,在最后我们也提到了如何通过词法环境和变量环境来查找变量,这其中就涉及到作用域链的概念。 理解作用域链是理解闭包的基础&#…

Verilog语法之assign语句学习

assign语法主要是对组合逻辑的变量进行赋值的,就是把一个变量赋值给另一个变量,被复制的变量必须是wire类型的参数。 从仿真结果可以看出,data_in变量的值赋值给了data_out,assign语法就是赋值没有任何延迟,data_in是什么值&#…

Java数据结构与集合原码

数据结构与集合原码 文章目录 数据结构与集合原码1. 数据结构基本概念1.1 概念1.2 数据结构的研究对象 2. 常见存储结构2.1 数组2.2 链表2.2.1 单向链表2.2.2 双向链表 2.3 二叉树2.4 栈(stack)2.5 队列 3. 二叉树3.1 二叉树的遍历3.2 经典二叉树 4. List实现类源码分析4.1 Arr…

redis和redisson实现分布式锁

redis和redisson实现分布式锁 基于setnx命令的分布式锁基于set命令的分布式锁redission看门狗分布式锁 基于setnx命令的分布式锁 1. 加锁 使用 Redis 实现分布式锁,最直接的想法是利用 setnx 和 expire 命令实现加锁。 在 Redis 中,setnx 是「set if …

1.排列数组奇数在前偶数在后

文章目录 大家好&#xff0c;我是晓星航。今天为大家带来的是 排列数组奇数在前偶数在后 相关的讲解&#xff01;&#x1f600; public static void swap(int[] array) {int left 0;int right array.length - 1;while (left < right) {while (left < right &&…

IDEA2023版本整合SpringBoot热部署

✅作者简介&#xff1a;大家好&#xff0c;我是Leo&#xff0c;热爱Java后端开发者&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;Leo的博客 &#x1f49e;当前专栏&#xff1a; 开发环境篇 ✨特色专栏&#xff1a; M…

手撕算法-最小覆盖子串

描述 分析 滑动窗口。 参考力扣官方的题解思路 本问题要求我们返回字符串 s 中包含字符串 t 的全部字符的最小窗口。我们称包含 t 的全部字母的窗口为「可行」窗口。 我们可以用滑动窗口的思想解决这个问题。在滑动窗口类型的问题中都会有两个指针&#xff0c;一个用于「延伸…

javascript基础练习题之渔夫捕鱼

一、题目要求&#xff1a;根据用户输入的年、月、日判断是打鱼还是晒网。代码中使用了isLeapYear函数来判断输入的年份是否为闰年&#xff0c;getDays函数来计算输入日期是一年中的第几天&#xff0c;然后根据计算结果来确定是打鱼还是晒网。最后代码通过弹窗提示用户是打鱼还是…

吴渔夫:AI技术引领游戏产业革命,小团队有大作为

AI技术的突飞猛进&#xff0c;游戏产业正在经历一场前所未有的变革。中国网游先锋&#xff0c;火石控股创始人吴渔夫&#xff0c;近日在接受第一财经日报的采访&#xff0c;对AI在游戏制作中的应用和未来趋势有着深刻的见解。 吴渔夫指出&#xff0c;AI技术的引入极大地降低了游…