NVMe系统内存结构 - Meta Data
- 1 为什么需要数据保护
- 2 Meta Data定义
- 3 Meta Data传输方式
- 4 常见Meta Data使用场景
- 4.1 不带数据保护信息
- 4.2 带数据保护信息“数据写”流程
- 4.3 带数据保护信息“数据读”流程
- 4.4 SSD内部加入数据保护信息
- 4.5 SSD内部根据数据保护信息验证数据
本文属于《 NVMe协议基础系列教程》之一,欢迎查看其它文章。
1 为什么需要数据保护
端到端:一端是主机的内存空间,一端是SSD的闪存空间。
我们需要保护的是用户数据。
主机与SSD之间,数据传输的最小单元是逻辑块(Logical Block,LB),每个逻辑块大小可以是512/1024/2048/4096等字节,主机在格式化SSD的时候,逻辑块大小就确定了,之后两者就按这个逻辑块大小进行数据交互。
数据从主机到NVM(Non-Volatile Memory,目前一般是闪存,后面我就用闪存来代表NVM),首先要经过PCIe传输到SSD的控制器,然后控制器把数据写入闪存;反过来,主机想从闪存上读取数据,首先要由SSD控制器从闪存上获得数据,然后经过PCIe把数据传送给主机,如下图所示。
主机与SSD之间,数据在PCIe上传输的时候,由于信道噪声的存在(说白了就是存在干扰),可能导致数据出错;另外,在SSD内部,控制器与闪存之间,数据也可能发生错误。为确保主机与闪存之间数据的完整性,即主机写入闪存的数据与最初主机写的数据一致,以及主机读到的数据与最初从闪存上读上来的数据一致,NVMe提供了一个端到端的数据保护功能。
2 Meta Data定义
除了逻辑块数据本身,NVMe还允许每个逻辑块带个助理,叫做元数据(Meta Data)。
这个助理的职责,NVMe虽然没有明确要求,但如果数据需要保护,这个助理就必须能充当保镖的角色。
Meta Data结构,如下所示:
- Guard:16比特的CRC(Cyclic Redundancy Check),它是逻辑块数据算出来的;
- Application Tag:这块区域对控制器不可见,为主机所用;
- Reference Tag:将用户数据和地址(LBA)相关联,防止数据错乱。
CRC校验能够检测出数据是否有错,后者则是保证数据不会出现张冠李戴的问题,比如我读LBA x,结果却读到了LBA y的数据。NVMe数据保护机制能发现这类问题。
因此,Meta Data本质就是,保存了CRC和数据块对应的LBA等冗余信息,进行数据校验,以便及时发现数据错误。
在NVM(I/O)命令和Admin命令的23:16位,Metadata Pointer (MPTR) 字段,就是指向了该命令所对应用户数据的Meta Data区域,如下所示:
命令中的Metadata Pointer应该Dword对齐。
3 Meta Data传输方式
Meta Data有两种传输方式:
- Meta Data和逻辑块数据,放一起传输
- Meta Data和逻辑块数据,分开传输
第一种,是作为逻辑块数据的扩展,和逻辑块数据放一起传输,这是贴身保镖。
第二种,就是逻辑块数据和Meta Data分别传输。虽不是贴身保护,但保镖在附近时刻注意着主人的安全,属于非贴身保镖。
NVMe over Fabrics只支持Meta Data和逻辑数据放一起,即贴身保护。
4 常见Meta Data使用场景
配了Meta Data的数据,如下图所示(以512字节的数据块为例)。
4.1 不带数据保护信息
在主机与SSD数据传输过程中,NVMe可以让每个逻辑块数据都带上保镖,可以让它们不带保镖,也可以在某个治安差的地方把保镖带上,然后在治安环境好的地方不用保镖。
主机向SSD写入数据,不带保镖,如下图所示。
什么情况下可以不带保镖?
如果你是普通人,完全没有必要配保镖,原因有:
①你请不起保镖;
②谁有空来伤害你呢?
③太平盛世。
如果是无关紧要的数据(如小电影),完全没有必要进行端到端的保护,毕竟数据保护需要传输额外的数据(每个逻辑数据块需要至少额外8字节的数据保护信息,有效带宽减少),还需要SSD做额外的数据完整性校验(耗时,性能变差)。最关键的是在PCIe通道上,本来就有LCRC的保护,有必要的话还可以使能ECRC,这个跟NVMe关系不大,就不展开了。
4.2 带数据保护信息“数据写”流程
主机向SSD写入数据,全程带上保镖的情况。
图中的PI(Protection Information,保护信息)就是传说中的保镖。
主机数据通过PCIe传输到SSD控制器时:
- SSD控制器,会重新计算逻辑块数据的CRC,与保镖的CRC比较,如果两者匹配,说明数据传输是没有问题的;否则,数据就是有问题的,这个时候,SSD控制器就会给主机报错。
- 除了CRC校验,还要检测有没有张冠李戴的问题,通过检测
Reference Tag,看看这个没有CRC问题的数据,是不是该主机写命令对应的数据,如果不匹配,同样需要向主机报错。
如果数据检测没有问题,SSD控制器会把逻辑块数据和PI一同写入闪存中。
将PI一同写入闪存中有什么意义呢?
在读取的时候有意义。
4.3 带数据保护信息“数据读”流程
SSD控制器读闪存的时候,会对读上来的数据进行CRC校验,如果写入的时候带有PI,这个时候就能检测出读上来的数据是否正确,从而决定这个数据要不要传给主机。
有人要说,对闪存来说,数据不是受ECC保护吗?为什么还要额外进行数据校验?
没错,写入闪存中的数据是受ECC保护,这个没有问题,但在SSD内部,数据从控制器到闪存之间,一般都要经过DRAM或者SRAM,在之前SSD控制器写入闪存,或者这个时候从闪存读数据到SSD控制器,可能就会发生比特翻转之类的小概率事件,从而导致数据不正确。如果在NVMe层再做个CRC保护,这类数据错误就能被发现了。
除了数据在SSD内发生反转,由于固件问题或者别的原因,还是会出现数据张冠李戴的问题:数据虽然没有CRC错误,但是它不是我们想要的数据。因此,还需要做Reference Tag检测。SSD控制器通过PCIe把数据传给主机,主机端也会对数据进行校验,看SSD返回的数据是否有错。
4.4 SSD内部加入数据保护信息
主机往SSD写入数据,半程带保镖的情况。
这种情况,主机与控制器端之间是没有数据保护的,因为PCIe已经能提供数据完整性保证了。
但在SSD内部,控制器到闪存之间,由于乱七八糟的原因(数据反转,LBA数据不匹配),存在数据错误的可能,NVMe要求SSD控制器在把数据写入闪存前,计算好数据的PI,然后把数据和PI一同写入闪存。
4.5 SSD内部根据数据保护信息验证数据
SSD控制器读闪存的时候,会对读上来的数据进行PI校验,如果没有问题,剥除PI,然后把逻辑块数据返回给主机;如果校验失败,说明数据存在问题,SSD需要向主机报错,如下图所示。
数据端到端保护是NVMe的一个特色,其本质就是在数据块中加入CRC和数据块对应的LBA等冗余信息,SSD控制器或者主机端利用这些信息进行数据校验,然后根据校验结果执行相应的操作。加入这些检错信息的好处是能让主机与SSD控制器及时发现数据错误,副作用就是:
1)每个数据块需要额外的至少8字节的数据保护信息,有效带宽减少:数据块越小,带宽影响越大。
2)SSD控制器需要做数据校验,影响性能。
参考文档:
- 《深入浅出SSD-固态存储核心技术原理与实战》