存储进阶:怎么才能保证 IO 数据的安全?

来源 | 奇伢云存储

头图 | 下载于视觉中国

写成功了数据就安全了吗?

思考一个问题:写数据做到什么程度才叫安全了?

就是:用户发过来一个写 IO 请求,只要你给他回复了 “写成功了”,那么无论机器发生掉电,还是重启等等之类的,数据都还能读出来。

所以,在我们不考虑数据静默错误的前提下,数据安全的最本质要求是什么?

划重点:那就是数据一定要在非易失性的存储介质里,你才能给用户回复“写成功”。请一定要记住这句话,做存储开发的人员,80% 的时间都在思考这句话。

那么常见的易失性介质和非易失性介质有哪些呢?

易失性介质:寄存器,内存 等;非易失性介质:磁盘,固态硬盘 等;

从上到下,速度递减,容量递增,价格递减。

Linux IO 简述

我们前面提到一个文件的读写方式,标准库的方式和系统调用的方式。无论是哪一种,本质上都是基于文件的一种形式,下面承接了一层文件系统,主要层次:系统调用 -> vfs -> 文件系统 -> 块设备 -> 硬件驱动 。



我们 open 了这个文件,然后 write 数据进去。好,现在思考一个问题,当 write 返回成功之后,数据到磁盘了吗?

答案是:不确定。

因为有文件系统的 cache ,默认是 write back 的模式,数据写到内存就返回成功了,然后内核根据实际情况(比如定期或者脏数据达到某个阈值),异步刷盘。

这样的好处是保证了写的性能,貌似写的性能非常好(可不好嘛,数据写内存的速度),坏处是存在数据风险。因为用户收到成功的时候,数据可能还在内存,这个时候整机掉电,由于内存是易失性介质,数据就丢了。丢数据 是存储最不能接受的事情,相当于丢失了存储的生命线。

动画演示:

那么,怎么保证数据的可靠?

划重点:还是那句话,一定要确保数据落盘之后,才向用户返回成功。

那么怎么才能保证这一点?有以下 3 种方法。

  1. open 文件的时候,用 O_DIRECT 模式打开,这样 write/read 的时候,文件系统的 IO 会绕过 cache,直接跟磁盘 IO;

  2. open 文件的时候,使用 O_SYNC 模式,确保每一笔 IO 都是同步落盘的。或者 write 之后,主动调用一把 fsync ,强制数据落盘;

  3. 读写文件的另一种方式是通过 mmap 函数把文件映射到进程的地址空间,读写进程内存的地址的数据其实是转发到磁盘上去读写,write 之后主动调用一把 msync 强制刷盘;

三种安全的 IO 姿势

 1   O_DIRECT 模式

DIRECT IO 模式能够保证每次 IO 都直接访问磁盘数据,而不是数据写到内存就向用户返回成功的结果,这样才能确保数据安全。因为内存是易失性的,掉电就丢了,数据只有写到持久化的介质才能安心。

动画演示:

读的时候也是直接读磁盘,而不会缓存到内存中,从而也能节省整机内存的使用。

缺点也同样明显,由于每次 IO 都要落盘,那么性能肯定看起来差(但你要明白,其实这才是真实的磁盘性能)。

划重点:使用了 O_DIRECT 模式之后,必须要用户自己保证对齐规则,否则 IO 会报错,有 3 个需要对齐的规则:

  1. 磁盘 IO 的大小必须扇区大小(512字节)对齐

  2. 磁盘 IO 偏移按照扇区大小对齐;

  3. 内存 buffer 的地址也必须是扇区对齐;

c 语言示例:

#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <fcntl.h>
#include <errno.h>
#include <string.h>
#include <stdint.h>extern int errno;
#define align_ptr(p, a) \(u_char *)(((uintptr_t)(p) + ((uintptr_t)a - 1)) & ~((uintptr_t)a - 1))
int main(int argc, char **argv)
{char timestamp[8192] = {0,};char *timestamp_buf = NULL;int timestamp_len = 0;ssize_t n = 0;int fd = -1;fd = open("./test_directio.txt", O_CREAT | O_RDWR | O_DIRECT, 0644);assert(fd >= 0);// 对齐内存地址timestamp_buf = (char *)(align_ptr(timestamp, 512));timestamp_len = 512;n = pwrite(fd, timestamp_buf, timestamp_len, 0);printf("ret (%ld) errno (%s)\n", n, strerror(errno));return 0;
}

编译命令:

gcc -ggdb3 -O0 test.c -D_GNU_SOURCE

生成二进制文件,执行下就知道了,这个是成功的。

sh-4.4# ./a.out
ret (512) errno (Success)

如果为了验证对齐导致的错误,读者朋友可以故意让 io 的偏移或者大小,或者内存 buffer 地址不按照 512 对齐(比如故意让 timestamp_buf 对齐之后的地址减 1,再试下运行),会得到如下:

sh-4.4# ./a.out
ret (-1) errno (Invalid argument)

思考问题:有些童鞋可能会好奇问了?IO 大小和偏移按照 512 对齐我会,但是怎么才能保证 malloc 的地址是 512 对齐的呢?

是啊,我们无法用 malloc 来控制生成的地址。这对这个需求,我们有两个解决办法:

方法一:分配大一点的内存,然后在这个大块内存里找到对齐的地址,只需要确保 IO 大小不会超过最后的边界即可;

我上面的 demo 例子就是如此,分配了 8192 的内存块,然后从里面找到 512 对齐的地址。从这个地址开始往后 512 个字节是绝对到不了这个大内存块的边界的。对齐的目的安全达成。


这种方式实现简单且通用,但是比较浪费内存。

方法二:使用 posix 标准封装的接口 posix_memalign 来分配内存,这个接口分配的内存能保证对齐;

如下,分配 1 KiB 的内存 buffer,内存地址按照 512 字节对齐。

ret = posix_memalign (&buf, 512, 1024);
if (ret) {return -1;
}

思考一个问题:O_DIRECT 模式 的 IO 一般是哪些应用场景?

  • 最常见的是数据库系统,数据库有自己的缓存体系和 IO 优化,无需内核消耗内存再去完成相同的事情,并且可能好心办坏事;

  • 不格式化文件系统,而是直接管理块设备的场景;

 2   标准 IO + sync

sync 功能:强制刷新内核缓冲区到输出磁盘。

在 Linux 的缓存 I/O 机制中,用户和磁盘之间有一层易失性的介质——内核空间的 buffer cache

  • 读的时候会 cache 一份到内存中以便提高后续的读性能;

  • 写的时候用户数据写到内存 cache 就向用户返回成功,然后异步刷盘,从而提高用户的写性能。

读操作描述如下

  1. 操作系统先看内核的 buffer cache 有缓存不?有,那么就直接从缓存中返回;

  2. 否则从磁盘中读取,然后缓存在操作系统的缓存中;

写操作描述如下

  1. 将数据从用户空间复制到内核的内存 cache 中,这时就向用户返回成功,对用户来说写操作就已经完成;

  2. 至于内存的数据什么时候才真正写到磁盘由操作系统策略决定(如果此时机器掉电,那么就会丢失用户数据);

  3. 所以,如果你要保证落盘,必须显式调用了 sync 命令,显式把数据刷到磁盘(只有刷到磁盘,机器掉电才不会导致丢数据);

划重点:sync 机制能保证当前时间点之前的数据全部刷到磁盘。。而关于 sync 的方式大概有两种:

  1. open 的使用使用 O_SYNC 标识;

  2. 显式调用 fsync 之类的系统调用;

方法一:open 使用 O_SYNC 标识

c 语言示例:

#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <fcntl.h>
#include <errno.h>
#include <string.h>
#include <stdint.h>extern int errno;int main(int argc, char **argv)
{char buffer[512] = {0,};ssize_t n = 0;int fd = -1;fd = open("./test_sync.txt", O_CREAT | O_RDWR | O_SYNC, 0644);assert(fd >= 0);n = pwrite(fd, buffer, 512, 0);printf("ret (%ld) errno (%s)\n", n, strerror(errno));return 0;
}

这种方式能保证每一笔 IO 都是同步 IO,一定是刷到磁盘才返回,但是这种使用姿势一般少见,因为这个性能会很差,并且不利于批量优化。

动画演示:

方法二:单独调用函数 fsync

这个则是在 write 之后 fsync 一把数据到磁盘,这种方式实际生产环境用的多些,因为方便业务优化。这种方式对程序员提出了更高的要求,要求必须自己掌握好 fsync 的时机,达到既保证安全又保证性能的目的,这里通常是个权衡点。

比如,你可以 write 10 次之后,最后才调用一把 fsync,这样既能保证刷盘,又达成了批量 IO 的优化目的。

关于这种使用姿势,有几个类似函数,其中有些差异,各自体会下:

// 文件数据和元数据部分都刷盘
int fsync(int fildes);
// 文件数据部分都刷盘
int fdatasync(int fildes);
// 整个内存 cache 都刷磁盘
void sync(void);

动画演示:

 3   mmap + msync

这是一个非常有趣的 IO 模式,通过 mmap 函数将硬盘上文件与进程地址空间大小相同的区域映射起来,之后当要访问这段内存中一段数据时,内核会转换为访问该文件的对应位置的数据。从使用姿势上,就跟操作内存一样,但从结果上来看,本质上是文件 IO


void *
mmap(void *addr, size_t len, int prot, int flags, int fd, off_t offset)int
munmap(void *addr, size_t len);

mmap 这种方式可以减少数据在用户空间和内核空间之间的拷贝操作,当数据大的时候,采用内存映射方式去访问文件会获得比较好的效率(因为可以减少内存拷贝量,并且聚合 IO,数据批量下盘,有效的减少 IO 次数)。

当然,你 write 数据也还是异步落盘的,并没有实时落盘,如果要保证落盘,那么必须要调用 msync ,调用成功,才算持久化落盘。

mmap 的优点:

  • 减少系统调用的次数。只需要 mmap 一次的系统调用,后续的操作都是内存拷贝操作姿势,而不是 write/read 的系统调用;

  • 减少数据拷贝次数;

c 语言示例:

#include <stdio.h>
#include <stdlib.h>
#include <sys/mman.h>
#include <sys/types.h>
#include <unistd.h>
#include <sys/stat.h>
#include <assert.h>
#include <fcntl.h>
#include <string.h>int main()
{int ret = -1;int fd = -1;fd = open("test_mmap.txt", O_CREAT | O_RDWR, 0644);assert(fd >= 0);ret = ftruncate(fd, 512);assert(ret >= 0);char *const address = (char *)mmap(NULL, 512, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);assert(address != MAP_FAILED);// 神奇在这里(看起来是内存拷贝,其实是文件 IO)strcpy(address, "hallo, world");ret = close(fd);assert(ret >= 0);// 落盘确保ret = msync(address, 512, MS_SYNC);assert(ret >= 0);ret = munmap(address, 512);assert(ret >= 0);return 0;
}

编译运行看看吧。

gcc -ggdb3 -O0 test_mmap.c -D_GNU_SOURCE

是不是生成了一个 test_mmap.txt 文件,里面有一句 “hello,world”。

动画演示:

硬件缓存

以上方式保证了文件系统那一层的落盘,但是磁盘硬件其实本身也有缓存,这个属于硬件缓存,这层缓存也是易失的。所以最后一点是,为了保证数据的落盘,硬盘缓存也要关掉。

# 查看写缓存状态;
hdparm -W  /dev/sda 
# 关闭 HDD Cache,保证数据强一致性;避免断电时数据未落盘;
hdparm -W  0 /dev/sda
# 打开 HDD Cache(断电时可能导致丢数据)
hdparm -W  1 /dev/sda

按照内核保证数据落盘,硬件保证关闭缓存,综合以上的 IO 姿势,当你写一笔 IO 落盘之后,才能说数据写到磁盘了,才能保证数据是掉电非易失的。

总结

  1. 数据一定要写在非易失性的存储介质里,你才能给用户回复“写成功”。其他的取巧的方式都是耍流氓、走钢丝;

  2. 本文总结 3 种最根本的 IO 安全的方式,分别是 O_DIRECT 写,标准 IO + Sync 方式,mmap 写 + msync 方式。要么每次都是同步写盘,要么就是每次写完,再调用 sync 主动刷,才能保证数据安全

  3. O_DIRECT 对使用者提出了苛刻的要求,必须要满足 IO 的 offset,length 扇区对齐,内存 buffer 地址也要扇区对齐;

  4. 注意硬盘也有缓存,这个也是易失性的,必须要考虑在内,可以通过 hdparm 命令开关;

终于,你可以安心了,数据经过层层险阻来到磁盘了。嘿嘿,你以为数据就安全了吗?里面的名堂还多着呢,磁盘静默错误坏了怎么办?数据还能抢救一下吗?怎么保证网络传输过程不出问题?怎么保证内存拷贝过程不出问题?以后慢慢跟你说。

☞再见 Nacos,我要玩 Service Mesh 了!☞急!CPU 被挖矿,该怎么找进程?☞从 0 到 1,高德 Serverless 平台建设及实践☞听完姚期智的一句“嘟囔”,他开始第二次创业
点分享点收藏点点赞点在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515058.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计稿生成代码与 Serverless 的前世今生与未来!

简介&#xff1a; 云栖大会云上 Hello World 活动火热进行中&#xff01;每位参与者都可收获一份阿里云出品的全球唯一序列号纪念证书&#xff01; 一场脑洞实验 云栖大会云上 Hello World 活动火热进行中&#xff01;每位参与者都可收获一份阿里云出品的全球唯一序列号纪念证…

ARMS在APM工具选型中的实践

简介&#xff1a; 当前的系统在数字化转型需求以及互联网架构实施的影响下&#xff0c;越来越普遍地使用了微服务架构&#xff0c;我们在享受微服务带来的好处&#xff08;开发效率高&#xff0c; 独立部署&#xff0c; 水平扩展&#xff0c; 故障与资源隔离等等&#xff09;外…

无人机、IoT 设备都有漏洞?专访以色列老牌安全公司 Check Point|拟合

从无序中寻找踪迹&#xff0c;从眼前事探索未来。 2021 年正值黄金十年新开端&#xff0c;CSDN 以中立技术社区专业、客观的角度&#xff0c;深度探讨中国前沿 IT 技术演进&#xff0c;推出年度重磅企划栏目——「拟合」&#xff0c;通过对话企业技术高管大咖&#xff0c;跟踪报…

从零入门 Serverless | 函数计算的可观测性

简介&#xff1a; 本文主要分为三个部分&#xff1a;概述中介绍可观测性的基本概念&#xff0c;主要包括 Logging、Metrics、Tracing 三个方面&#xff1b;然后详细介绍函数计算上的 Logging、Metrics、Tracing&#xff1b;最后以几个常见场景为例&#xff0c;介绍在函数计算中…

宜家:打造新零售时代的智能客户身份管理系统

简介&#xff1a; 宜家选择了阿里云应用身份服务&#xff08;IDaaS&#xff09;来为其提供一个包括统一认证、统一账户管理的CIAM解决方案&#xff0c;为所有前端提供统一的安全、可扩展和可靠的身份认证服务&#xff0c;包括灵活的认证配置、单点登录、多因素认证、社交平台登…

生意参谋牵手Quick BI 让数据再次驱动店铺经营

刚刚过去的一周&#xff0c;超两百家店铺体验了阿里巴巴官方全渠道、全链路、一站式数据平台生意参谋推出的全新功能&#xff0c;自助分析。 作为生意参谋联合Quick BI的初次尝试&#xff0c; “自助分析”面向店铺提供自助分析解决方案&#xff0c;支持店铺个性化数据报表制作…

到底是谁发明了物联网?

来源 | 鲜枣课堂作者 | 小枣君头图 | 下载于视觉中国1965年的越南战场&#xff0c;美军正深陷战争泥潭。突然有一天&#xff0c;北越士兵在胡志明小道发现了一些奇怪的东西。这些东西看上去像树枝&#xff0c;但实际上由金属构成&#xff0c;里面包含一些神秘的电子元件。这些士…

八种经典排序算法总结

前言 算法和数据结构是一个程序员的内功&#xff0c;所以经常在一些笔试中都会要求手写一些简单的排序算法&#xff0c;以此考验面试者的编程水平。下面我就简单介绍八种常见的排序算法&#xff0c;一起学习一下。 一、冒泡排序 思路&#xff1a; 比较相邻的元素。如果第一…

docker onlyoffice7.1.1 word excel ppt在线编辑、在线预览_部署01

文章目录1. 创建onlyoffice容器2. 启动在线案例3. 开放防火墙4. 浏览器验证5. 上传文件测试6. 在线编辑7. 测试主页面1. 创建onlyoffice容器 下面命令作用&#xff1a;拉取镜像、映射宿主机端口和docker内部端口、创建宿主机和docker容器挂载目录、拉取指定版本的onlyoffice/d…

漫画 | 程 序 员 脱 单 指 南

本文纯属娱乐&#xff0c;切勿模仿&#xff0c;模仿后果难以评估&#xff0c;务必小心再小心&#xff0c;谢谢&#xff01;

基于JindoFS+OSS构建高效数据湖

为什么要构建数据湖 大数据时代早期&#xff0c;Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展&#xff0c;所有云厂商都在不断完善自家的对象存储&#xff0c;来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。由于…

docker onlyoffice7.1.1 word excel ppt在线编辑、在线预览_添加中文字体和中文字号_02

文章目录一、 onlyoffice添加中文字体1. 下载字体2. 上传字体3. 删除原版自带字体4. 字体复制5. 安装字体6. 重启容器7. 清除缓存8. 效果验证二、 onlyoffice添加中文中文字号2.1. 拷贝配置文件2.2. 编辑配置2.3. 上传配置2.4. 配置覆盖2.5. 重启容器2.6. 效果验证一、 onlyoff…

重磅报告 | 《中国企业2020:人工智能应用实践与趋势》

文章导读 AI设计师“鹿班”每秒可设计海报8000张&#xff0c;赋能30万商家备战“双十一”&#xff1b;光伏电池生产商天合光能运用人工智能算法将A品率提升7%&#xff0c;创造利润数千万&#xff1b;AI帮助优酷分析舆情选出爆款影视剧IP&#xff0c;打造了10天播放量超过60亿的…

OnlyOffice 修改文件大小限制

文章目录1. 拷贝配置到宿主机2. 配置调整3. 配置覆盖4. 容器重启5. 启动案例测试6. 查看日志1. 拷贝配置到宿主机 docker cp 58f75f6ca6f7:/etc/onlyoffice/documentserver/default.json ./2. 配置调整 vim default.json默认下载大小"maxDownloadBytes": 104857600,…

启明星辰集团:文化筑底,战略引领信息安全之路

4月30日&#xff0c;“启明星辰集团年度业绩说明与战略发布会”在上海成功举办&#xff0c;启明星辰集团总裁严立、集团CFO张媛、集团董秘姜朋出席会议&#xff0c;为投资者、用户、媒体解读企业未来战略布局&#xff0c;就行业状况、生产经营、财务状况进行说明&#xff0c;探…

【数据湖加速篇】 —— 如何利用缓存加速服务来提升数据湖上机器学习训练速度

简介&#xff1a; JindoFS提供了一个计算侧的分布式缓存系统&#xff0c;可以有效利用计算集群上的本地存储资源&#xff08;磁盘或者内存&#xff09;缓存OSS上的热数据&#xff0c;从而减少对OSS上数据的反复拉取&#xff0c;消耗网络带宽。 背景介绍 近些年&#xff0c;机…

OnlyOffice 二次开发定制化部署

文章目录一、与前准备1. 功能点总览2. 上传中文字体3. 上传镜像包4. 创建目录5. 字体挂载6. 加载镜像二、与前准备2.1. 创建容器2.2. 浏览器验证2.3. 在线编辑一、与前准备 1. 功能点总览 功能兼容性说明并发20限制去除√并发数999中文字体√41种常用字体中文字号√文件下载大…

何为“边缘计算”?

来源 | 无敌码农责编 | 寇雪芹头图 | 下载于视觉中国在云原生除了K8S、微服务&#xff0c;还有...?中和大家聊了下关于云原生的话题&#xff0c;在云原生的概念中比较明确的一个特点就是云原生是基于云计算的。在这种模式下用户的计算请求会被发送到云端服务进行处理&#xff…

用尽每一寸GPU,阿里云cGPU容器技术白皮书重磅发布!

简介&#xff1a; 云原生已经成为业内云服务的一个趋势。在云原生上支持异构计算有助于提升CPU的利用率。一文分析业内主流GPU共享方案&#xff0c;并告诉你阿里云cGPU牛在哪里&#xff01;阿里云异构计算推出的cGPU&#xff08;container GPU&#xff09;容器技术&#xff0c;…

钉钉轻松顶住信息洪流的原因,竟然是它

简介&#xff1a; 在9月18日云栖大会上&#xff0c;阿里云智能高级技术专家木洛就为我们详细介绍了&#xff0c;表格存储Tablestore是如何助力钉钉消息存储架构的升级&#xff0c;帮助钉钉顶住持续增长的流量。 今年的疫情来势汹汹&#xff0c;新冠病毒作为2020最具代表性的黑…