服务器数据恢复环境&故障:
一台某品牌X3650M3服务器,服务器中有一组raid5磁盘阵列,上层采用zfs文件系统。
服务器未知原因崩溃,工作人员排查故障后发现服务器的raid5阵列中有两块硬盘离线导致该阵列不可用,服务器内的数据丢失。
数据恢复工程师在现场对故障服务器raid5阵列中的磁盘进行硬件故障检测,经过检测发现该raid5阵列中离线的两块硬盘均无硬件问题。
服务器数据恢复过程:
1、将故障服务器raid5阵列中所有磁盘编号后取出,以只读方式进行扇区级的全盘镜像,镜像完成后按照编号将所有磁盘还原到原服务器中,随后数据分析和数据恢复操作均在镜像文件进行,确保原始数据不被修改和破坏。
2、基于镜像文件对所有磁盘镜像文件进行分析,发现该raid5阵列中有两块热备盘,2块硬盘离线时只有一块热备盘成功激活,此时raid5阵列处于缺盘状态,数据并未同步。数据恢复工程师通过分析获取到原raid5阵列中的硬盘分布规律、raid条带、盘序等raid信息。
3、根据分析获取到的RAID信息分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,数据恢复工程师初步判断此硬盘是最先掉线的。使用北亚企安自主开发的RAID校验程序对这个条带进行校验,发现除掉刚才分析的那块硬盘后所得出的数据是最好的,因此可以确定最先掉线的那块硬盘。
4、根据获取到的raid信息重组raid5阵列,在重组出的raid5阵列中分析lun的分配情况和数据块情况。使用北亚企安自主开发的软件导出lun并解析文件系统时提示报错,重新调试软件后报错情况依旧,可以排除由于软件问题所导致的文件系统解析报错。手动检查导出的文件后发现导致解析报错的原因是文件系统元文件损坏。经过检测发现元文件损坏原因是服务器瘫痪时zfs文件系统正在进行IO操作。由于软件无法解析文件系统,于是数据恢复工程师手动修复zfs文件系统中损坏的元文件后再使用软件进行解析。
5、将手动修复好的文件系统再次使用软件进行解析,这次成功解析所有文件节点和文件目录结构,然后将数据导出。
6、验证恢复出来的数据没有发现问题。交由用户方对恢复出来的数据进行检查,经过仔细检查,用户方确认恢复出来的数据完整可用。本次数据恢复工作完成。