-4006-505-646

 IBM  DS5020硬盘离线导致阵列失效成功修复案例


一、故障描述

1、架构环境概述

存储阵列:一台EMC NX4机头 + 四台EMC AX4扩展柜组成的NAS网络存储系统

二、故障分析

1、存储结构分析

四台EMC AX4存储扩展柜上分别创建了raid5存储阵列,每个阵列中划分若干个虚拟磁盘(mdisk),然后将各个raid阵列上的虚拟磁盘(mdisk)加入到同一个池(pool)中,从这个虚拟硬盘池(pool)中,划分出各个逻辑卷空间,创建文件系统,分配给用户使用。

2、故障分析

3号AX4扩展柜上的0硬盘号和4号硬盘离线,导致其所属disk pool14 raid阵列失效,从而导致部分卷无法访问,经分析得知,0号硬盘较早离线,4号硬盘离线时间较晚。

三、实施方案

方案一:

1、准备工作:

按顺序,先将机头断电,然后将扩展存储断电,对故障存储上失效阵列的全部成员硬盘进行标记并将硬盘拔下

2、备份操作:

使用MRT数据恢复工具对故障阵列所有成员盘进行全盘镜像备份(0号盘由于最早离线,所以不进行操作)

3、替换硬盘:

准备一块和故障硬盘相同型号、批次的完好硬盘,借助MRT数据恢复工具,更改完好硬盘的SN和WWN,使其和故障硬盘(4号硬盘)一致,然后将故障盘备份写入到更改过SN和WWN的完好硬盘中,以保证存储正确将替换盘识别为原raid成员盘。

4、存储修复

将备份完成的故障阵列的成员盘和替换盘插回到原存储柜上(0号盘不插回),按顺序先对扩展存储通电,然后对机头通电。登陆EMC AX4和NX4存储管理界面对故障存储进行修复,使raid组和逻辑卷处于可用状态。

5、数据恢复

访问恢复的逻辑卷,将其中数据拷贝至其他服务器或存储。

方案二:

1、准备工作:

同方案一,按顺序将存储机头和扩展柜断电。

2、查看损坏的逻辑卷,并进入到EMC NX4和EMC AX4存储的管理界面,分析各个损坏的卷分别存在于哪些raid阵列上,然后将相应阵列的成员盘进行标记,从存储中拔下。

3、备份操作:

对损坏卷对应的raid阵列全部成员盘进行全盘镜像备份。

4、镜像分析:

使用专业数据恢复软件winhex对镜像文件进行分析,获取各组raid信息,重组raid结构,创建虚拟raid。

5、卷结构分析:

对重建出的虚拟raid进行分析,分析各个raid上的虚拟磁盘结构,分析各个损坏卷的底层结构,并结合UXFS文件系统结构,对底层数据进行分析。

6、数据恢复:

由开发人员,根据数据分析的结果,编写相应的程序,对损坏卷的数据进行恢复。

四、实施情况

1、使用方案一进行恢复时,对4号硬盘进行备份,发现备份速度非常慢,经分析,4号故障硬盘磁头有损坏。征得客户同意后将4号故障硬盘带回公司进行开盘操作,更换磁头,继续进行镜像备份。

2、方案一实施完成后,大部分卷可以正常访问,由客户对已恢复卷进行备份。之后访问“QCD部文件盘”时,发现无法访问,情况如图:

blob.png

后请教EMC原厂的工程师进行分析,也无法解决,最后决定实施方案二,对该损坏卷进行恢复。

3、对损坏卷“QCD部文件盘”所关联的两组raid所有成员盘进行全盘备份完成后,分析后重组虚拟raid。由于该网络存储系统底层结构和所使用的UXFS文件系统较为复杂,需经过大量的实验分析和尝试性恢复。

4、经过长时间的分析与测试,由于硬盘中还存在其他坏道,该卷上的文件系统损坏严重,大量节点与文件系统信息丢失,导致该卷中的数据最终无法恢复。

blob.png


blob.png

五、数据验证

方案一实施完成后,由客户对已恢复的损坏卷进行访问,并对其中数据进行验证。验证无误后,由客户对已恢复卷中的数据进行备份导出。

六、恢复总结

1、更改硬盘的固件参数,代替原故障硬盘插回存储进行上线操作,该方式恢复后的raid状态并不稳定,应抓紧对raid中的数据进行备份操作。

2、由于硬盘存在坏道,并且4号故障硬盘损坏严重,导致文件系统大量重要信息丢失,最终“QCD部文件盘”卷中数据无法恢复。

4006-505-646