-4006-505-646

HP EVA6400磁盘离线阵列瘫痪数据恢复案例


一、故障描述

1、设备清单

设备名称           设备型号       数量

HPEVA                6400             1

FC硬盘                                   175

2、故障描述

硬盘离线数量超过上限,因此导致阵列瘫痪,上层LUN无法正常使用。

二、检测磁盘

由于存储是因为阵列中某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现六块硬盘有物理故障,其他硬盘没有物理故障。

三、备份数据

考虑到,数据的安全性以及可还原性,在做数据恢复之前需要对所有源数据做备份,使用dd命令或winhex工具将所有磁盘都镜像成文件,之后的恢复操作均不对原始设备操作。

四、故障分析

1、分析故障原因

由于前面步骤并检测到磁盘有物理故障,由此推断可能是由于某些磁盘读写不稳定和物理故障导致故障发生。因为HP EVA 6400控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,HP EVA6400控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。 

2、分析RSS组信息重构位图

HP EVA 6400存储的LUN的位图信息是基于RSS组的,因此需要先分析底层RSS组的信息,然后根据分析的信息重构位图。根据RSS组信息分析每一块数据盘并从数据盘上提取位图信息,在进行重新组合,重构位图信息。

3、分析RSS组损坏硬盘信息

由于存储是硬盘离线过多导致的崩溃,所以就需要确认在那一个RSS组里面离线的硬盘超过上限,因为在一个RSS组中,只允许离线一块硬盘。存储崩溃的话,在RSS组中离线的硬盘就超过一块,就会出现先离线和后离线的硬盘顺序。因此需要分析这硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚自主开发的校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的位图信息是最好的,因此可以明确最先掉线的硬盘了。

4、根据位图信息提取LUN

根据分析得到的位图信息,在每一块数据盘上进行数据块的组合,根据分析的位图信息将lun最新的状态虚拟出来。然后针对这些信息编写相应的程序,对所有数据MAP做解析,然后根据数据MAP并导出所有的LUN。 

五、Reiser FS文件系统解析

1、解析Reiser FS文件系统

仔细分析导出来的lun,并根据Reiser FS文件系统的底层结构校验此文件系统是否完整。分析发现底层Reiser FS文件系统果然有问题,原来当时存储瘫痪的同时此文件在系统正在执行IO操作,因此导致部分文件系统元文件没有更新以及损坏。使用北亚自主研发的Reiser FS文件系统解析程序,直接把lun里面的数据库文件全部导出,并通过NFS共享的方式,把恢复出来的数据共享到验证服务器应用环境中。

六、检测数据库文件

1、恢复所有用户文件

把所有的恢复出来的数据文件,以NFS共享的方式,共享到验证服务器的应用环境中,来检测数据库文件的正确和完整性。

2、检测数据库文件是否完整

使用数据库文件检测工具“dbv”检测每个数据库文件是否完整,发现并没有错误。再使用北亚自主研发的数据库检测工具(检验更严格),发现有部分数据库文件和日志文件校验不一致,安排高级数据库工程师对此类文件进行修复,并在次校验,发现数据库底层结构不正确,无法在进行修复。

七、数据验证

由用户方配合,启动数据库,对最新的数据记录以及历史数据记录进行验证,并且有用户安排远程不同部门人员进行远程验证,发现部分文件不能正常使用。

八、数据恢复结论

在存储之前使用的时候,数据访问就比较缓慢,就有可能是硬盘不稳定,出现坏道和I/O错误,所以部分不能正常使用的数据库,是由于硬盘的坏道和I/O错误导致的。