筆者所在單位的應(yīng)用系統(tǒng)很多,大多是運(yùn)行在VMWARE ESXi虛擬機(jī)系統(tǒng)之上,并通過光交換機(jī)連接到存儲(chǔ)系統(tǒng),其中存儲(chǔ)系統(tǒng)包括了日立HDS存儲(chǔ)和IBM存儲(chǔ)。
今年國慶期間的某個(gè)下午,用戶反映公司辦公自動(dòng)化系統(tǒng)即NOTES系統(tǒng)內(nèi)部郵箱打不開,查NOTES服務(wù)器發(fā)現(xiàn)系統(tǒng)崩潰,NOTES服務(wù)器虛擬機(jī)無法運(yùn)行,同時(shí)發(fā)現(xiàn)有一些應(yīng)用系統(tǒng)也無法進(jìn)行聯(lián)機(jī)。
由于NOTES系統(tǒng)事關(guān)每個(gè)用戶,重要性不言而喻,因此即著手通過備份系統(tǒng)恢復(fù)NOTES郵件系統(tǒng),反復(fù)恢復(fù)多次均因系統(tǒng)讀寫錯(cuò)誤而恢復(fù)失敗。由于當(dāng)時(shí)系統(tǒng)崩潰檢查時(shí),發(fā)現(xiàn)所有設(shè)備,包括虛擬機(jī)主機(jī)、存儲(chǔ)系統(tǒng)的指示燈顯示均正常,無任何硬件故障報(bào)警信號(hào),所以一直未懷疑是存儲(chǔ)系統(tǒng)中的磁盤陣列發(fā)生了硬件故障,經(jīng)過了一天時(shí)間的測(cè)試排查,終于排除了其他的可能性,初步判斷雖然沒有硬件報(bào)警,但是可能是磁盤陣列發(fā)生了故障。

圖1 IBM DS4700管理界面狀態(tài)顯示
故障第二日,聯(lián)系日立HDS存儲(chǔ)廠商并要求廠商上門處理。筆者部門在其他整列上完成了新建NOTES虛擬服務(wù)器并恢復(fù)OA郵件系統(tǒng)服務(wù),只是用戶無法瀏覽、查詢歷史郵件。
由于正值“十一”國慶期間,廠家維護(hù)響應(yīng)較慢,故障第三日上午日立HDS存儲(chǔ)的廠家維護(hù)人員來公司檢查,給出結(jié)論是HDS的外部存儲(chǔ)無法連接。排查外部存儲(chǔ)時(shí),首先發(fā)現(xiàn)IBM DS4700存儲(chǔ)故障。當(dāng)時(shí)DS4700存儲(chǔ)第一個(gè)磁盤陣列的RAID5結(jié)構(gòu)中損壞兩塊硬盤,配備的熱備HOT SPARE盤并未起作用。經(jīng)過對(duì)存儲(chǔ)日志的分析發(fā)現(xiàn),兩塊硬盤是由于同時(shí)損壞或損壞間隔時(shí)間間隔極短,導(dǎo)致熱備盤沒有時(shí)間去頂替壞盤。圖1是IBM DS4700管理界面的狀態(tài)顯示。
檢查另一個(gè)外部存儲(chǔ)IBM DS5020時(shí),發(fā)現(xiàn)情況和IBM DS4700類似,手動(dòng)連接IBM DS5020存儲(chǔ)管理端口后,發(fā)現(xiàn)整個(gè)存儲(chǔ)狀態(tài)顯示為不可用,由于該存儲(chǔ)磁盤陣列也是RAID5結(jié)構(gòu),同樣出現(xiàn)了兩塊硬盤故障導(dǎo)致熱備盤沒有頂替的情況。
由于原NOTES虛擬服務(wù)器數(shù)據(jù)都放在IBM DS5020存儲(chǔ)上,確認(rèn)IBM DS5020 故障是本次NOTES郵件系統(tǒng)崩潰且無法及時(shí)恢復(fù)的直接原因。圖2是IBM DS5020管理界面的狀態(tài)顯示。
在這種情況下,單位火速請(qǐng)數(shù)據(jù)恢復(fù)公司派技術(shù)人員分批將IBM DS4700、IBM DS5020上的硬盤拆卸送去杭州,請(qǐng)數(shù)據(jù)恢復(fù)公司對(duì)硬盤進(jìn)行檢測(cè)和數(shù)據(jù)恢復(fù)。經(jīng)數(shù)據(jù)恢復(fù)公司開盤檢測(cè)后,發(fā)現(xiàn)IBM DS4700存儲(chǔ)磁盤物理損壞,有劃痕,無法恢復(fù)。幸運(yùn)的是IBM DS5020存儲(chǔ)磁盤沒有物理損壞,可以通過技術(shù)手段恢復(fù)數(shù)據(jù)。

圖2 IBM DS5020管理界面狀態(tài)顯示
由于保存郵件系統(tǒng)的存儲(chǔ)磁盤數(shù)據(jù)量較大,數(shù)據(jù)檢測(cè)和數(shù)據(jù)恢復(fù)時(shí)間都需要較長的時(shí)間。經(jīng)過一個(gè)多星期的時(shí)間,IBM DS5020恢復(fù)數(shù)據(jù)終于送回到單位,并將現(xiàn)場(chǎng)數(shù)據(jù)拷貝完成,當(dāng)日下午恢復(fù)了原NOTES虛擬服務(wù)器,并將新、老NOTES郵件系統(tǒng)的郵件進(jìn)行了合并,至此用戶可以瀏覽、查詢所有歷史郵件。
直接原因:
兩塊磁盤同時(shí)硬件損壞和邏輯損壞,造成系統(tǒng)熱備盤沒能頂上,導(dǎo)致整個(gè)存儲(chǔ)停止運(yùn)行。但是硬盤內(nèi)部盤面的劃痕無從查證。
間接原因:
1.磁盤損壞后,陣列控制器未提示報(bào)警,造成日常巡檢無法第一時(shí)間發(fā)現(xiàn)。
2.IBM DS4700存儲(chǔ)陣列服役時(shí)間已超10年,IBM DS5020存儲(chǔ)陣列服役時(shí)間也已超6年,長周期7*24小時(shí)的連續(xù)運(yùn)行增加了硬盤的故障概率。
3.在對(duì)比了其他案列以及本單位的現(xiàn)狀,存儲(chǔ)上的邏輯壞塊極可能是由于IBM存儲(chǔ)整列與日立HDS存儲(chǔ)控制器之間算法有別,導(dǎo)致作為外部存儲(chǔ)的IBM DS4700、DS5020同時(shí)出現(xiàn)多塊硬盤邏輯壞塊,且日立HDS的統(tǒng)一存儲(chǔ)管理造成相連外部存儲(chǔ)故障而未能提示報(bào)警信息。
1.解除 DS4700、DS5020存儲(chǔ)陣列與HDS存儲(chǔ)控制器之間的管理關(guān)系,采用各存儲(chǔ)直接映射服務(wù)器的方式,每天進(jìn)行磁盤狀態(tài)檢查,確保指示燈均正常指示。
2.購買新的磁盤對(duì)原存儲(chǔ)陣列磁盤進(jìn)行全部更換,確保磁盤為新產(chǎn)品并保證一致性。
3.對(duì)磁盤陣列框架擇機(jī)進(jìn)行更新,保證整個(gè)存儲(chǔ)系統(tǒng)的設(shè)備匹配和性能可靠。
4.考慮對(duì)數(shù)據(jù)量大的NOTES郵件服務(wù)器進(jìn)行單機(jī)布置,并盡可能加大服務(wù)器磁盤容量,降低服務(wù)器虛擬化存在的故障風(fēng)險(xiǎn)。