漳州市消防支隊 周武龍
?
關于raid1服務器硬盤故障的處理方法
漳州市消防支隊 周武龍
【摘要】本文介紹了磁盤陣列(Redundant Arrays of Independent Disks,RAID)的基本規范,重點介紹了RAID 1的基本概況并對raid1服務器硬盤的故障進行分析和排查,以圖片的方式直觀地闡明raid1服務器硬盤故障的處理方法。
【關鍵詞】RAID;鏡像;磁盤冗余
磁盤陣列(Redundant Arrays of Independent Disks,RAID),有“獨立磁盤構成的具有冗余能力的陣列”之意。RAID技術主要包含RAID 0 ~RAID 50等數個規范,它們的側重點各不相同,常見的規范有如下幾種:RAID 0、RAID 1、RAID 01/10、RAID 2、RAID 3、RAID 4、RAID 5、RAID 6、RAID 7、RAID 5E、RAID 5EE、RAID 50。
各種RAID技術都有一些差異,由于單位服務器采用的是RAID 1,因此下面我重點介紹RAID 1。RAID 1稱為磁盤鏡像,原理是把一個磁盤的數據鏡像到另一個磁盤上,也就是說數據在寫入一塊磁盤的同時,會在另一塊閑置的磁盤上生成鏡像文件,在不影響性能情況下最大限度的保證系統的可靠性和可修復性上,只要系統中任何一對鏡像盤中至少有一塊磁盤可以使用,甚至可以在一半數量的硬盤出現問題時系統都可以正常運行,當一塊硬盤失效時,系統會忽略該硬盤,轉而使用剩余的鏡像盤讀寫數據,具備很好的磁盤冗余能力。雖然這樣對數據來講絕對安全,但是成本也會明顯增加,磁盤的利用率為50%,像我單位服務器采用2塊300GB容量的硬盤來講,可利用的磁盤空間僅為300GB。另外,出現硬盤故障的RAID1系統不再可靠,應當及時的更換損壞的硬盤,否則剩余的鏡像盤一旦也出現問題,那么整個系統就會崩潰。更換新盤后原有數據會需要時間同步鏡像,但是外界對數據的訪問不會受到影響,只是這時整個系統的性能有所下降。因此,RAID 1多用在保存關鍵性的重要數據的場所。
服務器硬盤是服務器數據存儲的媒介,存儲著電腦系統資源和重要的信息和數據。一旦發生故障應及時進行排除避免造成嚴重后果。單位的刀片服務器采用dell(PowerEdge M1000e)機箱,dell 610服務器單元,出現故障時感嘆號指示燈常亮,1號硬盤右邊指示燈亮紅燈(如圖1所示),很明顯1號硬盤出故障,為進一步確認是磁盤故障我用戴爾工程師提供的專門測試軟件進行測試并將測試的結果發給他們分析,確認是硬盤故障。為確保服務器數據的安全,及時更換1號硬盤迫在眉睫。剛好單位原先有備用服務器單元和硬盤,硬盤的規格和出故障的硬盤一樣,于是就想用備用的硬盤來替換故障的硬盤。

圖1
一般情況下raid1服務器硬盤故障的處理方法可以按照以下步驟來進行:
步驟一:一般的操作方法是將硬盤有故障的刀片服務器關機,將故障硬盤取出,將規格相同,容量大于或等于故障硬盤(一般是用容量相等的,容量太大就浪費了)的空硬盤插好,重新開機系統會自動檢測并重新將0號硬盤的數據鏡像到1號硬盤(前提是RAID 1正常的情況下)。由于單位的刀片服務器RAID 1有故障無法按照安裝步驟一進行,因此只能按照(步驟二)手動進行設置。
步驟二:重新啟動刀片服務器按CTRL+C進入到SAS Configuration utility(如圖2),這時在RAID Properties會發現里面只顯示有一個硬盤(如圖3),沒有找到第二塊硬盤。于是進入SAS Topology-Direct Attach Devices項(如圖4)。查看這里顯示的已連接的硬盤信息,在這里將新連接的硬盤激活并重新啟動系統,系統會自動檢測并完成同步鏡像工作,在同步鏡像的時候0號硬盤和1號硬盤綠色指示燈會頻繁閃爍,這個過程需要花一定的時間具體要看磁盤數據量的大小。

圖2

圖3

圖4