RAID 5更換損壞硬盤實戰(zhàn)

2017-11-22 02:41:54

網(wǎng)絡(luò)安全和信息化 2017年1期

引言：由于運行時間較長，硬盤損壞，導致拷貝數(shù)據(jù)非常慢，給相關(guān)業(yè)務科室工作帶來困擾。而且長此以往，其他正常硬盤必將因負載過大而崩盤。那么如何快速找到損壞的硬盤，并更換新的硬盤呢？請看筆者是如何做的。

筆者單位某前置服務器（塔式服務器），具有三個500GB硬盤做 RAID 5，主板無獨立的陣列卡，硬盤非熱拔插，屬于老式服務器。由于運行時間較長，檢查設(shè)備時發(fā)現(xiàn)硬盤壞了一個，那么如何能快速找到損壞的硬盤，盡快更換新硬盤呢？

RAID 5工作原理是，數(shù)據(jù)以塊為單位分布到各個硬盤上。RAID 5不對數(shù)據(jù)進行備份，而是把數(shù)據(jù)和與其相對應的奇偶校驗信息存儲到組成RAID 5的各個磁盤上，并且奇偶校驗信息和相對應的數(shù)據(jù)分別存儲于不同的磁盤上。當RAID 5的一個磁盤數(shù)據(jù)損壞后，利用剩下的數(shù)據(jù)和相應的奇偶校驗信息去恢復被損壞的數(shù)據(jù)。

用簡單的語言來表示RAID 5，至少使用3塊硬盤（也可以更多）組建RAID 5磁盤陣列，當有數(shù)據(jù)寫入硬盤的時候，按照1塊硬盤的方式就是直接寫入這塊硬盤的磁道，如果是RAID 5，這次數(shù)據(jù)寫入會根據(jù)算法分成3部分，然后寫入這3塊硬盤，寫入的同時還會在這3塊硬盤上寫入校驗信息，當讀取寫入的數(shù)據(jù)的時候會分別從3塊硬盤上讀取數(shù)據(jù)內(nèi)容，再通過檢驗信息進行校驗。當其中有1塊硬盤出現(xiàn)損壞的時候,就從另外2塊硬盤上存儲的數(shù)據(jù)可以計算出第3塊硬盤的數(shù)據(jù)內(nèi)容。也就是說RAID 5這種存儲方式只允許有一塊硬盤出現(xiàn)故障，出現(xiàn)故障時需要盡快更換。當更換故障硬盤后，在故障期間寫入的數(shù)據(jù)會進行重新校驗。如果在未解決故障又壞1塊，那就是災難性的了。

了解了相關(guān)的理論后，實戰(zhàn)開始。情景是這樣的：三個500GB硬盤做的RAID 5，啟動自檢的時候尾號1514的硬盤出現(xiàn)錯誤。如何快速找到損壞的尾號為1514硬盤呢？（如圖1所示）

首先，拆開主機箱蓋，經(jīng)過認真觀察，筆者發(fā)現(xiàn)所有硬盤的編號全部以條碼的形式貼在硬盤的頂端（如圖2所示），很方便快捷的就找到了損壞的硬盤。

其次，確認硬盤的型號，在市場上尋找相同型號的硬盤。為了避免不可預知的故障，請大家最好購買同一品牌同一型號的硬盤。當然，如果因為時間的關(guān)系，找不到同樣型號的硬盤，那就請找同一品牌的，并且新硬盤的參數(shù)要大于已損壞硬盤的參數(shù)。筆者所購新硬盤尾號為8056。注意，新購的硬盤不需要另外去格式化。

圖1 自檢尾號出現(xiàn)錯誤

圖2 硬盤編號貼在硬盤頂端

圖3 新硬盤被正常識別

第三，也是最重要的一個步驟。找到新硬盤后，請大家一定要先備份服務器上的相關(guān)資料。筆者單位服務器安裝了SQL2000數(shù)據(jù)庫，每天有新數(shù)據(jù)寫入，所以筆者通知了相關(guān)業(yè)務科室，停機2小時，備份了數(shù)據(jù)庫及相關(guān)資料。為什么要這樣操作呢？原因就是新的硬盤換上去后，數(shù)據(jù)需要重建。如果在重建的過程中，再壞硬盤的話，那數(shù)據(jù)就是毀滅性的。所以備份相關(guān)資料就顯得非常非常重要了。即使在更換硬盤的過程中再損壞硬盤也不要緊，重新安裝服務器即可。

第四，更換新硬盤。將尾號為1514硬盤取下，把新購硬盤安裝上去，蓋好面板，重啟動源開關(guān)。如圖3所示更換成功，新購尾號為8056硬盤被正常識別。操作系統(tǒng)正常運行后，經(jīng)測試服務器各項功能均正常。

最后，總結(jié)兩點注意：第一點，如果是數(shù)據(jù)庫服務器，在備份數(shù)據(jù)資料的同時，一定要詳細記錄下服務器的計算機名、IP地址、安裝的軟件、數(shù)據(jù)庫名和相關(guān)用戶名、密碼等。萬一在更換的過程中出現(xiàn)異常，還有挽回的余地。

第二點，更換之前，請詳細了解你的服務器參數(shù)和配置，一定要咨詢服務器品牌的售后服務部及相關(guān)工程師，確認清楚后方可動手操作。

總之，充分做好各種準備，應對更換過程中有可能出現(xiàn)的各種異常問題。