引言:由于運行時間較長,硬盤損壞,導致拷貝數(shù)據(jù)非常慢,給相關(guān)業(yè)務科室工作帶來困擾。而且長此以往,其他正常硬盤必將因負載過大而崩盤。那么如何快速找到損壞的硬盤,并更換新的硬盤呢?請看筆者是如何做的。
筆者單位某前置服務器(塔式服務器),具有三個500GB硬盤做 RAID 5,主板無獨立的陣列卡,硬盤非熱拔插,屬于老式服務器。由于運行時間較長,檢查設(shè)備時發(fā)現(xiàn)硬盤壞了一個,那么如何能快速找到損壞的硬盤,盡快更換新硬盤呢?
RAID 5工作原理是,數(shù)據(jù)以塊為單位分布到各個硬盤上。RAID 5不對數(shù)據(jù)進行備份,而是把數(shù)據(jù)和與其相對應的奇偶校驗信息存儲到組成RAID 5的各個磁盤上,并且奇偶校驗信息和相對應的數(shù)據(jù)分別存儲于不同的磁盤上。當RAID 5的一個磁盤數(shù)據(jù)損壞后,利用剩下的數(shù)據(jù)和相應的奇偶校驗信息去恢復被損壞的數(shù)據(jù)。
用簡單的語言來表示RAID 5,至少使用3塊硬盤(也可以更多)組建RAID 5磁盤陣列,當有數(shù)據(jù)寫入硬盤的時候,按照1塊硬盤的方式就是直接寫入這塊硬盤的磁道,如果是RAID 5,這次數(shù)據(jù)寫入會根據(jù)算法分成3部分,然后寫入這3塊硬盤,寫入的同時還會在這3塊硬盤上寫入校驗信息,當讀取寫入的數(shù)據(jù)的時候會分別從3塊硬盤上讀取數(shù)據(jù)內(nèi)容,再通過檢驗信息進行校驗。當其中有1塊硬盤出現(xiàn)損壞的時候,就從另外2塊硬盤上存儲的數(shù)據(jù)可以計算出第3塊硬盤的數(shù)據(jù)內(nèi)容。也就是說RAID 5這種存儲方式只允許有一塊硬盤出現(xiàn)故障,出現(xiàn)故障時需要盡快更換。當更換故障硬盤后,在故障期間寫入的數(shù)據(jù)會進行重新校驗。如果在未解決故障又壞1塊,那就是災難性的了。
了解了相關(guān)的理論后,實戰(zhàn)開始。情景是這樣的:三個500GB硬盤做的RAID 5,啟動自檢的時候尾號1514的硬盤出現(xiàn)錯誤。如何快速找到損壞的尾號為1514硬盤呢?(如圖1所示)
首先,拆開主機箱蓋,經(jīng)過認真觀察,筆者發(fā)現(xiàn)所有硬盤的編號全部以條碼的形式貼在硬盤的頂端(如圖2所示),很方便快捷的就找到了損壞的硬盤。
其次,確認硬盤的型號,在市場上尋找相同型號的硬盤。為了避免不可預知的故障,請大家最好購買同一品牌同一型號的硬盤。當然,如果因為時間的關(guān)系,找不到同樣型號的硬盤,那就請找同一品牌的,并且新硬盤的參數(shù)要大于已損壞硬盤的參數(shù)。筆者所購新硬盤尾號為8056。注意,新購的硬盤不需要另外去格式化。

圖1 自檢尾號出現(xiàn)錯誤

圖2 硬盤編號貼在硬盤頂端

圖3 新硬盤被正常識別
第三,也是最重要的一個步驟。找到新硬盤后,請大家一定要先備份服務器上的相關(guān)資料。筆者單位服務器安裝了SQL2000數(shù)據(jù)庫,每天有新數(shù)據(jù)寫入,所以筆者通知了相關(guān)業(yè)務科室,停機2小時,備份了數(shù)據(jù)庫及相關(guān)資料。為什么要這樣操作呢?原因就是新的硬盤換上去后,數(shù)據(jù)需要重建。如果在重建的過程中,再壞硬盤的話,那數(shù)據(jù)就是毀滅性的。所以備份相關(guān)資料就顯得非常非常重要了。即使在更換硬盤的過程中再損壞硬盤也不要緊,重新安裝服務器即可。
第四,更換新硬盤。將尾號為1514硬盤取下,把新購硬盤安裝上去,蓋好面板,重啟動源開關(guān)。如圖3所示更換成功,新購尾號為8056硬盤被正常識別。操作系統(tǒng)正常運行后,經(jīng)測試服務器各項功能均正常。
最后,總結(jié)兩點注意:第一點,如果是數(shù)據(jù)庫服務器,在備份數(shù)據(jù)資料的同時,一定要詳細記錄下服務器的計算機名、IP地址、安裝的軟件、數(shù)據(jù)庫名和相關(guān)用戶名、密碼等。萬一在更換的過程中出現(xiàn)異常,還有挽回的余地。
第二點,更換之前,請詳細了解你的服務器參數(shù)和配置,一定要咨詢服務器品牌的售后服務部及相關(guān)工程師,確認清楚后方可動手操作。
總之,充分做好各種準備,應對更換過程中有可能出現(xiàn)的各種異常問題。