郭 群
(遼寧對外經貿學院信息管理系,遼寧 大連116052)
隨著計算機技術的發展,系統硬件成本在不斷下降,一方面系統管理已經逐步成了影響系統擁有成本和用戶滿意的最重要因素之一,存儲是數據持續長久保存的地方,計算機系統管理工作絕大部分就集中在存儲管理上。磁盤陣列(RAID)是存儲系統的核心部件,存儲管理主要是基于RAID的容量分配、系統備份恢復、負載平衡等。另一方面CPU處理速度提升迅速,而磁盤驅動器的數據傳輸速率卻無法大幅提高,兩者速度上的不匹配嚴重制約了系統整體性能的提升,磁盤陣列很好地緩解了這一矛盾,磁盤陣列通過使用多磁盤并行同時存取數據來大幅提高存儲系統的數據吞吐量。
獨立磁盤冗余陣列(Redundant Arrays of Independent Disks)是為了集成多個小的廉價磁盤來代替大的昂貴磁盤、在單個磁盤失效時不影響數據的可用性而開發的基于冗余的數據保護技術。它是一種由多塊廉價磁盤構成的冗余陣列,可以充分發揮出多塊硬盤的并發存儲優勢,提升吞吐率、增大容量,能夠提供容錯功能確保數據可用性。
安全預警技術是針對存儲設備潛在故障的監測和獲取技術,利用各種傳感技術、S.M.A.R.T技術、磁盤增長缺陷表技術等對磁盤內盤片、磁盤陣列內磁盤、磁盤陣列間磁盤等各級存儲設備進行實時檢測,并借助預先收集整理磁盤故障的經驗數據、系統的性能信息、實時檢測到的故障信息等,對各級存儲設備的運行狀態進行判斷,獲取預警信息,以觸發相應級別的數據保護。
安全預警技術應滿足兩個性能指標。故障檢測的精確度:用于衡量一個故障檢測結果的正確程度,一般應控制在80%以上。故障檢測模塊對存儲系統總體性能的影響:因為采用故障檢測模塊后,系統的性能下降到15%以下;因此安全預警技術必須考慮系統的當前狀態,盡量降低它對存儲系統的影響。
安全預警系統主要包括兩個部分:故障檢測模塊、故障決策模塊。故障檢測模塊主要用于磁盤、陣列健康狀況信息檢測,充分利用各種傳感技術、S.M.A.R.T技術、磁盤增長缺陷表技術對系統中的不同設備對象進行檢測,包括單盤檢測、陣列狀態監測、環境檢測等。故障決策模塊負責實時采集系統健康信息,除定時例測外,還可以預先收集整理磁盤故障的經驗數據,融合系統的性能信息和檢測到的故障信息,在預定義的決策規則下形成三個層次的健康狀態信息,包括扇區層次、磁盤層次和陣列層次,即形成一個基于規則的故障決策庫,能根據事先設定的健康閾值或其他預警策略發出預警信息。其故障預測應該保證一定的正確性。
安全預警技術的一個難點是在對存儲設備系統故障進行預測時,需要綜合考慮磁盤故障信息、設備生命周期性能、磁盤驅動器自檢測技術、磁盤S.M.A.R.T參數、標準I/O接口以及存儲設備的工作溫度、耗能、器件工作狀態等因素,并針對預警目標進行優化,保證預警的準確性,避免故障預警錯誤造成的設備資源浪費。
根據已有的存儲設備故障信息形成故障決策庫,并結合故障決策庫提出完善的能檢測不同存儲設備潛在故障的預警檢測接口規范,能收集整個存儲系統的狀態信息,幫助識別系統中性能不好或即將產生故障的存儲節點或磁盤,為提高存儲系統的可靠性提供預警信息。
預警技術(Early Warning Technique,EWT),結合故障決策庫判斷存儲設備的狀態,給存儲系統增加了狀態監控和主動防御的特性。傳統存儲系統中數據的可靠性通常是采用冗余技術或者備份技術來實現的,如果存儲設備出現了如風扇損毀、磁盤溫度過高、誤碼率過高、性能下降等問題,系統通常不會進行主動處理,而是等待設備或者磁盤完全故障后才通過數據重建或熱切換到鏡像節點的方式來保持存儲業務的持續性,大大增加了數據的損毀風險。EWT引入了主動監控的思想,它對存儲系統進行及時控管,定時對系統中的各個存儲節點工作溫度、節點能耗、數據誤碼率、傳輸性能、器件工作狀態等健康指標進行分析,當健康指標超出預定閾值時,及時產生預警信息,系統隨后自動啟動相關的數據保護措施。EWT的監控功能還可以動態地分析數據在存儲系統中的分布和負載特征,為存儲系統進行自適應的數據遷移提供決策依據。
EWT存儲設備健康預警監測接口如圖1所示。在磁盤陣列內部,由專門的磁盤健康監測器負責實時收集各類磁盤狀態數據,如磁盤S.M.A.R.T信息、磁盤增長缺陷數據、健康備份保留扇區使用情況、磁盤響應時間以及陣列機箱內輔助傳感器收集的工作環境信息(如磁盤外部溫度、震動、功耗等)。根據已建立的故障預測模型結合故障決策庫生成預警信息,并基于預警閾值觸發相應的數據可靠性方案:當磁盤部分介質即將損壞時,磁盤健康檢測器將觸發內部自愈程序進行修復;當預測到磁盤即將產生故障時,立即向磁盤陣列發出磁盤預警信息,觸發磁盤的數據保護。陣列健康監測器負責收集與磁盤陣列健康相關的狀態信息(包括各成員磁盤運行狀況、陣列運行狀態、機箱溫度、功耗、風扇轉速、陣列I/O性能、響應時間等),當陣列健康監測器監測到陣列運行狀況欠佳時,將結合故障決策庫生成預警信息,以指導數據在盤列之間進行保護。

圖1 EWT存儲設備健康預警監測接口
當存儲系統產生預警后,可將需要保護的數據主動遷移到合適磁盤位置。將出現故障磁盤的數據遷移到合適位置,分三種情況:(1)盤內數據自愈技術;(2)磁盤間數據移植技術;(3)盤陣間數據遷移技術。盤內數據自愈針對一個磁盤內的扇區數據,盤間數據重建針對盤陣內不同磁盤間的數據;盤陣級數據遷移針對盤陣間的數據遷移。
EWT的故障防御性主要體現在它可以針對某個具體的存儲系統進行參數配置,包括I/O負載量、聯機工作時間、最高工作溫度、工作能耗、性能指標、器件工作狀態等。當EWT監控到存儲系統的潛在故障時,它會對該存儲節點、存儲設備采用降級工作的策略,即降低其工作量、減少其工作時間、提高風扇轉速、降低磁盤溫度等。主動防御給存儲系統提供了及早發現及早解決的特性,可有效延長存儲設備的壽命,避免故障擴大化,提高數據可靠性。另外,可擴展性是EWT的目標,EWT技術可由磁盤節點擴展到對整個存儲網絡的監控和防御。EWT能夠對存儲網絡環境中的資源進行監控,不僅能監控存儲節點,還主動控管其他資源,使得整個存儲系統具有更好的自適應性。EWT使用的標準可與業界的服務器管理標準以及存儲管理標準兼容,確保EWT技術的應用范圍。
隨著信息技術的迅速發展,信息和數據在不斷增加,人們對硬盤數據存儲可靠性的關注程度也逐漸升溫。信息和數據對企業非常重要,導致存儲數據的保護任務加重。在這種情況下,如何對磁盤陣列等存儲系統進行安全預警成為一個挑戰。磁盤陣列安全預警技術引入了主動監控的思想,它對存儲系統進行及時的控管,定時對系統中的各個存儲節點工作溫度、節點能耗、數據誤碼率、傳輸性能、器件工作狀態等健康指標進行分析,當健康指標超出預定閾值,及時產生預警信息,系統隨后自動啟動相關的數據保護措施,因此,可以準確地提前發出預警信息,從而有效地保障存儲設備和數據安全。磁盤陣列采用多磁盤并行的方式擴展了存儲系統容量,提高了存儲系統性能,冗余技術提高了存儲系統可用性。目前磁盤陣列已成為應用最廣泛的存儲系統,是構成更大規模存儲系統的基礎設備。
[1] 曹 強,黃建忠,萬繼光,謝長生.海量萬絡存儲系統遠離與設計[M].武漢:華中科技大學出版社,2010:122-128.
[2] 李 穎.磁盤陣列技術及其選擇[J].電腦編程技巧與維護,2011,(16):135-136.
[3] 石方夏,岳鳳芝.信息化建設中的RAID技術應用分析[J].現代電子技術,2010,(17):59-63.
[4] 王志昌.計算機RAID存儲技術解析 [J].中國科教創新導刊,2010,(08):162-163.
[5] David P Helmbold,E Long D D,Sherrod B.A dynamic disk spin down technique for mobile computing[J].Computing and Networking,1996:130-142.