胡 維,蔣艷凰,劉光明,董文睿,崔新武
(1.國防科技大學 計算機學院, 湖南 長沙 410073; 2.國家超級計算天津中心, 天津 300457;
3.中國人民解放軍95942部隊, 湖北 武漢 430313)
?
E級超級計算機故障預測的數據采集方法*
胡維1,2,蔣艷凰1,劉光明1,2,董文睿1,2,崔新武3
(1.國防科技大學 計算機學院, 湖南 長沙410073; 2.國家超級計算天津中心, 天津300457;
3.中國人民解放軍95942部隊, 湖北 武漢430313)
摘要:面向未來E級超級計算機,提出用于故障預測的數據采集框架,能夠全面采集與計算結點故障相關的狀態數據。采用自適應多層分組數據匯集方法,有效解決隨著系統規模增長數據匯集過程開銷過大的問題。在TH-1A超級計算機上的實現和測試表明,該數據采集框架具有開銷小、擴展性好的優點,能夠滿足未來大規模系統故障預測數據采集的需求。
關鍵詞:超級計算機;故障預測;數據采集方法;數據匯集
超級計算機的飛速發展面臨許多挑戰,可靠性問題成為影響系統性能發展的重要挑戰之一。未來E級超級計算機由數十萬個部件組成,系統平均無故障時間(Mean Time Between Failure, MTBF)將從小時級到分鐘級[1]。消息傳遞接口(Message Passing Interface,MPI)是超級計算機應用的主要并行方式,若有一個進程出現故障,則整個應用都被迫停止并從頭開始。檢查點技術是目前超級計算機系統中最常用的容錯方法。隨著超級計算機規模不斷擴大,MTBF時間逐漸縮短,保存檢查點的時間間隔越來越短;而超級計算機I/O系統性能發展緩慢,保存和恢復檢查點的開銷越來越大,檢查點技術將無法滿足系統可靠性的需求?!?br>