E級超級計算機故障預測的數據采集方法*

2016-04-08 01:02:18蔣艷凰劉光明董文睿崔新武

國防科技大學學報 2016年1期

胡　維，蔣艷凰，劉光明，董文睿，崔新武

(1.國防科技大學計算機學院，湖南長沙　410073； 2.國家超級計算天津中心，天津　300457；

3.中國人民解放軍95942部隊，湖北武漢　430313)

E級超級計算機故障預測的數據采集方法*

胡維1,2，蔣艷凰1，劉光明1,2，董文睿1,2，崔新武3

(1.國防科技大學計算機學院，湖南長沙410073； 2.國家超級計算天津中心，天津300457；

3.中國人民解放軍95942部隊，湖北武漢430313)

摘要：面向未來E級超級計算機，提出用于故障預測的數據采集框架，能夠全面采集與計算結點故障相關的狀態數據。采用自適應多層分組數據匯集方法，有效解決隨著系統規模增長數據匯集過程開銷過大的問題。在TH-1A超級計算機上的實現和測試表明，該數據采集框架具有開銷小、擴展性好的優點，能夠滿足未來大規模系統故障預測數據采集的需求。

關鍵詞：超級計算機；故障預測；數據采集方法；數據匯集

超級計算機的飛速發展面臨許多挑戰，可靠性問題成為影響系統性能發展的重要挑戰之一。未來E級超級計算機由數十萬個部件組成，系統平均無故障時間(Mean Time Between Failure, MTBF)將從小時級到分鐘級[1]。消息傳遞接口(Message Passing Interface，MPI)是超級計算機應用的主要并行方式，若有一個進程出現故障，則整個應用都被迫停止并從頭開始。檢查點技術是目前超級計算機系統中最常用的容錯方法。隨著超級計算機規模不斷擴大，MTBF時間逐漸縮短，保存檢查點的時間間隔越來越短；而超級計算機I/O系統性能發展緩慢，保存和恢復檢查點的開銷越來越大，檢查點技術將無法滿足系統可靠性的需求?！?br>

登錄APP查看全文

國防科技大學學報 2016年1期

國防科技大學學報的其它文章: 變工況下軸承健康監測的相關向量機與自適應閾值模型方法*; 激光陀螺零偏誤差復合信號補償分析*; 無線傳感器網絡信息質量評估的柔性框架*; 星際探測太陽帆行星和太陽借力軌道全局優化*; 序列近似優化方法及其在火箭外形快速設計中的應用*; 間歇采樣轉發假目標對CFAR檢測影響分析*