999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向高性能計算的分布式故障定位框架

2018-03-20 00:43:02尉紅梅
計算機應用 2018年1期
關鍵詞:故障癥狀系統

高 劍,于 康,卿 鵬,尉紅梅

(江南計算技術研究所,江蘇 無錫 214083)(*通信作者電子郵箱gaojian_whu@163.com)

0 引言

高性能計算系統廣泛應用于國防建設、科學研究以及國民金融等重要領域,隨著系統規模的擴大,系統的平均無故障時間(Mean Time Between Failures, MTBF)逐漸降低,為系統可靠性帶來了嚴峻挑戰[1]。根據可靠性理論的論述,若系統組件的故障(fault)在運行時被激活,將導致系統內部出現錯誤狀態(error),錯誤狀態會在組件間不斷地傳播,最終引發系統的失效(failure),即系統失效是一個由故障引起錯誤狀態并逐漸積累的漸進過程[2]。

故障管理是維護高性能計算系統可靠性的重要基礎,故障定位作為故障管理的核心功能,發揮著關鍵作用。故障定位主要包括檢測和分析兩個主要步驟:故障檢測負責及時發現由故障引起的異常表現,也稱作癥狀(symptom);故障分析負責根據檢測到的癥狀快速、準確地推理得出故障,縮短故障響應時間。高效的故障定位有利于系統在失效前采取相應的處理策略以避免故障的擴散,從而提高系統利用率。

1 相關工作

目前,從計算機科學的不同領域派生出的故障定位方法主要分為事件關聯[3]與主動探測[4]兩類。

1.1 事件關聯

事件關聯是應用最為廣泛的故障定位技術,要求被管設備在自身狀態出現異常時,能夠向外發出癥狀告警,由中央管理器負責收集并分析被管設備發出的告警事件。文獻[5]對事件關聯進行了較為全面的綜述,包括基于規則、模型以及案例等具體的實現方式。

基于故障傳播模型(Fault Propagation Model, FPM)[6],也稱作“癥狀-故障”模型的事件關聯是高性能計算系統中常用的故障定位方式,該方式通過挖掘歷史故障經驗建立“癥狀-故障”之間的映射關系。當故障發生時,以系統日志中的監控狀態作為“癥狀-故障”模型的癥狀輸入,并利用不同的分析算法進行推理和調試。這種方式的不足在于:1)定位不及時,由于故障具備傳播性,滯后性可能引發更多的故障;2)隨著系統規模的不斷擴大,事件數量劇增,構建“癥狀-故障”模型的復雜度大幅提高;3)事件在傳播過程中不可避免地出現延遲、丟失等情況,容易造成故障的誤報或漏報;4)管理員的干預調試影響系統的正常運行。

1.2 主動探測

主動探測是近年來的研究熱點,這種方式基于系統的拓撲結構在運行時主動地執行不同的探針,根據探針的探測結果實現故障的檢測和分析。探針是指執行在特定機器也稱作探測站上的一類特殊程序,它通過發送命令或請求到系統組件實現端到端的探測,例如ping和traceroute命令可視作檢測網絡可用性的探針。文獻[7]指出探測站與探針集的選擇是影響主動探測效率的關鍵因素;文獻[8]對目前常用的探測站和探針集選擇算法進行了總結與對比。

由于能夠自適應地選擇執行的探針集,主動探測與事件關聯相比,具有較強的主動性、實時性以及針對性,能夠避免癥狀延遲或丟失對故障定位準確性的影響,但將主動探測直接應用于高性能計算系統的缺陷[9]在于:1)系統的規模不斷增長,所需探針的數目也隨之劇增,且探針的設計復雜度高;2)具備強探測能力的探針是有限的,部署探測站的能力也是有限的;3)探測站和探針集的選擇已被證明是NP問題,相關選擇算法的執行時間隨系統規模的增加呈指數級增長;4)大量探針的執行將加劇網絡的負載,占用系統寶貴的計算資源。

針對事件關聯和主動探測技術應用于高性能計算系統的問題,本文提出了一種基于消息傳遞的故障定位(Message-Passing based Fault Localization, MPFL)框架,MPFL框架首次將消息庫與故障定位問題聯系起來,并采用分布式的設計思想,將故障定位任務分配給計算節點,能夠在系統運行時實現異常狀態的檢測,并且將事件關聯與主動探測的優勢相結合,提高了故障分析的準確性。

2 MPFL故障定位框架

高性能計算系統的節點通過特定的硬件以及高速網絡互連,大部分節點具有同構性且節點狀態在執行計算任務時具備相似性。每個節點獨立運行,并與其他節點相互通信來協同完成計算任務,節點的通信機制廣泛使用消息傳遞。

因此,MPFL框架的基本思路是充分利用節點間的消息傳遞在系統運行時獲取節點狀態。在此基礎上,設計基于樹形拓撲的故障檢測(Tree-based Fault Detection, TFD)和故障分析(Tree-based Fault Analysis, TFA)算法。

2.1 MPFL軟件架構

如圖1所示,MPFL框架主要包括故障檢測和故障分析兩個功能模塊,在系統軟件架構中與消息庫位于同一層次,兩者相互協作為上層并行應用程序提供故障定位服務。此外,作業管理、網絡管理、操作系統及文件系統等系統組件為故障定位提供支持,如提供故障信息和觸發故障定位等。

圖1 MPFL通用架構

MPFL將故障定位任務與消息庫緊密聯系起來,能夠更好地適應高性能計算系統,主要原因包括:

1)受作業調度和節點分配策略等因素影響,高性能計算系統的部分故障往往只在特定的運行環境中被激活,故障難以重現和調試;若能在節點運行時獲取節點異常狀態,有利于解決此類故障。

2)參與大規模計算的節點數巨大,且節點之間需要相互通信協作,部分節點的故障更易于在其他節點中體現,此時需要基于消息傳遞協同多個節點進行綜合分析。

3)通過與消息庫的緊耦合,能夠主動地獲取并行應用程序運行時的內部狀態信息,具備較強的實時性和針對性,能夠避免將極大的時間與計算成本消耗在海量系統日志的數據挖掘工作中。

4)故障定位可獨立于節點計算等工作進程,節點在進行故障檢測和分析時不影響系統的正常工作,并且整個過程對用戶是透明的,用戶只需要關心故障定位結果以采取相應的處理策略。

5)作業管理等系統組件雖然能夠主動或被動地檢測到部分系統異常,但它們之間相互獨立,并不共享異常信息。MPFL將不同組件的異常信息進行匯總分析,有利于提高故障定位的準確性。

2.2 基于故障定位樹的故障檢測

目前,高性能計算系統普遍采用全局的集中式故障管理,隨著系統規模擴大,故障概率增加、故障關聯性增強,并且故障類型更為復雜多樣,這種方式容易陷入性能瓶頸[10]。

2.2.1 故障定位樹

MPFL框架采用層次化和分布式的設計思想,將全局的故障定位任務分配給不同的節點,由各節點運行輕量級的故障定位進程對局部范圍內的多個節點進行故障的檢測和分析。具體地,當系統在對每個作業進行初始化時,根據相關配置將所有參與計算的節點進行邏輯上的樹形劃分,邏輯劃分得到的樹形拓撲稱作故障定位樹(Fault Localization Tree, FLT)。在系統中并行執行的每個作業都擁有各自的FLT結構,參與多個作業的節點可以屬于不同的FLT,但在每個FLT中的位置可能并不相同。

在FLT中,除根節點外,每個節點的父節點是唯一的;除葉節點外,每個節點擁有若干個子節點。MPFL指定由父節點負責所有與子節點故障相關的癥狀信息收集與分析工作,即父節點是其所有子節點的故障定位節點(Fault Localization Node, FLN)。FLT的結構在作業的生命周期內不會改變,但由于父節點可能失效,同時考慮節點負載、性能開銷等因素,每個節點能夠根據相關參數及其閾值(如帶寬、CPU利用率等)選擇替代的故障定位節點(Substitute of Fault Localization Node, SFLN)。顯然,同一子樹內的節點狀態與存儲的癥狀信息往往具備更強的關聯性,失去FLN的節點通常選擇同一子樹的更高層節點作為SFLN。

在FLT中,雖然每個節點的FLN是唯一的,但SFLN可以有多個。此外,MPFL指定根節點負責接收不同節點上報的故障定位結果并向用戶報告,同時提供接口使得用戶能夠對故障定位過程進行管理。

故障定位樹的優勢在于邏輯層次清晰,具備較強的可擴展性,系統可自適應地增加或刪減節點;此外,各節點獨立工作,能夠同時處理多個并發性故障;同時,樹形拓撲能夠契合絕大多數高性能計算系統的物理拓撲,同一子樹的節點可獲得較高的通信效率,有利于提高故障定位的整體效率。

2.2.2 故障檢測算法——TFD

故障檢測的目標是及時地發現由故障引起的癥狀,而癥狀的空間性和時間性將直接影響故障分析的準確性。空間性是指收集的癥狀能否覆蓋所有可能的故障,因此需要獲取不同硬件部件和不同軟件層次的狀態,擴大對故障的覆蓋范圍;時間性指的是癥狀的收集應當在系統失效之前,并且能夠體現節點狀態隨時間的變化過程。

為滿足癥狀收集的空間性和時間性,結合FLT的結構及其工作機制,節點在運行時可利用消息庫、網絡管理以及操作系統等組件實現對癥狀的檢測。表1給出了各組件報告的主要癥狀模式。

表1 系統組件報告的主要癥狀模式

算法1描述了基于故障定位樹的故障檢測算法TFD,作業初始化后,節點正常工作,若系統組件發現可疑節點(Suspected Fault Node, SFN)出現異常癥狀,計算合適的癥狀接收節點并發送。

算法1 TFD算法。

對每個節點:

輸入:故障定位樹FLT;

WHILE (Job_Finished!=true) DO

IF Find_Symp(SFN) THEN

//檢測到故障癥狀

IF Available_FLN(SFN) THEN

//判斷可疑節點的FLN是否可用

Send theSymptomto SFN’s FLN;

ELSE

Select the SFN’s SFLN;

Send theSymptomto SFN’s SFLN;

END IF

END IF

IF (Recv_Symp==true) THEN

Store_ Symp (Symptom);

//將接收到的癥狀保存到癥狀集

END IF

END WHILE

TFD算法在一個作業中的示例如圖2所示,假設該作業在一個集群的9個計算節點上執行,圖中的樹形拓撲為邏輯拓撲,與物理連接無關,即為該作業的故障定位樹,序號表示了事件發生的順序:

1)節點n在與節點m通信時,發現來自節點m的消息錯誤,節點n將此癥狀報告給節點m的FLN;同時,當節點y在給節點x發送點對點消息時,發現節點x響應超時。

2)節點y試圖將節點x響應超時的癥狀報告給其FLN,但通過可用性探測發現其FLN已經過載,不再接收新癥狀;作業管理同樣對節點x的FLN進行了探測并排除,為簡單起見,圖中并未標出。

3)根據系統配置,節點y選擇根節點作為節點x的SFLN,并將其響應超時癥狀發送到根節點;同時,作業管理向根節點報告節點x無心跳信息。

TFD算法的優勢在于節點只需負責局部范圍內的故障,并且能夠自適應地選擇故障定位節點,有效緩解了單點瓶頸問題;同時,基于消息傳遞能夠獲取節點運行時的狀態,并且支持并行處理多個癥狀報告,提高了故障定位的效率。

圖2 TFD算法的示例

2.3 故障分析算法的設計

當節點接收到的癥狀集滿足用戶設定的觸發條件時,例如與某一節點相關的癥狀數量達到設定的閾值時,節點的故障定位進程將進入分析階段。

高性能計算系統規模龐大且結構復雜,為故障分析帶來了許多挑戰:1)相同的癥狀可能是由不同組件的故障引起;2)同一組件的故障也可能引發多種不同的癥狀;3)某些故障可能導致其余多個故障的發生,甚至引發事件風暴[11],即將一個癥狀的發生稱作一個事件,由于故障的關聯性,同一時刻出現大量重復、冗余的事件導致系統性能嚴重下降。

為應對上述挑戰,本文將事件關聯與主動探測兩種方法的優勢相結合,在TFD算法的基礎上,提出基于故障定位樹的分析(TFA)算法。圖3描述了TFA算法的結構,首先,故障定位節點使用基于規則的事件關聯對TFD算法檢測到的癥狀集進行推理,獲得多個不同的候選故障集;然后,利用消息探測分別對不同的候選故障集進一步地分析,最終得到若干個不同的故障。

1)基于規則的事件關聯。

基于規則的實現是事件關聯應用最為廣泛的一種方式,這種方式預先建立規則庫,每條規則包含控制邏輯,規則形式為:IF condition A THEN action B,在進行分析時,采用前向鏈推理機制,選擇滿足條件的規則并執行相應的動作。

根據文獻[12]對高性能計算系統的故障概率、故障位置、時間分布等特征的分析與論述,結合文獻[13]對事件壓縮、聚類以及泛化等規則的分類和總結,TFA算法的事件關聯主要包括3個步驟:

a)排重。排除事件集合中大量重復、相似及冗余的事件,有效地減少事件的數量。

b)組合。將具備關聯性的不同事件歸并為同一事件組,事件集被劃分為互不相交的事件組,充分增強事件語義。

c)分析。對各事件組分別進行推理,得到相應的候選故障集,每個候選故障集中包含所有可能的事件原因。

圖3 TFA算法結構

2)消息探測。

TFA算法中的消息探測借鑒了主動探測的思想,并結合高性能計算系統天然的節點通信優勢,可以視作基于消息傳遞設計實現的輕量級主動探測。

消息探測的主要目標是針對候選故障集主動獲取更多的節點狀態信息,以對多個故障假設進行篩選,進一步地確定故障。消息探測主要包括三類消息探針:

a)響應探測。判斷與目標節點是否能夠正常通信,即探測目標節點的可用性。

b)狀態探測。負責獲取目標節點的特定性能指標,如帶寬、CPU利用率等;狀態探測常用于節點的SFLN選擇。

c)日志探測。要求目標節點返回某個時間范圍內的消息日志[14],消息日志通常包含了消息的類型、標記、時間戳以及完成狀態等信息。

在消息探測階段,故障定位節點需要針對候選故障集使用不同的探測策略,包括不同的消息探針組合及其執行順序。消息探測的優勢在于探針實現簡單,每個計算節點都可作為探測站發送探針,并且探針的執行不會增加過大的網絡負載,也無需占用計算資源。

無論是基于規則的事件關聯中的三個分析步驟,還是消息探測中探針的組合及其執行順序的選擇,都需要得到相關性規則庫的支持。相關性規則庫通常是根據系統歷史故障記錄中的關聯性建立的,與TFA算法的分析效率緊密相關,可基于關聯規則、頻繁序列模式等算法充分挖掘事件記錄間的關聯性。同時,相關性規則庫也為用戶提供了接口,支持用戶動態部署和更新規則。以節點的停機故障為例,表2給出了部分相關規則。

TFA算法的描述見算法2。特別地,雖然針對不同的候選故障集,消息探測分別執行相應的探測策略并根據探測結果確定故障,但從不同候選故障集推導出的故障可能相同。

算法2 TFA算法。

輸入:癥狀集Symp_Set。

輸出:故障集Fault_Set。

Initialization:Fault_Set=?;

Purify_Set=Event_Purify(Symp_Set);

//排重

Grouping_Set=Event_Grouping(Purify_Set);

//組合

FORi=0 to |Grouping_Set| DO

//對每個事件組進行分析,得到相應候選故障集

Candidate_Faultsi=Event_Reasoning(Groupi);

AddCandidate_FaultsitoCandidate_Fault_Sets;

END FOR

FORi=0 to |Candidate_Fault_Sets| DO

//對每個候選故障集進行消息探測

FORj=0 to |Candidate_Faultsi| DO

//對候選故障集中的多個故障假設進行分析

IF Msg_Probing(Candidate_Faultsij) THEN

AddCandidate_FaultsijtoFault_Set;

break;

END IF

END FOR

END FOR

Return(Fault_Set);

TFA算法有效緩解了事件關聯的效率下降問題;同時,消息探測在高性能計算系統中適應性強,主動、及時且有針對性地獲取節點的運行時狀態,能夠避免癥狀延遲或丟失對故障定位準確度的影響。

表2 與節點停機故障相關的規則示例

3 實驗評價

本章通過模擬實驗對MPFL框架的故障定位能力及其對應用程序的性能影響進行評價。

本實驗的平臺是一個具有10個計算節點的典型集群,每個節點擁有64 GB內存,2個8核心Intel Xeon處理器,節點使用InfiniBand高速網絡互連;操作系統為Red Hat Enterprise Linux Server release 6.3;消息庫的版本為MVAPICH2- 2.2。

3.1 功能評價

高性能計算系統的故障模式主要有通信網絡故障、計算節點故障及存儲節點故障[15],其中計算節點的停機故障是影響并行程序運行穩定性,甚至引發系統失效的主要原因[16],因此,本實驗以定位節點的停機故障為目標,以證明MPFL框架的故障定位能力。

為模擬節點的停機故障,本文對消息傳遞接口(Message Passing Interface, MPI)的典型開源實現,即MVAPICH源碼進行簡單的修改:在作業初始化時,所有進程從配置文件獲取模擬節點停機故障的進程號,并且進程在執行消息發送操作前需滿足要求:

1)若本進程模擬故障,不執行任何動作,直接結束。

2)若目標進程模擬故障,對于探測消息,默認本次探測超時并結束發送操作;否則不執行任何動作,結束操作。

3)本進程與目標進程均正常,正常發送消息。

這些要求保證了模擬故障進程不發送任何消息,也不可能接收到消息。此外,節點無心跳、帶寬下降、CPU利用率過高等多個癥狀在程序運行時被注入,以模擬其余系統組件的行為,從而達到模擬節點停機故障的效果。

通常,一個節點的停機故障將導致運行在該節點上的所有程序都終止,因此運行一個測試程序且僅有一個進程模擬節點停機故障即可。同時,為滿足進程間的通信量需求,測試程序需進行多次全交換(all-to-all)通信,并且基于多線程實現癥狀信息的收集與分析。

假設程序的進程規模為P,實驗分為N組,每組實驗的進程規模不同,且重復測試M次,每次實驗隨機選擇1個進程Pf模擬節點停機故障。本實驗的參數如表3所示。

表3 功能評價的實驗參數

實驗結果表明,進程Pf總是在幾秒的時間內被找到,與通常情況相比,不再需要提供冗長的運行狀態上下文給用戶進行人工分析,用戶只需要關心故障定位的結果,這極大地減輕了用戶的負擔,因此,可以認為MPFL框架是有效的。

實際上,故障定位的準確性與相關性規則緊密相關,但規則庫往往無法覆蓋所有的系統異常,故障定位不可能做到100%正確。例如,表2的組合規則將時間窗口T內的事件劃分為一個事件組,若T值過小,由于消息存在延遲性,某些癥狀可能在T之外到達,導致故障信息不足;若T值過大,事件之間的關聯性將降低,影響故障分析的準確性。

3.2 性能評價

本節使用美國航空航天局在NAS(Numerical Aerodynamic Simulation)項目中開發的面向高性能計算的并行基準測試集(NAS Parallel Benchmark, NPB)[17]中的兩個核心程序:快速傅里葉變換(NPB Fast Fourier Transformation, NPB-FT)與整數排序(NPB Integer Sort, NPB-IS)對MPFL的性能進行測試:

1)NPB-FT利用快速傅里葉變換來解決三維的偏微分方程,其初始階段包含大量的迭代,每次迭代包含大量的all-to-all通信。

2)NPB-IS用于求解基于桶排序的二維大整數排序,同樣包含大量的all-to-all通信。

實驗分別對部署MPFL前后的NPB-FT、NPB-IS計算性能進行比較。與3.1節類似,為了模擬各系統組件發布癥狀的行為,當測試部署MPFL的NPB-FT和NPB-IS時,在運行時周期性地注入不同的癥狀。不同的是,本實驗注入的癥狀不會使得TFA算法推導出故障。

此外,NPB-FT要求進程規模為2的冪次,本實驗將沿用表3所示的參數設置,Pf除外,即無需模擬故障。

實驗結果如圖4~5所示,本文進行了4組對比實驗,測試程序規模(CLASS)選擇A規模,進程規模依次為16,32,64以及128。可以看出,MPFL部署前后的NPB-FT、NPB-IS計算性能無明顯差距,在圖中用程序的每秒百萬次浮點運算(Million Floating-point Operations per Second, MFLOPS)進行表示。究其原因,這是由于在正常程序的運行過程中不會觸發完整的故障分析過程。同時,測試程序的性能減速沒有隨著進程規模的持續增加而呈上升趨勢。經過統計分析,部署MPFL僅僅分別給NPB-FT和NPB-IS帶來了5.68%和2.12%的運行開銷,這說明MPFL對系統的性能影響較小,具備較強的可擴展性。

圖4 NPB-FT測試結果(CLASS=A)

圖5 NPB-IS測試結果(CLASS=A)

4 結語

故障定位作為故障管理的核心,對提高系統可靠性有重要意義,但當前的故障定位技術難以有效地直接應用于高性能計算系統。本文首次將故障定位問題與消息庫緊密聯系起來,且考慮充分利用各系統組件獨立獲取的異常信息,提出一種基于消息傳遞的故障定位框架MPFL,并設計實現基于故障定位樹的故障檢測與分析算法,能夠為高性能計算系統提供實時的輕量級分布式故障定位服務。本文通過定位模擬的節點停機故障對MPFL的功能進行了原型實驗驗證,并分別利用NPB-FT與NPB-IS基準測試程序對MPFL進行了性能評價。實驗結果表明,MPFL框架是有效的,并且具備較強的可擴展性。

下一步的工作重點包括:1)對歷史故障經驗進行更深度的挖掘以提高故障定位的準確性;2)除消息庫外,開發網絡管理、操作系統等系統組件對MPFL框架的支持;3)針對MPFL框架的故障定位準確率、性能開銷、可擴展性等方面進行更全面的評價。

References)

[1] ZHENG Z, LI Y, LAN Z. Anomaly localization in large-scale clusters [C]// Proceedings of the 2007 IEEE International Conference on Cluster Computing. Piscataway, NJ: IEEE, 2007: 322-330.

[2] AVIZIENIS A, LAPRIE J C, RANDELL B. Fundamental concepts of dependability [R]. Newcastle: LAAS-CNRS, 2001: 4.

[3] JORDAAN J F, PATEROK M. Event correlation in heterogeneous networks using the OSI management framework [C]// Proceedings of the IFIP TC6/WG6.6 Third International Symposium on Integrated Network Management with Participation of the IEEE Communications Society CNOM and with Support from the Institute for Educational Services. Amsterdam: North-Holland Publishing Co., 1993: 683-695.

[4] NATU M, SETHI A S. Active probing approach for fault localization in computer networks [C]// Proceedings of the 2006 4th IEEE/IFIP Workshop on End-to-End Monitoring Techniques and Services. Piscataway, NJ: IEEE, 2006: 25-33.

[5] LGORZATA STEINDER M, SETHI A S. A survey of fault localization techniques in computer networks [J]. Science of Computer Programming, 2004, 53(2): 165-194.

[6] KATKER S, PATEROK M. Fault isolation and event correlation for integrated fault management [C]// Proceedings of the 5th IFIP/IEEE International Symposium on Integrated Network Management. Berlin: Springer, 1997: 583-596.

[7] CHENG L, QIU X, MENG L, et al. Efficient active probing for fault diagnosis in large scale and noisy networks [C]// Proceedings of the 29th IEEE International Conference on Computer Communications. Washington, DC: IEEE Computer Society, 2010: 1-9.

[8] PATIL B M, PATHAK V K. Survey of probe set and probe station selection algorithms for fault detection and localization in computer networks [J]. IEEE Transactions on Networks and Communications, 2015, 3(4): 57.

[9] 孟洛明,黃婷,成璐,等.支持多故障定位的探測站點部署方法[J].北京郵電大學學報,2009,32(5):1-5.(MENG L M, HUANG T, CHENG L, et al. Probe station placement for multiple faults localization [J]. Journal of Beijing University of Posts and Telecommunications, 2009, 32(5): 1-5.)

[10] HUKERIKAR S, DINIZ P C, LUCAS R F, et al. Opportunistic application-level fault detection through adaptive redundant multithreading [C]// Proceedings of the 2014 International Conference on High Performance Computing & Simulation. Piscataway, NJ: IEEE, 2014: 243-250.

[11] GARDNER R D, HARLE D A. Network fault detection: a simplified approach to alarm correlation [C]// Proceedings of the 16th IEEE Global Telecommunications Conference. Washington, DC: IEEE Computer Society, 1997: 44-51.

[12] SCHROEDER B, GIBSON G. A large-scale study of failures in high-performance computing systems [J]. IEEE Transactions on Dependable and Secure Computing, 2010, 7(4): 337-350.

[13] JAKOBSON G, WEISSMAN M. Real-time telecommunication network management: extending event correlation with temporal constraints [C]// Proceedings of the Fourth International Symposium on Integrated Network Management IV. London: Chapman & Hall, 1995: 290-301.

[14] LEMARINIER P, BOUTEILLER A, KRAWEZIK G, et al. Coordinated checkpoint versus message log for fault tolerant MPI [J]. International Journal of High Performance Computing and Networking, 2004, 2(2/3/4): 146-155.

[15] SCHROEDER B, GIBSON G A. Understanding failures in petascale computers [C]// Proceedings of the 6th Scientific Discovery through Advanced Computing Conference. Bristol: IOP Publishing Ltd, 2007: 2022-2032.

[16] 武林平,孟丹,梁毅,等.LUNF——基于節點失效特征的機群作業調度策略[J].計算機研究與發展,2005,42(6):1000-1005.(WU L P, MENG D, LIANG Y, et al. LUNF—a cluster job schedule strategy using characterization of nodes’ failure [J]. Journal of Computer Research and Development, 2005, 42(6): 1000-1005.)

[17] BAILTY D, HARRIS T, SAPHIR W, et al. The NAS parallel benchmarks 2.0: NAS- 95- 020 [R]. Washington: NASA Ames Research Center, 1995: 12.

This work is partially supported by the National Key Research and Development Program of China (2016YFB0200502).

GAOJian, born in 1992, M. S. candidate. His research interests include parallel computing, runtime system.

YUKang, born in 1987, Ph. D., assistant engineer. His research interests include parallel computing.

QINGPeng, born in 1979, M. S., senior engineer. His research interests include parallel compilation, runtime system.

WEIHongmei, born in 1968, Ph. D., senior engineer. Her research interests include parallel computing, parallel compilation.

猜你喜歡
故障癥狀系統
Don’t Be Addicted To The Internet
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
有癥狀立即治療,別“梗”了再搶救
保健醫苑(2022年1期)2022-08-30 08:39:40
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
可改善咳嗽癥狀的兩款藥膳
故障一點通
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
奔馳R320車ABS、ESP故障燈異常點亮
夏季豬高熱病的癥狀與防治
獸醫導刊(2016年6期)2016-05-17 03:50:35
主站蜘蛛池模板: 无码乱人伦一区二区亚洲一| 毛片最新网址| 国产亚洲精品无码专| 99视频全部免费| 精品一区二区三区波多野结衣| 国产精品lululu在线观看| 国产精品第一区在线观看| 久久久久亚洲Av片无码观看| 成人综合网址| 嫩草在线视频| 在线va视频| 精品国产成人a在线观看| 国产区成人精品视频| 国产美女免费| 久久久久人妻一区精品| 香蕉在线视频网站| 日韩毛片免费观看| 97免费在线观看视频| 女人18毛片水真多国产| 亚洲天堂自拍| av午夜福利一片免费看| 亚洲欧美国产视频| 91外围女在线观看| 国产精品女主播| 99热6这里只有精品| 8090午夜无码专区| 国产成人啪视频一区二区三区| 老司机久久99久久精品播放| 婷婷激情亚洲| 国产亚洲精品资源在线26u| 特级aaaaaaaaa毛片免费视频| 欧美日韩中文国产| 99久久国产综合精品2023| 呦女亚洲一区精品| 日韩AV无码一区| 六月婷婷综合| 67194亚洲无码| 毛片免费试看| 亚洲欧美在线精品一区二区| 麻豆国产精品一二三在线观看| 伊人91在线| 国产成人精品男人的天堂| 欧美日韩综合网| a级毛片免费网站| 国产白丝av| 制服丝袜亚洲| 99无码熟妇丰满人妻啪啪| 色综合中文字幕| 色综合婷婷| 国产在线欧美| 四虎国产在线观看| 亚洲天堂精品在线| 在线毛片免费| 88国产经典欧美一区二区三区| www.av男人.com| 欧美日韩国产精品va| 亚洲国产黄色| 国产成人亚洲日韩欧美电影| 国产成人1024精品下载| 美女内射视频WWW网站午夜| 黑人巨大精品欧美一区二区区| 欧美激情视频一区二区三区免费| 国产91精品久久| 国产丝袜一区二区三区视频免下载| 欧美不卡视频在线| 国产精品视频a| 成人无码一区二区三区视频在线观看| 在线观看免费人成视频色快速| 日韩欧美网址| 亚洲AV无码不卡无码| 自拍偷拍欧美日韩| 欧美第二区| 免费va国产在线观看| 国产成人夜色91| 五月婷婷综合网| 中国丰满人妻无码束缚啪啪| 国产av无码日韩av无码网站| 国产精品女人呻吟在线观看| 欧美第二区| 美臀人妻中出中文字幕在线| 2019国产在线| 第一区免费在线观看|