999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

E級(jí)超級(jí)計(jì)算機(jī)故障預(yù)測(cè)的數(shù)據(jù)采集方法*

2016-04-08 01:02:18蔣艷凰劉光明董文睿崔新武

胡 維,蔣艷凰,劉光明,董文睿,崔新武

(1.國(guó)防科技大學(xué) 計(jì)算機(jī)學(xué)院, 湖南 長(zhǎng)沙 410073; 2.國(guó)家超級(jí)計(jì)算天津中心, 天津 300457;

3.中國(guó)人民解放軍95942部隊(duì), 湖北 武漢 430313)

?

E級(jí)超級(jí)計(jì)算機(jī)故障預(yù)測(cè)的數(shù)據(jù)采集方法*

胡維1,2,蔣艷凰1,劉光明1,2,董文睿1,2,崔新武3

(1.國(guó)防科技大學(xué) 計(jì)算機(jī)學(xué)院, 湖南 長(zhǎng)沙410073; 2.國(guó)家超級(jí)計(jì)算天津中心, 天津300457;

3.中國(guó)人民解放軍95942部隊(duì), 湖北 武漢430313)

摘要:面向未來(lái)E級(jí)超級(jí)計(jì)算機(jī),提出用于故障預(yù)測(cè)的數(shù)據(jù)采集框架,能夠全面采集與計(jì)算結(jié)點(diǎn)故障相關(guān)的狀態(tài)數(shù)據(jù)。采用自適應(yīng)多層分組數(shù)據(jù)匯集方法,有效解決隨著系統(tǒng)規(guī)模增長(zhǎng)數(shù)據(jù)匯集過(guò)程開銷過(guò)大的問(wèn)題。在TH-1A超級(jí)計(jì)算機(jī)上的實(shí)現(xiàn)和測(cè)試表明,該數(shù)據(jù)采集框架具有開銷小、擴(kuò)展性好的優(yōu)點(diǎn),能夠滿足未來(lái)大規(guī)模系統(tǒng)故障預(yù)測(cè)數(shù)據(jù)采集的需求。

關(guān)鍵詞:超級(jí)計(jì)算機(jī);故障預(yù)測(cè);數(shù)據(jù)采集方法;數(shù)據(jù)匯集

超級(jí)計(jì)算機(jī)的飛速發(fā)展面臨許多挑戰(zhàn),可靠性問(wèn)題成為影響系統(tǒng)性能發(fā)展的重要挑戰(zhàn)之一。未來(lái)E級(jí)超級(jí)計(jì)算機(jī)由數(shù)十萬(wàn)個(gè)部件組成,系統(tǒng)平均無(wú)故障時(shí)間(Mean Time Between Failure, MTBF)將從小時(shí)級(jí)到分鐘級(jí)[1]。消息傳遞接口(Message Passing Interface,MPI)是超級(jí)計(jì)算機(jī)應(yīng)用的主要并行方式,若有一個(gè)進(jìn)程出現(xiàn)故障,則整個(gè)應(yīng)用都被迫停止并從頭開始。檢查點(diǎn)技術(shù)是目前超級(jí)計(jì)算機(jī)系統(tǒng)中最常用的容錯(cuò)方法。隨著超級(jí)計(jì)算機(jī)規(guī)模不斷擴(kuò)大,MTBF時(shí)間逐漸縮短,保存檢查點(diǎn)的時(shí)間間隔越來(lái)越短;而超級(jí)計(jì)算機(jī)I/O系統(tǒng)性能發(fā)展緩慢,保存和恢復(fù)檢查點(diǎn)的開銷越來(lái)越大,檢查點(diǎn)技術(shù)將無(wú)法滿足系統(tǒng)可靠性的需求。

高性能計(jì)算容錯(cuò)方式通常分為被動(dòng)容錯(cuò)和主動(dòng)容錯(cuò)兩種。被動(dòng)容錯(cuò)是在故障發(fā)生后再實(shí)施容錯(cuò),典型的就是檢查點(diǎn)技術(shù)。主動(dòng)容錯(cuò)通過(guò)故障預(yù)測(cè)的方法提前預(yù)知故障的發(fā)生,在故障發(fā)生前預(yù)先采取進(jìn)程遷移、進(jìn)程復(fù)制等低開銷保護(hù)性技術(shù),保障并行應(yīng)用持續(xù)運(yùn)行。主動(dòng)容錯(cuò)技術(shù)因開銷小,成為解決未來(lái)E級(jí)超級(jí)計(jì)算機(jī)可靠性挑戰(zhàn)最有希望的技術(shù)之一,其中故障預(yù)測(cè)的準(zhǔn)確率直接決定著主動(dòng)容錯(cuò)的有效性。現(xiàn)有用于主動(dòng)容錯(cuò)的故障預(yù)測(cè)方法主要包括基于模型的故障預(yù)測(cè)和數(shù)據(jù)驅(qū)動(dòng)的故障預(yù)測(cè)兩類。

基于模型的故障預(yù)測(cè)方法將系統(tǒng)實(shí)際執(zhí)行行為與模型描述的預(yù)期行為進(jìn)行比較,通過(guò)發(fā)現(xiàn)明顯行為差異來(lái)預(yù)測(cè)系統(tǒng)故障。該方法僅適用于小規(guī)模系統(tǒng)中某些類型的故障,對(duì)于復(fù)雜的大規(guī)模系統(tǒng),難以用模型準(zhǔn)確描述系統(tǒng)的故障特征。數(shù)據(jù)驅(qū)動(dòng)的故障預(yù)測(cè)方法利用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)對(duì)歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),獲取故障發(fā)生的規(guī)律,并利用學(xué)習(xí)結(jié)果對(duì)系統(tǒng)進(jìn)行實(shí)時(shí)狀態(tài)數(shù)據(jù)分析,預(yù)測(cè)是否有故障發(fā)生。這類方法的重要基礎(chǔ)是獲取與系統(tǒng)故障相關(guān)的運(yùn)行狀態(tài)數(shù)據(jù),這些數(shù)據(jù)直接影響著故障預(yù)測(cè)的準(zhǔn)確性。

目前超級(jí)計(jì)算機(jī)系統(tǒng)故障預(yù)測(cè)研究中采用的數(shù)據(jù)主要包括兩種:一種是可靠、可用和可維護(hù)性(Reliability, Availability, and Serviceability, RAS)日志數(shù)據(jù);一種是硬件環(huán)境和結(jié)點(diǎn)運(yùn)行狀態(tài)數(shù)據(jù)。

RAS數(shù)據(jù)通常是超級(jí)計(jì)算機(jī)監(jiān)控系統(tǒng)定時(shí)對(duì)系統(tǒng)中各部件的運(yùn)行狀態(tài)進(jìn)行掃描監(jiān)測(cè),將可能有用的數(shù)據(jù)(如異常事件)保存在日志中,其通常作用是在系統(tǒng)發(fā)生故障后,管理員通過(guò)查詢?nèi)罩緝?nèi)容,對(duì)故障進(jìn)行人工診斷,現(xiàn)有的故障預(yù)測(cè)研究大多是基于RAS日志數(shù)據(jù)展開的[2-6]。由于RAS日志數(shù)據(jù)本身是對(duì)軟硬件事件的記錄,一方面信息記錄不完全,只記錄事件發(fā)生信息而沒有軟硬件隨時(shí)間變化的狀態(tài)信息,容易使故障預(yù)測(cè)出現(xiàn)漏報(bào);另一方面,由于系統(tǒng)運(yùn)行狀態(tài)復(fù)雜,日志事件定義不可能完全準(zhǔn)確,容易使預(yù)測(cè)產(chǎn)生誤報(bào)。因此,基于RAS數(shù)據(jù)進(jìn)行的故障預(yù)測(cè)研究,預(yù)測(cè)精度較低,學(xué)習(xí)結(jié)果的可理解性較低。

硬件環(huán)境狀態(tài)數(shù)據(jù)包括系統(tǒng)硬件各部件的溫度、電壓、風(fēng)扇和電源狀態(tài)等信息。研究者[7-9]通過(guò)智能平臺(tái)管理界面(Intelligent Platform Management Interface, IPMI)獲取數(shù)據(jù),進(jìn)行故障預(yù)測(cè)研究。結(jié)點(diǎn)運(yùn)行狀態(tài)數(shù)據(jù)通常指超級(jí)計(jì)算機(jī)計(jì)算結(jié)點(diǎn)運(yùn)行過(guò)程中,結(jié)點(diǎn)CPU、內(nèi)存、網(wǎng)絡(luò)和I/O等系統(tǒng)的運(yùn)行狀態(tài)數(shù)據(jù)。由于大部分超級(jí)計(jì)算機(jī)計(jì)算結(jié)點(diǎn)具有同構(gòu)性,運(yùn)行應(yīng)用具有相似性,所以結(jié)點(diǎn)運(yùn)行過(guò)程中的系統(tǒng)狀態(tài)信息能夠反映結(jié)點(diǎn)的健康狀況。Sahoo等[10]結(jié)合日志記錄和狀態(tài)數(shù)據(jù)進(jìn)行故障預(yù)測(cè)的研究。使用結(jié)點(diǎn)運(yùn)行狀態(tài)數(shù)據(jù)進(jìn)行故障預(yù)測(cè)的研究較少,主要原因是數(shù)據(jù)采集困難。雖然現(xiàn)有集群系統(tǒng)監(jiān)控工具PARMON[11]、Ganglia[12]和Ovis-2[13]等同時(shí)具備數(shù)據(jù)采集功能,但采集數(shù)據(jù)屬性少、開銷大,無(wú)法滿足故障預(yù)測(cè)的實(shí)際需要。

從上面可以看出,現(xiàn)有數(shù)據(jù)獲取方法具有如下缺陷:一是所采集數(shù)據(jù)的屬性少,無(wú)法反映出系統(tǒng)運(yùn)行狀態(tài)的變化;二是所采集數(shù)據(jù)的時(shí)間連續(xù)性差,不能滿足故障預(yù)測(cè)精度的要求。針對(duì)以上不足,提出用于故障預(yù)測(cè)的數(shù)據(jù)采集框架(Failure Prediction Data Collection Framework, FPDC),以解決數(shù)據(jù)采集的全面性和有效性問(wèn)題。由于文章篇幅限制,主要介紹面向故障預(yù)測(cè)數(shù)據(jù)采集面臨的挑戰(zhàn)和解決方法,對(duì)故障預(yù)測(cè)方法的研究另行論述。

1FPDC數(shù)據(jù)采集框架

超級(jí)計(jì)算機(jī)主動(dòng)容錯(cuò)系統(tǒng)的核心是故障預(yù)測(cè),而數(shù)據(jù)采集是故障預(yù)測(cè)的基礎(chǔ),故障預(yù)測(cè)的準(zhǔn)確性不僅與故障預(yù)測(cè)模型有關(guān),還與用于預(yù)測(cè)的數(shù)據(jù)密切相關(guān)。

FPDC數(shù)據(jù)采集框架具有兩方面功能:一是在初始故障學(xué)習(xí)階段,累積一定時(shí)間段的數(shù)據(jù)形成初始訓(xùn)練集,用于學(xué)習(xí)產(chǎn)生初始的故障預(yù)測(cè)分類器;二是在故障預(yù)測(cè)階段,實(shí)時(shí)獲取系統(tǒng)狀態(tài)數(shù)據(jù)用于實(shí)時(shí)故障預(yù)測(cè),并對(duì)故障預(yù)測(cè)分類器進(jìn)行在線學(xué)習(xí)更新。

1.1FPDC框架及其功能

圖1為FPDC數(shù)據(jù)采集框架體系結(jié)構(gòu),F(xiàn)PDC框架采用分布式結(jié)構(gòu),獲取數(shù)據(jù)過(guò)程分為數(shù)據(jù)采集和匯集兩個(gè)部分。

圖1 FPDC數(shù)據(jù)采集框架體系結(jié)構(gòu)Fig.1 FPDC architecture

數(shù)據(jù)采集部分將數(shù)據(jù)采集任務(wù)分布到每個(gè)計(jì)算結(jié)點(diǎn)上,結(jié)點(diǎn)運(yùn)行輕量級(jí)數(shù)據(jù)采集進(jìn)程,按照一定的系統(tǒng)配置要求,周期性采集結(jié)點(diǎn)狀態(tài)數(shù)據(jù),這種分布式采集方式能夠全面獲取與計(jì)算結(jié)點(diǎn)故障相關(guān)的狀態(tài)數(shù)據(jù),而采集開銷較小。

數(shù)據(jù)匯集時(shí),采用自適應(yīng)多層分組數(shù)據(jù)匯集方法,結(jié)點(diǎn)通過(guò)分組形成層次式樹形結(jié)構(gòu),數(shù)據(jù)獲取后采用Push協(xié)議,結(jié)點(diǎn)主動(dòng)向上一級(jí)發(fā)送數(shù)據(jù)。采用層次式分組的方法,能夠減少頻繁小數(shù)據(jù)傳輸,從而減少通信和存儲(chǔ)資源消耗,同時(shí)能夠避免數(shù)據(jù)直接匯集時(shí)的單點(diǎn)瓶頸,有效利用高速互連帶寬,減少共享存儲(chǔ)系統(tǒng)I/O開銷,提高數(shù)據(jù)匯集的可擴(kuò)展性。FPDC在每個(gè)結(jié)點(diǎn)上以一定頻率進(jìn)行周期性數(shù)據(jù)采集,數(shù)據(jù)獲得后匯集到最終匯集點(diǎn)。其中,結(jié)點(diǎn)上數(shù)據(jù)采集進(jìn)程的開銷是固定的,數(shù)據(jù)匯集開銷對(duì)整個(gè)數(shù)據(jù)采集的可擴(kuò)展性起到?jīng)Q定性作用,而自適應(yīng)多層分組數(shù)據(jù)匯集方法能夠有效減少開銷,提高可擴(kuò)展性。

通過(guò)采集獲取的結(jié)點(diǎn)狀態(tài)數(shù)據(jù)具有空間性和時(shí)間性。空間性是指采集的數(shù)據(jù)內(nèi)容能否覆蓋所有可能發(fā)生的故障。計(jì)算結(jié)點(diǎn)出現(xiàn)故障可能由計(jì)算結(jié)點(diǎn)的硬件部件引起,也可能由軟件錯(cuò)誤引起。FPDC數(shù)據(jù)采集的內(nèi)容從硬件和軟件兩個(gè)方面出發(fā),獲取不同硬件部件和不同軟件層次的各方面狀態(tài)數(shù)據(jù),提高對(duì)所有故障的覆蓋率。時(shí)間性是指所采集的數(shù)據(jù)能否有效體現(xiàn)結(jié)點(diǎn)狀態(tài)隨時(shí)間變化的全過(guò)程,并滿足故障預(yù)測(cè)提前性的要求。FPDC采用分布式架構(gòu)和自適應(yīng)多層分組數(shù)據(jù)匯集方法,開銷小,對(duì)大規(guī)模系統(tǒng)擴(kuò)展性高,保證了數(shù)據(jù)采集時(shí)間性的需求。FPDC框架采集數(shù)據(jù)的空間性和時(shí)間性是提高故障預(yù)測(cè)精度的基礎(chǔ)。

對(duì)計(jì)算結(jié)點(diǎn)硬件和軟件采集的數(shù)據(jù)分別對(duì)應(yīng)結(jié)點(diǎn)硬件環(huán)境狀態(tài)數(shù)據(jù)和系統(tǒng)運(yùn)行狀態(tài)數(shù)據(jù)。如圖2所示,F(xiàn)PDC主要由硬件環(huán)境數(shù)據(jù)采集模塊、運(yùn)行狀態(tài)數(shù)據(jù)采集模塊和數(shù)據(jù)匯集模塊組成。

圖2 FPDC組成模塊和功能Fig.2 FPDC modules and functions

硬件環(huán)境數(shù)據(jù)采集模塊用于采集與計(jì)算結(jié)點(diǎn)硬件環(huán)境狀態(tài)相關(guān)的數(shù)據(jù),主要包括結(jié)點(diǎn)硬件各個(gè)部件的溫度、電壓,風(fēng)扇和電源狀態(tài)等數(shù)據(jù),能夠反映硬件部件的實(shí)時(shí)物理狀態(tài)。運(yùn)行狀態(tài)數(shù)據(jù)采集模塊用于采集與結(jié)點(diǎn)系統(tǒng)運(yùn)行相關(guān)的狀態(tài)數(shù)據(jù),即結(jié)點(diǎn)操作系統(tǒng)活動(dòng)報(bào)告(System Activity Report, SAR)數(shù)據(jù),這些數(shù)據(jù)包括CPU、內(nèi)存、網(wǎng)絡(luò)和I/O等系統(tǒng)的狀態(tài)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)。數(shù)據(jù)匯集模塊用于完成數(shù)據(jù)采集后向最終匯集點(diǎn)的數(shù)據(jù)傳輸工作。

1.2自適應(yīng)多層分組數(shù)據(jù)匯集方法

現(xiàn)有數(shù)據(jù)匯集方法主要包括直接匯集法和分組匯集法,這些方法存在數(shù)據(jù)匯集開銷大[12]、結(jié)點(diǎn)發(fā)生故障時(shí)關(guān)鍵狀態(tài)數(shù)據(jù)丟失的問(wèn)題。自適應(yīng)多層分組數(shù)據(jù)匯集方法,能保證關(guān)鍵狀態(tài)數(shù)據(jù)不丟失,并有效降低傳輸開銷,提供良好可擴(kuò)展性。

設(shè)計(jì)思想:如圖1所示,自適應(yīng)多層分組數(shù)據(jù)匯集方法借鑒多叉樹結(jié)構(gòu),根結(jié)點(diǎn)是最終匯集點(diǎn)(管理結(jié)點(diǎn)或共享存儲(chǔ)),其余的每個(gè)結(jié)點(diǎn)代表一個(gè)計(jì)算結(jié)點(diǎn),非葉子結(jié)點(diǎn)代表代理結(jié)點(diǎn)。其本質(zhì)是利用計(jì)算結(jié)點(diǎn)間的高速互連帶寬優(yōu)勢(shì),通過(guò)分組將數(shù)據(jù)分層收集和壓縮,對(duì)于最終匯集點(diǎn)是管理結(jié)點(diǎn)的結(jié)構(gòu),能夠有效緩解多對(duì)一匯集時(shí)的單點(diǎn)瓶頸,對(duì)于最終匯集點(diǎn)是共享存儲(chǔ)的結(jié)構(gòu),可以有效節(jié)省共享存儲(chǔ)系統(tǒng)的I/O資源,減少并行文件系統(tǒng)開銷。后續(xù)論述匯集點(diǎn)以共享存儲(chǔ)為例。

通過(guò)對(duì)結(jié)點(diǎn)本身計(jì)算和網(wǎng)絡(luò)負(fù)載的分析,選擇低負(fù)載結(jié)點(diǎn)作為代理結(jié)點(diǎn),并針對(duì)結(jié)點(diǎn)負(fù)載的變化,定期自適應(yīng)地改變代理結(jié)點(diǎn)和備份結(jié)點(diǎn),能夠減少對(duì)結(jié)點(diǎn)上應(yīng)用的影響。同時(shí),備份代理結(jié)點(diǎn)能夠在主代理結(jié)點(diǎn)故障時(shí),保存其狀態(tài)數(shù)據(jù),保證重要狀態(tài)數(shù)據(jù)不丟失。

算法描述:自適應(yīng)多層分組數(shù)據(jù)匯集方法類似于多叉樹結(jié)構(gòu),根結(jié)點(diǎn)是共享存儲(chǔ),其余每個(gè)結(jié)點(diǎn)代表一個(gè)計(jì)算結(jié)點(diǎn),分為兩類:一是葉子結(jié)點(diǎn),僅采集自身數(shù)據(jù),并將數(shù)據(jù)發(fā)送給父主代理結(jié)點(diǎn)和父?jìng)浞荽斫Y(jié)點(diǎn);二是非葉子結(jié)點(diǎn),即代理結(jié)點(diǎn),在每個(gè)組中,均包含一個(gè)主代理結(jié)點(diǎn)和一個(gè)備份代理結(jié)點(diǎn),代理結(jié)點(diǎn)不僅要獲取本結(jié)點(diǎn)數(shù)據(jù)還要匯總子結(jié)點(diǎn)數(shù)據(jù),而后向父結(jié)點(diǎn)傳輸。計(jì)算結(jié)點(diǎn)簡(jiǎn)稱cn(compute node),每組中選出主代理結(jié)點(diǎn)cna(compute node agent)和備份代理結(jié)點(diǎn)bcna(backup of compute node agent),bcna用于存儲(chǔ)組內(nèi)cn和cna數(shù)據(jù)的備份,收集和壓縮數(shù)據(jù)后并不向父結(jié)點(diǎn)傳輸,只有在cna出現(xiàn)故障時(shí)接替cna將數(shù)據(jù)向父結(jié)點(diǎn)傳輸。各組根據(jù)結(jié)點(diǎn)負(fù)載選舉cna和bcna流程如下:

1)每個(gè)分組中cn計(jì)算自身總空閑率(總空閑率idle%=cpu空閑率+內(nèi)存空閑率+網(wǎng)絡(luò)帶寬空閑率+I/O帶寬空閑率),而后向組中廣播由自身結(jié)點(diǎn)名和空閑率組成的二元組(name,idle%);

2)每個(gè)cn收到其他結(jié)點(diǎn)廣播的結(jié)點(diǎn)名和空閑率二元組,依據(jù)空閑率對(duì)二元組進(jìn)行降序排序,確定排在第1位的cn為cna,排在第2位cn為bcna,空閑率相等的以結(jié)點(diǎn)編號(hào)數(shù)字小的排在前面,并依次向cna和bcna進(jìn)行投票,即向排序位于1和2的結(jié)點(diǎn)發(fā)送cna和bcna投票信息;

3)收到cna和bcna投票信息的結(jié)點(diǎn)各自進(jìn)行計(jì)數(shù),若結(jié)點(diǎn)獲得投票數(shù)達(dá)到組內(nèi)結(jié)點(diǎn)數(shù)一半以上,向所有組員和管理結(jié)點(diǎn)注冊(cè)cna和bcna;

設(shè)選舉間隔時(shí)間計(jì)數(shù)器為Te,采樣間隔時(shí)間為Tcol,則自適應(yīng)多層分組數(shù)據(jù)匯集算法流程見圖3。

圖3 自適應(yīng)多層分組數(shù)據(jù)匯集流程圖Fig.3 Flow chart of adaptive multi-layer data aggregation algorithm

算法分析:自適應(yīng)多層分組數(shù)據(jù)匯集方法,能夠有效利用超級(jí)計(jì)算機(jī)高速互連的優(yōu)勢(shì),將大量分散的小數(shù)據(jù)整合壓縮,以通信資源換I/O資源,減少I/O開銷,提高效率。但隨著系統(tǒng)規(guī)模增大,如果數(shù)據(jù)匯集過(guò)程中層次太多,會(huì)造成數(shù)據(jù)多次重復(fù)傳輸,增加數(shù)據(jù)傳輸開銷,所以需要針對(duì)系統(tǒng)規(guī)模具體實(shí)際,有效平衡多叉樹的深度和寬度,以較小開銷獲得較好的數(shù)據(jù)采集性能。同時(shí),可利用超級(jí)計(jì)算機(jī)自身的網(wǎng)絡(luò)拓?fù)涮攸c(diǎn)進(jìn)行分組,能夠顯著減少網(wǎng)絡(luò)開銷。

從上述分析得出,自適應(yīng)多層分組數(shù)據(jù)匯集方法具有一定優(yōu)勢(shì):1)數(shù)據(jù)匯集路徑?jīng)]有交叉,可同步進(jìn)行;2)數(shù)據(jù)網(wǎng)絡(luò)傳輸趨于分散平衡,能夠減少網(wǎng)絡(luò)擁塞;3)數(shù)據(jù)分組傳輸過(guò)程中設(shè)置備份代理結(jié)點(diǎn),能夠保證故障結(jié)點(diǎn)關(guān)鍵狀態(tài)數(shù)據(jù)不丟失;4)能夠自適應(yīng)選擇代理和備份結(jié)點(diǎn),減少對(duì)負(fù)載較重計(jì)算結(jié)點(diǎn)上應(yīng)用的影響;5)對(duì)采集數(shù)據(jù)進(jìn)行壓縮,能夠減少網(wǎng)絡(luò)傳輸開銷。

2基于TH-1A系統(tǒng)的數(shù)據(jù)采集設(shè)計(jì)與實(shí)現(xiàn)

2.1TH-1A超級(jí)計(jì)算機(jī)及其數(shù)據(jù)采集框架

圖4為國(guó)防科學(xué)技術(shù)大學(xué)研制的TH-1A系統(tǒng),采用CPU和GPU結(jié)合的異構(gòu)融合體系結(jié)構(gòu),全系統(tǒng)包含7168個(gè)計(jì)算結(jié)點(diǎn),每個(gè)計(jì)算結(jié)點(diǎn)含2路英特爾CPU和1路英偉達(dá)GPU。采用自主設(shè)計(jì)互連通信系統(tǒng),實(shí)現(xiàn)光電混合胖樹結(jié)構(gòu)高階路由網(wǎng)絡(luò)[14],采用麒麟Linux系統(tǒng)。FPDC-TH數(shù)據(jù)采集框架是FPDC在TH-1A上的具體實(shí)現(xiàn)。FPDC-TH包括硬件環(huán)境數(shù)據(jù)采集模塊SMCcolmanager、運(yùn)行狀態(tài)數(shù)據(jù)采集模塊noderuninfomanager和數(shù)據(jù)匯集模塊dataaggregation。

圖4 TH-1A系統(tǒng)結(jié)構(gòu)Fig.4 TH-1A architecture

2.2硬件環(huán)境數(shù)據(jù)采集

TH-1A計(jì)算機(jī)系統(tǒng)每個(gè)計(jì)算機(jī)柜包括4個(gè)計(jì)算機(jī)框,分別由4塊系統(tǒng)管理控制器(System Management Controller, SMC)進(jìn)行監(jiān)控;通信機(jī)柜包括2個(gè)通信機(jī)框,分別由2塊SMC板進(jìn)行監(jiān)控,如圖4所示。由于計(jì)算結(jié)點(diǎn)沒有單獨(dú)映射SMC,不能通過(guò)計(jì)算結(jié)點(diǎn)操作系統(tǒng)訪問(wèn)SMC接口,但SMC提供了網(wǎng)絡(luò)訪問(wèn)接口,可通過(guò)提供IP地址實(shí)現(xiàn)遠(yuǎn)程監(jiān)測(cè)控制1個(gè)機(jī)框的16個(gè)計(jì)算結(jié)點(diǎn)。基于維護(hù)控制網(wǎng)絡(luò)和SMC系統(tǒng),設(shè)計(jì)實(shí)現(xiàn)了SMCcolmanager硬件環(huán)境數(shù)據(jù)采集模塊。

SMCcolmanager采用Client-Server的結(jié)構(gòu),可一次獲取每個(gè)機(jī)框SMC板服務(wù)器維護(hù)的機(jī)框內(nèi)16個(gè)計(jì)算結(jié)點(diǎn)的硬件環(huán)境狀態(tài)數(shù)據(jù)記錄。利用TCP/IP 套接字,采用多線程的方式并行采集多機(jī)框SMC數(shù)據(jù),減少在多結(jié)點(diǎn)數(shù)據(jù)采集時(shí)對(duì)管理結(jié)點(diǎn)的資源占用,避免了管理結(jié)點(diǎn)瓶頸問(wèn)題。由于維護(hù)控制網(wǎng)絡(luò)是專用以太網(wǎng)絡(luò),這種遠(yuǎn)程訪問(wèn)SMC采集數(shù)據(jù)的方式對(duì)結(jié)點(diǎn)應(yīng)用性能沒有影響。

SMCcolmanager模塊能夠全面采集結(jié)點(diǎn)硬件環(huán)境狀態(tài)數(shù)據(jù)。表1為該模塊在TH-1A上獲得與計(jì)算結(jié)點(diǎn)相關(guān)的硬件環(huán)境狀態(tài)數(shù)據(jù),包括機(jī)框內(nèi)風(fēng)扇轉(zhuǎn)速、網(wǎng)絡(luò)路由芯片(Network Pouting, NR)狀態(tài)、網(wǎng)絡(luò)接口芯片(Network Interface, NI)狀態(tài)、計(jì)算結(jié)點(diǎn)電源狀態(tài)、SMC監(jiān)控板狀態(tài)和計(jì)算結(jié)點(diǎn)狀態(tài)數(shù)據(jù)。

表1 硬件環(huán)境狀態(tài)數(shù)據(jù)

2.3運(yùn)行狀態(tài)數(shù)據(jù)采集

FPDC-TH采用分布式結(jié)構(gòu)采集運(yùn)行狀態(tài)數(shù)據(jù),每個(gè)計(jì)算結(jié)點(diǎn)運(yùn)行數(shù)據(jù)采集進(jìn)程,通過(guò)多層分組數(shù)據(jù)匯集方法將數(shù)據(jù)匯集至代理結(jié)點(diǎn)。

noderuninfomanager數(shù)據(jù)采集模塊,采用分析/proc文件系統(tǒng)的方法獲取結(jié)點(diǎn)運(yùn)行狀態(tài)數(shù)據(jù)。/proc虛擬文件系統(tǒng)是linux內(nèi)核的一部分,提供用戶動(dòng)態(tài)查看內(nèi)核運(yùn)行狀態(tài)的接口,包括當(dāng)前系統(tǒng)中進(jìn)程、硬件、內(nèi)存等相關(guān)信息。通過(guò)分析/proc中cpuinfo、meminfo、slabinfo、uptime、net/、sys/、scsi/等文件或文件夾中相關(guān)文件,能夠獲得包括CPU、內(nèi)存、網(wǎng)絡(luò)和I/O等系統(tǒng)運(yùn)行的信息。為了提高數(shù)據(jù)分析和采集的效率,采用先并行讀取/proc相關(guān)文件,后整合結(jié)點(diǎn)運(yùn)行狀態(tài)數(shù)據(jù)的方法,這種方式開銷小,采樣間隔可達(dá)到毫秒級(jí)。

noderuninfomanager模塊通過(guò)對(duì)TH-1A中/proc文件系統(tǒng)的分析,選擇采集與結(jié)點(diǎn)運(yùn)行狀態(tài)密切相關(guān)的136個(gè)數(shù)據(jù),見表2,主要包括下面四部分。

1)CPU相關(guān):CPU使用負(fù)載情況,任務(wù)創(chuàng)建和系統(tǒng)切換活動(dòng),中斷統(tǒng)計(jì),隊(duì)列深度等;

2)內(nèi)存相關(guān):內(nèi)存使用情況,包括內(nèi)存的利用率,內(nèi)存頁(yè)替換和緩存的速率等;

3)網(wǎng)絡(luò)相關(guān):網(wǎng)絡(luò)參數(shù)統(tǒng)計(jì),包括包速率、帶寬、網(wǎng)絡(luò)設(shè)備錯(cuò)誤、socket統(tǒng)計(jì)、IP網(wǎng)絡(luò)通信量和錯(cuò)誤統(tǒng)計(jì)、ICMP網(wǎng)絡(luò)通信量和錯(cuò)誤統(tǒng)計(jì)、TCP網(wǎng)絡(luò)通信量和錯(cuò)誤統(tǒng)計(jì)、UDP網(wǎng)絡(luò)通信量等;

4)I/O相關(guān):詳細(xì)的物理設(shè)備傳輸速率統(tǒng)計(jì),文件系統(tǒng)統(tǒng)計(jì)和Lustre客戶端訪問(wèn)速率統(tǒng)計(jì)等。

表2 結(jié)點(diǎn)運(yùn)行狀態(tài)數(shù)據(jù)

2.4數(shù)據(jù)匯集

結(jié)合TH-1A計(jì)算機(jī)系統(tǒng)的實(shí)際結(jié)構(gòu),自適應(yīng)多層分組數(shù)據(jù)匯集方法適用于結(jié)點(diǎn)運(yùn)行狀態(tài)數(shù)據(jù)的匯集。首先將最終匯集點(diǎn)確定為TH-1A共享存儲(chǔ)系統(tǒng)Lustre,然后根據(jù)計(jì)算結(jié)點(diǎn)規(guī)模和高速互連拓?fù)浣Y(jié)構(gòu)特點(diǎn)確定具體的分組方法。

數(shù)據(jù)匯集模塊dataaggregation在TH-1A上實(shí)現(xiàn)時(shí),分組層次選擇為3層,從下至上依次為葉結(jié)點(diǎn)層、代理層和Lustre存儲(chǔ)層,如圖5所示。以機(jī)框?yàn)閱挝?16個(gè)結(jié)點(diǎn)),每個(gè)機(jī)框選出主代理結(jié)點(diǎn)cna和備份代理結(jié)點(diǎn)bcna,其中葉子結(jié)點(diǎn)(14個(gè)結(jié)點(diǎn))為葉結(jié)點(diǎn)層,代理結(jié)點(diǎn)cna和bcna為葉結(jié)點(diǎn)的父結(jié)點(diǎn),系統(tǒng)中所有的這些代理結(jié)點(diǎn)組成代理層,最終數(shù)據(jù)匯集到Lustre共享存儲(chǔ)。

由于最終匯集點(diǎn)是Lustre共享存儲(chǔ),該層不再設(shè)置備份結(jié)點(diǎn)。

圖5 FPDC-TH數(shù)據(jù)匯集示意圖Fig.5 Data aggregation workflow of FPDC-TH

dataaggregation模塊采用如圖5所示的3層分組數(shù)據(jù)匯集方法基于如下考慮:

1)TH-1A超級(jí)計(jì)算機(jī)全系統(tǒng)共有7168個(gè)計(jì)算結(jié)點(diǎn),計(jì)算結(jié)點(diǎn)數(shù)不超過(guò)104,采用3層的分組方式,能夠有效縮減單位時(shí)間內(nèi)計(jì)算結(jié)點(diǎn)直接訪問(wèn)共享存儲(chǔ)的訪問(wèn)數(shù),使存儲(chǔ)系統(tǒng)開銷減少到較小的程度。

2)利用機(jī)框進(jìn)行分組可以有效利用超級(jí)計(jì)算機(jī)互連網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的優(yōu)勢(shì)。TH-1A互連網(wǎng)絡(luò)為光電混合層次式胖樹結(jié)構(gòu),第一層為機(jī)框內(nèi)部電互連,機(jī)框通信交換板和16個(gè)結(jié)點(diǎn)之間通過(guò)背板電互連;第二層為機(jī)柜內(nèi)部機(jī)框之間的光連接,采用Mesh結(jié)構(gòu);第三層由11個(gè)384口交換機(jī)組成,機(jī)框交換板和384口交換機(jī)采用光互連,組成胖樹結(jié)構(gòu)。這種層次式胖樹結(jié)構(gòu)結(jié)點(diǎn)之間互連傳輸速度決定于點(diǎn)對(duì)點(diǎn)之間的跳步數(shù)和通信距離。同一機(jī)框內(nèi)部結(jié)點(diǎn)之間通信跳步數(shù)為1或3;而在機(jī)框之間,不同機(jī)柜間的結(jié)點(diǎn)跳步數(shù)逐漸增多,最多為11跳,同時(shí),傳輸距離不斷增加。因此,以一個(gè)機(jī)框?yàn)榛痉纸M單位,結(jié)點(diǎn)間數(shù)據(jù)傳輸速度最快、開銷最小。

3性能測(cè)試與分析

基于TH-1A超級(jí)計(jì)算機(jī)對(duì)FPDC-TH數(shù)據(jù)采集系統(tǒng)進(jìn)行測(cè)試,該系統(tǒng)計(jì)算結(jié)點(diǎn)包括2個(gè)英特爾至強(qiáng)X5670處理器(2.93GHz,6核),24G內(nèi)存,Linux內(nèi)核版本為2.6.32。實(shí)驗(yàn)過(guò)程中默認(rèn)數(shù)據(jù)采集間隔為10 s。

3.1硬件環(huán)境數(shù)據(jù)采集開銷分析

SMCcolmanager模塊通過(guò)專用以太網(wǎng)訪問(wèn)SMC獲取數(shù)據(jù),對(duì)計(jì)算結(jié)點(diǎn)性能沒有影響,僅測(cè)試對(duì)管理結(jié)點(diǎn)性能影響。通過(guò)多次運(yùn)行ps命令和vmstat命令求平均值的方法獲得數(shù)據(jù)采集開銷。圖6所示為管理結(jié)點(diǎn)分別從112,224,336和448個(gè)SMC服務(wù)器(全系統(tǒng)共448個(gè)SMC)獲取數(shù)據(jù)開銷的比較。從測(cè)試可知,虛擬內(nèi)存和物理內(nèi)存的使用隨著采集SMC服務(wù)器數(shù)目的增加而增加,主要是由于SMCcolmanager模塊訪問(wèn)每個(gè)SMC服務(wù)器需要一個(gè)線程。但實(shí)際內(nèi)存開銷不大,小于總內(nèi)存的0.02%。同時(shí)處理器開銷較小,低于0.4%;I/O開銷低于3.8 MB/s。另外,從圖6可知,隨著數(shù)據(jù)采集規(guī)模成倍增加,采集開銷增長(zhǎng)緩慢,具有良好的擴(kuò)展性,為后續(xù)部署到TH-2或更大規(guī)模系統(tǒng)提供了較好的依據(jù)。總體來(lái)看,硬件環(huán)境數(shù)據(jù)采集對(duì)管理結(jié)點(diǎn)開銷較小,同時(shí)并不影響系統(tǒng)實(shí)際應(yīng)用的性能。

圖6 硬件環(huán)境數(shù)據(jù)采集模塊可擴(kuò)展性測(cè)試圖Fig.6 Scalability test of SMCcolmanager

3.2結(jié)點(diǎn)運(yùn)行狀態(tài)數(shù)據(jù)采集開銷分析

表3所示為noderuninfomanager模塊在單一葉計(jì)算結(jié)點(diǎn)上采集運(yùn)行狀態(tài)數(shù)據(jù)的開銷。Valgrind是Linux環(huán)境下對(duì)應(yīng)用程序的內(nèi)存分析工具集。其包含的Massif內(nèi)存剖析工具能夠檢測(cè)程序運(yùn)行過(guò)程中堆內(nèi)存(heap memory)和全部占用內(nèi)存。利用/usr/bin/time命令多次測(cè)試求平均值的方法獲得時(shí)間和CPU開銷,利用Massif工具多次測(cè)試求平均值的方法獲取內(nèi)存占用開銷。從數(shù)據(jù)可知,計(jì)算結(jié)點(diǎn)上的數(shù)據(jù)采集進(jìn)程占用的CPU、內(nèi)存和帶寬等開銷較小。葉子結(jié)點(diǎn)將數(shù)據(jù)傳輸?shù)街鞔斫Y(jié)點(diǎn)和備份代理結(jié)點(diǎn)時(shí),并不產(chǎn)生I/O開銷,數(shù)據(jù)傳輸時(shí)間小于1 ms。將傳輸數(shù)據(jù)量除以數(shù)據(jù)采集間隔(10 s)作為數(shù)據(jù)傳輸?shù)膸挘瑒t占用數(shù)據(jù)帶寬為0.14 KB/s,該帶寬值忽略了傳輸協(xié)議的開銷,可以認(rèn)為是占用帶寬的最小值,可以反映帶寬開銷水平。

表3 noderuninfomanager在葉結(jié)點(diǎn)上的數(shù)據(jù)采集開銷

3.3自適應(yīng)分組數(shù)據(jù)匯集開銷分析

dataaggregation數(shù)據(jù)匯集模塊采用自適應(yīng)3層分組數(shù)據(jù)匯集方法,以機(jī)框?yàn)榛痉纸M單位,利用TH-1A互連網(wǎng)絡(luò)光電混合層次式胖樹拓?fù)浣Y(jié)構(gòu)特點(diǎn),使得較多的數(shù)據(jù)傳輸發(fā)生在跳數(shù)較少和距離較近的結(jié)點(diǎn)之間,有效減少了數(shù)據(jù)分組傳輸過(guò)程中的通信開銷。如圖7所示,利用Glex接口編程采用乒乓(ping-pong)測(cè)試方法,在機(jī)框內(nèi)部、機(jī)柜內(nèi)部和機(jī)柜之間分別選擇跳步數(shù)為1,5和10的結(jié)點(diǎn)對(duì),傳輸數(shù)據(jù)從8 B增加到4 KB。由圖7中測(cè)試結(jié)果可知,隨著通信跳步數(shù)的增多和通信距離的增加,通信延遲變長(zhǎng),帶寬變小。因此,將較頻繁的數(shù)據(jù)傳輸控制在機(jī)框內(nèi),數(shù)據(jù)可通過(guò)背板直接傳輸,傳輸速率高、開銷小。

圖7 數(shù)據(jù)匯集網(wǎng)絡(luò)測(cè)試Fig.7 Network test of data aggregation

表4和表5分別是dataaggregation模塊在主代理結(jié)點(diǎn)數(shù)據(jù)壓縮和數(shù)據(jù)傳輸?shù)拈_銷,壓縮采用zlib庫(kù),實(shí)驗(yàn)采用/usr/bin/time和Massif多次測(cè)試求平均值的方法分別獲得時(shí)間、CPU和內(nèi)存開銷。表4分別列出了主代理結(jié)點(diǎn)收集16,8和4個(gè)結(jié)點(diǎn)的數(shù)據(jù)進(jìn)行壓縮時(shí)的開銷,可知3種情況下壓縮開銷差別很小,但以16個(gè)結(jié)點(diǎn)進(jìn)行分組,能夠有效減少I/O和通信開銷。表4中16結(jié)點(diǎn)組CPU開銷小是因?yàn)檫@里CPU開銷指壓縮操作耗時(shí)內(nèi)的CPU開銷,由于16個(gè)結(jié)點(diǎn)數(shù)據(jù)壓縮耗時(shí)相對(duì)較長(zhǎng),所以CPU占用率相對(duì)較低。同時(shí)觀察到,壓縮過(guò)程具有一定的內(nèi)存開銷,但內(nèi)存開銷僅存在壓縮操作運(yùn)行的這個(gè)較短時(shí)間內(nèi)(<4 ms),從時(shí)間角度來(lái)看,開銷也不大。

表4 主代理結(jié)點(diǎn)數(shù)據(jù)壓縮開銷

表5中分別列出了不同分組方式數(shù)據(jù)壓縮后向Lustre存儲(chǔ)系統(tǒng)傳輸時(shí)主代理結(jié)點(diǎn)的開銷,由于采集數(shù)據(jù)本身的特點(diǎn),具有較高壓縮比,單一結(jié)點(diǎn)采集數(shù)據(jù)原始大小約700~750 B。以16,8和4個(gè)結(jié)點(diǎn)進(jìn)行分組壓縮數(shù)據(jù)后,數(shù)據(jù)傳輸時(shí)間僅相差0.000 7 s。在數(shù)據(jù)傳輸過(guò)程的時(shí)間段內(nèi)16個(gè)結(jié)點(diǎn)組壓縮數(shù)據(jù)的CPU開銷最大,是由于傳輸時(shí)間增長(zhǎng)不多的情況下,傳輸較多數(shù)據(jù)占用了相對(duì)較多的CPU時(shí)間;但對(duì)于較短的傳輸時(shí)間,這個(gè)開銷是可以接受的。對(duì)于不壓縮的情況,數(shù)據(jù)傳輸時(shí)間明顯增加,從表5中可知,由于壓縮時(shí)間加上傳輸時(shí)間仍明顯小于不壓縮傳輸?shù)臅r(shí)間,因此數(shù)據(jù)傳輸采用壓縮方式有明顯的時(shí)間收益。

圖8為采用不同的分組方式對(duì)共享存儲(chǔ)系統(tǒng)的開銷情況。從圖8可得,通過(guò)分組層次式匯集數(shù)據(jù),能夠迅速減緩數(shù)據(jù)匯集過(guò)程中的I/O請(qǐng)求數(shù)隨結(jié)點(diǎn)規(guī)模增長(zhǎng)的速度,可有效提高數(shù)據(jù)采集系統(tǒng)的可擴(kuò)展性。數(shù)據(jù)存儲(chǔ)到共享存儲(chǔ)系統(tǒng)后,針對(duì)實(shí)際需求,進(jìn)行數(shù)據(jù)處理工作,保存有效數(shù)據(jù),降低存儲(chǔ)空間開銷。

圖8 分組數(shù)據(jù)匯集I/O操作比較Fig.8 Comparison of I/O operation in data aggregation

分組數(shù)據(jù)壓縮后大小/B壓縮比代理結(jié)點(diǎn) 向Lustre傳輸時(shí)間/s壓縮時(shí)間/s+傳輸時(shí)間/s傳輸數(shù)據(jù)時(shí)間段內(nèi)CPU開銷/%使用最大堆內(nèi)存量/KB占用最大內(nèi)存/MB16個(gè)結(jié)點(diǎn)為一組壓縮27554.210.00630.01033.4105.8758個(gè)結(jié)點(diǎn)為一組壓縮14573.980.00560.00861.9305.8754個(gè)結(jié)點(diǎn)為一組壓縮7753.750.00560.00861.4805.87516個(gè)結(jié)點(diǎn)為一組未壓縮1161010.0660.0661.3305.875

4總結(jié)

基于高性能計(jì)算故障預(yù)測(cè)數(shù)據(jù)采集的需要,提出數(shù)據(jù)采集框架FPDC,能夠獲取與故障相關(guān)的結(jié)點(diǎn)軟硬件狀態(tài)數(shù)據(jù),其分布式架構(gòu)和自適應(yīng)多層分組數(shù)據(jù)匯集方法有效解決了隨著系統(tǒng)規(guī)模增長(zhǎng)數(shù)據(jù)采集開銷過(guò)大的問(wèn)題。在TH-1A超級(jí)計(jì)算機(jī)上完成FPDC的實(shí)現(xiàn),實(shí)驗(yàn)結(jié)果顯示,F(xiàn)PDC開銷小,擴(kuò)展性好,能夠適應(yīng)未來(lái)大規(guī)模系統(tǒng)故障預(yù)測(cè)數(shù)據(jù)采集的需要。

參考文獻(xiàn)(References)

[1]Philp I R. Software failures and the road to a petaflop machine[C]// Proceedings of the 11th International Symposium on High Performance Computer Architecture,San Francisco, CA, USA, IEEE Computer Society, 2005.

[2]Liang Y, Zhang Y, Xiong H, et al. Failure prediction in IBM BlueGene/L event logs[C]//Proceedings of Seventh IEEE International Conference on Data Mining Omaha, Nebraska, USA,IEEE Computer Society, 2007:583-588 .

[3]Lan Z L, Gu J X, Zheng Z M, et al. A study of dynamic meta-learning for failure prediction in large-scale systems[J]. Journal of Parallel and Distributed Computing, 2010, 70(6): 630-643.

[4]Oliner A, Ganapathi A, Xu W. Advances and challenges in log analysis[J]. Communications of the ACM , 2012, 55(2): 55-61.

[5]Xu W, Huang L, Fox A, et al. Detecting large-scale system problems by mining console logs[C]//Proceedings of the ACM SIGOPS 22nd Symposium on Operating Systems Principles,New York, NY, USA: ACM, 2009.

[6]Gainaru A, Cappello F, Snir M, et al. Fault prediction under the microscope: a closer look into HPC systems[C]//Proceedings of the International Conference on High Performance Computing, Networking, Storage and Analysis,Los Alamitos, CA, USA, IEEE Computer Society Press, 2012.

[7]Scott S L, Engelmann C, Vallée G R, et al. A tunable holistic resiliency approach for high-performance computing systems[C]//Proceedings of the 14th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming,New York, NY, USA,ACM, 2009.

[8]Nagarajan A B, Mueller F, Engelmann C, et al. Proactive fault tolerance for HPC with Xen virtualization[C]//Proceedings of the 21st Annual International Conference on Supercomputing,New York, NY, USA, ACM, 2007: 23-32.

[9]Rajachandrasekar R, Besseron X, Panda D K. Monitoring and predicting hardware failures in HPC clusters with FTB-IPMI[C]//Proceedings of the 2012 IEEE 26th International Parallel and Distributed Processing Symposium Workshops & PhD Forum, 2012: 1136-1143.

[10]Sahoo R K, Oliner A J, Rish I, et al. Critical event prediction for proactive management in large-scale computer clusters[C]//Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,New York, NY, USA, ACM, 2003:426-435.

[11]Buyya R. PARMON: a portable and scalable monitoring system for clusters[J]. Software-Practice Experience, 2000, 30(7): 723-739.

[12]Massie M L, Chun B N, Culler D E. The ganglia distributed monitoring system: design, implementation, and experience[J]. Parallel Computing. 2004, 30(7): 817-840.

[13]Brandt J M, Debusschere B J, Gentile A C, et al. Ovis-2: a robust distributed architecture for scalable RAS[C]//Proceedings of IEEE International Symposium on Parallel & Distributed Processing,IEEE Computer Society, 2008:1-8.

[14]Xie M, Lu Y T, Wang K F, et al. Tianhe-1A interconnect and message-passing services[J].IEEE Micro, 2012, 32(1): 8-20.

Data collection for failure prediction toward exascale supercomputers

HUWei1,2,JIANGYanhuang1,LIUGuangming1,2,DONGWenrui1,2,CUIXinwu3

(1. College of Computer, National University of Defense Technology, Changsha 410073, China;2. National Supercomputer Centre in Tianjin, Tianjin 300457, China; 3. The PLA Unit 95942, Wuhan 430313, China)

Abstract:Aimed at an exascale supercomputer, an FPDC (failure prediction data collection framework) was introduced to fully collect the data related to the state of compute nodes’ health. An adaptive multi-layer data aggregation method was presented for data aggregation with less overhead. Extensive experiments, by implementing FPDC on TH-1A,indicate that the FPDC has the advantage of high efficiency and good scalability.

Key words:supercomputer; failure prediction; data collection method; data aggregation

中圖分類號(hào):TP311

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-2486(2016)01-093-08

作者簡(jiǎn)介:胡維(1982—),男,江西南昌人,博士研究生,E-mail:huwei@nscc-tj.gov.cn;劉光明(通信作者),男,教授,碩士,博士生導(dǎo)師,E-mail:liugm@nscc-tj.gov.cn

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61272141,61120106005);國(guó)家863計(jì)劃資助項(xiàng)目(2012AA01A301)

*收稿日期:2015-04-09

doi:10.11887/j.cn.201601016

http://journal.nudt.edu.cn

主站蜘蛛池模板: 日韩在线观看网站| 亚洲美女一区| 三级国产在线观看| 啪啪永久免费av| 国产手机在线小视频免费观看| 国产福利2021最新在线观看| 中国精品自拍| 亚洲国产精品不卡在线| 青青草综合网| www亚洲天堂| 97精品久久久大香线焦| 亚洲免费黄色网| 国产精品第页| 色婷婷在线播放| 女人av社区男人的天堂| 国产精品女在线观看| 黄色网址免费在线| 久久这里只有精品23| h网址在线观看| 日韩中文精品亚洲第三区| 日韩毛片在线视频| 亚洲男人的天堂久久香蕉网| 精品福利网| 国产波多野结衣中文在线播放| 视频二区欧美| 国产亚洲精| 国产无遮挡猛进猛出免费软件| 99ri国产在线| 国产aⅴ无码专区亚洲av综合网| 国产精品自在自线免费观看| 97久久精品人人做人人爽| 国产在线91在线电影| 欧美午夜视频| 自拍偷拍欧美| 成人免费午间影院在线观看| 国产欧美性爱网| 91麻豆久久久| 欧美日韩国产一级| 国产在线精品人成导航| 久久久久无码国产精品不卡| a毛片在线| 国产自在线拍| 亚洲欧美精品日韩欧美| 欧美午夜网站| 免费看av在线网站网址| 日韩福利视频导航| 色婷婷狠狠干| 特黄日韩免费一区二区三区| 亚洲αv毛片| 97成人在线视频| 久久综合九色综合97网| 国产黄在线免费观看| 国产精品护士| 日韩成人免费网站| 亚洲开心婷婷中文字幕| av在线手机播放| 亚洲精品福利视频| 美女扒开下面流白浆在线试听 | 第九色区aⅴ天堂久久香| 精品国产免费观看| 国产精品福利导航| 99人妻碰碰碰久久久久禁片| 欧美色图久久| 一级黄色片网| 中日韩一区二区三区中文免费视频 | 欧美精品亚洲精品日韩专| 国产69精品久久| 成年A级毛片| 亚洲伦理一区二区| 亚洲第一成年人网站| 91麻豆国产在线| 国产在线视频自拍| 全部免费特黄特色大片视频| 超级碰免费视频91| 国产成人精品在线| 91精品啪在线观看国产60岁 | 欧美国产在线看| 亚洲专区一区二区在线观看| 亚洲国产综合精品中文第一| 欧美性久久久久| 亚洲第一黄色网址| 美女啪啪无遮挡|