999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高性能互連網絡中端口阻塞故障預測方法*

2022-10-05 03:20:58徐佳慶胡小弢楊漢芝唐付橋
國防科技大學學報 2022年5期
關鍵詞:故障模型

徐佳慶,胡小弢,楊漢芝,王 強,張 磊,唐付橋

(國防科技大學 計算機學院, 湖南 長沙 410073)

高性能計算機是指具有極快運算速度、極大存儲容量、極高通信帶寬的一類計算機,主要應用于大科學、大工程以及產業升級等領域,對國家安全、經濟和社會發展具有舉足輕重的意義,是國家科技發展水平和綜合國力的重要標志。[1]為滿足科研和生產活動對更高計算能力的需求,高性能計算機的性能發展遵循著“千倍定律”,即每過十年超級計算機的性能會提升一千倍。截至2022年6月,這類計算機最高運算速度已達到每秒百億億次浮點運算[2]。

高性能互連網絡[3-4](high performance interconnection networks)是高性能計算機中最重要的全局性基礎設施,相當于高性能計算機的神經系統,是實現系統中各類結點高速協同并行計算的關鍵,直接影響著系統的性能。高性能互連網絡主要由高性能網卡(high performance adapter)、高階交換機(high-radix switch)和高速鏈路(high-speed link)構成。盡管單個互連構件的故障概率很低,但隨著系統規模的擴大和鏈路速率的提升,高性能互連網絡的整體故障率將會不斷上升[5],給高性能互連網絡的日常運維帶來了巨大的挑戰,傳統的自動化運維將難以應對。因此,需要引入機器學習算法自動地從海量運維數據中不斷地學習,不斷地提煉并總結故障規律,加速互連故障的診斷與預測,從而提高運維效率,提升整個高性能計算(high performance computing,HPC)系統的可用性。

在高性能互連網絡運維中,由鏈路質量惡化引發的網絡端口阻塞是一類故障定位復雜、故障影響范圍大的嚴重故障。一旦發生網絡端口阻塞:輕則會導致網絡中的丟包率增加,端對端延遲增加;重則會造成整個網絡癱瘓,嚴重影響整個系統的可靠性。當發生了網絡端口阻塞故障時,運維人員通常需要將系統中正在運行的作業掛起,利用測試程序確定當前系統中不可達的結點對,然后通過路徑查詢工具獲取結點對之間的公共路徑,依次對這些公共路徑經過的網絡端口進行端口復位,從而確定發生故障的端口位置,最后往往通過更換故障光纖或光模塊的方法來有效消除網絡端口阻塞故障。整個故障定位的過程較為復雜,耗時較長,嚴重影響整個系統的可用性。若運維工作人員能提前獲取網絡端口阻塞故障的預測結果,就可以從以下兩個方面提升HPC系統整體的可用性:

1)資源分配。在作業提交前,管理人員主動將作業分配給所在鏈路更健康的結點區域,以防因為鏈路故障而導致作業運行失敗。

2)故障規避。對于存在阻塞隱患的鏈路,管理人員可以主動采取誤路由的方法,在不影響作業正常運行的情況下提前對該隱患端口進行排查和處理,從而確保系統中所有鏈路均健康可用。

智能運維(artificial intelligence for IT operations, AIOps)的概念由Gartner于2016年首先提出的,是將人工智能應用于運維領域,基于已有的運維數據(日志、監控信息、應用信息等),通過機器學習的方式設計故障預測模型尋找故障發生前的規律,推測出系統在未來一段時間的運行狀況,在故障發生之前進行預判,幫助運維人員提前采取一些有效措施規避故障,提高系統的可靠性及穩定性[6-13]。

數據中心(data center, DC)系統或HPC系統通常由計算、存儲、網絡三大部分構成。近年來,許多研究人員分別開展了針對計算、存儲、網絡的故障預測研究,致力于提高系統的整體可用性。在計算故障預測方面,在文獻[14-18]中,研究人員建立了計算結點故障預測模型,雖然取得不錯的效果,但都是基于軟件層面上對故障進行分析預測,對基礎性硬件故障也無法提供實質性指導。在文獻[19]中,孫勤以“天河一號”超級計算結點運行狀態數據集為基礎,采用改進的 ReMAE 算法結點狀態數據進行故障預測,召回率要高出其他集成式數據流挖掘算法37%~50%,提高了對即將故障狀態的預測的準確率。劉睿濤[20]依托神威系統,采用基于帶時間標簽多序列的故障預測算法對結點CPU等部件故障進行了預測分析,該方法雖然準確率達到了60%~99%,但召回率偏低,在實際運維過程中容易出現漏報的情況。在存儲故障預測方面,文獻[21-22]均采用了近似于分類和預測相結合的兩步模型對大數據中心磁盤故障進行預測。其中分類模型通過對歷史故障數據的分析獲取磁盤狀態認知,結合預測模型對未來數據進行判定來表征磁盤是否存在故障。該方法更多地利用了數據的特性來避免標準有監督學習中的混淆效應,有效地提高了磁盤狀態甄別的準確率。在網絡故障預測方面,文獻[23]提出了基于日志文件的網絡故障預測方法,通過提取日志文件中的隱含序列對故障發生時間進行預判。該種方法不僅可以對多種交換機進行預測,還能增量學習新的特征,但基于日志文件的預測方式只能間接地反饋網絡狀態,缺乏對網絡物理組件本身狀態的認知。

本文針對網絡端口阻塞故障,提出了一種無監督的分類算法K-means算法和時間序列算法二次指數平滑(double exponential smoothing,DES)算法相結合的預測模型,通過從交換機端口狀態寄存器的歷史信息中挖掘出征兆性規律并形成新的特征向量,應用K-means聚類算法對特征向量進行學習歸類。在預測時,結合端口當前狀態,利用DES算法對未來一段時間的端口狀態進行預測,將得到的新特征向量使用K-means算法預判是否會出現端口阻塞故障。

1 相關背景

系統A、系統B和系統C是三個處于運行狀態的超級計算機,其在線運行時間、互連網絡規模和鏈路速率分別如表1所示:其中系統A的服役時間最長;系統B的互連網絡規模最大;系統C的部署時間最晚。

表1 系統參數對比

根據故障的不同性質,可將互連網絡的故障分為軟件故障和硬件故障,其中硬件故障又可分為交換機故障、網卡故障及鏈路故障三類。由于各系統部署時間不同,運維數據統計的時間跨度也有所不同。系統A統計了2015年12月至2018年5月的互連故障數據;系統B統計了2017年1月至2018年5月的互連故障數據;系統C則統計了2017年1月至2018年6月的互連故障數據。三個系統各類互連故障的比例情況如表2所示。硬件故障在三個系統中均占據互連故障的90%以上。其中網卡故障的比例較小,主要集中于交換機故障和鏈路故障。在系統A中,交換機故障達到了81.05%,而鏈路故障僅為10.53%,其原因是該系統使用了QDR光纖,隨著系統服役時間的增長,電子元器件的老化導致了交換機故障增多;而系統B和系統C則使用了FDR光纖和EDR光模塊,其鏈路故障的比例分別達到了76.61%和61.94%。從中不難發現,隨著系統規模的增大以及鏈路速率的提升,鏈路故障已成為互連網絡中最主要的一類故障,給互連網絡的維護帶來了極大的挑戰。

表2 不同互連網絡故障比例

2 模型設計以及相關原理

2.1 模型概況

研究目標是預測系統在正常運行時在未來一段時間內某個交換機端口是否出現網絡阻塞現象。對于發生在Th時刻的故障,期望能在Ts至Te這段時間內預測出故障即將發生。Δτa是Te距離Th的間隔,為運維人員用來處理故障的最短時間。

圖1 故障預測模型Fig.1 Model of failure prediction

在離線學習過程中,假設在Th出現故障,對于[Ts,Te]中的任何時刻Tx,[Tx-Δτm,Tx]中的消息序列被標記為征兆性規律。Ty∈[Ts,Th]時,[Ty-Δτm,Ty]中的消息序列被標記為非征兆性規律,如圖1所示。希望通過捕捉交換機端口出現故障前的規律性變化來預測網絡阻塞是否發生。為此,將使用機器學習方法建立一個基于交換機端口網絡阻塞故障歷史數據集的預測模型,然后使用該模型來預測全系統交換機端口是否在未來會發生網絡阻塞故障。在預測模型的設計過程中需要面對以下技術挑戰。

1)數據不均衡。將以第1節中提及的系統C作為研究對象,該系統有近18 000個網絡端口。而統計數據表明,該系統日均發生網絡阻塞故障的端口不到2個,如表3所示。這種極度分布不均衡的數據集,讓模型訓練的難度大大增加。由于這種數據不平衡性的存在,預測模型大概率偏向于判斷網絡端口在未來一段時間處于健康狀態。雖然可使用數據再平衡技術(如欠采樣和過采樣技術等)來解決這一挑戰,但這些方法在提高召回率的同時也可能引入大量的誤報,從而大大降低預測的準確性。

2)數據特征不明顯。不同于基于以太網的交換機、服務器等物理組件提供的日志文件,它本身并不涉及設備本身的物理狀態,而采集的數據反映的卻是交換機本身底層的狀態。這也導致正常樣本和異常樣本在原始數據表征上沒有明顯差異。

表3 網絡阻塞故障示例

圖2展示了預測模型的基本框架。整體分為離線訓練和在線預測兩大塊。在離線訓練中:第一步是從歷史數據集中提取出有用特征向量序列作為新的訓練集。第二步是利用訓練集分別對聚類組件和預測組件進行學習訓練。聚類組件通過學習故障端口阻塞故障發生前2 d和正常端口任意2 d的狀態變化,找出網絡阻塞這一過程在不同階段狀態的差異,并進行歸類。預測組件則對網絡阻塞端口從正常狀態到故障發生前一刻的不同特征值進行學習訓練,進而預測出在未來某個時間節點Th網絡端口狀態。當離線模型訓練完成后,在線預測組件結合某個端口當前的狀態Xt,利用離線模型中的預測組件對時間節點Th的狀態進行預測,再依托聚類組件判斷該端口的狀態,判斷是否會出現網絡阻塞,給運維工作人員提供指導。

圖2 整體模型構架Fig.2 Overall model framework

2.2 K-means的聚類算法

交換機端口發生網絡阻塞故障是一個漸變的惡化過程,但該過程如何演變尚未徹底弄清,而無監督的聚類算法非常適合分析識別數據對象的內在關系,可以輔助科研人員揭露數據的真實變化情況。

K-means算法是一種經典的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。而相似度是利用各聚類中對象的均值獲得一個“中心對象”(引力中心)來進行計算。具體實現如下:首先從所有樣本對象中選擇出K個元素作為最開始的聚類目標mi(i=1,2,…,K),結合式(1),計算數據集中每個樣本到K個聚類目標的距離di,在找到樣本的最小距離di后,將該樣本歸入與mi相同的目標類中。

(1)

式中:i=(xi1,xi2,…,xin)和j=(xj1,xj2,…,xjn)是兩個n維數據對象。遍歷完所有對象后,利用式(2)重新計算mi的值,作為新的聚類目標。

(2)

式中:m′K為第K個聚類目標,N代表第K個簇中數據對象的個數。按照新的聚類目標將整個數據集中的對象重新歸類。反復進行這個過程直至平方誤差準則最小。定義平方誤差準則如下:

(3)

式中:E表示所有對象的平方誤差的總和,p代表訓練集中的樣本,mi表示聚類目標Ci的平均值。

如上所述,利用K-means聚類算法可以用于多分類問題。可以把交換機端口狀態的判斷看作是分類問題。也就是說,如果只想評估端口是否可用,可以將其簡化為一個分類問題。因此,K-means聚類算法可以在無監督的情景下實現端口狀態的智能識別,并且該算法易于實現,時效性高,非常適合本文場景。

2.3 DES預測算法

如上所述,K-means算法提供了一種利用多個指標評估設備狀態的有效方法,但不能獨立進行預測。結合K-means算法的預測方法如圖3所示,提取了交換機端口從t-n時刻到t時刻的不同特征的狀態值,需要采用一種算法預測出t+T時刻的各個特征值,再結合K-means算法判斷t+T時刻的設備故障狀態。

圖3 結合K-means的預測方法Fig.3 Prediction method combine with K-means

使用的特征數據是網絡端口不同寄存器狀態值在不同區間內的分布數量,它們的變化趨勢近似于一條連續的曲線,短期趨勢可以預測的。另一方面,當一個交換機端口接近故障時,其指標相比于正常情況下波動較大。因此,適合使用DES算法來完成這項工作。DES算法是一種時間序列預測算法,主要用于短時預測,主要針對的是存在變化趨勢但沒有季節性規律的序列,比較適合本文的討論場景。該算法是一種改進的指數平滑算法,能更靈敏地識別數據的變化,適用于變化較大的時間序列。DES算法的主要特點是它對單個指數平滑結果進行指數平滑,如式(4)和式(5)所示。

(4)

(5)

Yt+T=at+bt·T

(6)

(7)

(8)

選擇DES算法結合K-means聚類算法來進行系統的網絡阻塞故障預測。在這種方法中,先使用DES算法來預測每個特征在t+T時刻的值Yt+T,再利用K-means算法來判斷t+T時刻的系統狀態。

3 實驗與結果

3.1 實驗系統介紹

系統C為本次實驗的目標系統,該系統采用了6行×30列的二維胖樹(2D-Tree)拓撲結構,系統中共有180臺葉交換機(ToR switch)和132臺根交換機(Spine switch),網絡拓撲如圖4所示。葉交換機有72個網絡端口,根交換機有36個網絡端口。其中根交換機根據位置不同又可分為行根交換機(row spine switch, RSS)與列根交換機(column spine switch,CSS)。值得注意的是,在使用的數據集中,根交換機端口與葉交換機端口發生網絡阻塞故障的比例為1.6 ∶1,網絡阻塞故障更多集中出現在根交換機端口上。

圖4 互連網絡拓撲系統Fig.4 Interconnection networks topology system

涉及的數據是基于自研高性能互連網絡的帶內管理機制對系統C進行采集的,采集時間從2019年1月持續到2020年1月。以全系統交換機的在用端口為對象,以10 min為采樣間隔,對各端口的握手、重傳、信用、流量等12個特征值進行收集。該系統所有交換機共有17 712個端口,每個原始樣本時間跨度為1周。因此總的數據量有近93萬條。表4展示了編號為100的交換機的24號端口在2019年10月12日上午部分時間段的原始數據詳情。為了保證數據的時效性,運維人員對每一次網絡阻塞故障發生的時間進行了準確記錄。

表4 原始數據示例

前文提到數據集存在樣本不均衡的問題,如果訓練集中正常數據集遠大于故障數據集,則預測精度會很高,但也會使得實際部署時產生過多的漏報。因此剔除了大量正常數據集,重點關注故障數據集,使得正常數據和異常數據盡可能平衡。

3.2 特征挖掘

從上一節內容可知,本文采集了握手、重傳、信用等12個特征數據,但是并不是每一個特征值在對正常樣本和異常樣本進行區分時都有所幫助,尤其是進行故障預測時。另外在構建機器學習的模型時,特征選擇被證明是非常關鍵的,因此從特征數據中選擇出穩定、可預測的特征值非常重要。現有的特征選擇方法主要分為兩大類,統計指標(如卡方、互信息等)和基于機器學習的方法(如隨機森林等)。但對于信用、流量等特征值而言,由于數據本身存在時間敏感性和隨機性的特點,傳統的特征選擇方法往往使得預測模型性能不佳。

(a) 流量對比(a) Comparison of flit

通過分析發現,流量等特征在故障發生前和正常時候并無明顯差異,這類相似的特征被定義為“無效特征”,在構建特征向量時予以舍棄,如圖5(a)中的流量(圖示中的瞬時值均已歸一化處理)。與“無效特征”形成對比的是類似于圖5(b)中的信用值,被定義為“有效特征”。圖5展示了交換機端口從正常狀態到網絡阻塞故障發生的那一刻,2 d內流量、數據鏈路層信用兩個不同特征的變化趨勢。從圖5(a)中可以看出,直到網絡阻塞發生的前一刻為止,異常端口的流量值變化趨勢基本上和正常端口一樣,處于一種隨機波動的狀態。而在圖5(b)中,可以看到異常端口的數據鏈路層信用值隨著時間在沿著虛線逐漸變小,而正常端口則依然保持在0~1區域內隨機分布狀態。流量、信用等特征值雖然都攜帶了與時間段高度相關的信息,并且每一個數值的大小都是真實正常的數據,但只有數據鏈路層信用等這類特征值在某一段時間內都保持在一個縮小的范圍波動才能反映出交換機端口狀態的變化。

另外,握手、重傳等特征值往往只在故障發生前0.5 h內會出現異常,這種特征使得預測模型在時效性上效果很差,也予以舍棄。根據此種現象,最后選取了數據鏈路層信用、虛通道信用(分別對應表2中的CREDIT和VC)等6個特征值作為“有效特征”。以數據鏈路層信用為例,任意某個時刻的值取[0,1]區間內的任何一個值都是合理的,但較長時間停留在一個較小的數值區域則說明該端口存在一定的網絡阻塞風險。基于這個特點,通過將數據鏈路層信用等特征的值域均分地劃分為6個區間(區間1為[0~0.17],區間2為(0.17~0.34],區間3為(0.34~0.51],區間4為(0.51~0.68],區間5為(0.68~0.85],區間6為(0.85~1]),統計某個端口在時間跨度為100個采樣點的窗口內特征值在這6個區間的分布數量,將其作為一個新的特征值來衡量該端口當前時刻的健康狀態。接下來再以10個采樣點為滑動距離向前滑動,統計下100個采樣點的分布數量作為下一時刻的狀態信息,采樣窗口滑動方式如圖6所示。

圖6 采樣窗口滑動方式Fig.6 Sliding method of sliding window

圖7則展示了某個端口的數據鏈路層信用依照圖6所示規則,于網絡擁塞故障發生前不同時刻在6個區間的數量分布情況。從圖7中可以發現,區間1的數值變化可以最為完整地展現該端口從正常到出現故障整個過程的趨勢。為此進一步研究了故障端口不同“有效特征”在區間1中的變化趨勢,用來替代特征值本身的變化規律。

圖7 區間分布Fig.7 Data distribution

通過分析發現,葉交換機端口和根交換機端口特征值在區間1上的數量分布變化趨勢雖然類似,但它們在具體數值上存在較大差異。同樣以數據鏈路層信用為例,圖8展示了葉交換機和根交換機網絡阻塞端口數據鏈路層信用在區間1中故障出現前2 d內的變化過程。

圖8 葉、根交換機故障端口區間1數值變化對比Fig.8 Numerical comparison of interval 1 in ToR and Spine switch

圖8中ToR_S表示葉交換機,Spine_S表示根交換機(下同),0~3表示四個端口號。在曲線的前段部分,根交換機端口(黃色曲線)的特征值在區間1上的數量比葉交換機端口要多,但隨著端口健康狀態的惡化,可以看出在同一時間段上根交換機端口的特征值在區間1上的數量明顯比葉交換機要少,并且更早地出現拐點。從這里可以看出,基于拓撲結構分別對葉交換機和根交換機的特征數據進行單獨分析更為合理。為此,篩選了葉交換機和根交換機網絡阻塞故障端口各100個。原始樣本數據均是從故障未發生前某個時間點開始到故障發生時那一刻為止2 d內的數據。同時在對應時間段隨機抽取了葉交換機和根交換機正常端口各100個。按照圖6所示規則,分別計算出這些端口6個“有效特征”在區間1的分布情況,組合成新的特征向量來表示某個端口的當前狀態。比如在T時刻,可以得到如式(9)所示新的特征向量。

XT=[20,15,17,14,17,16]

(9)

3.3 模型訓練

3.3.1K-means聚類模型訓練

從圖5(b)中可以得知,某個端口發生網絡阻塞故障是一個漸變過程,從實際運維角度考慮,可將這個過程籠統地劃分為健康、亞健康、故障三個階段。采用無監督的K-means聚類算法對新得到的特征向量Xi(i=0,1,…,n)進行研究分析。首先要確定聚類算法的種數K,使用輪廓系數法,具體過程如下:在保證正常端口和故障端口數量比例均衡的前提下,對交換機端口歷史數據挖掘出新的特征向量集形成訓練集。分別對三種情況進行了分析:第一種是葉交換機正常與網絡阻塞端口各取100個進行分析;第二種是根交換機正常與網絡阻塞端口各取100個進行分析;第三種是將前兩種情形選取的400個端口混合分析。三種情況下同樣對K值從2~10進行取值,得到聚類數K與輪廓系數S的關系,如圖9所示。利用sklearn.clurster庫中的K-means算法對上述三種情形進行聚類分析。可以看到,單獨對葉交換機、根交換機端口的特征向量集進行聚類分析時,輪廓系數最大值都是在K=3時取得,這表示K=3為最佳聚類數。同時可以看到,將葉交換機和根交換機端口的特征向量集混合后,不僅沒有進一步提升K=3時的分類效果,反而使得K在不同取值時整體輪廓系數相近,聚類效果變差,這也再次證明了基于拓撲結構對不同層級的交換機端口分類研究分析的必要性。在選定了K=3進行聚類分析后,還需對循環次數進行選取。統計了在不同循環次數訓練后各個類別的數目,并重新用統計的樣本數據進行預測。

圖9 輪廓系數Fig.9 Silhouette coefficient

不同循環次數下分類的準確率如圖10所示。從圖10中均可以發現,隨著訓練的循環次數增加,分類的準確率都會提高。圖10(a)是將葉交換機和根交換機端口的特征向量集混合后聚類的效果,準確率較低。其中類別0準確率最高為73.3%,類別1為68.2%,類別2為91.4%。而從圖10(b)和(c)中可以看出,當按照網絡拓撲結構單獨對葉交換機和根交換機端口特征向量集進行聚類分析時,三種類別分類的整體準確率均有明顯提升。圖10(b)中類別0的準確率由80.3%提升至95.8%,類別1由77.1%提升至94.6%,類別2由95.3%提升至99.1%。圖10(c)中類別0的準確率由83.5%提升至95.2%,類別1由79.3%提升至93.9%,類別2由92.4%提升至99.5%。另外,從圖10中可以發現,不管是否按照拓撲結構分類進行聚類分析,分類準確率在循環500次時就取得了最好分類效果,循環次數繼續增加對分類效果幾乎沒有影響。考慮模型的計算成本,選取500作為K-means聚類模型的循環訓練次數。

(a) 葉交換機和根交換機混合分類(a) ToR_S & Spine_S hybrid clustering

圖11展示了循環次數為500時的聚類效果,圖示的橫坐標和縱坐標分別為新特征向量XT的第一個特征值與最后一個特征值。圖11(a)為將葉交換機和根交換機端口特征向量集混合后聚類的效果,可以明顯看到類別0與類別1、類別2都有重疊區域。此時類別0和1的準確率分別約為73%和68%,類別2的準確率約為91%。圖11(b)為葉交換機端口單獨聚類的效果,其中類別0有841個,類別1有383個,類別2有2 576個,每一類的預測準確率均上升到94%以上,其中類別2的準確率最高,達到了99%。按照同樣的方法,單獨對根交換機端口特征向量集進行聚類時,每一類的準確率達到了93%以上,類別2同樣高達99%。值得注意的是,結合圖8曲線變化趨勢和3種類別的數量分布,可以確定基于運維角度劃分的健康、亞健康、故障3種情形分別對應類別2、類別0、類別1。

(a) 葉交換機和根交換機混合聚類效果(a) ToR_S & Spine_S hybrid clustering results

3.3.2 DES預測模型訓練

在這個環節,采用DES算法分別對葉交換機、根交換機的6個“有效特征”在區間1上的變化趨勢進行學習。由于時間序列在故障出現前具有明顯的變動傾向,為了使預測模型靈敏度更高,該模型的平滑系數a應取較大值。選取0.5、0.6、0.7、0.8和0.9共5個a值,分別計算各個預測值和它們的標準誤差,選取使得標準誤差最小的a值作為預測模型的參數。

表5展示了葉交換機網絡阻塞端口數據鏈路層信用值分布數的平均值在不同的平滑系數a下不同時刻的預測值。預測值與真實值的標準誤差見表6。結合表5和表6,發現葉交換機端口的數據鏈路層信用在平滑系數為0.9時標準誤差最小。因此在對葉交換機端口數據鏈路層信用建立預測模型時,選擇平滑系數為0.9。對于根交換機端口以及在不按拓撲分類的對比實驗中,采用相同的方法求得模型的平滑系數分別為0.8和0.9。對于虛通道信用等其他5個特征值,也采用相同的處理方式對其趨勢進行學習、預測。作為對比,還對不區分葉交換機和根交換機端口的情況下,將所有交換機端口特征向量集統一進行學習訓練。圖12展示了基于網絡拓撲結構不分類和分類兩種情景下,故障端口實際值和預測值的差異。同樣以數據鏈路層信用為例,不做分類處理時,如圖12(a)所示。圖12(b)和圖12(c)為基于拓撲分類后葉交換機、根交換機兩種交換機端口分類學習預測的結果。其中虛曲線表示預測值,實線反映了不同網絡阻塞葉交換機或根交換機端口的數據鏈路層信用在區間1分布的真實值,可以看出兩者在整體上非常接近,標準誤差均小于15。可以明顯看到預測值和實際值存在明顯偏差,標準誤差超過40,這使得K-means聚類算法給系統狀態的判斷帶來很大的偏差。

表5 不同平滑系數下的預測值

表6 不同平滑系數下的標準誤差

(a) 混合預測效果(a) Mixed prediction effect

3.3.3 長短期記憶網絡算法預測模型訓練

與此同時,還嘗試了采用長短期記憶(long short-term memory, LSTM)網絡算法直接針對握手、重傳、信用等特征值進行時序預測。下面以重傳為例進行說明,選取網絡端口故障發生前2 d內的數據(包括故障發生時)。在訓練前,對單端口的原始數據進行累加、歸一化等處理。

在學習率為0.000 2、隱藏節點為10、時間步為20、Batch-size為60、迭代次數為200、輸入和輸出節點數均為1等條件下,選取85%的原始數據作為訓練集,余下15%作為驗證集,預測準確率不到20%。圖13展示了任意選取的4個網絡端口預測結果。經對比,基于LSTM算法模型預測效果明顯差于DES模型,因此LSTM算法在本文場景中并不適用。

(a) 端口a(a) Port a

3.3.4 在線預測

對于本文涉及的運維場景,運維工作者的期望預測結果是在有高召回率的前提下盡可能保持較高的精確率。這樣既可以將系統中潛在的問題盡可能地暴露出來,又不至于消耗過多的運維人力資源。在本節中,將基于交換機端口當前的狀態,結合前文訓練的K-means聚類模型和DES算法,對未來一周的網絡端口狀態進行預測分析。K-means聚類模型對預測得到的Xi狀態歸類為類別0(亞健康)或類別1(故障)時,都被統一劃為網絡阻塞故障進行統計分析。TP表示正確預測出將來會網絡阻塞故障的端口數,FN表示將有網絡阻塞故障漏報為正常的端口數,FP為將正常情況誤報為網絡阻塞故障的端口數,TN為正確預測將來正常的端口數。同樣,分別對是否基于網絡拓撲結構分類兩種情形進行比較,具體結果如表7所示。

表7 預測結果對比

當不按拓撲結構對葉交換機端口和根交換機端口加以區分時,在17 712個網絡端口中,正確預測出網絡阻塞端口為11個,正常端口為17 654個,網絡阻塞故障端口漏報6個,將正常端口誤報為網絡阻塞的有41個。這種情況下,雖然整體的準確率達到了99.7%,但精確率僅為21.2%,召回率為64.7%。若按拓撲結構分別對葉交換機和根交換機進行預測,則正確預測出網絡阻塞的端口數上升為15,提高了約36.4%;漏報的網絡阻塞故障端口數減少為2,比例降低了66.7%;將正常端口誤報為網絡阻塞的端口數減少為25,降低了39%。此時整體召回率提高到88.2%,精確率為37.5%,準確率為99.8%。對于將正常端口誤報為網絡阻塞端口的情況,根據運維人員積累的運維經驗,對這部分端口的實時狀態進行甄別后,可以排除接近68%的誤報端口,可將分類的情形下的準確率提升至65.2%左右。

4 結論

為了提高高性能計算機系統的持續可用性,本文提出了一種將無監督的分類算法(K-means算法)和時間序列算法(DES算法)相結合的預測模型,用于預測交換機端口在不久的將來是否會出現故障。該模型通過從交換機端口底層寄存器的歷史狀態信息中挖掘出征兆性規律并形成新的特征向量,應用K-means聚類算法對特征向量進行學習歸類。在預測時,結合端口當前狀態,利用DES算法對未來一段時間進行預測,將得到的新特征向量使用K-means算法預判是否即將出現網絡阻塞。通過聚類算法解決了專家系統對網絡阻塞故障的模糊狀態劃分,能對交換機端口當前狀態給出明確分類。同時在運維專家系統的輔助下,結合不同類型交換機在互連網絡拓撲結構中的差異性,分別針對葉交換機和根交換機獨立構建子模型,使得該模型能保持在88.2%的召回率前提下,準確率達到65.2%。因此,在網絡阻塞故障發生之前,運維工作人員可以主動將存在隱患的端口隔離,提前進行處理,增強高速互連網絡的持續可用性。對于故障預測期間發生的且不屬于之前故障預測結果中的端口,網絡監控軟件可通過容錯路由的方式對這些故障端口進行屏蔽,并通知運維工作人員及時對故障端口進行修復。

鑒于高速互連網絡持續可用性影響著高性能計算機的整體性能,故障預測將在高性能互連網絡的日常維護中發揮越來越重要的作用,本文方法是朝這個方向邁出的重要一步。在后續工作中,針對數據采集情況和大規模的網絡端口數量,如何加強對不同時刻網絡端口的健康狀態的歸類以及各特征值的時序預測,仍需做進一步的探究。一是選擇更優的算法進行組合,包括分類和時序預測兩個環節;二是對現有的K-means聚類和DES時序預測算法進行參數調優,從而進一步提升故障預測的準確率。

猜你喜歡
故障模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
故障一點通
3D打印中的模型分割與打包
奔馳R320車ABS、ESP故障燈異常點亮
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
故障一點通
故障一點通
故障一點通
主站蜘蛛池模板: av在线无码浏览| 亚洲精选高清无码| 久无码久无码av无码| 国产玖玖玖精品视频| 欧美第一页在线| av手机版在线播放| 国产精品一线天| 亚洲侵犯无码网址在线观看| 亚洲a免费| 欧美性久久久久| 欧美国产综合视频| 亚洲一区网站| 2022国产无码在线| 美女高潮全身流白浆福利区| 免费国产无遮挡又黄又爽| 亚洲av成人无码网站在线观看| 最新日本中文字幕| 亚洲自拍另类| 女人18一级毛片免费观看 | 久久国产乱子伦视频无卡顿| 97久久免费视频| 亚洲成a人片| 久久久久人妻精品一区三寸蜜桃| 亚洲第一国产综合| 国产在线日本| 欧美不卡视频一区发布| www.精品视频| 欧美成人第一页| 99视频在线看| 久久婷婷五月综合97色| 四虎影视无码永久免费观看| 91黄色在线观看| 亚洲日本韩在线观看| 亚洲AⅤ综合在线欧美一区| 91在线国内在线播放老师 | 免费观看精品视频999| 亚洲中文字幕在线精品一区| 久996视频精品免费观看| 精品久久久久成人码免费动漫| 露脸真实国语乱在线观看| 影音先锋丝袜制服| 欧美在线一二区| 久久久久人妻一区精品色奶水| 欧美日本在线播放| 成人免费视频一区二区三区 | 女人18一级毛片免费观看| 国产福利影院在线观看| 日韩不卡高清视频| 日韩成人免费网站| 欧洲高清无码在线| 一级毛片无毒不卡直接观看| 亚洲欧美不卡视频| 一区二区三区国产精品视频| yy6080理论大片一级久久| 高潮毛片无遮挡高清视频播放| 成年人午夜免费视频| 国产精品综合久久久 | 自拍偷拍欧美日韩| 亚洲女同欧美在线| 欧美日韩一区二区在线播放| 日韩欧美国产另类| 久久一色本道亚洲| 国产交换配偶在线视频| 精品久久香蕉国产线看观看gif | 亚洲精品无码在线播放网站| 亚洲码在线中文在线观看| 91久久天天躁狠狠躁夜夜| 日韩资源站| 国产凹凸一区在线观看视频| 无码中文AⅤ在线观看| 久久人人97超碰人人澡爱香蕉| 国产无码高清视频不卡| 亚洲国产无码有码| 亚洲国产综合自在线另类| 亚洲AV电影不卡在线观看| 亚洲无码电影| 国产精品女在线观看| 国产精品人成在线播放| 免费全部高H视频无码无遮掩| 亚洲国产欧洲精品路线久久| 在线欧美日韩国产| 91破解版在线亚洲|