嚴萍
(河北醫科大學第四醫院,河北石家莊,050000)
高性能互聯網絡是高性能計算機的全局性基礎設施,將網絡系統中的各部分節點進行連接,其主要組成部分有高性能網卡,高階交換機和高速鏈路[1],隨著互聯網絡系統規模的不斷擴大,其系統的故障率也會不斷攀升,傳統的運維方式無法滿足現階段的網絡運維工作的需求,優化運維工作方式迫在眉睫。隨機森林檢測技術,是近些年在集成學習算法中應用范圍較廣的一種檢測模型,其具有普適性較強,靈活性較高等特點,能夠對高維的數據進行快速處理,對數據集的特征沒有明確指向,連續性或離散型數據,都能夠進行高質量的處理。
本次實驗是為了對網絡端口阻塞故障進行解決,對互聯網絡相關數據進行采集,生成數據集后,將分類模型進行構建,在此基礎上對實時數據進行分類。本次檢測模型的設計思路是數據采集采用高性能互聯網絡KPI技術;將采集到的數據進行標記,打亂;以隨機森林算法進行離線學習;最后對模型進行優化,以交叉驗證和在線檢測的方式。
在數據采集中,需要將采集時間間隔進行科學設定,以保障觀測數據的穩定性。以32位寬的寄存器位端口流量信息為例,數據報文大小為192bit,在14G速率下,高速互聯網卡的寬帶,最大理論值應為56Gbps,其觀測數據的最小翻轉時間在14.72s,因此本次研究以10s作為采樣間隔時間。
對采集數據進行標記,主要是通過運維日志信息,將設備端口和運維事件進行配對的方式,對相關數據進行標記。網絡節點出現輸出變慢的情況時,可以根據節點向上尋找到相應的網絡端口[2],由于現階段涉及到的網絡端口數量較多,為了保障網絡的相對穩定,不需做任何處置,直到網絡出現崩盤情況時,測試程序能夠對查詢到出現問題的端口,對其進行復位操作,整個網絡系統即可恢復正常運作。
在有監督學習中,數據標記是重要的組成部分,為機器學習提供數據集,因此數據標記的質量與檢測結果的質量息息相關。在高性能互連網絡運維過程中網絡端口阻塞故障是一項逐步加深的過程,因此本次研究對將數據集分為0,1,2三個類別,0代表正常狀態,1代表潛在異常狀態,2代表網絡阻塞狀態。
在隨機森林算法中參數只有2個,在面對較為嘈雜的特征時,檢測模型敏感度較低,不容易陷入到過擬合狀態,其抗噪聲能力也具有一定優勢。RF算法中兩個隨機因子,一個是訓練集樣本集合(Di),一個候選屬性樣本集合(Ti)。訓練集樣本的選取是從原始數據中進行隨禮抽取,每次抽取之前都將上抽取的樣本在放回到原始樣本集當中;候選屬性樣本集合,設原始數據共有屬性M個,將S作為制定屬性數,從M中抽取S個作為候選屬性。將訓練樣本和屬性進行確定之后,進行決策樹的構建,從而得到預測結果(Y),n個樣本得到預測模型n個,對樣本進行模型測算,則1個樣本能得到n個結果,最終測算結果以多數投票決定。其分類模型如下所示:

其中,單個決策樹為hi(Si),I為示性函數。
RF訓練模型如圖1所示。

圖1 RF訓練模型
在檢測的過程中,為了將模型檢測的準確率進行進一步的提升,RF模型在對數據集進行訓練時,需要將間隔函數與泛化誤差進行考慮。在RF中,其間隔函數mg(x,y)如下所示:

其中,x為樣本向量屬性,y為樣本標簽,當mg(x,y)大于0時,表明正確分類樣本數量較多,其數值越大,表示準確率越高。RF的泛化誤差PE計算公式如下:

其中ρ為RF分類器之間的相關度。
對RF模型進行評估時,其評價標準以準確率和召回率為主:準確率是最終提取的正確信息的數量;召回率是正確信息數量與樣本信息數量的比值,數值越接近1,表明其模型效果越好。
模型檢測主要是將數據檢測結果與最佳結果進行對比,對模型進行動態調整,根據結果對模型中存在的問題進行分析,并提出一定的解決方案,將模型進行優化。
本次實驗主要采用HPC系統,結構采用兩級胖樹拓撲結構,在本次系統結構中,葉交換機18臺,每個各有24個上行端口;根交換機12臺,每個各有36個端口。每個葉交換機的2個上行端口與同一個根交換機的端口進行連接。為了更好地對實際情況進行模擬,對RF模型進行檢測,在實驗的過程中,采用衰減光纖對網絡系統進行注入故障,將其數據進行收集,形成實驗KPI數據集。
本次實驗中同時采用了SVM算法和樸素貝葉斯,將其效果與RF進行對比。

其次樸素貝葉斯算法分類原則是對于給出的待分類項,將該分類向會出現在每個類別中的概率進行計算,其中概率最大的便是該分類項的所屬類別。使用該種算法進行檢測,其特征需要相對獨立,且具有較為鮮明的特點,但是在實際的檢測過程中,數據的特征和屬性具有較強的關聯性,因此該種算法的應用程度具有一定的局限性。
本次實驗中,KPI數據的特征共有21個,將滑動窗口大小進行固定,其中窗口期內信用分布情況由特征1-10表示,握手情況由特征11表示,重傳均值由特征12表示,虛通道收發流量均值由特征13-21表示。在實驗的過程中,采用特征逐步遞增的方式,對不相關和冗余特征與模型之間的關系進行探究。
當特征數量為0時,其模型準確率為0.12;當特征數量增加到2時,其模型準確率為0.51;當特征數量增加到5時,其模型準確率為0.67;當特征數量增加到15時,其模型準確率為0.95;當特征數量增加到18和21時,其模型準確率分別為0.96和0.95。模型的準確率隨著特征數量的增加,不斷提高,當特征數量增加到10以上,其對于模型準確率的影響變得較為微弱。
將本次實驗的數據集分為兩個部分,一部分作為訓練集,一部分作為測試集,利用上文提及到的公式,對模型的參數進行優化。通過參數優化調整,模型的準確率,召回率都得到了一定的提升。調參之前,0數據狀態準確率為0.94,召回率為0.81,調參之后,準確率為0.99,召回率為0.96;1數據狀態準確率為0.92,召回率為0.94,調參之后,準確率為0.92,召回率為0.96;2數據狀態準確率為0.71,召回率為0.91,調參之后,準確率為0.89,召回率為0.94。
在離線模式下,將RF,SVM以及樸素貝葉斯算法檢測結果進行比較。模型在實際應用的過程中,主要以準確率和召回率作為主要的評價指標。因此在此次算法比較的過程中,將比較重點放在召回率與準確率的比較之上。將上述文章中,提到過KPI數據特征,在實驗過程中,將影響因素較大的數據特征內容,導入到數據模型之中,通過實際訓練,可以將3種算法的準確率、召回率以及F1數值進行計算,其具體數據分析結果如表1所示。

表1 算法數據對比分析表
通過表1數據可以得出,在不同數據的數據集狀態下,RF算法的準確率和召回率,都要高于SVM算法以及樸素貝葉斯算法,同時F1的數值也是要高于前兩者的算法檢測結果。由此可見,在對網絡端口阻塞故障檢測過程中,使用RF算法,能夠將檢測結果的準確率進行有效地提升,同時能夠檢測工作的效率,相較于其他算法具備一定的優勢。