999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的云平臺故障排查方法

2022-01-23 13:40:42王艷艷張文正沈佳輝李小真
浙江電力 2021年12期
關鍵詞:故障方法模型

王艷艷,張文正,沈佳輝,王 亭,李小真

(1.國網浙江省電力有限公司信息通信分公司,杭州 310016;2.浙江華云信息科技有限公司,杭州 310012)

0 引言

云計算是一種通過虛擬化技術建立統一的基礎設施、服務、信息及應用的資源池,采用分布式技術對各種基礎設施資源進行有效組織和運用的運行模式[1]。云計算同時提供了一種面向企業應用實現按需資源分配的模型,全新、高效地部署企業應用[2],從而使得客戶獲得低成本、高性能、快速配置和海量化的計算服務成為可能。企業將業務部署在云端時會面臨如下困難:

1)監控手段對云上業務的運行狀態無法形成全方位感知,難以構建云上業務全鏈路拓撲和業務系統畫像,對業務的監控能力較弱。

2)云端業務故障來自于業務所依賴的多個應用程序或不同應用程序之間的復雜交互,缺少有效的鏈路追蹤與請求回溯能力,難以快速界定故障源頭。

3)隨著云端業務規模擴大,對業務系統的健康管控和故障處理效率也提出了更高的要求,亟需構建自動化智能化的手段,實現系統健康分析和異常智能預警,及時發現系統問題風險。

浙江電網容器云平臺(以下簡稱“浙電容器云平臺”)正是在上述背景下應運而生。經過5 年的建設,現有覆蓋二級核心域的物理機10 余臺,業務支撐20 余個,在各個業務監控上均取得了不錯的效果。但其在運維過程中仍然存在以下問題:云環境下的網絡拓撲結構異常復雜,由于容器的地址動態變化,導致實時獲取浙電容器云平臺上業務的拓撲結構面臨巨大挑戰;相比傳統的CS/BS 架構,云計算環境中的系統故障由于容器云環境的動態變化難以排查[3]。云環境下系統運維的前提是各節點的網絡拓撲結構[4],因此如何高效準確地識別網絡拓撲結構直接決定了故障排查的效果。此外,在獲取網絡拓撲結構后,對于運行故障的排查,傳統的故障感知虛擬機重構框架等方法[5]通常以全局工作負載性能數據報告和故障事件的歷史發生率作為輸入,通過計算故障的統計信息進行故障預測排查。雖然該框架擁有良好的性能,但仍然存在效率低、過程繁瑣等問題。

傳統的故障排查技術[6-7]依賴人工判斷,效率不高且實時性較差,嚴重影響故障恢復的速度。近年來,基于機器學習的聚類方法在模式分析分類、決策指定以及數據挖掘領域應用廣泛且效果顯著[8],將機器學習方法應用于云平臺的拓撲結構識別和故障排查,不僅能克服傳統方法低效、過程復雜、局限性等問題,還能提高結果的準確性與效率。因此針對該平臺,本文提出了基于機器學習的浙電容器云平臺故障排查方法。首先通過聚類技術識別云環境下的網絡拓撲結構,利用SVM(支持向量機)作為分類器,可以在沒有任何假設條件的情況下,對采集到的各節點的狀態信息進行自動化異常分類,憑借其最小化經驗分類和最大化分類間隔的優勢,大大提高了故障排查的效率及其準確率,促進了云計算在電力系統智能運維中的應用。

1 關鍵技術

1.1 平均鏈接聚類法

平均鏈接聚類法屬于層次聚類法的一種[9]。層次聚類法對給定的數據對象集合進行層次化劃分,其優點是可以將聚類結果以樹狀圖譜的形式展示出來,可根據相應的需求劃分簇類數而不需要重復聚類,且不需要預先設置類簇個數,如圖1 所示選擇25 則可將數據集劃分為兩類。

圖1 層次聚類

本文選擇平均鏈接聚類方法用于云環境中數據包傳輸速率的聚類,以便動態生成網絡的拓撲結構。具體來說,平均鏈接聚類方法在計算時依據類簇之間的距離來測量相似度,同時在測量類簇之間的距離時,考慮的不是兩類之間的最短距離或最遠距離,而是介于兩者之間的中間值,避免了使用最短距離判斷時破壞類的緊湊性,以及使用最長距離時易產生違背閉合性類簇的弊端[10]。

1.2 支持向量機

SVM 是一種定義在特征空間上按監督學習方式對數據進行二元分類的線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面,SVM還可通過核函數進行非線性分類[11]。SVM 的目的是求解能夠正確劃分訓練數據集并且幾何間隔最大的分離超平面。在本方法中將浙電容器云平臺的故障排查問題由二次約束規劃問題轉換為分類決策問題,即尋找最優超平面問題。

2 基于機器學習的故障排查方法

2.1 浙電容器云平臺的網絡拓撲識別

云環境下的浙電容器云平臺在實時運行中,各節點如服務器和虛擬機的狀態變化直接影響運行結果。如何根據各節點的實時數據信息,高效、精準地跟蹤變化以提前采取相關措施,是實現云環境下浙電容器平臺良好運行最關鍵的操作,而云平臺各節點的網絡拓撲結構識別是實現這一操作的前提。

該拓撲識別過程具體分為3 個步驟:

1)采用多包組探針進行端對端節點的時延測量。

2)利用基于平均鏈接的層次聚類方法實現接受節點對的層次劃分。

3)采用文獻[12]提出的拓撲生成算法,自動實現虛擬機的拓撲結構識別,方法總體框架如圖2 所示。

圖2 網絡拓撲結構識別

2.1.1 共享鏈路上節點對時延測量

本文采用多包組探測包法來探測節點間的時延。2 個節點間共享鏈路的長度可由其時延表示,共享鏈路上端對端的時延通過一個三包組里首末2 個探測包到達同一目標節點的時間差來測量。三包組由首、中、末3 個部分組成,其首、末是同一目標節點的2 個小探測包,中是發送到另一目標節點的大探測包,其目的是間隔開2 個小探測包。

節點的拓撲結構中包含一個發送節點和若干個目的節點。在發送節點發送一個三包組探針包給每個目的節點N,每一對目的節點(Ri,k,Rj,k)都滿足i,j∈N,其中Ri,k表示接受2 個小包的目的節點,Rj,k表示接受大包的目的節點,由于需要進行多次測量取平均值,所以k 表示其節點對是在進行第k 次測量時得到。

初始狀態,首包B1、末包B2和2 個小包之間的間隔為d,其目的節點為R3,K,大包的目的節點為R2,K,由于三包組末端包B3在大包B2之后發送,所以兩小包之間的間隔會在沿著節點間的共享路徑傳輸時不斷增加,其目的節點對得到的時延值T2,3=d+Δd。用T 表示B1和B3到達節點R3,K的時間差值,取多次測量后的探測時延平均值,并用Ti,j來表示。通過統計所有節點對的測量值產生一組度量集合T={Ti,j},i,j∈N,并將其用于下一階段的聚類。

2.1.2 平均鏈接聚類法識別拓撲結構

本文將節點對的包組時延平均值集合T 作為平均鏈接聚類算法的輸入。聚類過程分為如下4個步驟:

1)數據初始化,將集合T 中的每一個Ti,j,各自歸為一類Ci,i∈T,即每個數據樣本自成一類,計算每個類簇之間的相似性。

2)選取計算結果中相似性最高的合并對象,合并生成一個新的類簇。

3)計算當前所有類簇兩兩之間的相似性。

4)重復步驟2)和3),直到所有的數據樣本都歸為一個類簇。

采用平均鏈接聚類法計算類簇之間的距離。計算2 個類簇之間所有對象兩兩之間的距離,接著計算其距離平均值作為這2 個類簇的距離,最后將類簇之間距離最小的2 個進行合并,其算法公式為:

式中:Ci和Cj表示類簇,且i,j∈T;a 和b 分別是類簇Ci和Cj中的對象;d(a,b)表示2 個對象之間的距離。

將輸入的節點對時延平均值的集合進行層次聚類后,利用拓撲結構生成算法即可得到實時的網絡拓撲圖。

2.2 基于SVM-Random 的故障排查

基于浙電容器云平臺上的網絡拓撲圖,對其進行智能化故障排查是提高其系統性能的有效手段,通過故障排查可以在系統發生故障時定位到病灶并采取及時措施,甚至可以在系統發生故障之前進行排查。該系統的各節點實時狀態數據被收集并用于反映各服務器和虛擬機的當前狀態,本文提出結合機器學習與SVM-Random(隨機搜索方法)的在線故障排查模型,其總體框架如圖3所示。

圖3 浙電容器云平臺故障排查方法框架

首先利用Kafka 工具[13]收集各節點的性能數據,包括IO、內存利用率和CPU 利用率等。再通過SVM 實現故障分類,同時采用Random 方法[14]優化SVM 的參數,將狀態分為不同的類別。最后通過故障排查策略設置閾值精化排查結果,提高了排查和預測結果的準確性。

2.2.1 故障排查模型

利用Kafka 消息系統工具來實現服務器和虛擬機狀態信息的讀取和收集。Kafka 是一個基于zookeeper[15]協調、可分區、多副本的數據流處理分布式日志系統,具有高吞吐量、可持久化以及易于擴展等優點。利用Kafka 工具讀取節點的日志文件以獲取其狀態信息,包括CPU 利用率、內存利用率、IO 設備以及網絡IO,并將獲取到的狀態信息作為訓練SVM 模型的特征向量以尋找到最優分類超平面。

為降低原始狀態信息數據的復雜度,減少冗余和相關性,對數據進行訓練前利用PCA(主元分析法)進行特征的提取。

1)將收集的狀態信息組織為m·l 階的數據矩陣Xm·l,其中m 為狀態信息指標的個數,l 為樣本總數。再對矩陣中的數據進行零均值化,即對數據矩陣中的值減去該狀態信息指標的平均值。

2)利用公式(2)計算矩陣Xn·l的協方差矩陣CX:

其中xi∈Rn為節點樣本J,J∈{1,2,…,m}的一個特征向量,yi∈{+1,-1} 為其標簽,yi為+1時其為運行正常的節點,yi為-1 時即為運行異常的節點。基于此并選擇懲罰參數C>0,且i,j∈{1,2,…,m},將故障排查問題轉換為如下二次約束規劃問題:

式中:ai,aj為拉格朗日乘子,且ai,aj≥0;K 為高斯核函數,即,其中σ2為控制因子。

通過以上公式即可得最優解:a*=(,,…,),選擇a*的一個分量且其小于懲罰因子C,通過以下公式得到b*:

在構建基于SVM 的故障分類模型時,一個合適的核函數能夠在實現非線性分類的情況下提高模型性能效率。由于高斯核函數可以逼近任何非線性函數,具有強泛化能力、收斂速度快以及模型參數少等優點,所以采用高斯核函數作為故障排查模型的核函數,最后的分類決策數為:

式中:sgn 為符號函數。

此外,本文提出利用超參數優化方法對模型的關鍵參數進行優化,以提高最終排查的準確性和過程效率。由于隨機搜索優化方法[16]擁有簡單、搜索速度快的特點,以及比網格搜索更好的性能,且對于有連續變量的參數,隨機搜索會將其做為一個分布采樣,因此本方法選擇隨機搜索方法對參數進行優化。通過節點狀態信息數據(包括節點數據正常樣本與異常樣本)對此模型進行訓練,以提高模型的學習能力。為了進一步提高基于SVM-Random 的故障排查模型的效率,本文還加入了故障排查策略。

2.2.2 故障排查策略

故障排查策略分為故障初步排查和故障精確排查2 個階段。

1)故障初步排查階段。

利用訓練好的SVM 模型對收集到的各節點數據信息進行分類,得到狀態正常類和狀態異常類2 個集合,分別表示為X1和Y1。云環境下虛擬機故障率由狀態異常節點到超平面的距離來判斷,其故障率與距離成正相關。由于SVM 模型的訓練結果存在一定誤差,即有可能導致實際異常的節點被誤劃到狀態正常類的集合中。在此階段將訓練樣本集M={x1,x2,…,xm}作為輸入,得到f1,f2,V 3 個輸出,其中,f1表示從SVM 模型分類決策函數中得到的目標值,f2表示從訓練好的SVM 模型中得到的ai的值總和,V 表示得到的初步排查的狀態分類結果。

2)故障精確排查階段。

由于在超平面附近的數據存在擺動過大的可能性,且有可能將狀態異常的節點劃到狀態正常類當中,因此通過精確排查階段來提高最終排查結果的準確性。在進行初步分類后,云環境下節點i 的故障率Pi表示為:

式中:vi∈V 是節點i 由故障初步排查階段得到的值,若其為負數則劃分到狀態正常類,若為正數則劃分到狀態異常類。

在此精確排查階段,設置Q∈(0,1)為訓練虛擬機集合故障率的閾值,當故障率Pi≤Q 時,則認為節點i 處于異常運行狀態,用Y2來表示在精確排查階段獲得狀態異常集。初步排查階段獲得的輸出作為此階段的輸入,判斷V 中每一個樣本的故障率,若其故障率滿足Pi≤Q 則將vi設置為它的相反數,即重新歸類到狀態異常集合中,更新完成的V 則為最終的故障排查結果。

3 應用效果與分析

為了表征浙江電容器云平臺中虛擬機的運行狀態,本方法利用Kafka 收集50 臺虛擬機的主機性能指標以進行故障預測排查,這些指標包括CPU 利用率、內存利用率、IO 設備以及網絡IO。由于過大的狀態信息采集間隔易造成監控盲區,漏掉發生異常的虛擬機,過小的間隔又會造成耗時成本增加,影響檢測性能,因此本方法采集時間間隔設置為20 s 一個周期。

每臺虛擬機配備CentOS 8.1 操作系統,運行1 個探針以負責對收集到的狀態信息進行降維與故障預測。云平臺中被監控的虛擬機參數如表1所示。

表1 云平臺中設備參數

實驗共收集到2 000 條性能指標數據,經過人工分析得到其中1 805 條為正常狀態數據。為使訓練集和測試集的分布具有一致性,采用系統抽樣的方法設置訓練集個數占比為65%,測試集占比為35%,即訓練集包含1 300 條數據,測試集包含700 條數據。SVM 中的參數設置為C=256,核函數為高斯核函數,控制因子σ2=10,對比分析SVM-Random 初排查算法與加入精確排查后的SVM-Random 算法,實驗結果如圖4 所示。

圖4 云平臺故障預測結果

從圖4 可以看出,與初排查方法相比,加入精確排查算法后的SVM-Random 模型的準確率、精確率以及召回率分別提升了5.36%,2.00%和2.26%,故本方法能夠有效提升分類效果,可以實現故障精準排查。

本節設置參數優化算法對比實驗,在加入精排查階段SVM 模型的基礎上對比隨機搜索法與網格搜索法,對比結果如表2 所示。

表2 參數優化方法對比結果

從表2 可以看出,基于網格搜索法進行參數尋優的準確率雖略高于隨機搜索法,但尋優的時間成本過高。因此選擇隨機搜索法能夠有效保障效率與準確率,在最少的時間內可獲得準確率更高的參數。

以上結果表明,SVM-Random 算法模型在具有良好分類效果以實現故障精準排查的同時,還能保證時間效率,證明了機器學習在電力云中的技術可行性、應用前景和價值,進一步擴大了云計算在電力系統中的應用范圍,使得系統的業務感知更精確、排障時間更迅速。

圖5 展示了采用平均鏈接聚類算法實時生成的浙電容器云平臺的部分網絡拓撲結構,通過調用關系圖以及關系業務拓撲圖,清晰明確地展現了各業務的關聯,能夠直觀地對問題進行定界,清晰了解業務之間的關聯。圖6 展示了浙江電力公司開發的運維系統對容器云平臺中的各節點監控。表3 則展示了通過SVM-Random 算法排查出的故障示例。統一的智能化監控平臺可以更精確地發現電力系統中的各類問題,形成全方位的感知,提升健康運維監管能力。

圖5 浙電容器云平臺部分網絡拓撲結構

圖6 浙電容器云平臺的節點性能監控

表3 浙電容器云平臺的故障排查結果示例

4 結語

本文提出了一種基于機器學習的浙電容器云平臺的故障排查方法,首先基于平均鏈接聚類算法,動態實時地識別網絡拓撲結構,再基于SVMRandom 方法成功排查浙電容器云平臺中的各個節點故障,有效提高了浙電容器云平臺的可靠性和性能,驗證了機器學習方法在電力系統中的應用前景。

本文所做研究僅是云平臺故障診斷的基本階段,后續還需采用將機器學習方法應用到事務聚合分析、調用鏈查詢、全鏈日志關聯中,以便能夠成功分析出故障產生的原因以及對故障進行溯源,為電力系統的運維提供更多的參考信息和決策支持。

猜你喜歡
故障方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
故障一點通
3D打印中的模型分割與打包
奔馳R320車ABS、ESP故障燈異常點亮
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
故障一點通
主站蜘蛛池模板: 国产精品视频猛进猛出| 日本一区高清| 国产第一页亚洲| 久草性视频| 色悠久久综合| 一级毛片基地| 欧美精品1区| 制服无码网站| 久久精品无码专区免费| 午夜综合网| 色香蕉影院| 日韩在线播放中文字幕| 亚洲AⅤ无码国产精品| 久久精品女人天堂aaa| 国产www网站| 亚洲视频影院| 午夜一级做a爰片久久毛片| 国产丝袜第一页| 欧美精品在线免费| 香蕉视频在线精品| av午夜福利一片免费看| 亚洲人成网站在线播放2019| 成人欧美日韩| 亚洲第一视频网| 婷婷亚洲综合五月天在线| 久久久精品无码一二三区| 国产丝袜啪啪| 99爱视频精品免视看| 亚洲一区网站| 精品少妇人妻av无码久久| 亚洲精品成人片在线播放| 国产精品三级专区| 免费久久一级欧美特大黄| 久久福利网| 91网站国产| 91啪在线| 91美女在线| 成人亚洲国产| 四虎综合网| 91精品国产情侣高潮露脸| 欧美一级黄色影院| 91精品国产情侣高潮露脸| 亚洲无码A视频在线| 狠狠色丁香婷婷| 久青草网站| 亚洲精品天堂在线观看| lhav亚洲精品| 亚洲bt欧美bt精品| 国产乱子伦手机在线| 萌白酱国产一区二区| 亚洲侵犯无码网址在线观看| 亚洲码一区二区三区| 亚洲天堂首页| 无码国产偷倩在线播放老年人 | 一本视频精品中文字幕| jijzzizz老师出水喷水喷出| 久久综合色播五月男人的天堂| 欧美97欧美综合色伦图| 在线观看精品国产入口| 欧美日韩亚洲国产主播第一区| 999精品视频在线| 国产精品任我爽爆在线播放6080| 九色视频在线免费观看| 97国产在线播放| 丝袜高跟美脚国产1区| 亚洲天堂2014| 九色视频线上播放| 在线国产毛片| 人人91人人澡人人妻人人爽| 无码aaa视频| 国产成人禁片在线观看| 99热这里只有精品免费国产| 白浆免费视频国产精品视频| 久久久久国产精品熟女影院| 久久综合丝袜长腿丝袜| 国产区福利小视频在线观看尤物| 亚洲伊人天堂| 国产精品福利社| 成人日韩欧美| 91丨九色丨首页在线播放| 日韩av在线直播| 欧美亚洲国产日韩电影在线|