999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合小波包與XGBoost的云平臺時序監控數據異常檢測方法*

2022-08-03 05:22:48蘇海明亓開元逄立業郭濤張連法
數字技術與應用 2022年7期
關鍵詞:檢測模型

蘇海明 亓開元 逄立業 郭濤 張連法

1.高效能服務器與存儲技術國家重點實驗室;2.濟南浪潮數據技術有限公司云計算研發部

針對云平臺中單維時序監控數據異常檢測的問題,單純的基于閾值的異常檢測方法無法滿足真實運維環境的需求,提出了一種結合小波分析與XGBoost的云平臺時序監控數據異常檢測算法。考慮單維時序數據的變化,提取小波包能量特征,組成特征數據集,將特征數據集作為 輸入訓練XGBoost分類模型。在某高校云平臺監控數據集上進行實驗,樣本數據由人工標注,在此數據集上驗證了該方法的準確性與有效性,最終異常檢測的誤報率為8.4%,準確率達到92.29%,相對傳統方案,本文方案在異常識別準確率上并沒有太大提升,但在誤報率上降低了50%以上。

云平臺也稱為云計算平臺,是指基于硬件資源和軟件資源的服務,提供計算、網絡和存儲能力。云平臺監控系統不間斷的從平臺中采集大量時序KPI[1](Key Performance Indicators)即關鍵性能指標,例如CPU使用率,網絡吞吐量等,來判斷平臺的運行狀態。隨著云平臺[2]的越來越成熟,平臺規模也從最初的幾臺、十幾臺上升到幾百臺甚至上千臺,同時平臺自身的服務也越來越多、調用也越來越復雜,使監控數據具有海量且復雜的特點。

傳統云平臺中針對KPI的異常檢測大多采用閾值的方式,即運維人員根據經驗設置閾值,當KPI數據達到此閾值時,產生異常告警[3]。但實際的應用過程中發現,閾值設置太依賴于經驗,很難全面的對繁雜的KPI準確設置閾值;閾值太高,對異常情況產生漏報,質量隱患難以發現,閾值太低,往往引發告警風暴,干擾運維人員的判斷;另外對于一些數據抖動但低于閾值的情況,這種方式無法檢測,產生漏報。

綜上,單純基于閾值來判定異常的方式無法滿足云平臺中異常檢測的需求,這就要求我們使用機器學習和數據挖掘技術進行自動異常檢測。但在真實云平臺監控中,異常發生概率比較低,難以積累大量異常樣本,這就導致在機器學習流程框架中需要具備自動化構建樣本的能力,產生足夠的數據以支持異常檢測模型的訓練。另外由于時序監控數據復雜,有時序數據的特點,即依賴于時間變化,用數值反應變化程度,這種變化可以有多種模式,常見的時序數據模式有平穩型、波動型和周期型。在監控系統中數據模式隨業務改變而發生變化,這就要求在針對時序監控數據的異常檢測中,檢測模型有足夠的泛化能力在不同的數據模式下檢測出異常。

為了解決上述問題,本文開發一種基于XGBoost的異常檢測方法,并將其應用于自研系統中。包含了數據特征提取,特征選擇,XGBoost[4]模型訓練與檢測。

1 基本概念

1.1 小波包分解

在一個監控系統中,采集的指標時序數據的一般表現為復雜的非平穩序列。小波分析[5]兼具時域與頻域的分析能力,且具有可變的時頻分辨率,適合分析信號中的突變信號。但小波變換只對信號的低頻部分做進一步分解而對高頻部分不再繼續分解,而小波包變換不僅可以分解時序數據的低頻部分,也可以分解數據中的高頻部分,所以這種分解方式是一種更精細時序數據分解方法,提高了時序數據的時頻分辨率。

本文中使用的小波包分解可用一個二叉樹描述,如圖1所示。圖中每個節點表示一個信號頻帶,第一個數字表示小波包的分解層數,經過小波包分解不但可以覆蓋所有原始信號頻帶,還可以在任意多尺度分解信號,得到全面的局部信息。

圖1 小波包分解Fig.1 Wavelet packet decomposition

一般的對KPI數據進行j層小波包分解后,共可以得到2j個子頻帶。本文使用小波包能量特征作為分類特征,則第i個子頻帶對應的能量表示為:

1.2 XGBoost模型

XGBoost算法全稱為極端梯度提升算法,是一種基于集成學習的弱學習算法。弱分類器即為比隨機猜測略好但準確率不高的分類器。XGBoost的核心在于在分類器中不斷添加特征分裂樹,每一棵樹就相當于一個弱分類器,將這些樹進行集成組合,匯總所有弱分類器的建模結果,以獲取比單個模型更好的分類表現。

若輸入數據為{(x1,y1),(x2,y2),...,(xm,ym)},其中x為根據樣本提取的特征,y為數據標簽。則XGBoost模型的輸出可以表述為:

式中,fk(xi)表示第k個弱分類器,弱分類器的總量為K個。

這K個弱分類器,為了組成強分類器,需要最小化函數:

其中i代表數據集中的第i個樣本,m表第k棵樹的數據總量,K表示所有樹的個數。l(?)為損失函數,用于衡量真實標簽與輸出值之間的差異,Ω(?)為正則化函數,代表了模型的復雜度。正則化項中T為樹的葉子節點個數,w為葉子節點的權值,γ和λ為正則項中的超參數。在每一輪迭代時,只對第t棵回歸樹的目標函數進行優化:

2 異常檢測流程

本文中使用的數據為某高校56節點云平臺四個月的監控數據,監控數據采集工具為Telegraf,使用其自帶插件CPU、DISK、MEM采集,采集周期為60s。采集的數據包含CPU,內存等關鍵性能指標的監控數據。異常點使用機器識別與人工判定[6]的方式標注。基于滑動窗口的方式對數據進行分割,窗口大小為60,步長大小為10,濾除數據中的缺失點,并添加數據標簽,正常樣本標記為負樣本,異常樣本標記為正樣本。共提取出樣本數據總數為21542,其中正常樣本總數為20074,異常樣本數為1468。異常樣本占據樣本集中的比例為6.81%。

本文基于XGBoost實現對KPI異常點檢測,其實現過程如圖2所示。

圖2 異常檢測流程Fig.2 Anomaly detection process

本文的流程包含了訓練流程與測試流程,訓練過程主要可以分為以下幾個步驟:

實驗前首先對KPI樣本數據集進行歸一化處理,使用min-max標準化方法,對原始數據進行線型變換,將數據映射到[0,1]之間,公式如下:

其中,x為原始數據的值,min為樣本數據的最小值,max為樣本數據的最大值,x*為歸一化以后的數據值。劃分訓練集與測試集的比例為7∶3,7份數據用作模型訓練,3份數據用作模型測試。

2.1 小波包特征提取與增強

基于數據樣本提取特征,構造特征集。對KPI樣本值進行3層小波分解,小波基函數為Daubechies函數[7],是一種離散正交小波。共提取了8個頻帶,計算出各頻帶的能量值Ei。由于數據集中得異常樣本過少,正樣本占比僅為6.81%,為避免模型訓練時對正常數據樣本的傾斜過大,因此本文使用ADASYN算法[8]對特征數據集進行增強,平衡正常樣本與異常樣本的比例,一定程度上緩解了模型過擬合。

2.2 XGBoost模型訓練

XGBoost算法模型包含了大量參數,設置恰當的參數是決定數據異常檢測準確率的一個關鍵因素。通過對模型調參確定XGBoost算法最優參數,提高異常檢測的準確率。本文使用網格搜索的方法進行參數選擇,主要調整的參數為learning_rate學習率,n_estimators迭代次數,max_depth數最大深度。

根據經驗值最優迭代系數設置范圍為[10,750],步長設置為5,最優樹深度設置范圍為[3,20],步長設置為1,最優學習率設置范圍為[0.01,0.3],步長設置為0.01。最終選擇出最佳參數:{‘n_estimators’∶240,‘learning_rate’∶0.1,‘max_depth’∶5}。

2.3 XGBoost模型測試

XGBoost模型訓練后,模型以文件方式進行保存,提取測試數據的小波包能量特征,將特征輸入訓練好的模型中,輸出異常檢測結果。

3 結果評估

3.1 評估指標

為了評估模型的有效性,本文使用誤報率FPR,召回率Recall,精確率Pre和準確率Acc四個方面來進行評價。計算公式為:

式中:TP表示正確識別的異常,TN為正常樣本數,FP為正常檢測為異常的樣本數,FN為異常檢測為正常的樣本數。

3.2 結果評估

本文提出的方法與其他方法進行對比。結果如表1所示。

表1中的結果對比5種模型的異常檢測結果,其中支持向量機(SVM),SVM+PCA,隨機森林(RF)方法特征方面使用本文中特征進行模型構建。反向傳播神經網絡(BP)模型使用文獻[9]中的方案進行特征提取與模型構建。

表1 不同模型異常檢測結果(%)Tab.1 Anomaly detection results of different models(%)

本文中的XGBoost模型誤報率與其他結果相比,從表1中的結果可以看出,SVM方法與本文中的XGBoost具有相似的召回率,但誤報率比SVM方法低的多,誤報率明顯降低,誤報率僅有8.4%,比SVM模型的結果低45%,與文獻[9]中的方案相比,誤報率降低了50%。但在召回率上表現不那么明顯,幾種模型表現都具有91%以上的召回率,但本文構建出了模型在這幾種模型中異常樣本召回比例相對較高,達到了92.88%,與SVM模型相比有0.13%的優勢。而在精確率與準確率上本文使用的方法具有更明顯的優勢,文獻[9]使用的方法,僅有84.5%的精度與87.45%的準確率,本文使用的方法精確率相對提高了5.85%,準確率提高了4.84%。

4 結語

本文針對云環境下單維時序監控數據異常檢測問題,提出了結合小波包分解與XGBoost模型的異常檢測方法,提取數據樣本小波包分解后各個頻帶上的能量特征,并使用XGBoost構建異常檢測模型。對比RF,SVM與BP的異常檢測效果,證明了特征構造的有效性與XGBoost異常檢測模型的可用性。該方式在異常表述上比較簡單并可較輕易的在工業生產中使用。

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 99er这里只有精品| 亚洲天堂精品在线| 欧美色图第一页| 国产成人精品一区二区三区| 日本福利视频网站| 亚洲人成亚洲精品| 亚洲国产中文欧美在线人成大黄瓜| 72种姿势欧美久久久久大黄蕉| 996免费视频国产在线播放| 免费在线观看av| 国产在线视频福利资源站| 国产成人AV男人的天堂| 国产特级毛片| 国产免费观看av大片的网站| 日韩中文无码av超清| 亚洲国产亚综合在线区| 久久精品66| 青青青视频免费一区二区| 国产极品美女在线观看| 亚洲清纯自偷自拍另类专区| 国产无吗一区二区三区在线欢| www.亚洲一区| 日本在线免费网站| 欧美 国产 人人视频| 国产亚洲视频免费播放| 在线观看精品自拍视频| 亚洲v日韩v欧美在线观看| 国产精品精品视频| 女人爽到高潮免费视频大全| 色综合手机在线| 国产三级毛片| 国产真实乱了在线播放| 国产第一页亚洲| 国产 在线视频无码| 中国精品自拍| 四虎永久免费在线| 国产极品美女在线播放| 欧美成人精品高清在线下载| 欧美精品一区二区三区中文字幕| 国产精品区网红主播在线观看| 成人韩免费网站| 激情六月丁香婷婷四房播| 国产福利微拍精品一区二区| 久久久久国产精品嫩草影院| 久久黄色免费电影| 又黄又湿又爽的视频| 国内丰满少妇猛烈精品播| 黄色不卡视频| 91精品国产自产在线老师啪l| 青青草国产免费国产| 久久久久亚洲AV成人网站软件| 欧美亚洲中文精品三区| 国产精品微拍| 午夜精品影院| 国产成人精品男人的天堂| 青青国产视频| 国内精品久久久久鸭| 伊人久久婷婷| 亚洲国产第一区二区香蕉| 亚洲日韩精品伊甸| 中文字幕久久波多野结衣| 午夜啪啪网| 国产超薄肉色丝袜网站| 成人精品视频一区二区在线| 一本久道久综合久久鬼色| 精品一区二区三区无码视频无码| 国产成人综合久久| 91日本在线观看亚洲精品| 亚洲欧美不卡中文字幕| 亚洲一区波多野结衣二区三区| 国产区免费精品视频| 日本人妻一区二区三区不卡影院 | 天天躁狠狠躁| 成人国产免费| 亚洲青涩在线| 色婷婷国产精品视频| 欧美国产在线看| 亚洲欧美日韩精品专区| 国产成人综合网| 2022精品国偷自产免费观看| 欧美一道本| 国产乱子伦精品视频|