999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于XGboost的異常檢測算法

2021-03-24 11:16:32陳適宜
電腦知識與技術 2021年2期
關鍵詞:特征提取

陳適宜

摘要:為了提高異常檢測的準確性和高效性,提出了基于xgboost的異常檢測算法。首先對異常檢測當前遇到的挑戰進行分析,指出缺少樣本和模型泛化是異常檢測中的難點。在此基礎上設計了異常注入算法,利用3sigma原則對數據集進行擴充;然后設計特征提取器,針對正常數據和異常數據的特點設計相關特征;最后選擇xgboost模型對時序數據進行異常檢測。此異常檢測流程提高了異常檢測的準確性和泛化能力。通過在KPI公共數據集上進行實驗,驗證了該設計的準確性和有效性。

關鍵詞: 異常檢測; xgboost; 異常注入; 特征提取; 智能運維

中圖分類號: TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)02-0188-02

Abstract:In order to improve the accuracy and efficiency of anomaly detection, an anomaly detection algorithm based on xgboost is proposed. First, analyze the current challenges of anomaly detection, and point out that lack of samples and model generalization are the difficulties in anomaly detection. On this basis, an anomaly injection algorithm is designed, and the data set is expanded using the 3sigma principle; then a feature extractor is designed to design related features according to the characteristics of normal data and abnormal data; finally, the xgboost model is selected to perform anomaly detection on time series data. This anomaly detection process improves the accuracy and generalization ability of anomaly detection. Through experiments on the KPI public data set, the accuracy and effectiveness of the design are verified.

Key words:anomaly detection; xgboost;anomaly injection;feature extraction;AIOPS

計算機硬件和軟件的飛速發展帶來了功能強大的應用,但是由于硬件、軟件和人為等原因,程序時刻都有可能發生故障。及時發現并快速介入故障,能最小化對用戶體驗的損害。為了能夠及時發現故障,需要對系統進行連續監控,系統監控從數據分析的角度來看,即意味著需要不間斷地監控大量時序數據,以檢測出潛在的異常。由于需要監控的時序數據規模很大,通過人工的方式是幾乎不可能的,這就要求我們使用機器學習和數據挖掘技術進行自動異常檢測。

異?;蛘弋惓|c是指與其他數據明顯不同的數據點,異常檢測旨在發現這些異常點。通常,時序數據是由一個或多個反映系統功能或業務能力的應用程序創建的,當這些應用程序發生行為異常時,就會產生異常點。準確的異常檢測可以快速準確的定位故障并進行故障排除,對入侵檢測、信用卡欺詐、醫療診斷等[1]等實際應用有重大意義。但是,當前時序數據的自動化異常檢測服務面臨著許多挑戰。

挑戰1:缺少樣本。在實際中,故障發生的概率較低,從而導致很難積累大量異常樣本。這就要求我們必須具備自動化構建樣本的能力以支持異常檢測模型的訓練。

挑戰2:模型泛化。時間序列有不同的模式:周期型、穩定型和無規律波動型,系統需要能夠對這些不同模式的時間序列識別出異常。

為了解決上述問題,本文開發了一種準確、高效、通用的異常檢測方法,解決了樣本缺少與模型泛化問題。本文重點研究了針對時間序列數據的異常檢測服務的機器學習算法,包括樣本增強,樣本特征設計和基于xgboost的異常檢測。

1 基于3sigma原理的異常注入算法

基于機器學習的異常檢測算法缺乏訓練數據,數據集中包含的異常點比例總是遠遠少于正常點,這阻礙了算法的訓練和實用性,同時,依賴人工標注異常數據工作量大且不易完成。雖然可以通過傳統的機器學習過采樣或欠采樣來動態調整正負樣本比例,但是過采樣會使異常樣本過于單一,最終導致分類器過擬合。因此,本文開發了一種自動異常注入算法,在保證異常注入的隨機性和多樣性的同時有效地擴充數據集。

1.1 3sigma原理

3sigma原則[2]是一種最常使用的處理異常值數據的方法。3sigma原理可以簡單描述為:若數據服從正態分布,則異常值被定義為一組結果值中與平均值的偏差超過三倍標準差的值。即在正態分布的假設下,距離平均值三倍標準差之外的值出現的概率很小,因此可認為是異常值。數值分布在[(μ-3σ,μ+3σ)]中的概率為0.9973其中,[μ]為平均值,[σ]為標準差。

一般可以認為,數據的取值幾乎全部集中在[(μ-3σ,μ+3σ)]區間內,超出這個范圍的可能性僅占不到0.3%,這些超出該范圍的數據可以認為是異常值。

1.2 基于3sigma原理的異常注入算法

根據3sigma原理,我們可以根據原始數據生成異常數據,生成的異常數據插入原始數據中可以生成異常樣本。通常異常的產生會持續一段時間,然后逐步恢復,恢復過程會影響異常兩側的值。異常注入算法步驟如下:

首先給定一段時序值S,確定注入的異常個數N,將時序數據劃分為N塊;對每一塊數據X進行異常注入:

①隨機選定一個點Xi作為異常種子;

②設定異常點數目范圍[2,15],基于此范圍,產生隨機異常點數anomaly_count;

③異常點隨機分布在異常種子兩側,左側和右側的數目均隨機產生;

④異常數據的產生基于異常種子點兩側的值,設定種子點兩側范圍區間為[15,30],兩側的數目由上述區間隨機產生,異常點的基礎數據anomaly_base_data。

接下來確定異常點的數據,基于3sigma原理,異常點的大小計算如下:

①產生一個隨機數,若為奇數,該次為異常上漲,否則異常下跌;

②利用異常基礎數據產生異常值。根據數據波動范圍的不同,可將數據分為不同的類型比如成功率、延時型和0值突刺型,三種類型數據特征如下:成功率型,取值范圍大多在40-100之間,少部分在0.5-1之間,數據波動小,標準差較小,經常為0;延時型,在一定范圍內波動,波動較小,標準差基本不隨時間變化;0值突刺型,多為0值,偶有突刺,突刺不一定是異常值。根據不同類型的數據取不同的均值和方差生成異常數據。

異常點會引起異常兩側的值有波動,設定一個影響范圍,隨機產生影響的范圍大小,使用3sigma原理生成異常點附近的波動值。

確定好左右兩側影響范圍后,隨機產生異常衰減的方式,分三種:簡單移動平均、加權移動平均、指數加權移動平均。左側影響的值的產生由其右側的值移動平均產生,對于右側影響范圍的值的確定,直接由左側的值移動平均產生。

2 特征提取

2.1 孤立森林

孤立森林,由周志華教授等人于2008年提出[3]。在孤立森林中,認為異常是“少且不同于其他值”,因此異常值更容易被隔離。在生成隨機樹的過程中,遞歸隨機地重復進行數據集的化分,在這種隨機分割的策略下,異常點通常具有較短的路徑。

2.2 特征設計

由于數據值大小、波動情況均有所不同,設計提取數據特征是提高異常檢測泛化能力的前提。騰訊Metis[4]將其分為三種特征,一是統計特征,包括方差、均值、偏度等統計學特征;二是擬合特征,包括如移動平均、指數加權移動平均等特征;三是分類特征,包含一些自相關性、互相關性等特征。參考Metis的特征提取方法,本章設計了一套特征工程,區別于上述特征提取方法,本文對提取的結果用孤立森林進行了一層特征抽象,使得模型的泛化能力更強,所選擇的特征及說明如表1所示。

3 基于xgboost的異常檢測

Xgboost[5]是基于決策樹的集成機器學習算法。2015年Kaggle發布的29個獲勝方法里有17個用了Xgboost。Xgboost具有高可擴展性和高計算速度,廣泛被應用在實際中。使用Xgboost進行異常檢測流程如下圖所示。

在訓練階段,首先將進行異常注入的數據集標注好,然后通過章節2設計的特征提取器構建特征數據集,再將特征數據集輸入xgboost模型訓練,最后保存訓練好的模型。在測試階段調用保存好的xgboost分類模型進行預測,最終得到異常檢測結果。

4 實驗結果

我們使用KPI數據集來評估我們的模型。KPI由AIOPS數據競賽發布[6-7],通常用于評估時間序列異常檢測的性能。該數據集由多個KPI曲線組成,這些曲線從各個互聯網公司(包括搜狗,騰訊等)收集。異常點被標記為正樣本,正常點被標記為負、正樣本。本章從精確性、召回率和F1分數來表示模型的準確性。

首先,將KPI數據集分為訓練集和測試集,訓練集和測試集比例為7:3。經過章1的異常注入算法處理訓練集并標注,特征提取后輸入xgboost進行訓練。測試集使用FFT[8]、Twitter-AD[9]、xgboost異常檢測模型結果如表2。

5 總結

智能化以及數據化是未來 IT 運維的總體趨勢,互聯網業務的連續性保障的方方面面將依靠智能運維。異常檢測是智能運維的首推場景。本文首先介紹了基于3sigma原理的異常注入算法,接著介紹了異常檢測的特征提取器,最后確定基于xgboost異常檢測的整體流程。將設計的特征提取器應用到數據集上得到特征數據集,特征數據集輸入xgboost進行訓練和測試,與現有模型相比獲得了更好性能。

參考文獻:

[1] C. Aggarwal. Outlier Analysis. Springer New York, 2013.

[2]? https://www.cnblogs.com/hellochennan/p/6706884.html.

[3]? Liu, Fei Tony, Kai Ming Ting, and Zhi-Hua Zhou. “Isolation forest.” Data Mining, 2008. ICDM08. Eighth IEEE International Conference on. IEEE, 2008.

[4]? https://github.com/bchretien/metis4.

[5] Chen T , Guestrin C . XGBoost: A Scalable Tree Boosting System[J]. 2016.

[6]? [n. d.]. http://iops.ai/dataset_detail/?id=10.

[7] [n. d.]. http://iops.ai/competition_detail/?competition_id=5&flag=1.

[8] Faraz Rasheed, Peter Peng, Reda Alhajj, and Jon Rokne. 2009. Fourier transform based spatial outlier mining. In International Conference on Intelligent Data Engineering and Automated Learning. Springer, 317–324.

[9] Owen Vallis, Jordan Hochenbaum, and Arun Kejariwal. 2014. A Novel Technique for Long-Term Anomaly Detection in the Cloud. In 6th USENIX Workshop on Hot Topics in Cloud Computing (HotCloud 14). USENIX Association, Philadelphia, PA.

【通聯編輯:唐一東】

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 一级黄色片网| 五月天丁香婷婷综合久久| 一级毛片免费不卡在线| 在线另类稀缺国产呦| 伊人激情久久综合中文字幕| 一区二区午夜| 欧美激情一区二区三区成人| 亚洲无线国产观看| 久久久久人妻一区精品| 国产一级裸网站| 九九久久精品免费观看| 拍国产真实乱人偷精品| 国产色婷婷视频在线观看| 91精品专区国产盗摄| 高清无码不卡视频| 国产精品无码AV中文| 色久综合在线| 国产精品久久久久久久伊一| 午夜日b视频| 欧美日韩国产综合视频在线观看| 青草国产在线视频| swag国产精品| 中文字幕自拍偷拍| 免费午夜无码18禁无码影院| 国产亚洲高清在线精品99| 99久久人妻精品免费二区| 国产精品v欧美| 国产主播喷水| 久久性视频| 尤物精品视频一区二区三区| 亚洲色图综合在线| 国产国语一级毛片在线视频| 看国产毛片| 青青青国产视频手机| 干中文字幕| 一级香蕉人体视频| 国产精品性| 波多野结衣在线se| 制服丝袜国产精品| 欧洲欧美人成免费全部视频 | 国产第一页亚洲| 日韩欧美中文字幕在线精品| 日韩一级毛一欧美一国产 | 亚洲一区无码在线| 成人在线不卡| 国产玖玖视频| 午夜性刺激在线观看免费| 国产欧美综合在线观看第七页| 亚洲精品无码高潮喷水A| 天天干天天色综合网| 伊人天堂网| 亚洲欧美日本国产综合在线| 在线免费观看a视频| 欧美在线视频不卡第一页| 久99久热只有精品国产15| 色噜噜狠狠狠综合曰曰曰| 欧美伦理一区| 国产成人精品无码一区二| 999国内精品视频免费| 四虎永久免费地址| 亚洲AV无码不卡无码| 91青青草视频在线观看的| 99国产精品一区二区| 热这里只有精品国产热门精品| 国产日产欧美精品| 日本国产精品一区久久久| 亚洲成年人片| 亚洲Av激情网五月天| 日韩国产另类| 亚洲综合欧美在线一区在线播放| 国产精品一区不卡| 国产精品成人免费视频99| 国产日本一区二区三区| 国产亚洲现在一区二区中文| lhav亚洲精品| 久久香蕉国产线看观看精品蕉| 国产在线98福利播放视频免费| 国产亚洲欧美在线专区| 久久国产亚洲偷自| 国产中文一区a级毛片视频| 无套av在线| 日本黄色不卡视频|