999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊核聚類和主動學習的異常檢測方法

2019-11-12 11:38:42呂宗平時熙然顧兆軍
現(xiàn)代電子技術 2019年20期
關鍵詞:主動學習

呂宗平 時熙然 顧兆軍

摘 ?要: 針對日志數(shù)據(jù)的異常檢測獲取標記數(shù)據(jù)代價過高的問題,提出一種基于模糊核聚類與主動學習的算法,即KFCM?AL算法。首先將日志解析,之后利用模糊核聚類算法將待選樣本在高維空間進行劃分聚類,濾去樣本冗余點,同時選取聚類中心進行標記構建初始分類器,最后結合主動學習利用較小的標記代價對異常檢測模型進行優(yōu)化。實驗結果表明,所提方法能夠利用較少的標記樣本獲取異常檢測模型的性能提升。

關鍵詞: 異常檢測; 模糊核聚類; 主動學習; 日志解析; 聚類分析; 性能對比

中圖分類號: TN911.23?34; TP301.6 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)20?0053?05

Anomaly detection method based on fuzzy kernel clustering and active learning

L? Zongping1, SHI Xiran1, 2, GU Zhaojun1, 2

(1. Information Security Evaluation Center, Civil Aviation University of China, Tianjin 300300, China;

2. College of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)

Abstract: In allusion to the problem of high cost of obtaining marking data for anormal detection of log data, an algorithm ?based on kernel fuzzy C?means and active learning (KFCM?AL) is proposed. The log is parsed, and then the samples under selection are classified and clustered in high?dimensional space by means of KFCM algorithm. The redundant points of samples are filtered out, at the same time the clustering center is selected to make marking and build the initial classifier. ?In combination with active learning, the anomaly detection model is optimized with a smaller marking cost. The experimental results show this method can improve the performance of the anomaly detection model with fewer marking samples.

Keywords: abnormal detection; fuzzy kernel clustering; active learning; log parse; clustering analysis; performance comparison

0 ?引 ?言

隨著信息時代的來臨,互聯(lián)網(wǎng)也越發(fā)緊密地與人們?nèi)粘I盥?lián)系起來,網(wǎng)絡信息安全的重要性也越發(fā)突出,逐漸成為研究人員研究的焦點。異常檢測是保障網(wǎng)絡信息安全不可或缺的重要技術手段。與傳統(tǒng)使用人工關鍵字搜索和規(guī)則匹配的手動查詢模式相比,異常檢測不僅可以發(fā)現(xiàn)已知的異常行為,還能檢測出未知的異常行為[1],更適用于應對目前層出不窮的網(wǎng)絡攻擊方式,具有實際需求和應用價值。

系統(tǒng)日志數(shù)據(jù)記錄了網(wǎng)絡服務運行過程中詳細的操作信息,以及各個關鍵點的系統(tǒng)狀態(tài)和重要事件,是異常檢測的主要數(shù)據(jù)源[2]。近年來將機器學習算法引入基于日志的異常檢測,已經(jīng)是一種流行趨勢,比如文獻[3]使用遞歸神經(jīng)網(wǎng)絡建立日志的系統(tǒng)故障預測系統(tǒng),文獻[4]使用決策樹、邏輯回歸等機器學習算法對日志進行異常檢測并評估。由于機器學習異常檢測需要有大量的標記數(shù)據(jù)來進行訓練,在現(xiàn)實情況下的日志數(shù)據(jù)中是無標記的數(shù)據(jù),有標記的數(shù)據(jù)非常有限,于是主動學習也應運而生。主動學習的基本思想就是通過啟發(fā)式的采樣策略,迭代地從未標記樣本中選取最有價值的樣本進行標注,從而減輕專家的工作[5]。同時主動學習也在異常檢測方面受到關注,比如劉敬等人結合主動學習和單分類支持向量機進行異常檢測[6]和朱東陽等人使用主動學習和加權支持向量機對工業(yè)故障進行識別[7]。但是主動學習算法的樣本選擇策略受限于初始訓練集的樣本質(zhì)量,易選中不具有代表性的離群點和大量相同標簽的樣本,使人工標注的負擔加重[8]。

為了降低樣本數(shù)據(jù)的冗余度,選擇最有價值的樣本進行人工標注,提升主動學習的檢測精度,本文利用模糊核聚類算法過濾冗余樣本點,降低樣本復雜度,同時選取置信度最高的聚類中心的樣本進行人工標注,以此構建主動學習初始分類器。

1 ?基本算法

1.1 ?支持向量機

定義 最優(yōu)超平面。若訓練數(shù)據(jù)集可以無誤差地被劃分,并且每一類數(shù)據(jù)距離超平面最近的向量與超平面之間的距離最大,則稱這個平面為最優(yōu)超平面。

當求解的問題線性可分時,支持向量機的本質(zhì)就是求得一個最優(yōu)超平面,使得兩類樣本到達超平面的距離最大。

當求解的問題線性不可分時,為了利用支持向量機對樣本集進行分類,將樣本映射到高維空間使其線性可分,然后在高維空間構建最大間隔超平面來進行分類。設訓練集W={(x1,y1),(x2,y2),…,(xj,yj)},其中[xj∈Rh]表示樣本的h維特征向量,[yj∈{-1,1}]是樣本的類別標記。在核函數(shù)[K(θ)]映射的高維核空間,通過求解式(1)可以獲得最大間隔超平面。

式中:b為位移量,決定了超平面與原點的距離;[αi]為拉格朗日乘因子,[αi]=0時,它所對應的樣本點對構造最優(yōu)超平面沒有貢獻,只有當[αi][≠]0時,它所對應的樣本點才被稱為支持向量,對構造最優(yōu)超平面有貢獻。因此,這就意味著構建支持向量機的最優(yōu)超平面僅由支持向量決定。

1.2 ?模糊核聚類算法

模糊聚類(Fuzzy C?Means,F(xiàn)CM)算法通過迭代目標函數(shù),得到每個樣本在各個類別的隸屬度,使相似度最高的樣本劃分為同一類別[9]。通過劃分未標注樣本集G獲得模糊劃分矩陣U,聚類中心C={c1,c2,…,cj,cn},cj表示第j個簇的聚類中心。FCM算法的目標函數(shù)如下:

由于FCM算法處理高維數(shù)據(jù)劃分精度不高,引用模糊核聚類(Kernel Fuzzy C?means,KFCM)算法進行聚類。KFCM算法引入核方法的思想:利用非線性映射把原始樣本集合都映射到高維空間來擴大每個樣本類之間的差距,以此達到在高維特征空間線性可分的目的[10]。由于高斯核函數(shù)通常具有良好的泛化功能,而且高斯核函數(shù)的核值范圍為(0,1),可以簡化計算過程,因此本文選用高斯核函數(shù):

2 ?基于模糊核聚類和主動學習的異常檢測方法

為了改善主動學習初始分類器的樣本選擇策略,降低樣本冗余度,本文提出了一種新的基于模糊核聚類和主動學習的異常檢測方法,即KFCM?AL(Kernel Fuzzy C?means?Active Learning)算法,利用KFCM算法將日志聚類并將聚類中心進行標記,同時過濾掉冗余點,然后將其饋送到主動學習分類器進行訓練,從而生成異常檢測模型。最后構建的異常檢測模型可以識別新傳入的日志數(shù)據(jù)是否為異常數(shù)據(jù)。

2.1 ?日志數(shù)據(jù)預處理

HDFS日志數(shù)據(jù)集是由亞馬遜的EC2平臺所運行的基于Hadoop作業(yè)而生成,并由該領域?qū)<疫M行了標記,可以運用到任意異常檢測中[11]。

HDFS日志數(shù)據(jù)集記錄了每個塊操作的唯一塊ID。在數(shù)據(jù)預處理階段,可以利用唯一塊ID將日志分割成一組日志序列,使用LogSig算法將原始日志文件解析成結構化日志消息[12],每條日志消息包含HDFS塊ID和日志事件。

HDFS日志數(shù)據(jù)集解析圖如圖1所示。

圖1 ?日志解析過程

之后從日志序列中提取特征向量生成事件計數(shù)向量,每一行代表了一個HDFS塊;每列表示日志事件類型;每個單元格計算某個HDFS塊上事件的發(fā)生。提取后的特征向量如圖2所示。

圖2 ?日志事件特征向量

2.2 ?基于模糊核聚類和主動學習的異常檢測算法

2.2.1 ?算法參數(shù)

基于模糊核聚類和主動學習的異常檢測算法所需參數(shù)如表1所示。

表1 ?算法參數(shù)表

2.2.2 ?KFCM?AL異常檢測算法

在機器學習領域,按照訓練樣本的處理方法,支持向量機的學習方法可以分為被動學習和主動學習兩種。被動學習隨機地從數(shù)據(jù)集中選擇樣本進行訓練,主動學習主動選擇最有利于提升分類器性能的樣本進行標記,從而減少訓練所需標注樣本個數(shù)。相較于被動學習,主動學習的選擇策略可以用較小的代價獲取分類器性能的改善[13]。

本文結合主動學習和KFCM算法,使用模糊核聚類算法劃分的聚類中心構建候選訓練集S,從S中隨機選取一定的樣本進行標記。令Li為KFCM劃分的第i個簇,i=1,2,…,k,threshi表示樣本相應的隸屬度,取樣規(guī)則如下:

利用KFCM算法將未標注樣本集聚類成k個簇,將簇中心進行標記用于構建初始樣本集,不需要全部樣本點。

由支持向量機的特點可知, 未標注樣本點離分類面越接近就越有可能成為新的支持向量, 從而重構和優(yōu)化當前分類超平面, 提升支持向量機的分類精度。異常檢測中,主動學習通常選擇距離決策邊界最近的樣本進行標記,這些樣本的不確定度最高,能夠為模型提供最多的優(yōu)化信息,該方法稱為最近邊界策略[6]。設x為被選中的待標記的樣本,G為未標注樣本集,D為訓練樣本集,其選擇策略滿足:

KFCM?AL算法的流程圖如圖2所示。算法步驟如下:

Step1:將初始樣本集用模糊核聚類算法聚類,劃分為L個樣本簇。過濾掉單一類簇中的冗余數(shù)據(jù),并選取聚類中心,進行標記構造初始訓練集S,使S中至少包含一個輸出y為1和一個輸出y為-1 的樣本;

Step2:根據(jù)初始訓練集構造初始分類器f;

Step3:對所有樣本使用f,根據(jù)樣本選擇準則從樣本集中選擇離分類邊界最近的未標注樣本[(x,y)],[y]為f給向量x預先打上的標注;

Step4:將該樣本正確標注后加入訓練集D中(y為x的正確標注);

Step5:若檢測精度達到某一設定值,算法終止,返回f,否則重復Step2。

圖3 ?KFCM?AL算法流程圖

3 ?實驗以及結果分析

為了驗證KFCM?AL算法的有效性,使用Python語言編寫程序?qū)崿F(xiàn)算法,實驗環(huán)境為Intel Core i7?3770 CPU 3.4 GHz處理器。實驗目的是證明通過結合模糊核聚類算法和主動學習算法,可以有效地減少樣本的復雜度,同時提高支持向量機的樣本標記。對比方法選用隨機取樣算法和主動學習算法。

3.1 ?實驗數(shù)據(jù)集和設置

HDFS原始日志數(shù)據(jù)集包含從亞馬遜EC2平臺收集的11 175 629條日志消息,共記錄29個原始日志事件,其中16 838條被原始領域?qū)<沂謩訕擞洰惓#姳?。

表2 ?實驗數(shù)據(jù)集

本文抽取5 000個日志事件計數(shù)向量,其中4 000個作為訓練集,1 000個作為測試集。由于在實際的日志數(shù)據(jù)中正常的數(shù)據(jù)樣本量遠大于異常數(shù)據(jù),所以在實驗里標記異常數(shù)據(jù)占全部數(shù)據(jù)1.6%。

實驗采用高斯核函數(shù)作為支持向量機的核函數(shù),經(jīng)過實驗選擇最優(yōu)實驗參數(shù),設置核函數(shù)控制因子s2=2,懲罰因子C=1 024,模糊聚類算法最大迭代次數(shù)Vmax=150,樣本隸屬度閾值thresh=0.9。

實驗使用準確率、召回率、誤報率作為評價指標來評估異常檢測方法的性能。準確率用于表示有多少樣本被正確檢測的百分比,召回率是檢測到多少正確異常數(shù)據(jù)的百分比,誤報率表示錯誤檢測的樣本占正確檢測的樣本的百分比。準確率越高表示模型總體檢測性能越好,召回率越高表示模型的漏報率越低,靈敏度越高,誤報率越低表示模型的檢測精度越高。

表3 ?混淆矩陣

3.2 ?實驗結果與分析

實驗通過KFCM算法將樣本進行聚類,然后結合支持向量機最優(yōu)化超平面的思想,濾去樣本的非支持向量,即數(shù)據(jù)樣本冗余點。同時為了保證數(shù)據(jù)的完整性,只過濾掉單一類簇的非支持向量點,并選取樣本中心進行標注。經(jīng)過KFCM聚類后結果如圖4所示。

圖4 ?聚類結果圖

通過圖4可以得知,KFCM算法可以濾去樣本中的非支持向量點,使樣本的復雜度降低,減少SVM算法進行學習訓練的樣本集規(guī)模,且避免SVM算法的過學習現(xiàn)象,提升SVM算法的檢測精度。

為了對比算法的性能,保證達到同等異常檢測條件下,實驗選取隨機取樣和主動學習支持向量機作為對比算法。下面比較三者所需的標記樣本數(shù)的比較結果。重復試驗5次取平均值對3種算法進行對比,結果如表4所示。

表4 ?實驗結果

從實驗結果可以看出,采用隨機取樣的方法需要的標記樣本數(shù)最多,由于隨機取樣算法采集的樣本多是正常數(shù)據(jù)且不在分類邊界,所以檢測精度效果最差;主動學習算法選擇分類邊界附近的點進行標記,由于這些點的置信度較低,所以標記這些點能為建立模型提供更多信息;本文方法采用模糊聚類與主動學習相結合,選取兼具代表性和置信度的樣本點進行標記,更能充分利用樣本的標記信息,減輕標記數(shù)據(jù)代價,獲取的性能提升程度最高。

4 ?結 ?語

為了解決針對日志數(shù)據(jù)的異常檢測獲取標記數(shù)據(jù)代價過高的問題,本文提出一種基于模糊核聚類與主動學習支持向量機的算法。實驗結果表明,本文方法能夠利用較少的標記樣本獲取模型的性能提升。在未來的工作中,將結合日志數(shù)據(jù)研究更加適合的主動學習算法的選擇策略和更具有專業(yè)性的日志解析方法。

注:本文通訊作者為時熙然。

參考文獻

[1] 肖國榮.改進蟻群算法和支持向量機的網(wǎng)絡入侵檢測[J].計算機工程與應用,2014,50(3):75?78.

XIAO Guorong. Network intrusion detection by combination of improved ACO and SVM [J]. Computer engineering and application , 2014, 50(3): 75?78.

[2] DU M, LI F, ZHENG G, et al. DeepLog: anomaly detection and diagnosis from system logs through deep learning [C]// ACM Conference on Computer and Communications Security. Dallas: ACM, 2017: 1285?1298.

[3] ZHANG K, XU J, MIN M R, et al. Automated IT system failure prediction: a deep learning approach [C]// 2016 IEEE International Conference on Big Data. Washington: IEEE, 2016: 1291?1300.

[4] HE S L, ZHU J M, HE P J, et al. Experience report: system log analysis for anomaly detection [C]// 2016 IEEE 27th International Symposium on Software Reliability Engineering. Ottawa: IEEE, 2016: 207?218.

[5] 王一鵬,云曉春,張永錚,等.基于主動學習和SVM方法的網(wǎng)絡協(xié)議識別技術[J].通信學報,2013(10):135?142.

WANG Yipeng, YUN Xiaochun, ZHANG Yongzheng, et al. Network protocol identification based on active learn and SVM algorithm [J]. Journal on communications, 2013(10): 135?142.

[6] 劉敬,谷利澤,鈕心忻,等.基于單分類支持向量機和主動學習的網(wǎng)絡異常檢測研究[J].通信學報,2015,36(11):136?146.

LIU Jing, GU Lize, NIU Xinxin, et al. Research on network anomaly detection based on one?class and active learning [J]. Journal on communications, 2015, 36(11): 136?146.

[7] 朱東陽,沈靜逸,黃煒平,等.基于主動學習和加權支持向量機的工業(yè)故障識別[J].浙江大學學報(工學版),2017,51(4):697?705.

ZHU Dongyang, SHEN Jingyi, HUANG Weiping, et al. Fault classification based on modified active learning and weighted SVM [J]. Journal of Zhejiang University (Engineering science), 2017, 51(4): 697?705.

[8] 吳偉寧,劉揚,郭茂祖,等.基于采樣策略的主動學習算法研究進展[J].計算機研究與發(fā)展,2012,49(6):1162?1173.

WU Weining, LIU Yang, GUO Maozu, et al. Advances in active learning algorithms based on sampling strategy [J]. Journal of computer research and development, 2012, 49(6): 1162?1173.

[9] 唐成華,劉鵬程,湯申生,等.基于特征選擇的模糊聚類異常入侵行為檢測[J].計算機研究與發(fā)展,2015,52(3):718?728.

TANG Chenghua, LIU Pengcheng, TANG Shensheng, et al. Anomaly intrusion behavior detection based on fuzzy clustering and features selection [J]. Journal of computer research and development, 2015, 52(3): 718?728.

[10] 黃衛(wèi)春,劉建林,熊李艷.基于樣本一特征加權的可能性模糊核聚類算法[J].計算機工程與科學,2014(1):169?175.

HUANG Weichun, LIU Jianlin, XIONG Liyan. A sample?feature weighted possibilistic fuzzy kernel clustering algorithm [J]. Computer engineering & science, 2014(1): 169?175.

[11] XU W, HUANG L, FOX A, et al. Detecting large?scale system problems detection by mining console logs [C]// Proceedings of 27th International Conference on Machine Learning. Haifa, Israel: SOSP, 2009: 37?46.

[12] TANG L, LI T, PERNG C S. LogSig: generating system events from raw textual logs [C]// Proceedings of 20th ACM International Conference on Information and Knowledge Management. Glasgow: CIKM, 2011: 785?794.

[13] 白寧.基于主動學習的支持向量機算法[J].現(xiàn)代電子技術,2013,36(24):22?24.

BAI Ning. Support vector machine algorithm based on active learning [J]. Modern electronics technique, 2013, 36(24): 22?24.

猜你喜歡
主動學習
淺談《住宅空間設計專題》的教學改革
幼兒教育中實施素質(zhì)教育的研究
成才之路(2016年36期)2016-12-12 14:17:24
小組合作學習在小學音樂課堂教學中的運用
如何在美工活動中引導幼兒主動學習
促進小學生主動學習
打造快樂體育課堂引導主動體育學習
淺談音樂課堂中的教與學做到合一
東方教育(2016年16期)2016-11-25 03:06:31
發(fā)揮家庭小實驗的功能 提高學生的實驗能力
高中生物教學中學生主動學習策略研究
人間(2016年28期)2016-11-10 22:12:11
數(shù)字電路課程的翻轉課堂教學及調(diào)研
計算機教育(2016年7期)2016-11-10 08:44:58
主站蜘蛛池模板: 在线色综合| 国产人成午夜免费看| 2019年国产精品自拍不卡| 久久黄色一级片| 伊人成人在线| 天天摸夜夜操| 91破解版在线亚洲| 91网址在线播放| 亚洲日韩久久综合中文字幕| 欧美中文字幕一区| 毛片卡一卡二| 女人18一级毛片免费观看 | 91精品国产自产在线老师啪l| 亚洲午夜18| 亚洲国产在一区二区三区| 国产微拍一区二区三区四区| 亚洲一区二区无码视频| 成年午夜精品久久精品| 午夜啪啪网| 麻豆国产精品一二三在线观看| 永久天堂网Av| 97色伦色在线综合视频| 91国内视频在线观看| 四虎成人精品在永久免费| 欧美亚洲另类在线观看| 自拍中文字幕| 免费看a级毛片| 欧美一区二区人人喊爽| 一级黄色欧美| 亚洲天堂自拍| 人妻少妇乱子伦精品无码专区毛片| 久久综合色播五月男人的天堂| 美女扒开下面流白浆在线试听| 日韩欧美国产中文| 亚洲熟女中文字幕男人总站| 国产成人精品18| 中美日韩在线网免费毛片视频| 国产精品分类视频分类一区| 亚洲欧美在线综合图区| 日韩av手机在线| 国产成人无码播放| 欧美午夜在线视频| 激情午夜婷婷| 熟女成人国产精品视频| 国产网站一区二区三区| 91av国产在线| 亚洲一区二区无码视频| 欧美成人二区| 久久精品亚洲专区| 在线播放精品一区二区啪视频| 欧洲熟妇精品视频| 色偷偷综合网| 国产成在线观看免费视频| 国产在线98福利播放视频免费| www.亚洲一区二区三区| 亚洲一区无码在线| 欧美精品亚洲精品日韩专区| 波多野结衣中文字幕一区二区 | 玖玖精品在线| 国产成人综合网| 久久国语对白| AV色爱天堂网| 1024你懂的国产精品| 九九这里只有精品视频| 色综合五月| 国产中文一区二区苍井空| 免费无遮挡AV| 美女国产在线| 成年人国产网站| 五月婷婷精品| 欧美亚洲第一页| 久久久国产精品无码专区| 性视频久久| 色窝窝免费一区二区三区 | 婷婷六月综合网| 99re在线观看视频| 国产成人艳妇AA视频在线| 99久久精品免费观看国产| 国产精品网拍在线| 亚洲第一在线播放| 国产69精品久久| 好吊色国产欧美日韩免费观看|