趙明 嚴宏舉 張明軍 安娜 韓進喜
摘要:針對聚類算法普遍存在的數值震蕩和計算量大以及傳統異常檢測中存在的分析準確率低和時效性差等問題,提出了一種改進的近鄰傳播聚類算法———IMAP的異常數據檢測方法。通過數據采集、數據預處理和聚類分析3個階段實現異常數據的識別和定位,引入動態阻尼系數的聚類分析方法對標準化數據進行異常檢測,為構造安全和穩定網絡提供了參考。實驗結果表明,利用IMAP的異常檢測方法能有效地提高異常檢測的運行效率和算法的精確度,具有實際的應用價值和意義。
關鍵詞:AP聚類;IMAP聚類;異常檢測;聚類算法
中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2020)10-68-4

0引言
近年來,隨著互聯網技術的發展,網絡結構日益復雜,數據規模日益擴大,對網絡的管理與監測越來越受到人們的重視。物理拓撲上的網絡動態級聯故障將導致失效節點對周圍節點產生級聯失效效應[1-3]。虛擬化技術的出現,虛擬節點與底層物理節點映射的動態性導致虛擬網絡和底層物理網絡的故障因果關系更加難以預測;網絡運行穩定后,網絡故障發生的頻次低,導致異常數據收集少,進而難以覆蓋異常的全部分布。而當網絡和信息系統迭代建設更新后,可能出現新的異常事件,但異常事件典型樣本的缺乏將無法有效檢測未知異常。網絡異常檢測是指以網絡流數據為輸入,通過數據挖掘、統計分析和機器學習等方法,發現異常的網絡數據分組和異常網絡交互等信息[4-5],綜合分析并借鑒上述異常檢測方法的優缺點,提出一種基于改進的近鄰傳播(AP)聚類算法[6-10],用于進行網絡異常數據檢測,該AP聚類方法可以有效解決聚類算法普遍存在的數值震蕩和計算量大等問題。使用改進的AP聚類算法對網絡異常進行檢測,能有效提高檢測效率,并能很好地適應通信網多樣化的復雜數據。
1異常檢測相關算法
異常檢測也被稱為基于活動行為的入侵檢測,是指能檢測出區別于正常行為的所有的行為,如未知的攻擊行為。常用的異常檢測方法可分為基于統計的異常檢測、基于分類的異常檢測、基于近鄰的異常檢測和基于聚類的異常檢測[11-13]。基于聚類的異常檢測不需要監督,適用于時空數據的異常檢測。一種基于淺層數據包檢查和并行K均值數據聚類的網絡流量異常檢測,能通過K均值聚類檢測網絡流量中的異常行為并為其提供通用的解決方案。但K均值聚類檢測方法存在明顯的局限性,必須事先為每個類別確定一個聚類中心,其結果好壞依賴于初始聚類中心的選擇,且對異常樣本點較為敏感。
基于此,提出了基于IMAP聚類算法的網絡異常檢測方法,將IMAP聚類算法應用于網絡異常檢測中,使其具有較好的穩定性和優越的檢測性能。
2基于IMAP聚類算法的異常檢測
2.1異常數據檢測模型
提出了一種基于改進的AP聚類算法的異常檢測[14-16]方法,結合網絡故障數據的層次性、傳播性、相關性和不確定性進行模型改進,模型如圖1所示。異常數據檢測模型主要分為數據采集、數據預處理和聚類分析3個階段。

①數據采集:基于流量探針、代理軟件,主動輪詢檢測和主動數據上報等方式,可以依據自己的數據需要,借助于網絡爬蟲技術獲取海量數據,或者獲取公開的數據集作為實驗數據的來源。
②數據預處理:原始的數據噪聲較高,不適合直接進行異常檢測,要對原始數據進行預處理將其轉換為標準化數據,便于后面進行數據挖掘。常用的數據預處理方法有數據清洗、數據集成及數據離散化分類等。
③聚類分析:將標準化的數據進行分類,大數據量的分類被認定為正常數據或普通數據,數據量較小的分類和孤立節點作為異常檢測的基礎數據。
2.2基于IMAP的聚類算法
基于IMAP的聚類算法是一種基于消息傳遞的聚類方法,主要思想是將數據看作二維空間內的節點,通過在數據節點直接傳遞信息,不斷循環迭代修改空間中聚類中心點的位置,最終得到一些高質量的聚類中心點。首先構建相似度矩陣來描述樣本數據點之間的相似性,然后借助相似度矩陣偏向參數實現一種包含響應度信息R(Responsibility)和可用度信息A(Availability)的消息傳遞機制來對數據點進行聚類。
基于IMAP的聚類算法以數據點之間的相似度矩陣和偏向參數作為輸入,利用這2種信息交替更新進行迭代,最終得到并輸出聚類結果。其中,數據點和數據點之間的相似度定義如下:


3仿真試驗驗證
以實驗室小型網絡(10臺交換機和服務器)環境下所采集的近15 000條網絡運行狀態和日志數據為例進行實例驗證,分為數據采集、數據預處理、標準數據集及聚類分析異常檢測等步驟。
①獲取數據:通過模擬或實地采集等手段全方位獲取正常流量數據和異常流量數據,并形成數據集對其進行驗證。
②數據預處理:對獲取的流量數據集進行預處理操作,剔除數據集中的“臟數據”,即與故障特性無關的數據、重復采集的數據,或數據格式錯誤的數據,在此基礎上利用主成分分析法對流量數據進行降維處理,提取流量數據的主要特征,降低流量數據的復雜性。
③標準化數據集:對網絡流量數據進行數據預處理得到模型所需的標準數據集,該數據集共含有7 267條數據。將數據集歸一化后,對其進行基于AP聚類的異常檢測分析。
在試驗中檢測驗證的結果如下:
①值:使用AP聚類算法在流量數據集上做異常檢測的=79.6%,使用本文提出的IMAP聚類算法做流量異常檢測的=82.3%。在流量數據集上,本文方法比AP聚類用于異常檢測的方法在召回率上提高了2.7%。
②值:使用AP聚類算法在流量數據集上做異常檢測的=72.4%,使用本文提出的IMAP聚類算法做流量異常檢測的=80.9%。在流量數據集上,本文方法比AP聚類用于異常檢測的方法在準確率上提高了8.5%。
③1值:通過對2個算法1值的對比,可以發現使用AP聚類算法在流量數據集上做異常檢測的1=72.9%,使用本文提出的IMAP聚類算法做流量異常檢測的1=81.6%。在流量數據集上,本文方法比AP聚類用于異常檢測的方法在1值提高了8.7%。
由上述試驗結果對比分析可知,本文提出的基于IMAP聚類的異常檢測算法具有檢測速度快、檢測準確率高的特點,具有實際的應用價值和意義。
4結束語
本文提出的異常檢測模型分為數據采集階段、數據預處理階段和聚類分析階段3個部分,將采集的海量數據進行清洗得到標準化數據,然后通過聚類分析方法標準化數據進行異常檢測,與以往的異常檢測精度相比,檢測效率提高了近45%。將改進的IMAP聚類方法應用到網絡異常檢測領域,有助于解決以往的異常檢測方法中存在數據震蕩問題,并能夠高效準確地找到異常數據,對網絡安全建設有深遠的意義。
參考文獻
[1]戚玉娥,劉方愛.一種基于聚類的異常流量檢測算法[J].微計算機信息,2010,26(9):133-135.
[2]李洪成,吳曉平,姜洪海.基于改進聚類分析的網絡流量異常檢測方法[J].網絡與信息安全學報,2015,1(1):66-71.
[3]柳兆峰,楊奇,霍永華,等.基于CURE聚類算法的科技情報異常數據檢測[J].無線電通信技術,2018,44(06):605-609.
[4]王柯偉.基于聚類的網絡異常檢測研究與實現[D].北京:北京郵電大學,2017.
[5] FREY B J, DUECK D.Clustering by Passing Messages between Data Points[J].Science,2007,315 (5814):972-976.
[6]章永來,周耀鑒.聚類算法綜述[J].計算機應用,2019,39(7): 1869-1882.
[7] HASSANABADI B,SHEA C,ZHANG L,et al.Clustering in Vehicular Ad Hoc Networks using Affinity Propagation[J]. Ad Hoc Networks,2014,13:535-548.
[8]胡正平,張樂,尹艷華.時空深度特征AP聚類的稀疏表示視頻異常檢測算法[J].信號處理,2019,35(3):386-395.
[9]李登杰.基于異常檢測的專利技術機會識別[D].北京:北京工業大學, 2016.
[10]田雪筠.網絡競爭情報主題采集技術研究[J].圖書與情報, 2014(5):132-137.
[11]劉愛琴,王友林,尚珊.基于爬蟲技術的關鍵詞關聯推薦算法優化與實現[J].情報理論與實踐,2018,41(4):134-138.
[12]奉國和,鄭偉.國內中文自動分詞技術研究綜述[J].圖書情報工作,2011,55(2):41-45.
[13]陳憶金,黃彥齊.網絡輿情動態分析研究[J].情報資料工作, 2016(6):35-40.
[14]劉紅光,馬雙剛,劉桂鋒.基于機器學習的專利文本分類算法研究綜述[J].圖書情報研究,2016,9(3):79-86.
[15]羅燕,趙書良,李曉超,等.基于詞頻統計的文本關鍵詞提取方法[J].計算機應用,2016,36(3):718-725.
[16]張齊勛,劉宏志,劉詩祥,等.基于行業專有詞典的TF-IDF特征選擇算法改進[J].計算機應用與軟件,2017,34(7): 277-281.
[17]吳正,李少波,楊觀賜.基于向量空間的專利類比挖掘算法[J].科學技術與工程,2017,17(11):74-78.
[18]周亞建,徐晨,李繼國.基于改進CURE聚類算法的無監督異常檢測方法[J].通信學報,2010,31(7):18-23,32.
[19]黃琳.基于CURE聚類的KNN文本分類研究與實現[D].昆明:昆明理工大學,2014.