李祥民 白潔
摘要:聚類是一種無指導的學習過程,無需先驗知識即可完成特征分類。在層次化聚類算法基礎上,介紹聚類方法對異常行為檢測理論方法。對目標樣本數據特征分析,建立了目標運動特征異常的檢測工程模型。基于累積數據聚類生成了特定區域目標運動特征知識庫,對實時數據測試分析,計算得到了異常目標集合。異常目標運動特征數據可視化,驗證了目標運動特征異常檢測模型的準確性與可實現性。
關鍵詞:聚類;數據挖掘;異常檢測;航跡
中圖分類號:TP311文獻標志碼:A文章編號:1008-1739(2018)14-62-3
Anomaly Detection of Target Behavior Based on Clustering
LI Xiangmin, BAI Jie
(The 54th Research Institute of CETC, Shijiazhuang Hebei 050081, China)
0引言
人工手段處理目標活動海量數據的工作量比較繁重,而數據挖掘是一種發現海量數據隱含知識的技術,是一種有效的數據應用手段。聚類作為數據挖掘的重要方法,是一種無監督的學習過程,聚類結果是不同數據分布特征的簇。異常數據占數據總體量較小,但蘊含信息量高。目標特征聚類結果形成目標行為知識庫,用于評估目標行為是否正常,異常檢測結果有助于業務分析人員將有限精力集中于異常目標數據的分析。
1聚類異常檢測原理
聚類可以發現強關聯的對象組,異常檢測是發現與正常對象不強相關對象簇的過程。異常簇同樣存在普遍運動特征,聚類可以用于異常檢測。聚類是一種無需指導的異常檢測技術,在未標記的數據集上進行操作,將相似的數據劃分到同一個類中,根據數據分布特征查找異常類數據簇。
無監督的異常檢測與有監督的異常檢測相比,無監督的異常檢測不需要訓練數據,只需要未經加工的原始數據,這是聚類模式運用到異常檢測的基礎。無監督的異常檢測數據集中,正常數據的數目遠大于異常數據的數目,大數據集聚類結果評估目標正常或異常特征。因此,基于聚類的異常檢測適用于無先驗知識的異常檢測。
1.1數學模型
1.2聚類算法及類間距
聚類算法可分為層次與劃分2類:①層次聚類是指產生一個嵌套的簇集。在層次體系中,每一層都有一些分開的簇,底層每個元組都組成一個單獨的簇,最高層所有的元組都屬于同一個簇,層次聚類中不必指定先驗簇的數目。層次聚類算法又可分為凝聚算法和分裂算法。②劃分聚類是指利用算法構造一個簇集,其中簇的數目由用戶指定或系統指定。劃分方法聚類典型算法有-均值聚類、最近鄰算法及PAM算法等。
非層次聚類或劃分聚類一步就產生所有的簇,不需要多個步驟。各種算法中,可以在算法內部產生幾個不同的簇,但劃分法聚類的結果只產生一個簇集。由于僅有一個簇集作為輸出,用戶必須輸入期望得到的簇的數目。此外,需要度量函數或準則函數來判定解的優劣程度。
不同的聚類算法產生的簇集都具有高簇內相似性與低簇間相似性。聚類初始階段根據挖掘算法,定義聚類個數或相似度閾值。層次聚類算法中,調節相似度閾值可以得到對數據總體不同程度的劃分,本文采用層次聚類算法。
數據類型屬性通常由類別型變量和數值型變量組成。運動特征數據屬性一般表示為數值型變量。運動特征距離采用高斯相似度的距離函數。
調整相似度閾值,可以調整2類樣本之間的空間關系,增大或減小2類樣本的空間區分性,獲得有利于決策分析的檢測性能。
2目標運動特征及預處理
大量傳感器獲取的海量目標航跡點數據,大數據可視化技術可以顯示目標的軌跡,這些信息包含位置、路線、速度及屬性等維度信息。海量數據致使業務人員很難將有限的精力集中于更有意義的目標信息。通過異常檢測,從海量運動目標數據中抽取出異常數據,異常數據出現頻率較小,信息含量高。決策分析人員的注意力可以集中于異常數據,從而提高目標的監視效率。
聚類的基礎是運動特征建模,分析數據特征并且利用這些特征建立模型是問題的關鍵。目標運動特征包含運動狀態信息(經緯度、高度、速度、航向)和時間信息。在限定地理區域內,目標運動航速和航向相對固定。受洋流、海洋地形等因素影響,不同區域目標航向、航速呈現不同規律。對目標活動空間區域進行離散化處理,在柵格區域內建立海上目標運動模型,本文選取柵格區域為:經度×緯度=1°×1°。
目標運動屬性航向和航速符合正態分布,且通常認為正常行駛的艦船通常占數據樣本遠大于異常行駛目標。正常目標在特定時間粒度和特定區域內目標的運動規律較為穩定。比如,一個月時間粒度內出現在區域A的目標具有相對穩定的運動特征。
聚類運動特征模型作為一種知識庫,評估實時采集數據。使用高斯相似度函數度量數據與先驗知識簇的相似度,在滿足相似度閾值條件下,為數據標記特征分類。運動目標異常檢測模型如圖1所示。
3實時目標異常檢測
目標運動特征隨時間和地域的變化而變化,因此歷史數據的異常檢測得到知識庫用于評估新數據記錄時,需保證歷史目標運動特征模型能反映待評估數據的運動特征。通常狀況下,歷年同一季節同一區域的目標運動特征較類似,或臨近時間段內數據中提取的目標運動特征也較可靠。
對數據樣本航向、航速為特征量進行聚類。聚類結果如表1所示。其中,結果含10個簇,每個簇中目標運動屬性以航向、航速的均值和標準偏差分布特征描述。群體[3]、[1]合計約91%。即大多數運動目標符合此類運動特征,航向均值分別為214°、35°,標準偏差分別為14、13.5;航速均值分別為26.5、24.4,標準偏差分別為8.8、9.3。群體[6]、[8]、[2]、[4]、[9]、[7]比例小,合計約9%,且在航速、航向屬性上表現出較大異常,群體[5]、[7]中,航速的均值和航向標準偏差遠大于其他群體。此類群體信息量更大。
選取上述時間粒度臨近時間段內數據,對該樣本數據進行評估,得到目標活動情況,評分結果如表2所示。每個目標航跡點賦予了一種屬性標示,為分析該目標屬性提供參考。
目標運動異常檢測結果如圖2所示。“C→”所示艦船航跡為以航向和航速特征檢測的異常結果。圖中異常軌跡明顯偏離了正常航向。
4結束語
研究了基于聚類的海上目標異常檢測方法,根據業務背景特點,選取適合目標運動數據的聚類算法,建立異常檢測應用模型。根據歷史數據聚類結果建立了目標活動特征知識庫,對實時獲取的目標航跡和數據評估,發現異常目標的異常行為,應用模型可廣泛應用于各類目標異常行為檢測。
參考文獻
[1]顏博,張佳驥,張鵬.海空運動目標數據的時序及關聯規律挖掘[J].無線電工程,2008,38(12):12-13.
[2]陳勇.一種目標航跡數據聚類挖掘分析方法[J].無線電工程, 2015,45(3):22-24.
[3]白潔,田瑞麗,張學軍.Apriori算法在用戶特性關聯分析中的應用[J].計算機與網絡,2016,42(12):70-72.
[4] Dunham M H.數據挖掘教程[M].郭崇慧,田鳳占等,譯.北京:清華大學出版社,2005.
[5] Tan P N, Steinbach M, Kumar V.數據挖掘導論[M].范明,范宏建等,譯.北京:人民郵電出版社,2006.