◆林慶新
?
探究大數(shù)據(jù)下的K-means聚類算法在網絡安全檢測中的應用
◆林慶新
(福州大學至誠學院 福建 350002)
隨著我國計算機應用領域的不斷發(fā)展,網絡通信逐漸開始改變人們的學習與生活。因此,面對發(fā)展中的網絡技術,必須認識到網絡安全檢測問題的重要性。同時,在網絡安全檢測作業(yè)中,突破傳統(tǒng)防火墻技術、數(shù)據(jù)加密技術等靜態(tài)安全防御技術的應用,引入新型的安全保障技術。但在新型安全保障技術引入過程中,為了避免入侵攻擊危害系統(tǒng)、網絡安全,必須運用改進過后的K-means聚類算法,最終由此提高網絡安全檢測性能。
大數(shù)據(jù);K-means聚類算法;網絡安全
基于互聯(lián)網信息時代沖擊背景下,網絡信息獲取、交流溝通、商務交易等應用領域的使用越發(fā)頻繁。同時,據(jù)CNNIC統(tǒng)計數(shù)據(jù)顯示,我國域名總數(shù)已經達到了1470萬個左右。但為了更好地發(fā)揮互聯(lián)網信息獲取功能,必須在互聯(lián)網操控過程中做好網絡安全檢測工作。即在大數(shù)據(jù)網絡環(huán)境中引入K-means聚類算法,繼而有效控制軟件漏洞增長和惡意程序泛濫等問題。以下就是對K-means聚類算法在網絡安全檢測中應用難點等相關問題的詳細闡述。
聚類,即表示按照對象間的相似程度,將一組物理對象分為不定數(shù)目的組。其中,同一組數(shù)據(jù)對象間具備一定的相似性,而把相似程度較高的數(shù)據(jù)對象分為一組的行為就是聚類分析過程。就目前來看,聚類分析已經被逐漸應用于商業(yè)、生物學、萬維網、地理研究等領域中。但大數(shù)據(jù)環(huán)境中的K-means聚類算法,可更好地滿足數(shù)據(jù)龐大且數(shù)據(jù)結構復雜的網絡數(shù)據(jù)處理需求。同時,K-means聚類算法作為一種以群分析的數(shù)據(jù)挖掘算法,可將數(shù)據(jù)集按照一定的要求,劃分為若干個子集。其中,同一子集數(shù)據(jù)具備較高的相似性,而不同子集間屬性差異較為明顯。此外,從K-means聚類算法思想層面角度來看,K-means聚類算法也注重強調以層次的方式,對數(shù)據(jù)進行分類,并保證每一類數(shù)據(jù)具備一定的相似性,最終獲取k個聚類[1]。另外,從K-means聚類算法工作過程角度來看,如若在網絡安全檢測工作中應用K-means聚類算法。同時,網絡環(huán)境中數(shù)據(jù)多且結構復雜,那么應在網絡大數(shù)據(jù)對象為n個的基礎上,隨機選擇k個對象作為初始聚類中心,待初始聚類中心確定后,依據(jù)各個對象屬性,進行類別劃分。同時,以k個對象的距離為劃分標準,將k個對象分配至最為相似的聚類。其次,待k個對象聚類分析處理后,計算新聚類中所有對象均值,并反復多次重復此計算過程,直至標準測度函數(shù)開始出現(xiàn)收斂。即大數(shù)據(jù)環(huán)境下K-means聚類算法與傳統(tǒng)K-means算法相比,能更好的滿足網絡安全檢測需求。為此,應提高對其的重視程度。
在網絡安全檢測工作開展過程中,為了達到最佳的K-means聚類算法應用效果,應做好數(shù)據(jù)預處理、初始中心選取、K值確定等工作。即:
(1)數(shù)據(jù)預處理。即由于網絡數(shù)據(jù)共有2種:連續(xù)型、離散型。因而,為了更好的實現(xiàn)數(shù)據(jù)挖掘處理,需在數(shù)據(jù)預處理作業(yè)中,將離散型數(shù)據(jù)經預處理后,轉換為數(shù)值型,由此達到最佳的數(shù)據(jù)預處理效果。但在離散型數(shù)據(jù)向數(shù)值型數(shù)據(jù)轉換期間,需定義,如下:
定義1,D,是報警數(shù)據(jù)庫,其擁有n個警告記錄集,而警告記錄集可用T={T1,T2,……,Tn}進行表示,其中,n≥1。同時,X是警告記錄集的屬性集,由m個特征屬性構成。而其具體的屬性集可用X={X1,X2,……,Xm}進行表示。此外,以對象間距離來表示對象間相似程度[2]。
定義2,如若警告記錄中任意兩條用Ti和Tj表示,那么Ti與Tj間相似程度可用Sim(Ti,Tj)=Simc(Ti,Tj)+Simd(Ti,Tj)(i≠j)。
定義3,設定C={Ci}(i=1,2,……,K)用來表示聚類集。
定義4,假定,若所處理的聚類是Ci,那么聚類中心則是mi,而mi=mid+mic。
(2)確定初始聚類中心。即當數(shù)據(jù)轉換完成后,可從龐大的數(shù)據(jù)中選擇符合類中心的樣本點密度較高的聚類。同時,在聚類確定過程中,綜合考慮密度、相似距離等因素對初始聚類中心的影響,而后,從D中隨機抽取q個子集,并設定所抽取的子集為D1,D2,……Dq,且各個子集中擁有n條記錄,繼而待各項內容確定完畢后,由函數(shù)FindM處理子集,獲取3個初始聚類中心。即m1、m2、m3[3]。
(3)確定K值。即當初始聚類中心確定后,應采取多次重復的計算方法,計算各個類間相似度距離最大值與最小值,且在聚類分析過程中,通過動態(tài)化處理方式,不斷調整K值,最終達到歸類目的。
在網絡安全檢測過程中,為了利用K-means聚類算法提高大數(shù)據(jù)環(huán)境中算法效率,應設計K-means聚類算法網絡安全檢測模型。首先,在K-means聚類算法下網絡安全檢測模型設計過程中,應將其分為訓練階段和檢測階段。其中,訓練階段包括網絡大數(shù)據(jù)、Hash函數(shù)、構建樹形數(shù)據(jù)結構、數(shù)據(jù)訓練等內容。而檢測階段包括Hash函數(shù)、網絡數(shù)據(jù)基準庫、待檢測網絡數(shù)據(jù)抓取、Hash函數(shù)處理網絡數(shù)據(jù)、找出K的臨近對象、直推式異常檢測等內容。即訓練階段負責對正常數(shù)據(jù)進行提取,然后,將所采集的數(shù)據(jù)通過Hash函數(shù)處理方式,進行數(shù)據(jù)預處理。同時,將特征數(shù)據(jù)轉換為數(shù)據(jù)模型,以便于利用K-means聚類算法對數(shù)據(jù)進行分類,且構建樹形結構。此外,檢測階段主要負責對待檢網絡數(shù)據(jù)進行Hash函數(shù)處理。然后,利用K-means聚類算法,對數(shù)據(jù)進行分類。同時,探索樹形結構中K臨近對象,最終經直推式異常檢測,判斷數(shù)據(jù)是否存在異常現(xiàn)象,就此達到網絡安全隱患檢測目的[4]。
為了更好的掌握到K-means聚類算法在網絡安全檢測中的應用效果,可在網絡安全檢測模型設計完成后,以KDD Cup99為模型數(shù)據(jù)采集參考,進行網絡安全檢測模型應用測試工作。而在實際應用測試作業(yè)中,可將DoS、Probe、R2L、U2R作為攻擊類型[5]。同時,模型中所記錄的屬性值共有34個,字符屬性是7個。但在所有字符屬性中,正常數(shù)據(jù)占據(jù)總體的18.69%,異常數(shù)據(jù)占據(jù)總體的81.34%。而后,待數(shù)據(jù)確定后,進行安全模型應用測試。同時,在具體的性能評估工作開展期間,從這些數(shù)據(jù)中選擇3組,用于樣本分析。其中,這3組子集中每個子集都有1000記錄,而記錄中1.8%-2.0%是已知異常數(shù)據(jù)。即具體的樣本數(shù)據(jù)如下:

表 1 樣本
待樣本處理處理后發(fā)現(xiàn),改進后的K-means算法優(yōu)于傳統(tǒng)K-means算法。即試驗結果如下:

表 2 檢測結果比對
從表2中即可看出,在傳統(tǒng)K-means聚類算法與改進過后的K-means聚類算對比中即可看出,改進過后的算法與傳統(tǒng)算法相比,檢測率提高約,而誤檢率約降低,檢測時間相對節(jié)省。因而,在大數(shù)據(jù)背景下,應將改進過的K-means聚類算法應用于網絡安全檢測作業(yè)中。此外,從對不同攻擊類型檢測的效率角度來看,傳統(tǒng)K-means聚類算法與改進過后的聚類算法檢測效率如下:

表 3 對不同攻擊類型檢測的效率
從表3中即可看出,在U2R、R2L、DoS、Probe等不同攻擊類型檢測中,改進過后的K-means算法檢測效果更優(yōu)。因而,在大數(shù)據(jù)背景下,應注重將K-means聚類算法應用于網絡安全檢測作業(yè)中,就此打造一個良好的網絡通信環(huán)境。同時,符合商務交易、交流溝通等領域中互聯(lián)網應用需求,且能避免因病毒侵襲等威脅網絡運行安全的情況。
綜上可知,在大數(shù)據(jù)環(huán)境的沖擊下,網絡安全檢測問題逐漸引起了人們關注。而由于傳統(tǒng)的防火墻技術等檢測方法已經無法滿足用戶需求,為了保證網絡交易、交流溝通等的安全性,應在網絡數(shù)據(jù)量大且結構復雜的環(huán)境中,改進網絡安全檢測方法。即運用改進過的K-means聚類算法,對冗余的數(shù)據(jù)進行分類,之后,經數(shù)據(jù)的預處理,提取關鍵數(shù)據(jù)進行運算,并在運算過程中,提高網絡安全檢測效率,避免因數(shù)據(jù)冗余所造成的算法效率低等現(xiàn)象。
[1]鳳祥云.基于K-Means聚類算法入侵檢測系統(tǒng)研究[J].電腦知識與技術,2016.
[2]淡軍.基于并行二分K-means算法在異常檢測中的應用[J].福建電腦,2016.
[3]王勝利.基于大數(shù)據(jù)聚類算法在網絡安全中的應用[J].網絡安全技術與應用,2016.
[4]王茜,劉勝會.改進K-means算法在入侵檢測中的應用研究[J].計算機工程與應用,2015.
[5]劉長騫.K均值算法改進及在網絡入侵檢測中的應用[J].計算機仿真,2011.