鄭美容
在復雜多變的網絡環境中,網絡安全是保證網絡正常運行的關鍵,對網絡入侵進行檢測,是保證網絡安全的關鍵技術[1].目前,網絡基礎設施和網絡帶寬逐漸優化,數據傳輸質量也得以優化.通過對網絡大數據進行挖掘聚類,能夠篩選網絡數據中的異常數據,對其進行歸類并劃分,能夠有效檢測網絡入侵數據,保證網絡安全.
隨著網絡應用的普及,網絡數據數量變得更加龐大,數據結構越發復雜.雖然目前聚類分析技術應用的領域非常廣泛,但隨著大數據時代的到來[2-3],傳統聚類分析算法對于小規模網絡數據集具有較高執行效率和良好聚類結果,但處理大規模高維網絡數據集時[4],傳統聚類分析就會出現數據聚類效率低下、數據檢測準確率降低等缺點[5-6],應用于網絡入侵檢測中,難以有效分辨網絡數據運行狀態,監測異常數據,導致網絡入侵檢測難以實現.
因此,本研究提出基于大數據聚類的網絡入侵檢測方法.利用網絡數據預處理對其實現歸一化、標準化;結合模糊C 均值聚類算法建立最大隸屬原則,檢測網絡異常數據樣本點,完成網絡入侵檢測.為驗證所提方法的有效性,設計一次仿真實驗.實驗結果顯示所提方法的檢測精度更高,且能夠高效實現多種類入侵并行檢測,實驗驗證了將所提方法應用于大數據環境下的網絡安全檢測,對提高網絡系統的安全性具有重要的意義.
網絡數據具有海量、多元化的特點,增加了網絡入侵檢測的難度.因此,在網絡入侵檢測前需要對網絡數據進行預處理.通過線性歸一化、能量歸一化、去穩能量歸一化及同類特征規則化實現網絡數據歸一化處理,再通過離散特征及連續特征的標準化處理實現網絡數據標準化,完成網絡數據預處理.
假設網絡訓練數據集為Q個數據樣本,每個數據樣本之間存在K個數據特征,第q個樣本的第i個特征表示為歸一化后第q個樣本的第i個特征為以下為歸一化方法[7].
線性歸一化.網絡數據線性歸一化方法為:

其中:bi、ci代表歸一化參數.將網絡數據中全部Q個樣本特征的最低值設成yimin;Q個樣本第i個特征最高值設定成yimax,若需要將訓練集中全部網絡數據樣本第i個輸入特征分量歸一化成第i個輸入特征分量歸一化后的最小值與最大值依次設成y~imin、那么

能量歸一化.網絡數據能量歸一化方法計算式為:

式中:將網絡數據集里全部樣本第i個分量所建立的矢量yi的范數設成
去穩能量歸一化.將特征集里全部樣本的相同特征值的穩態分量去除后,再實施網絡數據能量歸一化[8-9].歸一化方法為:

其中,全部網絡數據樣本第i個特征分量均值設成yˉi,此值即為穩態分量,計算式為:

同類特征規則化.假定訓練集B個樣本的種類是?j,各個種類存在M()j個網絡數據,那么?j種的網絡數據所建立的子集為:

以下為網絡數據規則化的詳細步驟.
運算網絡數據?j種第i個特征的統計均值為:

M代表數量.以此能夠去除穩態分量,則網絡數據樣本為:

基于此對網絡數據實施能量歸一化:

為進一步提升大數據在網絡入侵中的應用效果,對數據歸一化處理后,需實現數據的標準化.標準化數據是數據聚類的前提.網絡數據離散特征某離散值的標準化方法為:
其中:g為網絡數據離散特征的某個離散值;T( )
F為網絡數據集種類信息熵;某個離散值特征的離散值是g時,網絡數據集種類的條件熵設成因此,離散特征的離散值g標準化后的o值,取值區間是[0,1].
連續特征的標準化方法為:
綜上所述,網絡數據經過歸一化與標準化后的數據均值為:

模糊C 均值聚類是大數據聚類的一種,通過規定約束條件,引入拉格朗日乘數法求解聚類算法的模糊度,求解聚類數量與參數,通過閾值設定控制聚類迭代次數,最大隸屬原則判斷樣本數據點異常與否,實現入侵檢測算法.
將m個經過預處理后的網絡數據實例設定為數據種類為H種.分類矩陣設為元素vji描述的是第h個網絡數據實例即為第i種類型的隸屬度,其中模糊C均值聚類的約束條件為:

隸屬矩陣V的元素取值范圍是[0,1].價值函數為:

其中:將各個網絡數據實例至類中心的距離平方和設成Ln;類中心與網絡數據實例數據集依次設成Di、Yj,D∈Di;將第j個數據實例隸屬第i個聚類中心的隸屬度設成將m ×h矩陣設成V;第j個數據實例和第i個聚類中心間歐式距離、模糊系數依次設成預分類組數設成h.使用拉格朗日乘數法,設定獲取最小值的前提條件[10]. 詳細設定如公式(15)和公式(16),

其中:參數n設成控制算法的標量,其余分類矩陣V的模糊水平存在直接聯系,n值較大,那么模糊度越大.
模糊C 均值聚類算法存在兩個核心參數,分別是聚類數量D與參數n.使用模糊C 均值聚類算法檢測網絡入侵的流程為:
①設定一個隨機數,此隨機數的取值區間是[0,1],通過此值的初始化隸屬矩陣V,讓它符合
算法輸出結果是一種模糊劃分矩陣,此矩陣描述各個網絡樣本點屬于網絡入侵與非入侵數據的隸屬度[13].使用此矩陣,根據模糊集合里的最大隸屬原則便可以判斷各個樣本點是否異常[14-15].
為驗證所提方法對網絡入侵檢測的有效性,使用KDD Cup2019 數據集作為所提方法檢測數據載體.此數據集為麻省理工學院實驗室按照美國空軍局域網環境的標準構建的網絡流量數據集. 數據集存在10 次入侵數據.10 次入侵時出現的入侵數據類型依次是拒絕服務攻擊(Denial of Service,DOS)、遠程權限獲取(Remote to Loca,R2L)、權限提升(User to Root,U2R)、端口掃描與漏洞掃描(Port Scanning and Vulnerability Scanning,PSVS).
數據集里的數據格式是:0.1,tcp,Service type,106,147,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,2.1,2.1,0.01,0.01,0.01,0.01,1.01,0.01,0.01,0.01,256,255,1.01,0.02,0.01,0.01,0.01,0.01,0.01,0.01,data type.其中首個數值表示網絡數據鏈接耗時,第2個屬性代表鏈接數據包,第3個屬性表示服務模式,第4個屬性代表鏈接標記,后續屬性均描述數據特征.data type 代表數據種類.
為便于測試,在KDD Cup 2019 數據集中隨機提取4 組4000個網絡樣本子數據集,設置各個子數據集中存在3000個正常數據,50個入侵數據,4個子數據集入侵數據類型分布一致.數據空間維度為6 維.詳見表1.
使用所提方法對和4個子數據集中的入侵數據實施聚類檢測,檢測結果見表2.
分析表1 和表2 可知,所提方法對4個子數據集中網絡入侵數據的檢測結果和表1 所設定數值間差值較小,對DOS 入侵數據的檢測結果和表1 存在1個之差,所提方法能夠有效檢測網絡入侵數據.

表1 數據集設置

表2 所提方法檢測結果
測試所提方法對4個子數據集中入侵數據的誤檢率.誤檢率是檢測錯誤數據數與網絡數據總量之比,所提方法誤檢率計算結果見表3.

表3 所提方法誤檢率計算結果
經計算,所提方法對4 種網絡數據中入侵數據誤檢率較小,誤檢率均值為0.04%.結合表2、表3 檢測結果可知,所提方法對網絡入侵數據的檢測精度較高.
分析4 種入侵類型中,使用網絡數據預處理方法與未使用網絡數據預處理方法時,所提方法的檢測值與設定值間的差異,結果見圖1.

圖1 所提方法網絡數據預處理的應用效果分析
分析圖1 可知,把網絡數據歸一化、標準化后,所提方法對4 種入侵的檢測結果更為準確,差值最大值僅有1個,出現在第一種入侵DOS 處,說明對網絡數據預處理,能夠提升所提方法的檢測精度.
測試所提方法在檢測4種子數據集中入侵數據后,對網絡數據的損耗情況進行分析.此測試指標主要通過損耗數據數量來體現,測試結果見圖2.由圖2 可以看出,所提方法在檢測4 種子數據集中入侵數據后,對4個子數據集中數據損耗較小,數據損耗數量低于6個,表明所提方法在檢測網絡入侵時,對網絡數據完整性存在較好的保護.

圖2 數據損耗情況測試結果
為進一步測試所提方法對高維網絡數據的入侵檢測性能,設定數據空間維度為50,測試所提方法對高維網絡數據的入侵檢測性能,結果見圖3.

圖3 所提方法對高維網絡數據的入侵檢測性能
分析圖3 可知,在50 維度下,所提方法對高維網絡數據的入侵檢測耗時低于1 s,對入侵數據數量的檢測差值最大值為1個,由此可見,所提方法不單適用于低維網絡數據入侵檢測,對高維網絡數據入侵檢測也存在檢測時間短、檢測精度高的優勢.
提出新的基于大數據聚類的網絡入侵檢測方法,在大規模髙維數據集中存在執行效率快、檢測準確性高的優勢,并能應用于網絡安全檢測,從而為網絡系統安全性提供保障,使之滿足于大數據環境下網絡系統安全要求.所提方法的檢測優勢為:
①在低維網絡數據中,所提方法對DOS入侵數據的檢測結果和設定值間僅存在1個之差.
②所提方法對4 種網絡數據中入侵數據誤檢率較小,誤檢率均值為0.04%.
③把網絡數據歸一化、標準化后,所提方法對4 種入侵的檢測結果更為準確,差值最大值僅有1個.
④所提方法在檢測4 種子數據集中入侵數據后,對4個子數據集中的數據損耗較小,數據損耗數量低于6個.
⑤在高維度下,所提方法對高維網絡數據的入侵檢測耗時低于1 s,對入侵數據數量的檢測差值最大值為1個.