藍志威,袁 杰,2*,任志寬,3
(1. 中國社會科學院,北京 102445;2. 華南理工大學,廣東 廣州 510640;3. 廣東省科學技術情報研究所,廣東 廣州 510033)
多源通信網絡以其傳輸速度快、分集度高等優勢得到廣泛使用,已經成為運營商新的重點業務。一些研發機構通常使用入侵監測系統,及時發現網絡中可疑行為,同時采取一定措施,避免入侵行為進一步發展。但是,大數據時代到來,使入侵監測面對海量數據時力不從心,無法準確高效的得出監測結果。而數據挖掘在網絡安全領域受到廣泛關注,它能對入侵監測大數據做進一步處理,提高入侵監測性能等相關安全監測指標。
為此,相關領域學者研究數據挖掘在入侵監測領域的應用。文獻[1]提出基于神經網絡的數據挖掘方法。該方法挖掘聚類效果較好,挖掘過程收斂性強。文獻[2]研究一種新的多層次數據挖掘改進方法,為改進挖掘效率低的弊端,在時間復雜度要求較低的情況下,采用XMASK方法對隨機擾動方式改進,所需挖掘時間較短。文獻[3]對船舶數據庫管理系統中的入侵行為檢測研究現狀進行分析,采用支持向量機對船舶數據庫管理系統中的入侵行為變化特點進行刻畫,有效保證船舶數據庫系統的安全。
但上述挖掘方法隨著入侵形式多樣化,無法應對多變的網絡環境,不能保證數據挖掘的完成度。為此,本文利用NoSQL方法對多源通信研發機構入侵監測大數據進行挖掘。NoSQL表示一種結合物理分散邏輯實現數據規劃的分布式數據庫,能有效提高挖掘方法的準確性和完整度,同時具有靈活、實用價格低廉等優勢。入侵監測大數據具有復雜屬性,包括位置、方向和長度。計算屬性之間關聯程度,將其作為數據挖掘依據,再對不同屬性關聯程度進行聚類,便可得到最終挖掘結果,成為本文方法的創新之處。
多源通信可以實現不同平臺之間的業務數據共享,使管理信息系統中的數據動態反映到其它系統中去?,F有研發機構研究的多源通信系統實現過程圖如圖1所示。

圖1 多源通信系統結構圖
將整個通信過程分為以下四個不同層次:
1)數據庫之間通信:用來解決數據庫之間訪問問題;
2)訪問層次:完成系統與多源數據業務查詢;
3)邏輯層次:滿足對多源數據需求定義,實現數據交換;
4)通信層次:實現系統與數據庫之間互相訪問[4]。
多源通信研發機構屬于新型研發機構,在組織架構方面也與其它研究機構存在差異,它屬于以傳統職能式為主的弱矩陣式組織架構[5],示意圖如圖2所示。

圖2 多源通信研發機構組織架構
1)信息資產識別
信息安全風險為入侵風險評估的主要條件,是構建信息安全管理的目標。具體資產分類與名稱如表1所示。

表1 信息資產分類表
2)威脅識別
威脅是對組織與資產形成潛在破壞的可能因素,它屬于客觀存在的,且多數威脅無法完全消除。

表2 研發機構信息威脅表
對研發機構的各個方面風險進行分析,有利于監測入侵行為,全方面獲取監測數據。
對入侵監測大數據進行挖掘之前,需要對入侵特征進行提取[6],為數據降維提供依據。將獲取的痕跡信息轉換為頻域信號df,分析其頻譜特性,結合時間變換幅值將其轉換為隨頻譜變動的功率。頻譜分析主要根據頻率中心fFC、均方根頻率fRMSF以及跟方差頻率fRVF,它們分別表示信號主頻方位、變化情況與功率譜集中性,表達式依次為

(1)

(2)

(3)
式中,S(f)代表功率譜。將獲取的痕跡信息變換為頻域信號的表示形式
ei=(fFC+fRMSF+fRVF)S(f)
(4)
本文利用核主元分析法實現入侵痕跡數據信號的特征提取。此方法核心思想為:通過非線性轉換方式將入侵行為的樣本痕跡數據從輸入空間引入到高維特征空間[7],再在此空間內進行頻域特征提取。
如果y表示n維痕跡信息矢量,{yi,i=1,2,…,N}則代表y的某個痕跡信息信號樣本集合,利用非線性H將樣本數據信號從空間Rn映射到高維特征空間Rt中,再對該空間進行主成分分析。


(5)
式中特征值和特征向量的關聯性可表示為
λk=Cvk
(6)
式中,特征值λk≥0,vk(k=1,2,…,t)代表特征向量。
將式(5)與式(6)相結合,得到

(7)
假設與所有非零特征值λk對應的特征向量vk位于{H(xi),i=1,2,…,N}所在的平面內,具有不都為零的系數[Ti,i=1,2,…,N],令

(8)
綜合分析式(6)~(8)能夠得出

(9)
如果N×N矩陣表示為如下形式
Kij=k(yi,yj)=〈H(yi),H(yj)〉
(10)
式中k(yi,yj)表示滿足要求的核函數,對式(5)進行簡化處理為NλkK=K2,考慮到實際簡化需求,則有
λk=KN
(11)

因此K的特性值和特征矢量分別表示為Nλk和Tk。對特征值從大到小進行排序,若前m個特征值的和與所有特征值和的比值大于設定閾值,則主元數量為m。
為實現特征向量vk的歸一化,必須對T進行規范化處理

(12)
因此能夠獲得入侵痕跡數據的信號樣本yi在Rm空間內第k個主向量vk內的投影,即為yi特征值

(13)
利用上述方法實現對入侵監測數據的特征提取。
由于入侵監測大數據中包含無用信息較多,因此要刪除對最終結果影響較小的屬性信息,將樣本從高維空間映射到低維空間中,本文在空間相關性基礎上結合上述入侵監測特征提取結果,實現大數據降維。
因入侵監測是一個分類問題,所以采用一個分類方式將數據集合分成五類,其中包括一個正常類型Normal與四個入侵類型Prb,R21,Dos,U21,將質心數量設置為5,降維過程如下:
步驟一:利用改進的k-Means聚類方法獲取訓練數據集合內5簇的質心c0,c1,…,c4。每個簇的原始質心根據訓練樣本已知類別獲得,同時進行迭代運算獲取質心坐標,確保原始質心不會太過集中,以免影響降維效果。
步驟二:獲取待降維數據集合中樣本和質心ci(i=0,1,…,4)的空間關聯性。例如將45維的樣本和質心ci通過向量形式引入到歐式距離[8]公式中

(14)
利用上述公式計算獲得樣本x到質心ci的空間距離,將其當作二者之間空間關聯程度,將di當作x降維后的新樣本x′的第i維特性值。最后的降維樣本x′描述為初始樣本x與每個簇質心的距離,即x′(d0,d1,…,d4)。
步驟三:重復步驟二,直至全部樣本降維成新的數據集合。
經過上述步驟,將所有入侵監測數據從初始的45維降至5維,完成所有降維過程。
為提高挖掘方法性能,需事先對挖掘工作進行約束,約束內容必須保證挖掘工作運算量小,且效果強。
利用confidence(Q?W)代表特征集合Q中包含特征集合W的概率,confidence(W?Q)與上述意義相反,則在綜合入侵監測大數據位置關聯度、方向關聯度、長度關聯度三方面進行入侵監測挖掘。
1)位置關聯度挖掘

2)方向關聯度挖掘
方向關聯度挖掘表示大數據集合Q與W傳輸方向之間的角度(s1,s2),它的余弦值描述為

(15)
通過式(17)可知,入侵監測大數據集合Q與W傳輸方向角度越大,cos(s1,s2)值越小。如果(s1,s2)的值大于180度,則cos(s1,s2)值為負。為減少位置關聯度挖掘結果對方向關聯度挖掘結果造成的影響,基于NoSQL分布式大數據挖掘方法利用[1-cos(s1,s2)]的正弦值描述法代替傳統[1-cos2(s1,s2)]描述法,使方向關聯度被準確挖掘。
sim(dist)=avg(|s1||s2|)[1-cos(s1,s2)]
(16)
3)長度關聯度挖掘
長度關聯度挖掘是對位置關聯度挖掘的異向思維計算,也是對其挖掘結果的加成預算,其核心是對兩個數據集合傳輸通道長度計算的過程。因此挖掘結果可表示為

(17)
4)挖掘聚類
對降維后的入侵監測數據利用式(15)、(16)與(17)結合給出的約束條件進行聚類,獲取最終的挖掘結果。假設利用F代表挖掘頻率,則Fs即為挖掘聚類,也就是最終挖掘結果,表達式如下

(18)
式中,Fj為大數據位置、方向與長度屬性一起出現的概率,Fmax則為上述屬性關聯度的極大值,A與As分別是挖掘前、后樣本總數。
選取某個多源通信研發機構的通信環境作為研究實驗目標,仿真環境為一臺PC機,其配置是P4CPU2.40GHz,內存與硬盤大小分別為256MB和80G。數據來源為KDNuggets (http:∥www.kdnuggets.com/datasets/index.html),從中隨機挑選包括23個研發機構在內的相關通信數據,排除不適應預分類的數據集,剩余20個數據集,以此為數據樣本,分別從挖掘時間與完整度兩方面對所提方法、文獻[1]、文獻[2]方法進行比較。實驗結果分別如圖3所示。

圖3 不同方法挖掘所需時間對比圖
從圖3中能夠看出,在6次迭代過程中,所提方法最高一次挖掘時間為12秒,而文獻[1]與文獻[2]所需最高時間分別為15秒和18秒,文獻[3]最高所需時間為17.5秒,與其它方法相比挖掘效率具有明顯優勢。因為該方法對入侵監測大數據結合入侵特性進行降維處理,去除冗余數據,縮短數據挖掘時間。此外,三種方法挖掘完整度對比結果如圖4所示。

圖4 所提方法挖掘完整度
由圖4挖掘完整度結果可知,所提方法挖掘完整度在80%左右,其它三種方法的挖掘完整度都在80%以下。這是由于所提方法經過全面的屬性分析,分別從大數據位置、方向與長度三方面進行挖掘,得到較為全面的挖掘結果。
1)為提高多源通信研發機構研發數據的安全性,本文利用NoSQL挖掘方法從入侵監測大數據的不同維度進行挖掘,挖掘時間最高僅為11.5秒,能夠保持較好的挖掘效率。
2)在空間相關性基礎上結合上述入侵監測特征提取結果,進行大數據降維,且在降維的同時能夠保證挖掘結果全面、完整度高,挖掘完整度在80%左右。具有較強實用性。
3)在今后研究工作中,將會繼續深入研究大數據挖掘在網絡安全領域的應用,使該方法稱為研發機構信息安全的支撐技術之一。