麻書欽
(廣東技術師范學院,廣東 廣州 510665)
隨著信息技術和網絡技術的快速發展,網絡非法入侵也隨之大幅增長,對網絡安全性提出了強大挑戰,因此維護網絡安全顯得尤為重要。對網絡入侵聚類的研究[1],有助于應對網絡入侵,在此基礎上提出合適的防控措施。根據Kohonen網絡的自動聚類的優點,本文提出一種基于Kohonen網絡的網絡入侵聚類研究的方法。首先闡述基本理論、原理和算法步驟,然后利用Matlab軟件平臺對提出的網絡入侵算法進行測試研究,并同其他方法進行對比,從而驗證出Kohonen神經網絡算法進行網絡入侵聚類的優越性和準確性。
Kohonen網絡是一種自組織無監督學習網絡,可以識別環境特征,同時實現自動聚類。該網絡由芬蘭學者Kohonen提出[2-3],調整網絡權值主要通過自組織特征映射完成,從而實現神經網絡收斂。
Kohonen網絡由兩層前饋神經網絡組成,包括輸入層和輸出層。輸入層和輸出層之間通過神經元進行雙向連接,將輸入在輸出層映射成二維離散圖像。Kohonen網絡拓撲結構如圖1。
輸入層:用以表現網絡的輸入變數,即訓練范例的輸入向量,或稱特征向量,其處理單元數目依問題而定,每一個處理單元代表著輸入向量的每一個元素,亦即該輸入資料所擁有的特征。

圖1 Kohonen神經網絡結構圖
輸出層:用以表現網絡的輸出變數及訓練范例的聚類,其處理單元數目依問題而定。其結構本身有“網絡拓撲”以及“鄰近區域”的概念。
網絡連結:每個輸出層處理單元與輸入層處理單元相連結的權數所構成的向量,表示一個輸入特征值向量對應訓練范例聚類的標量。當Kohonen網絡學習完畢后,靠近輸出處理單元的神經元具有相似的連結權數。
Kohonen網絡的基本原理是計算輸入的特征量映射至輸出層每一處理單元的歐幾里得距離(euclidean distance),而具有最小距離值的處理單元就是優勝單元并且將會調整它的連接權值,使其能夠更接近原始的輸入向量,而且此處理單元的鄰近區域也會調整本身的連接權值,使自己與輸入向量間的歐幾里得距離能夠減少,其算法步驟[4]如下:
輸入:訓練樣本和測試樣本;
輸出:訓練后的權系數矩陣和測試樣本所屬的類及歸屬程度;
(1)粗調整學習階段
1)網絡權值初始化wij,新向量的輸入

式中:Xi(t)——t時刻樣本的第i維分量(i=1,2,…,m),總的學習次數為T=T1+T2。
2)樣本矢量與權值之間距離的計算

3)求最小距離,找出最匹配輸入樣本矢量的競爭層節點c,即:

4)調整權系數,粗調整階段

其中:m——競爭層神經元的個數。
按照步驟2)計算鄰域函數值,權值可根據式(4)進行調整:

5)學習率和鄰域寬度按照步驟1)和步驟3)進行遞減。
6)返回步驟3),所有學習樣本調整一遍。
7)t=t+1;直至 t>T1。
(2)精細調整學習階段
8)精細調整 T2=500 階段,η0=0.04,σ0=1,并重復步驟2)~6),只是鄰域寬度和學習率按照式(5)遞減:

9)將另一組樣本矢量作為網絡輸入,返回第3)步,直到樣本輸入結束。
10)t=t+1;當 t>T2時,學習階段結束。
11)所有輸出神經元的連接權系數的存儲和輸出。
(3)應用階段
12)輸入樣本和連接輸出神經元的權系數向量的歸一化,以保證輸入樣本和輸出神經元的歐氏距離在[0,2]之間,如式(6)所示:

13)讀取一個新的網絡輸入樣本。
14)根據已計算出來的歐氏距離dj和上文定義的隸屬函數,計算輸入樣本到各輸出神經元的隸屬度為

15)輸出分類:設定閾值,根據高斯函數自身性質,本文將閥值設為0.6,即:當μ(Cj(X))>0.6輸出神經元即為該輸入樣本所屬的類,輸出該類及輸入樣本在該類中的隸屬度。
16)重復13)步,直到沒有新的輸入樣本。
根據算法步驟可知其算法流程圖如圖2所示。
網絡入侵是指通過非法手段試圖破壞計算機和網絡系統資源完整性、機密性和可用性的行為。對網絡入侵進行聚類分析研究,有助于發現網絡入侵的種類,在此基礎上為制定防網絡入侵的措施和方案,提供決策依據。
根據網絡入侵的特點,Kohonen神經網絡網絡入侵攻擊聚類算法流程如圖3所示。

圖2 Kohonen網絡算法的程序框圖

圖3 算法流程圖
根據某具體的項目,現有5000組網絡入侵數據,數據中有5類入侵方式,分別為I類、II類、III類、IV類、V類。用訓練好的Kohonen神經網絡測試樣本數據,測試數據有500組,運用Matlab進行相應的仿真,仿真結果如圖4~圖7所示。
圖4中的神經元編號方式是從左到右,從下到上,神經元編號不斷增加,左下角的神經元為1號,右上角神經元為16號,中間的數字代表神經元的獲勝次數。圖5表示網絡權值的分布。
圖6表示鄰近神經元的距離分布圖,相鄰神經元間填充的顏色表示兩個鄰近神經元的距離遠近,顏色越深,越接近黑色,代表距離越遠,反之越近。
從圖7可以看出,絕大多數測試結果同預期結果一致,預測結果的分類準確率達到98.1%,效果很好。
為了進一步驗證Kohonen神經網絡網絡入侵聚類方法的優越性和準確性,將其同PNN神經網絡算法進行對比,主要從訓練準確率、測試準確率和運行時間3個方面[5-7]進行驗證,仿真結果如圖8~圖10所示。

圖4 獲勝神經元統計圖

圖5 網絡權值分布

圖6 鄰近神經元距離分布圖
從圖8可以看出,Kohonen神經網絡的準確率有96.6667%,而PNN神經網絡[8-9]的準確率只達到93.3333%。從圖9可以看出,Kohonen神經網絡的準確率普遍高于PNN神經網絡的準確率。從圖10可以看出,Kohonen神經網絡的運行時間也優于PNN神經網絡。

圖7 預測結果

圖8 訓練準確率對比圖

圖9 測試準確率對比圖

圖10 運行時間對比圖
根據Kohonen神經網絡能自動實現聚類的優點,本文提出一種基于Kohonen網絡的網絡入侵聚類研究的方法。運用Matlab軟件,進行Kohonen神經網絡網絡入侵聚類仿真,并同PNN神經網絡進行了對比,主要研究結果如下:(1)根據仿真結果,Kohonen神經網絡網絡入侵聚類結果的準確率達到98.1%,效果很好。(2)將其同PNN神經網絡算法進行對比,主要從訓練準確率、測試準確率和運行時間3個方面進行驗證。Kohonen神經網絡的準確率達到96.666 7%,而PNN神經網絡的準確率只達到93.333 3%;Kohonen神經網絡的準確率普遍高于PNN神經網絡的準確率;Kohonen神經網絡的運行時間也優于PNN神經網絡。
[1]樊玫.基于Kohonen神經網絡的用戶訪問模型挖掘模式的研究[D].南昌:南昌大學,2007.
[2]劉純平.基于Kohonen神經網絡聚類方法在遙感分類中的比較[J].計算機仿真,2006,26(7):1744-1746.
[3]范作民,白杰,閻國華.Kohonen神經網絡在發動機故障診斷中的應用[J].航空動力學報,2000,15(1):89-92.
[4]莫禮平.基于Kohonen神經網絡的故障診斷方法[J].成都大學學報,2007,(1):47-51.
[5]Agrawal R,Srikant R.Mining sequential pattems[C]∥International Conference on Data Engineefing.Taipei,Taiwan:ICDE,1995:3-14.
[6]Francesco B,Fosca G,Giuseppe M,et al.Data Mining for intelligent web caching[C]∥International Conference on Information Technology:Coding and Computing,2001.
[7]吳柯,方強,張俊玲,等.基于改進Kohonen神經網絡的遙感影像分類[J].測繪信息與工程,2007,32(2):47-49.
[8]李宗福,鄧瓊波,李桓.Kohonen SOFM神經網絡及其演化研究[J].計算機工程與設計,2004,25(10):1729-1730.
[9]曲義飛.基于Web使用挖掘的用戶消費模式發現研究[D].大連:大連理工大學,2006.