程顯生,楊 珍,王 俊
(內蒙古農業大學計算機技術與信息學院,內蒙古 呼和浩特 010000)
采用云計算技術進行網絡傳輸控制,能提高網絡輸出的帶寬和容量。然而在云計算網絡中,由于網絡節點的隨機分布性和自組網性,會導致云計算網絡容易受到入侵威脅,需要結合云計算網絡的入侵檢測和入侵數據的關聯規則分析,對云計算網絡進行入侵檢測[1]。挖掘云計算網絡的入侵跳頻數據特征量,從而實現網絡的云安全管理和信息存儲,提高云計算網絡的安全性。研究云計算網絡的入侵跳頻數據關聯規則挖掘方法,在確保云計算網絡的安全方面具有重要意義[2]。
文獻[3]中提出基于差分隱私的多源數據關聯規則挖掘方法,采用拉普拉斯機制和指數機制保護用戶數據,并運用差分隱私方法進行關聯規則挖掘。實驗結果驗證了該方法的精確性能夠控制在可接受的范圍內,但是當網絡中干擾信噪比較大時,其挖掘效果不佳。文獻[4]中提出基于粗糙加權平均單依賴估計的入侵檢測算法。該方法使用加權平均單依賴估計方法對網絡入侵跳頻數據進行分類,完成對網絡數據的入侵檢測,但該方法的抗干擾性較差,并且挖掘準確性不高。除上述方法外,還有相關研究者提出了基于人工蜂群優化的密度聚類異常入侵檢測算法。在初始化蜜源階段采用不同的編碼方法分別對入侵跳頻數據和特征值進行編碼,在鄰域搜索階段利用兩種搜索策略分別對其進行搜索,并在新的適應值函數中加入誤報率影響因子。但該方法進行云計算網絡入侵跳頻數據關聯規則挖掘的準確率較低,入侵檢測效果不好。
針對上述問題,本文提出基于主成分分析與Apriori算法的云計算網絡入侵跳頻數據關聯規則挖掘方法。該方法運用Apriori算法檢索入侵跳頻數據庫中的頻繁項集,并結合主成分分析算法對頻繁項集中的最小信任度進行構建,從而降低了不同信噪比對關聯規則挖掘的影響。同時,該方法通過計算最小信任度的判決統計量,為關聯規則的挖掘提供判決依據,從而保障了挖掘結果的精確性。仿真結果展示了所提方法在提高云計算網絡入侵跳頻數據關聯規則挖掘能力方面的優越性能。
為了實現云計算網絡入侵跳頻數據關聯規則挖掘,采用分組統計監測方法構建云計算網絡入侵跳頻數據的統計特征監測模型,提取云計算網絡入侵跳頻數據的統計特征量[5,6]。采用一個無向圖模型G=(V,E)表示入侵跳頻數據監測的傳感組網結構模型,在傳輸鏈路模型中,v為云計算網絡的根節點,在輸出鏈路層進行云計算網絡入侵跳頻數據的在線監測,對任一節點滿足v∈V。三維空間散射簇中,監測節點的Sink鏈路集為e,散射簇網絡拓撲邊結構滿足e∈E。假設接收端天線和發送端天線的傳輸鏈路數據集為X={x1,x2,…,xn},構建云計算網絡入侵環境下的入侵監測統計分析模型,用有向圖模型G(A)、G(B)描述。對于入侵下的統計特征點用A、B描述,構建云計算入侵跳頻數據的統計特征監測模型,其表達式為

(1)

(2)
其中,x1(k)和x2(k)分別是X1(k),X2(k)前N/2+1項組成的入侵跳頻數據。
根據上述分析,得到入侵跳頻數據的統計特征監測模型如圖1所示。

圖1 入侵跳頻數據的統計特征監測模型
根據入侵跳頻數據的統計特征監測模型可知,入侵跳頻數據的不同特征通常具有不同的取值區間范圍,各個區間范圍的數值差異較大,因此提取云計算網絡入侵跳頻數據的統計特征量之前,需要根據統計特征監測模型對其進行標準化處理[7]

(3)
將其進行轉換得到
x(t)=As(t)+n(t)×X1(k)X2(k)
(4)
其中

(5)

(6)
依據大數據采樣離散特征值,采用子載波調制方法描述入侵節點分布特性,得到網絡入侵調頻數據的主成分特征信息

(7)
其中,C4S表示云計算網絡入侵跳頻數據在匯聚鏈路層中的信息強度
C4S=diag[c4s1,c4s2,…,c4sL]
(8)
設a(t)≥|s(t)|表示入侵數據在節點si處的能量譜密度,入侵跳頻數據的最大包絡幅值為|s(t)|,選取入侵數據的一階統計量為a(t)的曲線,構造如下的4P×4P矩陣表示提取的云計算網絡入侵跳頻數據的統計特征量

(9)


(10)
結合特征提取結果進行信息融合處理,能夠提高入侵跳頻數據的統計特征分析能力[9]。
在上述提取云計算網絡入侵跳頻數據統計特征量的基礎上,進行數據挖掘設計,結合Apriori算法構建云計算網絡入侵跳頻數據的大數據分布模型[10]。Apriori算法的實現原理為先檢索出入侵跳頻數據庫中的所有頻繁項集,然后根據頻繁項集構造出的最小信任度實現入侵跳頻數據關聯規則挖掘。
云計算網絡中的關聯規則挖掘轉發控制協議,用如下形式表示

(11)
其中,γth表示轉發流優先級,Pr表示可靠概率要求,G表示擁塞度信息,hi表示收發速率比。


(12)
其中,ai∈{0,1},0≤k<2s。
假設,a1,a2∈V,b1,b2∈V′,對于云計算網絡入侵跳頻數據分布的Sink節點EHs(j)和EHt(k),采用Apriori算法構建網絡入侵跳頻數據的大數據分布模型[12],其表達式為

(13)
W(p)=Tl1GTp2-Cp+αT
(14)
其中,W(p)表示云計算網絡入侵跳頻數據頻繁項集p的二次函數,GT表示入侵跳頻數據生成速率,α表示入侵跳頻數據的到達率。

μ(n)=

(15)

設置云計算網絡入侵跳頻數據關聯規則挖掘的成功概率,給出各變量集合的轉發控制協議,根據改進的主成分分析算法進行自適應迭代,直到滿足收斂準則,根據覆蓋范圍實現云計算網絡入侵跳頻數據關聯規則的挖掘。
為了驗證所提方法在實現云計算網絡入侵跳頻數據關聯規則挖掘中的應用性能,進行仿真。將基于差分隱私的多源數據關聯規則挖掘方法(方法1)、基于粗糙加權平均單依賴估計的入侵檢測算法(方法2)、基于人工蜂群優化的密度聚類異常入侵檢測算法(方法3)作為對比方法,進行對比驗證。
在本實驗中所使用的數據均來自于KDD CUP-99數據集。該數據集主要用于入侵檢測評估,其中包括由各種不同用戶類型、不同網絡和攻擊手段生成的真實數據集。該數據集具有約500萬條數據,數據異常類型主要被分為4大類,共計22種攻擊行為。本文選取的網絡入侵類型為DoS、Probe和ipsweep三種入侵方式,入侵跳頻數據采集的基頻頻率為20KHz,入侵數據的調制頻率在[240Hz-1200Hz]之間發生變化,實驗設計采用Matlab軟件進行。
采用分組統計監測方法構建云計算網絡入侵跳頻數據的統計特征量,得到原始的網絡入侵跳頻數據時域分布如圖2所示。

圖2 云計算網絡入侵跳頻數據時域分布
以圖2中的數據為輸入,提取云計算網絡入侵跳頻數據的關聯規則特征量,采用主成分分析與Apriori算法對云計算網絡入侵跳頻數據的挖掘過程進行自適應尋優,得到關聯規則挖掘結果如圖3所示。

圖3 入侵數據的關聯規則挖掘結果
分析圖3得知,采用所提方法進行云計算網絡入侵跳頻數據關聯規則挖掘時,能夠有效在入侵跳頻數據時域分布中挖掘出關聯規則項。這是由于該方法通過統計特征監測模型提取了統計特征量,有利于入侵跳頻數據關聯規則的挖掘。
由于在挖掘過程中會受到外在條件的干擾,因此,在干擾信噪比不同的條件下進行網絡入侵跳頻數據的關聯規則挖掘,測試基于差分隱私的多源數據關聯規則挖掘方法、基于粗糙加權平均單依賴估計的入侵檢測算法、基于人工蜂群優化的密度聚類異常入侵檢測算法與所提方法的抗干擾系數,測試結果如圖4所示。

圖4 不同方法抗干擾系數對比
分析圖4可知,在干擾信噪比不同的條件下,雖然方法1的抗干擾系數最高值最高,但是所提方法的抗干擾系數整體上優于現有方法,其抗干擾系數始終保持在0.8以上,說明所提方法能夠抵御干擾因素的影響,實現入侵跳頻數據關聯規則的有效挖掘。這是由于該方法能夠通過Apriori算法檢索出入侵跳頻數據庫中的頻繁項集,在此基礎上采用主成分分析算法對頻繁項集中的最小信任度進行構建,為實現關聯規則挖掘提供了有力保障。
為了驗證所提方法的全面性,測試不同方法進行云計算網絡入侵跳頻數據關聯規則挖掘的準確率,得到對比結果如圖5所示。

圖5 關聯規則挖掘準確率對比
分析圖5得知,隨著輸入信噪比的增大,不同方法的入侵跳頻數據關聯規則挖掘的準確率呈現出不斷變化的趨勢,其中,所提方法的挖掘準確率高于現有方法,其挖掘結果準確率最高值約為87%,說明采用所提方法進行云計算網絡入侵跳頻數據關聯規則挖掘的準確率較高,入侵檢測效果較好。這是由于該方法在關聯規則挖掘過程中能夠有效獲取入侵跳頻數據庫中的所有頻繁項集及其最小信任度,并得到了最小信任度的判決統計量,為關聯規則的挖掘提供判決依據,從而提升了關聯規則挖掘結果的準確率。
在云計算網絡中,由于網絡節點的隨機分布性和自組網性,導致云計算網絡容易受到入侵,需要對云計算網絡進行入侵檢測,提出基于主成分分析與Apriori算法的云計算網絡入侵跳頻數據關聯規則挖掘方法。下面對研究成果進行分析:
1)通過無向圖模型表示入侵跳頻數據監測的傳感組網結構模型,構建特征統計模型,結合兩個模型實現特征量的提取。
2)根據特征量提取結果,建立非線性特征序列分布集,并將主成分分析算法和Apriori算法應用于關聯規則挖掘中,實現關聯規則的準確挖掘。
3)根據實驗結果得出,所提方法挖掘結果準確率最高值為87%,并且抗干擾系數能夠維持在0.8以上。表明運用所提方法進行云計算網絡入侵跳頻數據關聯規則挖掘的抗干擾性能較好、準確率較高,適用于云計算網絡入侵跳頻數據關聯規則挖掘工作。
雖然所提方法有效改善了現有方法存在的抗干擾性能不佳和挖掘結果準確率不高的問題,但是在目前數據庫更新速度較快的背景下,要想實現入侵跳頻數據關聯規則挖掘,必須考慮時效性,進一步提升該方法的應用性能。