趙男男,李 佳
(廣東海洋大學寸金學院,廣東 湛江 524094)
云計算在近幾年來一直作為新興領域得以應用,該計算模式的關注熱度逐年增加,云計算屬于可配置計算,利用存儲資源以及計算外包完成信息的交換、存儲以及計算等操作,實現資源中心化。但是隨著網絡的日益發展,網絡安全漏洞的事件發生數量也日益增多,一方面如果網絡蠕蟲 爆發、DDoS攻擊等大規模的網絡安全事件將占用大量的網絡資源以及計算資源[1,2];另外一方面突發訪問以及網絡故障等非惡意行為也會導致流量發生突變,影響網絡正常使用。云計算下多屬性信息交換安全漏洞主要會影響到網絡流量,而網絡流量是保證網絡正常運行的重要手段。信息交換安全漏洞識別是組建在網絡流量的正常行為模式輪廓之上,假設得到網絡流量信息輪廓值與正常值的差異超過設定范圍,則進行入侵報警[3]。
現階段信息安全越來越受到大家的廣泛關注,現階段對于安全的研究不僅僅出現在軍事以及外交上,其中商業的發展也滲透著信息安全。對于信息交換安全漏洞識別是當前需要研究的熱點話題,要想真正意義上提升整個系統的安全性能,需要對其展開具體的研究,目前在該研究領域也出現了一些研究成果。
文獻[4]提出了一種基于有限狀態機的多屬性信息交換安全漏洞識別。提取多屬性信息交換下的安全漏洞特征,以安全漏洞特征為遷移條件構建識別模型,并將模型狀態轉移過程抽象為多維向量,再利用余弦相似度公式進行相似度計算,結合設定的閾值,實現多屬性信息交換安全漏洞識別,但是該方法在應用過程中存在識別準確度低的問題。文獻[5]提出一種基于非線性規劃的多屬性信息交換安全漏洞識別方法,采用最優加權系數法構造目標函數,以及約束條件下的最小化目標函數,利用非線性規劃法求出加權系數,構建多屬性信息交換安全漏洞識別模型,實現多屬性信息交換安全漏洞識別。該方法可以使單項識別優勢互補,進而提高評估精度,但實際應用效果較差,所需時間較長。
針對傳統方法存在的問題,提出云計算下多屬性信息交換安全漏洞識別方法。仿真結果表明,所提方法能夠準確識別信息交換過程中產生的安全漏洞,確保系統的穩定運行。
相關數據主要是由41個標記在連接儀器的特征與1個標記正常與否的標志所組成,所以利用X(t)={x1(t),x2(t),…,xn(t)}代表t時刻的一個連接,則有

(1)
相似度計算公式為

(2)
其中:

(3)
在上述基礎上,則能夠計算特征對于(xi(t),xj(t))的相似度,即

(4)
假設兩個特征中的相似度閾值高于任意閾值,則需要刪除其中的一個特征。
SVM主要適合處理利用一定數量的支持向量決定的超平面來進行數據分類,支持向量本質上就是一個訓練數據的子集,該子集被設定為用于定義二類數據的邊界。在無法利用SVM分類問題的情況下,通過核函數在高維特征空間中劃分解決上述的分類問題。在高維特征空間中,能夠利用線性超平面進行分離。
其中,線性邊界能夠表示為
ωTx+b=0
(5)
式中,b為邊界校正參數,ωT為線性分量,x為邊界變量。
線性邊界主要通過訓練數據進行函數值估計。假設訓練數據是線性可分的,則存在一對(ω,b)∈Rn×R使得
ωTx+b≥+1,(x∈A)
(6)
ωTx+b≤-1,(x∈B)
(7)
A,B均為線性訓練數據集合。
利用下式給出決策函數的表達式
fw,b(x)=sign(ωTx+g)
(8)
式中,ω代表權重向量;g代表偏離值。將式(6)和式(7)進行合并,則有
y(ωTx+b)≥1,(x∈A∪B)
(9)
將上述問題轉化為優化問題,則有
minΦ(ω)=‖ω‖2/2
(10)
s.t.y(ωTx+b)≥1
(11)
在支持向量機算法中正規化參數與核寬度是兩個能夠調整的參數,其中參數的取值不同,分類器所對應的的泛化能力也就不同。在上述基礎上,組建支持向量機模型:

(12)
云計算的應用環境以及技術類型決定了其數據交換過程問題主要為數據安全、可靠以及效率幾個方面。這其中,在云計算具有開放性的前提條件下,數據交換會面臨非法存儲、下載以及訪問等不安全問題,這導致用戶無法將核心數據的交換和處理托付給云計算平臺。下面利用具體方法識別云計算下多屬性信息交換安全漏洞。
設定云平臺未識別序列為X={x1,x2,…,xn},其中該序列中的一部分數據為正常數據。
信息交換安全漏洞識別方法主要是組建正常的數據模型,通過云平臺所組建的模型識別信息交互過程中出現的安全漏洞。
首先尋找正常數據的最優評價函數f:X→Y,針對設定的xi∈X,能夠獲取與之對應的輸出yi∈Y。通過經驗最小化原則[6],能夠將上述優化問題描述為

(13)
式中,L代表損失函數;Ω代表函數f的取值范圍;η代表調和參數。初始數據在經過轉換后,需要將獲取的最新特征映射到新的特征空間中[7]。其中設定c代表中心,R代表球面的半徑,通過計算球面半徑與球心在特征空間的長度獲取數據樣本的異常程度,則有
f(x)=‖φ(x)-c‖2-R2
(14)
如果實例在超平面內,則對應的評價函數值為f(x)<0,認定該點為正常點;如果實例在超平面外,則對應的評價函數為f(x)>0,認定該點為異常點,也就說明在進行信息交換的過程中存在異常數據以及惡意攻擊。為了能夠更好的抑制模型的過度擬合[8],需要在算法中加入ξi>0,并且樣本需要滿足以下的約束條件
‖φ(x)-c‖2≤R2+ξi
(15)
利用下式給出目標函數的表達式

(16)
式中,C代表平衡超平面半徑以及松弛變量參數。將以上問題轉化成優化問題,通過拉格朗日乘子方法對該問題進行求解,則有
(R2+ξi-‖φ(x)-c‖2)
(17)
式中,αi≥0,βi≥0;在上述基礎上,分別對R、c、ξi進行求導,則能夠獲取

(18)
將式(17)分別代入式(18)中,則有

(19)

(20)
通過αi的取值能夠樣本劃分成三類,如果αi=0,則說明樣本在球體的內部,該樣本為正常數據樣例;如果0<αi 在模型獲取標記數據后,通過半監督的學習方式實現模型的優化以及拓展[9-10],其中數據的標記方式選用主動學習方式。半監督學習方式對應的數據模型如下,其中給定數據集為 X=(x1,x2,…,xn,xn+1,…,xn+m) (21) 式中,前n個數據代表沒有進行標記的數據,后面m個代表標記數據,其中標記類別表示為 Y={+1,-1} (22) 式中,+1代表正常數據,-1代表異常數據。如果其中含有m1個正例,m2個負例,且滿足m1+m2=m=n,則優化目標函數為 (23) 式中,γ≥0代表二類標記數據邊緣之間的長度;C1代表沒有進行標記的數據權衡參數;C2代表正例數據的權衡參數;C3代表負例數據的權重參數;ξi、ξj、ξk分別代表不同的松弛變量,實質就是距離球心較遠的樣本被錯誤分類的機率較大。其中C1、C2、C3取值的大小會影響模型的構建速度。C1全面說明了未標記數據的約束作用[11];C2、C3全面說明已經進行標記數據的引導作用。在上述基礎上,將以上問題轉化成無約束最優化問題,則有 ξi=1(R2-‖φ(xi)-c‖2) (24) ξj=1(R2-‖φ(xj)-c‖2-γ) (25) ξk=1(R2-‖φ(xk)-c‖2-R2-γ) (26) 如果風險函數的取值為I(t)=max(-t,0),則有 (T-‖φ(xi)‖2+2φ(xi)′c) (27) 在上式的基礎上,設定樣本類型的取值為+1或者-1,則有 (28) 通過式(28)可知,球心c的大小是通過以上兩種不同的數據共同決定的,根據其能夠得到分類精度更高的分類模型。以下需要引入損失函數進行求解,則有 (29) 利用下式對不同的變量進行求導,則有 (30) 通過求導鏈式法則并且結合相關理論,能夠獲取λi和λj的偏微分,則有 (31) (32) 在上述基礎上,對其中的部分數據進行識別標記,得到多屬性信息交換安全漏洞識別公式 (33) 在以上分析的基礎上,選取系統中的部分數據進行標記,并且通過半監督的方式對最新標記的數據進行二次優化[12]。針對本文的性能指標而言,通常情況下有檢測性能以及變化程度兩種指標,本文選用半監督的的形式,綜上需要將兩種指標相結合獲取終止條件,則有 con=b1MSE(f(x,y)+b2var(f(x,y))) (34) 其中,公式的前部分代表模型對于標記樣本的預測值和真實值之間的誤差,取值為前部標記樣本的預測分類以及實際分類結果之間的差異;后部分的取值為全部沒有進行標記樣本預測分類差異程度。如果上述模型符合約束條件,則終止條件,反之則繼續進行主動學習。 綜上所述,完成了云計算下多屬性信息交換安全漏洞識別。 為了驗證所提云計算下多屬性信息交換安全漏洞識別方法的有效性,需要進行一次全面仿真。實驗環境為:DELL臺式機,Windows XP系統,1G內存,3.2GHz Pentium(R)4處理器,Matlab R2008b集成環境,Mysql5.1數據庫。 1)識別效率(%)對比 在本次實驗中,主要針對不同方法的識別效率(%)進行對比,其中選取文獻[4]方法、文獻[5]方法作為對比方法進行仿真,具體的對比結果如圖1所示。 圖1 不同方法識別效率對比結果 分析上述可知,不同識別方法的識別效率隨著實驗次數的變化而變化。在實驗初期,各個識別方法的識別效率都呈直線上升趨勢,當實驗次數為5次時,文獻[4]方法的識別效率開始呈下降趨勢,但是其它兩種方法的識別效率呈穩定趨勢。通過具體的實驗數據分析可知,所提方法的識別效率相比傳統方法有了明顯的提升,充分驗證了所提方法的優越性。 2)識別效果全面對比 為了更加全面驗證所提方法的優越性, 以下分別對比不同方法的識別率(%)、誤檢率(%)以及漏檢率(%),具體的對比結果如下表所示。 分析表1可知,不同方法的識別率隨著樣本數量的變化而變化,所提方法的識別率最高為100%,這說明所提方法能夠更為準確識別信息交換過程的安全漏洞,其它兩種方法的識別效率明顯低于所提方法,說明其它兩種方法還需要進一步進行完善。 表1 不同方法識別率對比結果 分析表2可知,所提方法的誤檢率在3種方法中為最低,文獻[4]方法次之,文獻[5]方法的誤檢率最高。在樣本數量為400個時,所提方法的誤檢率為0%,其它兩種方法的誤檢率分別為0.6%、1.0%。其它兩種方法相比方法高出了很多,由此可見,所提方法能夠準確識別信息交互過程中的安全漏洞,確保網絡的正常運行。 表2 不同方法誤檢率對比結果 分析表3可知,所提方法的漏檢率明顯低于其它兩種方法,所提方法最低漏檢率為0%,而文獻[4]方法的最低漏檢率為0.4%,文獻[5]方法的最低漏檢率為0.5%,由此可見,所提方法的漏檢率相比傳統方法有了明顯的下降,且所提方法的漏檢率可以一直維持在較低數值,這也更加充分驗證了所提方法的綜合有效性。 表3 不同方法漏檢率對比結果 綜上可知,所提方法各個方面的性能都明顯優于其它兩種識別方法,其中最為主要的原因在所提方法引用SVM方法對數據進行分類,這促使所提方法能夠更加準確的識別信息交互過程中產生的安全漏洞,提升所提方法的穩定性,相比傳統方法所提方法的綜合性能也得到了一定程度的提升。 針對傳統的信息交換安全漏洞識別方法存在的缺陷,本文提出云計算下多屬性信息交換安全漏洞識別方法。通過仿真,充分驗證了所提方法的綜合有效性。目前針對安全漏洞識別方面的研究較多,但是具體針對云計算下多屬性信息交換安全漏洞識別方面的研究需要進一步的完善以及發展,雖然所提方法獲取了一定的成就,但是需要進一步研究的內容還有很多,具體如下: 1)未來階段需要對識別的應用特征數據集進行進一步完善,例如數據的擴充等。 2)進一步提升支持向量機的抗噪性以及泛化性,它是提升識別算法準確性的重要因素。 3)所提方法的識別率、誤檢率、漏檢率仍然存在進一步完善的空間,未來階段也將深入研究,進一步提升識別準確性。






3 仿真研究




4 結束語