李軍華,丁憲成
(1.江蘇理工學院,江蘇 常州 213001;2.常州大學,江蘇 常州 213016)
將兩個沒有任何物理連接的計算機,通過網(wǎng)絡的虛擬技術進行連接,從而形成一種至少包含兩個部分的計算機網(wǎng)絡,被稱為虛擬化網(wǎng)絡,其中最常見的虛擬化網(wǎng)絡,它們分別為:以協(xié)議模式所生成的虛擬化網(wǎng)絡,例如:虛擬專用局域網(wǎng)業(yè)務(VirtualPrivateLanService,VPLS)、虛擬專用網(wǎng)絡(Virtual Private Network,VPN)與虛擬局域網(wǎng)(Virtual Local Area Network,VLAN);虛擬化設備,例如:在虛擬機監(jiān)視器(Virtual Machine Monitor,VMM)內部連接虛擬機。
經(jīng)過互聯(lián)網(wǎng)的快速發(fā)展,虛擬化網(wǎng)絡也隨之產(chǎn)生變化,其不足點在于:一VLAN技術沒有辦法在云計算內使用;二融合數(shù)據(jù)需要重新定位工作的范圍;三虛擬交換機,為新的虛擬工作負載;四虛擬化網(wǎng)絡服務的蔓延。要想實現(xiàn)這些功能,必不可少地需要與大數(shù)據(jù)相結合,以大數(shù)據(jù)作為支撐,從而實現(xiàn)虛擬化網(wǎng)絡的發(fā)展。但是大數(shù)據(jù)的數(shù)據(jù)量龐大,其中不乏存在一些異常數(shù)據(jù),導致網(wǎng)絡運行過程中出現(xiàn)錯誤,所以需要對這些數(shù)據(jù)進行檢測、剔除。
文獻[1]構建起始擬合數(shù)據(jù),通過B樣條曲線方法建立遞推模型,采用基于樣條平滑的方法計算判斷門限對于雙向檢驗的結果,觀察數(shù)據(jù)是否存在異常,同時對滿足修復條件的數(shù)據(jù)實現(xiàn)擬合修復,當雙向檢驗結果不同時,利用構建的內推模型,實現(xiàn)進一步的檢驗。文獻[2]采用長基線定位野值點法實現(xiàn)數(shù)據(jù)的修正,利用卡爾曼絕對值數(shù)據(jù)作為標準,以此完成對數(shù)據(jù)的檢測,通過調整卡爾曼的濾波轉變成野值點的修正值,考慮到濾波模型實際應用時不匹配的狀態(tài),會導致濾波前后數(shù)據(jù)信息的偏差比較大,因此,對不正常數(shù)據(jù)點進行處理,完成數(shù)據(jù)剔除。
上述方法雖然能夠實現(xiàn)數(shù)據(jù)剔除,不過剔除效果不夠理想,誤剔除數(shù)據(jù)較多,為此本文提出一種虛擬化網(wǎng)絡中的異常大數(shù)據(jù)剔除算法,通過事先對異常數(shù)據(jù)進行挖掘、檢測,最后利用粒子群優(yōu)化以及支持向量機完成剔除,以此可以減少誤操作帶來的影響。
要想實現(xiàn)虛擬化網(wǎng)絡內的異常大數(shù)據(jù)挖掘,需要對網(wǎng)絡中的異常大數(shù)據(jù)進行類似度分析,通過分類決策樹C實現(xiàn)異常大數(shù)據(jù)的類似度分解[3]。再對異常大數(shù)據(jù)的混合屬性以及分類屬性進行識別,構建混合屬性的分類模型,同時,利用數(shù)據(jù)屬性的類似度進行分析,求出模糊屬性集X的奇異值,具體公式為
X=UDVT
(1)

(2)
式中:psp(si,qj)代表冗余數(shù)據(jù)的概念集qj以及自身概念集si,即異常簇中的數(shù)據(jù)信息,其模型為[s,q]=[x(t),x(t+τ)],可以計算出模糊信息的閉頻繁項,s表示取樣信息流x(t)的序列樣本,q代表延遲時間樣本,延遲序列是x(t+τ),I(Q,S)通過τ代表模糊決策函數(shù)的自變量[4]。
(3)
式中:d代表數(shù)據(jù)集中的類別標簽,λ代表數(shù)據(jù)之間的原始類似度,h2代表簇與簇之間的距離,a2代表簇中心群。
通過大數(shù)據(jù)不同屬性處于不同聚類內的差異性,從而識別異常數(shù)據(jù),具體獲得的精確概率密度函數(shù)公式為
(4)
式中:λS代表數(shù)據(jù)采集的類似度系數(shù),p2D代表簇內的信息分布密度。具體異常大數(shù)據(jù)的相異度公式為:
(5)
式中:Dis(A)代表聚類過程擴展的損失,Dis(B)代表屬性的數(shù)據(jù)集。
以虛擬化網(wǎng)絡異常大數(shù)據(jù)的類似度分析結果作為基礎,提取分類特征以及數(shù)值特征[5]。如果X代表存在m個分類的異常大數(shù)據(jù)集,那么第i個數(shù)值的異常大數(shù)據(jù)y(k)以及分類訓練的數(shù)據(jù)集φ(k),具體公式為
y(k)=s1(k)+n1(k),φ(k)=s2(k)+n2(k)
(6)
s1(k)=AAHej(Ωk+θH),s2(k)=AAHej(Ωk+θHB)
(7)
式中:AH,AHB以及θH、θHB分別代表函數(shù)H(z)與HB(z)相應的幅值以及屬性特征量、p個元素的屬性值。將其與目標方法的最小化進行結合,實現(xiàn)尋優(yōu)條件,就可以獲得分類以及數(shù)值的特征集合,具體可以得到公式
RβX=U{E∈U/R|c(E,X)≤β}
(8)
RβX=U{E∈U/R|c(E,X)≤1-β}
(9)
相對于第i個分類的屬性兩個數(shù)據(jù)塊mi以及mj,利用分解數(shù)據(jù)的對象mi,j(1≤i≤n,1≤j≤k)即可實現(xiàn)混合特征,聚類特征系數(shù)能夠表示為{λi:1≤i≤S},而判別準則能夠表示為{λj:1≤j≤L}。通過異常大數(shù)據(jù)的分類差異性,可以獲得訓練函數(shù)f與dγ0之間的模糊概念集[6],具體公式為
(10)

采用關聯(lián)規(guī)則的分析法,融合異常大數(shù)據(jù)模糊集,求出異常大數(shù)據(jù)的自相關特征分塊函數(shù),可以得到具體公式為
(11)
(12)
Si=Sb+Sω
(13)
式中:p(ωi)代表離散區(qū)間內的規(guī)則向量集,u=E(x)代表數(shù)據(jù)的離散區(qū)間數(shù)。
利用歸一化方法,對異常大數(shù)據(jù)的關聯(lián)規(guī)則模型X(t)進行處理,獲得全新的聚類模態(tài)函數(shù),具體公式為
(14)

由于在異常數(shù)據(jù)挖掘過程中會將所有的異常數(shù)據(jù)挖掘出來,不管是無用的冗余數(shù)據(jù),還是有用數(shù)據(jù),都要對其進行冗余處理。在進行冗余過濾的過程中,通過測量數(shù)據(jù)間的接近度驗證虛擬化網(wǎng)絡數(shù)據(jù),把網(wǎng)絡內的節(jié)點數(shù)據(jù)作為一個集合,同時利用模糊集合間的接近度,設定冗余數(shù)據(jù)的判定門限值,從而確認網(wǎng)絡內的冗余信息,并且進行濾除[8]。步驟如下:
如果ai′表示虛擬化網(wǎng)絡中節(jié)點Wi′所測得的數(shù)據(jù),aj′表示虛擬化網(wǎng)絡中的節(jié)點Wj′所測得的數(shù)據(jù),ai′j′表示虛擬化網(wǎng)絡中的節(jié)點Wi′以及Wj′所測得的數(shù)據(jù)間接近程度。具體ai′j′的計算公式為
(15)
式中:μ代表一個閾值,該閾值為虛擬化網(wǎng)絡中傳感器的測量精度對大數(shù)據(jù)類似度的影響。
通過式(16)能夠構建虛擬化網(wǎng)絡中的大數(shù)據(jù)接近度矩陣A′,具體公式為
(16)
式中:N表示矩陣的元素個數(shù)。
基于式(16)內的A′第i′行元素,設置行間數(shù)據(jù)的類似度函數(shù)公式為
(17)
式中:Ki′數(shù)值越大,則說明第i′個虛擬化網(wǎng)絡中節(jié)點測得的異常數(shù)據(jù)與多數(shù)測得的數(shù)據(jù)類似度越接近,相反,第i′個虛擬化網(wǎng)絡中節(jié)點測得的異常數(shù)據(jù)與多數(shù)測得的數(shù)據(jù)類似度相差就越大[9]。
通過式(17)進行結果計算,能夠獲得虛擬化網(wǎng)絡中所計算的冗余數(shù)據(jù),如果v表示門限值,把Ki′>v類似度數(shù)據(jù)確認成被過濾掉的數(shù)據(jù),標記成集合Q,若想將集合Q清除,那么具體公式為
(18)
式中:Ui′j′表示已將冗余數(shù)據(jù)清除之后的虛擬化網(wǎng)絡數(shù)據(jù)集合,G(κ)表示冗余數(shù)據(jù)的過濾器[10]。
通過式(18)的計算,能夠將虛擬化網(wǎng)絡中的冗余大數(shù)據(jù)進行清除,以此為異常大數(shù)據(jù)的剔除提供了基礎。
通過將冗余數(shù)據(jù)過濾之后,將其代入支持向量機以及粒子群優(yōu)化算法內,即可剔除異常的大數(shù)據(jù)。在具體實現(xiàn)的過程內,對粒子群原始化參數(shù)進行設置,轉變成二維的模式,以此表示支持向量機數(shù)值,然后訓練粒子,得到適應度函數(shù)。即可得出粒子的最佳值以及全局數(shù)據(jù),把二者相結合構建數(shù)據(jù)庫,采用數(shù)據(jù)庫就可以對所有粒子進行位置更新。以此對粒子的尋優(yōu)條件進行判斷,觀察其能否滿足結束條件。如果結果是采用最佳粒子所構建的虛擬化網(wǎng)絡中異常大數(shù)據(jù)檢測模型,那么即可檢測出異常大數(shù)據(jù),最后加入異常大數(shù)據(jù)的剔除窗口以及滑動窗口調整參數(shù)量,就能夠實現(xiàn)異常大數(shù)據(jù)的剔除。
針對虛擬化網(wǎng)絡中的異常大數(shù)據(jù)規(guī)模確認粒子群內的粒子個數(shù),設置成m′,同時,設置粒子為二維模式,獲得支持向量機的參數(shù)γ和σ。
通過支持向量機實現(xiàn)所有粒子的訓練,從而獲得粒子的適應度函數(shù)公式為
(19)
式中:F″表示粒子適應度的函數(shù),k(x,xi″)表示核函數(shù)。
通過計算式(19)能夠獲得適應度的函數(shù),從而得到粒子全局最佳值以及個體最佳值。具體公式為
P″bestxi″=(P″xi″1,P″xi″2,…,P″xi″e)
(20)
gbestxi″=(bg1,bg2,…,bge)
(21)
式中:P″bestxi″表示粒子個體的最佳值。gbestxi″表示粒子全局的最佳值。把粒子個體的最佳值以及全局的最佳值進行結合,從而建立數(shù)據(jù)庫。
采用以上數(shù)據(jù)更新所有粒子位置,具體公式為
x(t′+1)=(P″bestxi″·gbestxi″)±β·m′best
(22)
式中:x(t′+1)表示粒子的位置,β表示調節(jié)粒子的尋優(yōu)收斂速度,m′best表示粒子群的最佳中值。
在計算方法迭代至第t′次時,β的具體計算公式為
(23)
式中:t′max表示最大的迭代次數(shù)。
隨著迭代的次數(shù)增加,對尋優(yōu)的結束條件進行判斷,在滿足時,能夠將最佳粒子作為支持向量機的最佳參數(shù),建立最佳異常大數(shù)據(jù)的檢測模型,可以得到具體公式為
(24)
式中:y(x)表示異常大數(shù)據(jù)的檢測模型,采用此模型能夠把虛擬化網(wǎng)絡中的異常大數(shù)據(jù)檢測出來,γ′和σ′代表支持向量機最佳參數(shù),bestx表示最佳粒子。
通過計算式(24)的結果,能夠檢測出網(wǎng)絡中的異常大數(shù)據(jù),而具體的剔除方法公式為
(25)

為了驗證本文方法的異常大數(shù)據(jù)剔除效果,將本文方法與文獻[1]、文獻[2]方法在同一實驗環(huán)境下進行對比,具體的實驗環(huán)境為:主頻CPU是Inter Core2 Dou E7400 2.80GHz、8GB的內存、帶寬4M、硬盤500GB以及Xeone5型的服務器。
選擇虛擬化網(wǎng)絡內已知的大數(shù)據(jù)集作為實驗數(shù)據(jù)條件,通過人為的方法添加10條異常數(shù)據(jù),構成100000條。將所有的數(shù)據(jù)存儲于節(jié)點內,然后經(jīng)過多次實驗,以節(jié)點形式劃分為多個小組,觀察效果,具體結果如圖1所示:

圖1 異常大數(shù)據(jù)剔除結果對比
通過觀察圖1(a)能夠看出:異常大數(shù)據(jù)隱藏在虛擬化網(wǎng)絡內,非均勻地分布于各個區(qū)域中,用黑色標記,以便于更好地觀察剔除效果。圖1(b)采用的是文獻[1]方法,該方法僅能夠對少量異常數(shù)據(jù)進行剔除。文獻[2]方法剔除效果優(yōu)于文獻[1]方法,但是在實際應用過程中,仍然很難滿足使用者的需求。而本文方法通過引入支持向量機以及粒子群優(yōu)化算法,能夠有效地剔除異常大數(shù)據(jù),網(wǎng)絡經(jīng)剔除處理后無黑色節(jié)點,證明效果良好。
為了進一步驗證本文方法的有效性,以誤剔除率為實驗指標,對比不同方法的剔除效果,結果如圖2所示。

圖2 誤剔除率對比
分析圖2可知,本文方法在虛擬化網(wǎng)絡異常大數(shù)據(jù)剔除中,誤剔除率明顯低于傳統(tǒng)方法。這是由于該方法通過決策樹模型分解異常大數(shù)據(jù)的數(shù)值屬性特征以及分類屬性特征,可以更有針對性地對數(shù)據(jù)進行剔除,因此,降低了剔除過程中的誤差。
本文提出的虛擬化網(wǎng)絡中的異常大數(shù)據(jù)剔除算法,不僅能夠有效剔除異常大數(shù)據(jù),而且與其它方法對比誤剔除率較低,具有可應用于虛擬化網(wǎng)絡中的現(xiàn)實價值。不過隨著網(wǎng)絡發(fā)展速度的日新月異,用戶量每天都在增加,同時數(shù)據(jù)量也在時刻地增加,所以,本文方法未來需要進一步的更新、優(yōu)化,從而提升剔除的精度,加快剔除的時間,從而使其降低計算量,減少工作的時間。