李維宇 沈溶溶
摘 要 云計(jì)算下網(wǎng)絡(luò)異常流量的管理,需要從初次分類統(tǒng)計(jì)中來(lái)進(jìn)行合理選擇分組方法?;贐IRCH算法的網(wǎng)絡(luò)異常流量分組管理,能夠在網(wǎng)絡(luò)數(shù)據(jù)驟增等異常變化中,實(shí)現(xiàn)初次聚類,并就網(wǎng)絡(luò)流量進(jìn)行分組融合,減少異常流量帶來(lái)的網(wǎng)絡(luò)阻斷風(fēng)險(xiǎn)。
關(guān)鍵詞 云計(jì)算 BIRCH算法 流量分組 方法研究
隨著海量運(yùn)算資源和網(wǎng)絡(luò)平臺(tái)的發(fā)展,對(duì)于云計(jì)算環(huán)境下的用戶訪問(wèn)量的驟增帶來(lái)的網(wǎng)絡(luò)異常流量問(wèn)題,一直是當(dāng)前流量工程研究的重要課題。2015年11月11日以網(wǎng)絡(luò)購(gòu)物為主的訪問(wèn)并發(fā)峰值達(dá)到數(shù)千萬(wàn),對(duì)于如此巨大的訪問(wèn)流量,如何從大數(shù)據(jù)流量管理中進(jìn)行有效分組就顯得尤為重要。當(dāng)前,在大流量數(shù)據(jù)管理上,多采用MPLS分組方法,如基于不同業(yè)務(wù)類型和基于不同數(shù)據(jù)包類型來(lái)進(jìn)行分組等。但對(duì)于云計(jì)算環(huán)境下,隨著用戶群的幾何級(jí)增長(zhǎng),對(duì)于各類數(shù)據(jù)包、業(yè)務(wù)類型的劃分已經(jīng)難以分界,在提升異常流量分組效率上,迫切需要從云計(jì)算中重新進(jìn)行算法優(yōu)化,以實(shí)現(xiàn)精細(xì)化管理目標(biāo)。
一、當(dāng)前常用的網(wǎng)絡(luò)流量分組方法
針對(duì)網(wǎng)絡(luò)流量分組方法的研究,王勁松等人從基于異常流量的字節(jié)特征入手,提出對(duì)多個(gè)特征匹配的不同分組交集獲取來(lái)實(shí)現(xiàn)分組,該方法需要從異常流量數(shù)據(jù)中進(jìn)行獲取特征字節(jié),并建立特征字節(jié)庫(kù),從而來(lái)進(jìn)行流量分組優(yōu)化;裴楊等人從基于SVM網(wǎng)絡(luò)流量分類方法上,來(lái)優(yōu)化分組的準(zhǔn)確率,但因SVM算法過(guò)于復(fù)雜,并不適應(yīng)海量數(shù)據(jù)處理;孫韓林等人提出C4.5決策樹(shù)方法,從海量數(shù)據(jù)流量分析中利用決策樹(shù)方法進(jìn)行問(wèn)題優(yōu)化,但對(duì)于不同類型的數(shù)據(jù)流量分析上,無(wú)法直接對(duì)其他類型的流量進(jìn)行有效分組。針對(duì)云數(shù)據(jù)下的數(shù)據(jù)挖掘與聚類分析算法,利用BIRCH快速聚類算法,來(lái)優(yōu)化網(wǎng)絡(luò)異常條件下的數(shù)據(jù)分組效率,特別是在氣象數(shù)據(jù)分析中獲得較高應(yīng)用。對(duì)于網(wǎng)絡(luò)環(huán)境下的用戶數(shù)據(jù)的分組,也可以通過(guò)模擬聚類的方法進(jìn)行優(yōu)化,為此,本文將從BIRCH算法改進(jìn)中提出動(dòng)態(tài)的分組方法。
二、BIRCH算法的分組原理
對(duì)于網(wǎng)絡(luò)流量數(shù)據(jù)的分組,BIRCH算法首先通過(guò)對(duì)網(wǎng)絡(luò)數(shù)據(jù)的提取,從用戶信息及流量類型上進(jìn)行聚類分組,在結(jié)合數(shù)據(jù)信息進(jìn)行分組融合,獲得分組效果。對(duì)于流量數(shù)據(jù)的特征提取,主要將流量數(shù)據(jù)轉(zhuǎn)換為聚類分析所需分組向量,并利用BIRCH算法進(jìn)行網(wǎng)絡(luò)流量特征的用戶聚類;分組融合是對(duì)不同時(shí)刻的分組進(jìn)行聚類,并對(duì)聚類結(jié)果進(jìn)行處理,有平衡網(wǎng)絡(luò)流量。
(1)對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量特征的提取。
對(duì)于海量數(shù)據(jù)進(jìn)行聚類分組前,需要從網(wǎng)絡(luò)數(shù)據(jù)的特征進(jìn)行選取,特別是數(shù)據(jù)相似性特征,常用的方法有馬爾可夫算法、小波分析方法等,這些方法能夠從網(wǎng)絡(luò)流量數(shù)據(jù)自相似度上進(jìn)行分析,不足的是選取方法較為復(fù)雜,對(duì)數(shù)據(jù)計(jì)算耗時(shí)、耗性能。Silveira等人通過(guò)對(duì)異常數(shù)據(jù)流量問(wèn)題的選取方法進(jìn)行改進(jìn),從區(qū)分異常流量特征上,從低緯度上進(jìn)行選取即可;另外對(duì)于原始數(shù)據(jù)的差分序列方差分析,能夠較好的反映數(shù)據(jù)波動(dòng)問(wèn)題。為此,本文將選取網(wǎng)絡(luò)流量當(dāng)前采樣值和兩次差分值來(lái)進(jìn)行網(wǎng)絡(luò)聚類特征分析。也就是說(shuō),對(duì)于異常網(wǎng)絡(luò)流量特征可以表示為:(,),對(duì)于表示為流量值,對(duì)于表示數(shù)據(jù)流量采集的時(shí)刻。
(2)聚類分組方法。
根據(jù)BIRCH算法,在對(duì)海量數(shù)據(jù)進(jìn)行聚類分組分析中,BIRCH是基于距離的層次聚類算法,通過(guò)引入聚類特征和聚類特征樹(shù)概念,利用三元組聚類特征來(lái)進(jìn)行標(biāo)識(shí),對(duì)于式中的N表示為某一節(jié)點(diǎn)中的數(shù)據(jù)對(duì)象個(gè)數(shù);對(duì)于LS表示為N個(gè)對(duì)象對(duì)應(yīng)的特征向量的線性和;對(duì)于S表示為N個(gè)對(duì)象特征向量的平方和。利用CF聚類特征分析方法,能夠?qū)個(gè)用戶的特征樹(shù)中進(jìn)行表示,即{,(,),(,)2},其中對(duì)于聚類特征樹(shù)中的分支因子B,以及閥值T的設(shè)置,是實(shí)現(xiàn)對(duì)特征樹(shù)的平衡目標(biāo)。當(dāng)分支因子被限定為非葉節(jié)點(diǎn)中最大孩子數(shù)目時(shí),閥值是對(duì)葉子節(jié)點(diǎn)中簇的最大半徑進(jìn)行限制。BIRCH算法首先是對(duì)整個(gè)數(shù)據(jù)信息進(jìn)行掃描,并從聚類特征樹(shù)的初始化中,對(duì)每一個(gè)對(duì)象與之最近的葉子節(jié)點(diǎn)進(jìn)行關(guān)聯(lián);如果這個(gè)簇的半徑大于閥值T,則該葉子節(jié)點(diǎn)將被分割;同時(shí),對(duì)于特征樹(shù)的建立后,根據(jù)聚集特征頭,可以對(duì)原有數(shù)據(jù)進(jìn)行再聚集分類,從而獲得聚類結(jié)果。
(3)分組融合計(jì)算。
從聚類算法來(lái)看,聚類分組后并非是最終的結(jié)果,也不能直接進(jìn)行分組優(yōu)化,因?yàn)锽IRCH算法所得到的分組是一種硬性分組,無(wú)法與各個(gè)用戶進(jìn)行關(guān)聯(lián)。此時(shí)需要從多次聚類分組結(jié)果中進(jìn)行差異化分析,并進(jìn)行修正。由于異常網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)流量較大,對(duì)于數(shù)據(jù)流量中特征相似度較大的用戶,在一定時(shí)間段內(nèi)被聚類到同一分組的可能性較大。因此,可以通過(guò)對(duì)不同分組用戶信息相似度計(jì)算,來(lái)對(duì)各個(gè)分組中數(shù)據(jù)進(jìn)行分組融合。其融合的步驟如下:首先在進(jìn)行分組之初,需要對(duì)所有用戶進(jìn)行分組,并將分組與其他數(shù)據(jù)分組建立相應(yīng)關(guān)聯(lián)。如將每一用戶指定給改組的生存時(shí)間計(jì)作,其初始值為。當(dāng)聚類產(chǎn)生分組后,需要對(duì)當(dāng)前分組與新分組進(jìn)行交集計(jì)算,并從當(dāng)前分組中獲得最大交集的新分組列為當(dāng)前分組;再次對(duì)于不同用戶,根據(jù)用戶與前兩個(gè)分組的交集計(jì)算,來(lái)獲得生存時(shí)間,但不能超過(guò);如果兩個(gè)用戶沒(méi)有交集,但屬于已有分組,則生存時(shí)間計(jì)作;當(dāng)用戶生存時(shí)間為 = 1時(shí),則清除該用戶,否則對(duì)用戶的生存時(shí)間賦初始值。最后,對(duì)于聚類融合后,對(duì)于未被合并的分組,則計(jì)作新的當(dāng)前分組。利用該方法,對(duì)于某一用戶來(lái)說(shuō)并不屬于某一個(gè)分組,但經(jīng)過(guò)多次聚類后,隨著生存時(shí)間的下降則被清除。由此可見(jiàn),對(duì)于分組融合就是通過(guò)生存時(shí)間的計(jì)算來(lái)獲得。
三、結(jié)語(yǔ)
對(duì)于改進(jìn)后的BIRCH算法,我們可以通過(guò)一個(gè)應(yīng)用場(chǎng)景來(lái)進(jìn)行仿真驗(yàn)證。利用云計(jì)算數(shù)據(jù)中心的數(shù)據(jù),將1000個(gè)模擬用戶產(chǎn)生的業(yè)務(wù)數(shù)據(jù)流量進(jìn)行計(jì)算,選取250個(gè)用戶進(jìn)行異常流量分析,由此來(lái)進(jìn)行網(wǎng)絡(luò)擁塞處理。通過(guò)實(shí)驗(yàn)過(guò)程可知,對(duì)于異常用戶的區(qū)分上,BIRCH分組方法能夠?qū)崿F(xiàn)對(duì)丟包問(wèn)題、流量分組的多種處理,確保異常用戶的數(shù)據(jù)流量控制比例在70%以上,有效減少丟包問(wèn)題。在實(shí)際運(yùn)用中,該方法將分組細(xì)心和分組方法進(jìn)行優(yōu)化,能夠體現(xiàn)精細(xì)化分組和流量平衡管理。
參考文獻(xiàn):
[1]武魯,王連海,顧衛(wèi)東.基于云的計(jì)算機(jī)取證系統(tǒng)研究[J].計(jì)算機(jī)科學(xué),2012(05).
[2]李世明.具備web數(shù)據(jù)整合功能的負(fù)載均衡系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京郵電大學(xué),2014.
(作者單位:河南省輕工業(yè)學(xué)校)