龍穎 何加龍 胡雪
摘要:本文從網(wǎng)絡(luò)流量的數(shù)據(jù)來源出發(fā),淺談了聚類算法處理網(wǎng)絡(luò)流量的基本流程。
[關(guān)鍵詞]聚類算法 流量分析 數(shù)據(jù)處理 FCM
隨著互聯(lián)網(wǎng)的發(fā)展,各種網(wǎng)絡(luò)應(yīng)用層出不窮,人們對(duì)網(wǎng)絡(luò)帶寬的需求增加。對(duì)網(wǎng)絡(luò)運(yùn)營商、網(wǎng)絡(luò)管理員來說,高效識(shí)別和管理網(wǎng)絡(luò)流量,能有效進(jìn)行網(wǎng)絡(luò)帶寬分配和網(wǎng)絡(luò)調(diào)度;流量識(shí)別也能幫助某些應(yīng)用對(duì)用戶行為開展研究,以提供更好的服務(wù),如購物網(wǎng)站、廣告精準(zhǔn)投放等;在網(wǎng)絡(luò)安全領(lǐng)域,通過流量分析,識(shí)別正常網(wǎng)絡(luò)流量和異常流量,輔助識(shí)別網(wǎng)絡(luò)攻擊。
1 流量分析數(shù)據(jù)來源
數(shù)據(jù)傳輸?shù)姆庋b特性使管理員無法打開流量數(shù)據(jù)包查看內(nèi)容,只能根據(jù)流量的特點(diǎn)進(jìn)行大致分類。流量分析數(shù)據(jù)來源有兩種,一種是離線流量數(shù)據(jù),一種是實(shí)時(shí)流量數(shù)據(jù)。
數(shù)據(jù)集是離線流量數(shù)據(jù)的典型代表。在實(shí)際研究中,訓(xùn)練流量分析算法一般均會(huì)采用特殊處理的網(wǎng)絡(luò)流量數(shù)據(jù)集,如MCFP、HTTP DATASET CSIC 2010、WIDE、KDD99等。某些數(shù)據(jù)集已經(jīng)標(biāo)注正常網(wǎng)絡(luò)流量和異常網(wǎng)絡(luò)流量,并提供了訓(xùn)練集和測(cè)試集,在監(jiān)督學(xué)習(xí)中有很重要的作用。
但是隨著網(wǎng)絡(luò)協(xié)議的不斷演進(jìn),網(wǎng)絡(luò)通信雙方采取異種網(wǎng)絡(luò)協(xié)議的情況增多,網(wǎng)絡(luò)攻擊方式的多樣化,對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)包的正確標(biāo)注需要耗費(fèi)大量的人力,異形數(shù)據(jù)、加密數(shù)據(jù)給數(shù)據(jù)標(biāo)注帶來更多困難。在網(wǎng)絡(luò)流量分析模型中,絕大多數(shù)樣本都是正常的,只有極少數(shù)是異常的,在先驗(yàn)概率較低的情況下,這部分異常樣本往往會(huì)被忽略,這種非均衡化特性使監(jiān)督算法效率降低,而且隨著網(wǎng)絡(luò)帶寬的增加和網(wǎng)絡(luò)應(yīng)用的數(shù)目劇增,對(duì)網(wǎng)絡(luò)實(shí)時(shí)流量的分析成為主要訴求。
個(gè)人用戶可以利用wireshark、sniffer等軟件捕獲實(shí)時(shí)流量,利用軟件自帶的協(xié)議分析、故障診斷、入侵檢測(cè)等模塊,匹配用戶自定義規(guī)則,可以便捷對(duì)網(wǎng)絡(luò)流量進(jìn)行分析和處理。但軟件捕獲局限性較大,一"般只能捕獲通過本機(jī)網(wǎng)絡(luò)適配器的數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)包從發(fā)送方到接收方需要經(jīng)過數(shù)個(gè)網(wǎng)絡(luò)設(shè)備如交換機(jī)、路由器、網(wǎng)關(guān)等,在此過程中,網(wǎng)絡(luò)運(yùn)營商可以通,過監(jiān)聽網(wǎng)絡(luò)設(shè)備端口、設(shè)備端口復(fù)制等方式對(duì)流量進(jìn)行采集。監(jiān)聽網(wǎng)絡(luò)設(shè)備端口采集流量一般要對(duì)設(shè)備進(jìn)行專門的配置,且流量采集和存儲(chǔ)要求較高,這種大規(guī)模的流量采集和分析可以為運(yùn)營商提供網(wǎng)絡(luò)整體性能分析依據(jù)。
實(shí)時(shí)流量采集面臨諸多問題,首先是采集效率,采集來的流量數(shù)據(jù)包含大量無用信息,價(jià)值密度低,不能直接進(jìn)行處理;其次是實(shí)時(shí)流量包含用戶隱私,采集數(shù)據(jù)使用不當(dāng)會(huì)造成用戶隱私泄露。
2 流量數(shù)據(jù)預(yù)處理
數(shù)據(jù)集中的流量數(shù)據(jù)和采集來的原始數(shù)據(jù)價(jià)值密度低,噪聲數(shù)據(jù)、冗余數(shù)據(jù)、數(shù)據(jù)缺失均會(huì)影響算法的處理效率,因此,在流量分析前需要對(duì)這些數(shù)據(jù)開展預(yù)處理工作,加快數(shù)據(jù)分析的過程。
數(shù)據(jù)清洗。數(shù)據(jù)清洗的主要任務(wù)是對(duì)缺失數(shù)據(jù)進(jìn)行填充,平滑噪聲數(shù)據(jù),檢測(cè)并去除離群點(diǎn),過濾不符合要求的數(shù)據(jù)。
數(shù)據(jù)變換。數(shù)據(jù)變換指將數(shù)據(jù)轉(zhuǎn)化成適合處理的形式,如將連續(xù)數(shù)據(jù)離散化、減少數(shù)據(jù)復(fù)雜度、按比例縮放數(shù)據(jù)、增加數(shù)據(jù)粒度等,經(jīng)過變換的數(shù)據(jù)呈現(xiàn)的行為會(huì)比未變換的數(shù)據(jù)更加容易挖掘,但也可能導(dǎo)致一些細(xì)節(jié)丟失。
數(shù)據(jù)降維。盡管在某些情況下,數(shù)據(jù)的高維特性可以幫助數(shù)據(jù)分類,但對(duì)于網(wǎng)絡(luò)流量而言,某些維度存有大量與數(shù)據(jù)分析無關(guān)的信息,這些冗余信息會(huì)減慢數(shù)據(jù)分析進(jìn)程。數(shù)據(jù)降維是指找出能最佳替代原始數(shù)據(jù)的最小屬性集,在保留數(shù)據(jù)矩陣的關(guān)鍵特征的前提下,對(duì)高維數(shù)據(jù)進(jìn)行低維投影有利于數(shù)據(jù)挖掘和可視化。3聚類算法在流量分析中的應(yīng)用
非監(jiān)督的分析方式由于不需要事先標(biāo)注,成為網(wǎng)絡(luò)流量分析的主要手段。聚類算法能在非監(jiān)督的情形下把數(shù)據(jù)對(duì)象集劃分為多個(gè)組或簇,簇內(nèi)對(duì)象具有極高相似性,簇間對(duì)象有極大不同。在流量分析過程中,能將自動(dòng)將行為類似的網(wǎng)絡(luò)流量分為關(guān)系緊密的子集或簇。
K-means算法是經(jīng)典的基于數(shù)據(jù)對(duì)之間距離的聚類形式,將數(shù)據(jù)劃分成多個(gè)相互排斥的簇,隨機(jī)給定樣本初始聚類中心,在樣本類別未知的情況下,計(jì)算樣本的距離(歐氏距離、閔氏距離、馬氏距離等),根據(jù)樣本離簇中心的遠(yuǎn)近,將樣本劃入各個(gè)簇,最終,每個(gè)樣本都被確切劃分到一個(gè)簇中。這種嚴(yán)格將數(shù)據(jù)樣本劃分到具有明確界限的簇是典型的硬劃分形式。
由于有時(shí)數(shù)據(jù)界限不那么明確,樣本不能被嚴(yán)格劃分到簇中?;谀:腇CM算法能解決數(shù)據(jù)界限不明確的問題。在模糊聚類中,每個(gè)樣本對(duì)簇的隸屬度范圍以[0,1]表示。但是模糊聚類算法也存在一些問題,比如對(duì)初始值和噪聲敏感、矩陣計(jì)算耗時(shí)長(zhǎng)等。為了解決大數(shù)據(jù)環(huán)境下FCM聚類時(shí)間長(zhǎng)的問題,QingYu等提出了基于MapReduce框架的FCM算法,王桂蘭等針對(duì)FCM算法會(huì)產(chǎn)生大量矩陣計(jì)算的問題,提出并行環(huán)境下的FCM算法。
其他聚類算法如DBSCAN、SSN、CURE等在流量分析中均有廣泛應(yīng)用。
4 結(jié)語
網(wǎng)絡(luò)技術(shù)的發(fā)展日益成熟,對(duì)網(wǎng)絡(luò)流量分析的要求也越來越高,對(duì)流量進(jìn)行分析可以監(jiān)測(cè)用戶行為,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)異常,能幫助人們盡快做出應(yīng)對(duì)。
參考文獻(xiàn)
[1]楊雅輝,網(wǎng)絡(luò)流量異常檢測(cè)及其分析研究[J].計(jì)算機(jī)科學(xué),2008(05):108-112.
[2]汪立冬,錢麗萍.網(wǎng)絡(luò)流量分類方法與實(shí).踐[M].北京:人民郵電出版社,2013.
[3]Qing Yu, Zhimin Ding. Improved Canopy-FCM Algorithm Based 0n Ma pReduce. International Congress on Image andSignal Processing [C]. USA: IEEE, 2016.
[4]王桂蘭,周國亮,薩初日拉,朱永利.Spark環(huán)境下的并行模糊C均值聚類算法[J].計(jì)算機(jī)應(yīng)用,2016,36(02):342-347.