楊 峰,馬 銘
(北華大學(xué)大數(shù)據(jù)與智慧校園管理中心,吉林吉林132013)
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,使人們進(jìn)入了信息時(shí)代[1]。由于網(wǎng)絡(luò)用戶數(shù)量逐年增長(zhǎng),網(wǎng)絡(luò)的使用頻率不斷增加,導(dǎo)致互聯(lián)網(wǎng)的數(shù)據(jù)流量呈爆發(fā)式上升,造成所使用的網(wǎng)絡(luò)通信協(xié)議混亂、復(fù)雜[2]。這些問(wèn)題給網(wǎng)絡(luò)管理者帶來(lái)了巨大壓力和挑戰(zhàn),但對(duì)網(wǎng)絡(luò)資源進(jìn)行管理,優(yōu)化升級(jí)現(xiàn)有網(wǎng)絡(luò),需要清楚了解網(wǎng)絡(luò)中的各類業(yè)務(wù)應(yīng)用。因此,網(wǎng)絡(luò)流量識(shí)別越來(lái)越受到人們的關(guān)注。
目前相關(guān)領(lǐng)域大量學(xué)者對(duì)網(wǎng)絡(luò)流量識(shí)別進(jìn)行研究,并取得了一定的研究成果,文獻(xiàn)[3]通過(guò)提取并分析數(shù)據(jù)流特征,采用集成學(xué)習(xí)方法構(gòu)建識(shí)別模型,完成網(wǎng)絡(luò)流量識(shí)別。該方法的移動(dòng)流量識(shí)別準(zhǔn)確率較高,但識(shí)別效率較低。文獻(xiàn)[4]利用相對(duì)熵特征向量,辨別高低熵值數(shù)據(jù)流,運(yùn)用蒙特卡洛仿真方法,評(píng)估π值誤差,區(qū)分局部和整體隨機(jī)流量,采用支持向量機(jī),輸入特征子空間,實(shí)現(xiàn)流量識(shí)別。該方法能夠有效識(shí)別加密流量,但識(shí)別準(zhǔn)確率較低。
針對(duì)上述問(wèn)題,提出了基于負(fù)載隨機(jī)性的互聯(lián)網(wǎng)絡(luò)鏈路流量識(shí)別方法,其主要使用數(shù)據(jù)包負(fù)載隨機(jī)性檢測(cè),結(jié)合機(jī)器學(xué)習(xí)方法,識(shí)別互聯(lián)網(wǎng)絡(luò)中的鏈路流量,所提方法的識(shí)別精度和識(shí)別效率較高。
采用卡方檢驗(yàn)方法檢測(cè)數(shù)據(jù)流的隨機(jī)性。通過(guò)比較兩種或兩種以上的樣本率,對(duì)兩種以上的分類法變量之間的相關(guān)性進(jìn)行卡方檢驗(yàn)[5]。比較理論頻率與實(shí)際頻率之間的吻合程度或擬合優(yōu)度問(wèn)題,是本方法的基本思路。
由于卡方檢驗(yàn)方法屬于非參數(shù)檢驗(yàn)的范疇,分析計(jì)數(shù)數(shù)據(jù)時(shí),對(duì)總體的分布不作任何假設(shè)。通過(guò)理論證明,假如n類數(shù)據(jù),近似服從卡方分布的統(tǒng)計(jì)量可根據(jù)實(shí)際觀察次數(shù)A和理論次數(shù)T之差的平方與理論次數(shù)的商得到,式(1)是該過(guò)程的具體表達(dá)式

(1)
式(1)為卡方檢驗(yàn)的原始理論公式,式內(nèi),若想近似效果越顯著,那么T的值應(yīng)越大(T≥5)。實(shí)際觀察模型和任意現(xiàn)有模型的吻合程度可以采用該公式進(jìn)行表示,是由于該公式中,卡方值在實(shí)際觀察次數(shù)與理論次數(shù)相差越大的條件下越大[6]。卡方值在實(shí)際觀察次數(shù)與理論次數(shù)相差越小的條件下越小。
設(shè)置total為對(duì)象的輸出次數(shù),total足夠大,且每個(gè)觀察對(duì)象的可能輸出結(jié)果共有n個(gè),out[0]…out[i]…out[n-1]是其分布表示,其內(nèi)i=1,2,…,n-2。設(shè)置P[i]為對(duì)象的每個(gè)輸出結(jié)果out[i]產(chǎn)生的概率,則E[i]=total*P[i]表示其理論觀察次數(shù)。設(shè)置實(shí)驗(yàn)中out[i]的實(shí)際產(chǎn)生次數(shù)為O[i],那么實(shí)際觀察值和理論推斷值間的偏離程度的度量可采用式(2)得出的卡方值表示。若想計(jì)算后的x2值的分布和自由度為n的卡方分布近似,那么該對(duì)象的觀測(cè)值應(yīng)和理論值相同。

(2)

(3)
為增強(qiáng)可信度,推導(dǎo)確定塊的卡方值及混合塊在某種條件下的卡方值。
1)確定塊分析:

=total(2b-1)
(4)

2)混合塊分析:


(5)


2.2.1 ID3算法基本思想
采用ID3算法,在數(shù)據(jù)流數(shù)據(jù)包負(fù)載信息節(jié)點(diǎn)中,選擇數(shù)據(jù)流特征屬性,利用信息增益來(lái)度量數(shù)據(jù)流特征屬性,從而獲取最大信息熵增益,以降低數(shù)據(jù)包負(fù)載信息復(fù)雜程度,提高識(shí)別效率。
假如向量空間中的正例集大小為p,反例集的大小為n,以下兩種假設(shè)是ID3算法的依據(jù)。
1)有窮向量空間E上的一棵準(zhǔn)確的決策樹,對(duì)于隨機(jī)例子分類幾率和E中的正反例幾率相同[11-12]。
2)式(6)描述了一棵決策樹能準(zhǔn)確判斷一例子的類別時(shí)所需要的信息量表達(dá)式

(6)
設(shè)置屬性A為決策樹的根,A包含v個(gè)值,{V1,V2,…Vn}將E劃分為v個(gè)子集{E1,E2,…Ev},假如有Pi個(gè)正例和Ni個(gè)反例包含于Ei中,則I(pi,ni)表示子集Ei所需的期望信息,以A為根的期望熵如式(7)所示

(7)
式(8)描述了以A為根的信息增益的計(jì)算過(guò)程
gain(A)=I(P,N)-E(A)
(8)
假如樣本集S共有C類樣本,Pi(i=1,2,…C)為每類樣本數(shù)。設(shè)置屬性A為決策樹的根,A包含v個(gè)值,{V1,V2,…Vn}將E劃分為v個(gè)子集{E1,E2,…Ev}。假如pij(j=1,2,…C)為Ei中包含的j類樣本數(shù),則子集Ei的信息量E(Ei)如式(9)所示

(9)
式(10)描述了以A為根的信息熵的計(jì)算過(guò)程

(10)
選取屬性A使E(A)最小,獲得最大信息增益。
2.2.2 基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量識(shí)別方法流程
基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量識(shí)別流程如圖1所示。

圖1 基于機(jī)器學(xué)習(xí)的流量識(shí)別流程
將獲取的網(wǎng)絡(luò)數(shù)據(jù)流中數(shù)據(jù)塊負(fù)載隨機(jī)性類別作為已標(biāo)注的數(shù)據(jù)集,并提取這些數(shù)據(jù)流的特征屬性構(gòu)成樣本集合,利用ID3算法,訓(xùn)練樣本集合,構(gòu)建分類模型并進(jìn)行預(yù)測(cè)和估計(jì),完成網(wǎng)絡(luò)流量識(shí)別。
為了測(cè)試所提方法的互聯(lián)網(wǎng)絡(luò)鏈路流量識(shí)別效果,在MATLAB實(shí)驗(yàn)環(huán)境下,采用Wireshark軟件的實(shí)驗(yàn)室真實(shí)網(wǎng)絡(luò)流量作為實(shí)驗(yàn)對(duì)象,設(shè)置實(shí)驗(yàn)數(shù)據(jù)基本信息如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)集
為分析不同數(shù)據(jù)包個(gè)數(shù)下的互聯(lián)網(wǎng)絡(luò)鏈路流量識(shí)別準(zhǔn)確率,設(shè)計(jì)對(duì)比實(shí)驗(yàn),選取140個(gè)數(shù)據(jù)包,分別采用文獻(xiàn)[3]方法、文獻(xiàn)[4]方法和所提方法進(jìn)行對(duì)比,三種方法的流量識(shí)別準(zhǔn)確率對(duì)比結(jié)果如圖2所示。

圖2 流量識(shí)別準(zhǔn)確率對(duì)比
分析圖2可知,當(dāng)數(shù)據(jù)包個(gè)數(shù)達(dá)到140個(gè)時(shí),文獻(xiàn)[3]方法的平均識(shí)別準(zhǔn)確率為82%,文獻(xiàn)[4]方法的平均識(shí)別準(zhǔn)確率為75%,所提方法的平均識(shí)別準(zhǔn)確率高達(dá)95%,由此可知,所提方法具有較高的互聯(lián)網(wǎng)絡(luò)鏈路流量識(shí)別準(zhǔn)確性,可將統(tǒng)計(jì)數(shù)據(jù)包個(gè)數(shù)的窗口值(公式中的total值)設(shè)定成60進(jìn)行流量識(shí)別,可進(jìn)一步提升互聯(lián)網(wǎng)絡(luò)鏈路流量識(shí)別的效果。因?yàn)樗岱椒ú捎每ǚ綑z驗(yàn)方法檢測(cè)數(shù)據(jù)流的隨機(jī)性,通過(guò)對(duì)比不同樣本率,分析分類變量關(guān)聯(lián)性,優(yōu)化理論頻數(shù)和實(shí)際頻數(shù)的吻合度,從而有效提高流量識(shí)別準(zhǔn)確率。
針對(duì)不同數(shù)據(jù)包個(gè)數(shù)下,三種方法的互聯(lián)網(wǎng)絡(luò)鏈路流量識(shí)別時(shí)間對(duì)比結(jié)果如圖3所示。

圖3 流量識(shí)別時(shí)間對(duì)比
分析圖3可知,隨著數(shù)據(jù)包個(gè)數(shù)的增加,三種方法的流量識(shí)別時(shí)間都呈上升趨勢(shì)。當(dāng)數(shù)據(jù)包個(gè)數(shù)為140個(gè)時(shí),文獻(xiàn)[3]方法的流量識(shí)別時(shí)間為3.5s,文獻(xiàn)[4]方法的流量識(shí)別時(shí)間為3.2s,而所提方法的流量識(shí)別時(shí)間僅為1.7s,相對(duì)于其它兩種方法,所提方法的流量識(shí)別時(shí)間較短,識(shí)別效率較高。因?yàn)樗岱椒ǐ@取基于負(fù)載隨機(jī)性的網(wǎng)絡(luò)數(shù)據(jù)流中數(shù)據(jù)塊負(fù)載隨機(jī)性類別,提取數(shù)據(jù)流的特征屬性構(gòu)成,采用ID3算法樣本集合,構(gòu)建分類模型,能夠評(píng)估未知數(shù)據(jù)流量,從而有效縮短流量識(shí)別時(shí)間,提高識(shí)別效率。
為了進(jìn)一步驗(yàn)證所提方法的有效性,分別采用實(shí)驗(yàn)分析三種方法,針對(duì)表1所示實(shí)驗(yàn)數(shù)據(jù)集對(duì)比三種方法的識(shí)別漏報(bào)率和誤報(bào)率,結(jié)果分別如圖4和圖5所示。

圖4 流量識(shí)別漏報(bào)率對(duì)比

圖5 流量識(shí)別誤報(bào)率對(duì)比
分析圖4和圖5可知,三種方法進(jìn)行流量識(shí)別產(chǎn)生漏報(bào)的概率遠(yuǎn)大于產(chǎn)生誤報(bào)的概率,文獻(xiàn)[4]方法的漏報(bào)率最高可達(dá)10%左右,而誤報(bào)率最高僅有0.25%左右。所提方法與其它兩種方法相比,識(shí)別漏報(bào)率和識(shí)別誤報(bào)率較低,且相對(duì)穩(wěn)定。對(duì)比這些數(shù)據(jù)可以看出,所提方法的互聯(lián)網(wǎng)絡(luò)鏈路流量識(shí)別的可靠性較強(qiáng)。
為提高網(wǎng)絡(luò)服務(wù)質(zhì)量和保障網(wǎng)絡(luò)空間穩(wěn)定性,提出基于負(fù)載隨機(jī)性的互聯(lián)網(wǎng)絡(luò)鏈路流量識(shí)別方法,基于負(fù)載隨機(jī)性,獲取網(wǎng)絡(luò)數(shù)據(jù)流中數(shù)據(jù)塊負(fù)載隨機(jī)性類別,結(jié)合機(jī)器學(xué)習(xí)和ID3算法,實(shí)現(xiàn)互聯(lián)網(wǎng)絡(luò)鏈路流量識(shí)別。該方法的流量識(shí)別誤報(bào)率和漏報(bào)率較低,能夠有效提升識(shí)別的準(zhǔn)確性和效率,確保網(wǎng)絡(luò)流量穩(wěn)定性。