999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向類不平衡流量數(shù)據(jù)的分類模型

2020-09-04 10:00:52姚立霜王云鋒裴作飛
計(jì)算機(jī)應(yīng)用 2020年8期
關(guān)鍵詞:分類特征模型

劉 丹 ,姚立霜 ,王云鋒 ,裴作飛

(1. 重慶郵電大學(xué)通信與信息工程學(xué)院,重慶400065; 2. 移動(dòng)通信技術(shù)重慶市重點(diǎn)實(shí)驗(yàn)室(重慶郵電大學(xué)),重慶400065)

0 引言

近年來,隨著網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率的增長,網(wǎng)絡(luò)流量分類在網(wǎng)絡(luò)管理和網(wǎng)絡(luò)安全等領(lǐng)域的重要性不斷凸顯[1]。傳統(tǒng)基于端口號的流量分類技術(shù)[2-3]存在很大的局限性,在動(dòng)態(tài)端口、偽裝端口等技術(shù)出現(xiàn)之后,分類準(zhǔn)確率很低。基于特征字段的流量分類技術(shù)通過分析數(shù)據(jù)包的有效載荷來達(dá)到分類的目的,雖然擺脫了對端口號的依賴,但卻沒辦法處理加密流量,同時(shí)有可能會(huì)侵犯個(gè)人隱私[4]。基于傳輸層主機(jī)行為的流量分類技術(shù),不依賴于端口號和報(bào)文載荷,但傳輸層主機(jī)行為對網(wǎng)絡(luò)環(huán)境異常敏感,分類效果不夠穩(wěn)定。因此,研究人員逐漸把網(wǎng)絡(luò)流量分類的研究重點(diǎn)放在基于機(jī)器學(xué)習(xí)的方法上[5-6]。

2005 年,Moore 等[7]首次將樸素貝葉斯(Naive Bayes,NB)用于網(wǎng)絡(luò)流量分類,并系統(tǒng)地描述了網(wǎng)絡(luò)流量的特征,為后來的研究提供了重要的依據(jù);而且利用該數(shù)據(jù)集也證實(shí)了將貝葉斯神經(jīng)網(wǎng)絡(luò)用于流量分類的有效性[8]。徐鵬等[9]引入C4.5決策樹方法來處理流量分類問題,避免了NB方法過分依賴于樣本空間分布的問題,在分類穩(wěn)定性上具有明顯的優(yōu)勢。Chung 等[10]定義了一種兩階段的流量分類算法,利用基于余弦的流相似度函數(shù)進(jìn)行分類,可以在非對稱路由環(huán)境下取得較高的分類精度。楊哲等[11]采用基于最短劃分距離的方法構(gòu)建決策樹分類,能夠在分類準(zhǔn)確性和系統(tǒng)開銷上取得較好的效果。張震等[12]提出了“用戶相似度”的概念,通過定義基于信息熵的“用戶行為模式”,對用戶行為子簇進(jìn)行了業(yè)務(wù)標(biāo)簽映射,實(shí)現(xiàn)了流量分類的目的。丁要軍等[13]提出一種基于互信息理論的選擇聚類集成方法,以提高流量分類的精度。Punitha 等[14]提出一種基于增量學(xué)習(xí)的兩級混合分類模型用于用戶數(shù)據(jù)報(bào)協(xié)議(User Datagram Protocol,UDP)流量的分類,與現(xiàn)有的傳統(tǒng)學(xué)習(xí)方法相比,該方法能提高混合分類器的分類精度。

文獻(xiàn)[7-14]中方法的分類精確率都能達(dá)到較高的值,但是它們的分類性能大多在多數(shù)類(大類)上表現(xiàn)良好,忽視了分類器在少數(shù)類(小類)的預(yù)測精度,這就是類不平衡所帶來的問題[15]。在網(wǎng)絡(luò)流量分類領(lǐng)域,類不平衡問題可以表述為流量數(shù)據(jù)在各應(yīng)用類別上的樣本數(shù)量存在數(shù)量級的差距,導(dǎo)致分類器被多數(shù)類淹沒,忽略了少數(shù)類。然而,人們在生活中通常更為關(guān)注小類的分類效果,錯(cuò)誤識別小類別的代價(jià)往往很大,如入侵檢測[16]。Shi 等[17]將深度學(xué)習(xí)與特征選擇結(jié)合,提出了一種特征優(yōu)化算法,能有效應(yīng)對類別不平衡問題。同時(shí),傳統(tǒng)分類方法存在難以實(shí)現(xiàn)頻繁、及時(shí)更新的問題,一旦要求更新,需要重新訓(xùn)練所有的數(shù)據(jù),增加了時(shí)間和資源開銷。

針對上述問題,本文提出一種基于集成學(xué)習(xí)的網(wǎng)絡(luò)流量分類模型(Internet Traffic Classification Model based on Ensemble Learning,ELTCM),借助特征選擇、增量學(xué)習(xí)、早期漂移檢測以及集成學(xué)習(xí)方式提升模型的泛化能力以及在小類別上的分類性能。為驗(yàn)證本文模型的有效性,利用Moore 公開數(shù)據(jù)集[7]進(jìn)行仿真,實(shí)驗(yàn)結(jié)果表明該模型能夠在整體精確率、小類召回率、小類準(zhǔn)確率和F1 值四個(gè)指標(biāo)上均表現(xiàn)出較好的效果。

1 基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類方法

基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類技術(shù)利用網(wǎng)絡(luò)流量在傳輸過程中表現(xiàn)出的統(tǒng)計(jì)特征(如數(shù)據(jù)包的數(shù)量、流的持續(xù)時(shí)間和數(shù)據(jù)包到達(dá)時(shí)間)區(qū)分網(wǎng)絡(luò)類型[18]。

如圖1 所示,一般基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類系統(tǒng)包含三個(gè)步驟:數(shù)據(jù)生成、學(xué)習(xí)過程和分類過程。數(shù)據(jù)生成階段通過確定性策略以流形式對應(yīng)用程序包進(jìn)行手工標(biāo)記,在計(jì)算、整合數(shù)據(jù)流信息之后得到流量統(tǒng)計(jì)特征,所得特征一般是多維的;學(xué)習(xí)階段采用特征選擇方法減少特征的維數(shù),從整個(gè)特征集中選擇最佳子集進(jìn)行機(jī)器學(xué)習(xí),通過一系列測試和評估選擇合適的算法,訓(xùn)練生成分類器;分類過程則利用訓(xùn)練好的分類器分類未知流量。

圖1 基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量分類系統(tǒng)結(jié)構(gòu)Fig. 1 Structure of Internet traffic classification system based on machine learning

在實(shí)際的網(wǎng)絡(luò)流量分類中,將所有的流量特征都放入模型中進(jìn)行訓(xùn)練是不明智的。一方面,某些特征可能和特定的應(yīng)用程序無關(guān),或者特征之間存在冗余關(guān)系,選擇所有的特征進(jìn)行模型的構(gòu)建,可能會(huì)降低分類模型的準(zhǔn)確性;另一方面,模型構(gòu)建過程中選擇過多的特征進(jìn)行訓(xùn)練,會(huì)導(dǎo)致系統(tǒng)效率的巨大消耗,如需要從M個(gè)特征中選出m個(gè)特征組成特征子集,則存在種可能,當(dāng)M的值很大時(shí),存在的特征子集數(shù)目就很大,若單純地使用窮舉法,會(huì)浪費(fèi)大量的時(shí)間和資源。為了對特征集合進(jìn)行降維,獲得最佳的系統(tǒng)性能,特征選擇至關(guān)重要。

特征選擇的流程如圖2 所示,它主要包含生成特征子集(搜索策略)、評價(jià)準(zhǔn)則、停止準(zhǔn)則和結(jié)果驗(yàn)證[19]四個(gè)基本步驟。特征選擇方法在原始特征集合中利用特定的搜索策略得到備選子集,并根據(jù)某種評價(jià)指標(biāo)對選出的備選子集進(jìn)行評價(jià),由最優(yōu)評估值的特征集合取代次優(yōu)特征集合,并根據(jù)停止準(zhǔn)則結(jié)束搜索,保證算法的有窮性,最后使用人工數(shù)據(jù)集或真實(shí)數(shù)據(jù)集測試所選子集的有效性。

圖2 特征選擇流程Fig. 2 Flowchart of feature selection

2 基于集成學(xué)習(xí)的網(wǎng)絡(luò)流量分類模型

基于集成學(xué)習(xí)的網(wǎng)絡(luò)流量分類模型(ELTCM)系統(tǒng)結(jié)構(gòu)如圖3 所示。初始時(shí),在預(yù)先獲取的數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到一個(gè)基分類器;通過增量學(xué)習(xí)的方式,將新增的網(wǎng)絡(luò)流量及其通過基分類器所得的分類結(jié)果作為新的數(shù)據(jù)子集;若新的數(shù)據(jù)子集與前一階段的數(shù)據(jù)集相比,發(fā)生了概念漂移并達(dá)到一定程度時(shí),采用新的數(shù)據(jù)集訓(xùn)練得到新的基分類器,并將新增基分類器加入集成分類系統(tǒng),參與預(yù)測下一階段的網(wǎng)絡(luò)流量的分類結(jié)果。這樣,當(dāng)模型需要更新時(shí),只需要利用少量的新樣本進(jìn)行訓(xùn)練,提高了模型更新訓(xùn)練的靈活性,縮短了模型更新的時(shí)間間隔。在訓(xùn)練基分類器時(shí),提出一種基于加權(quán)對稱不確定性(Weighted Symmetric Uncertainty,WSU)和近似馬爾可夫毯(Approximate Markov Blanket,AMB)的特征選擇算法,充分考慮特征與類別間、特征與特征之間的相關(guān)性,在刪除不相關(guān)特征和冗余特征的同時(shí),選出易于識別小類別的特征,減少類不平衡問題帶來的影響。

圖3 基于集成學(xué)習(xí)的網(wǎng)絡(luò)流量分類模型系統(tǒng)結(jié)構(gòu)Fig. 3 Structure of Internet traffic classification model based on ensemble learning

2.1 WSU_AMB特征選擇算法

WSU_AMB算法的總體結(jié)構(gòu)如圖4所示,它主要包含兩個(gè)步驟:確定候選特征集合和獲取最優(yōu)特征子集。在第一步中,根據(jù)類別分布信息定義偏向于小類別的特征度量,使得識別小類別的特征更容易被選擇出來,通過計(jì)算特征與類別間的加權(quán)對稱不確定性,利用特征排序算法刪除不相關(guān)特征,充分考慮特征與類別間、特征與特征之間的相關(guān)性,利用AMB 刪除冗余特征,確定候選特征子集。在第二步中,采用基于相關(guān)性度量的特征評估準(zhǔn)則函數(shù)和序列搜索算法進(jìn)一步降低特征維數(shù),獲取最優(yōu)特征子集。

圖4 WSU_AMB算法的總體結(jié)構(gòu)Fig. 4 Structure of WSU_AMB algorithm

2.1.1 加權(quán)對稱不確定性(WSU)

加權(quán)對稱不確定性可以用來衡量特征與類別以及特征與特征之間的相關(guān)性,它是在加權(quán)信息熵的基礎(chǔ)上計(jì)算出來的[20],可以表示為:

其中:

其中:p(ci,fj)表示類別 C 與特征 F 的聯(lián)合概率;p(ci)表示類別C 的先驗(yàn)概率;p( fj)表示是特征 F 的先驗(yàn)概率;p(ci| fj)是 F 發(fā)生的條件下C的后驗(yàn)概率。

權(quán)值wi可以表示一個(gè)事件的重要性,根據(jù)類別分布信息,可以把權(quán)值定義為:

其中:ni表示屬于類別ci的樣本數(shù);N表示樣本總量。2.1.2 近似馬爾可夫毯(AMB)

假設(shè)屬性類別為C,特征集合為F,對于給定的特征fi? F和特征子集M ? F( fi? M),若有:

則稱能滿足上述條件的特征子集M 為fi的馬爾可夫毯。形象一點(diǎn)表述就是存在隨機(jī)變量X、集合A 和B,且有X ∪A ∪B =U,X ∩ A ∩ B = ?,U 為全集,如果在給定集合A 的情況下,變量X與集合B沒有任何關(guān)系,則稱集合A為變量X的馬爾可夫毯。在式(5)中,集合M 即為所說的集合A,集合{F - M -{ fi},C}即為所說的集合B。

在特征集合F 中,由于在特征fi的馬爾可夫毯M 條件下,fi與其他非馬爾可夫毯變量獨(dú)立,因此,對于特征fi而言,所有非馬爾可夫毯變量都是冗余的。但是馬爾可夫毯的條件過于嚴(yán)格,現(xiàn)實(shí)數(shù)據(jù)難以達(dá)到要求,需要對該條件進(jìn)行近似假設(shè)。

特征fi是特征fj的AMB(i ≠j),需要滿足以下條件:

特征與類別之間的WSU 可由式(5)得到,特征與特征之間的WSU 的計(jì)算方法略有差別,此時(shí)需要將其中一個(gè)特征看成類別屬性。在一個(gè)特征空間中,目標(biāo)特征的所有信息均包含在它的AMB 中,非AMB 就可以看作目標(biāo)特征的冗余特征,通過刪除這些目標(biāo)特征的冗余特征,就可以降低特征空間的維數(shù)。

2.1.3 相關(guān)性特征度量

在充分考慮特征的相關(guān)性的前提下,有效減少特征維數(shù),提出一種特征準(zhǔn)則評估函數(shù):

2.2 增量學(xué)習(xí)

增量學(xué)習(xí)對于流量數(shù)據(jù)的學(xué)習(xí)有重要意義,因?yàn)檫@些數(shù)據(jù)隨著時(shí)間的變化在不斷變化,且增長速度快。增量學(xué)習(xí)與人類學(xué)習(xí)過程相似,是指系統(tǒng)可以不斷地從新數(shù)據(jù)中學(xué)習(xí)到新的知識,并能保存以前學(xué)過的舊知識。每當(dāng)有新的數(shù)據(jù)到達(dá)時(shí),模型不需要對所有的數(shù)據(jù)重新進(jìn)行訓(xùn)練,僅僅需要對由于新增數(shù)據(jù)所引起的變化進(jìn)行更新,其流程如圖5 所示。利用增量學(xué)習(xí)思想,分類模型進(jìn)行小的改動(dòng)就能對新的數(shù)據(jù)進(jìn)行訓(xùn)練,以較小的時(shí)間損耗達(dá)到模型更新的目的。

圖5 增量學(xué)習(xí)流程Fig. 5 Flowchart of incremental learning

2.3 早期概念漂移檢測

概念漂移普遍存在于機(jī)器學(xué)習(xí)領(lǐng)域,它是指隨著時(shí)間的推移,目標(biāo)概念的統(tǒng)計(jì)特性隨著環(huán)境的變化而發(fā)生變化,導(dǎo)致模型的預(yù)測精度明顯降低的現(xiàn)象[21]。在分類問題中,概念漂移體現(xiàn)為樣本的屬性特征與樣本的類標(biāo)識之間的映射關(guān)系的變化。從流樣本X 到類標(biāo)識C 之間的映射關(guān)系可以用映射函數(shù)H:X → C表示,即:

其中:P(C|X)為X發(fā)生的條件下C的后驗(yàn)概率;P(C)表示類別C 的先驗(yàn)概率;P(xi|C)為C 發(fā)生的條件下xi的后驗(yàn)概率;P(X)表示流樣本X 的先驗(yàn)概率。由式(10)可以看出,P(C)、P(X)和P(xi|C)任何一個(gè)的變化,都會(huì)引起P(C|X)的變化,從而影響分類器的分類結(jié)果。

引入早期概念漂移檢測方法(Early Drift Detection Method,EDDM)[22],設(shè)定警示水平和漂移水平,結(jié)合錯(cuò)誤分類之間的距離和錯(cuò)誤分類的次數(shù)來判斷系統(tǒng)的穩(wěn)定性。

某個(gè)類別被錯(cuò)誤分類的標(biāo)準(zhǔn)方差可以根據(jù)式(12)計(jì)算:

其中:pi′表示該類別被錯(cuò)誤分類的概率。pi′可根據(jù)式(13)計(jì)算:

其中:DT(C)表示被錯(cuò)誤識別的類別C的數(shù)量;T(C)表示數(shù)據(jù)集中類別C的數(shù)量。

當(dāng)分類誤差率(即錯(cuò)誤分類概率pi′及其標(biāo)準(zhǔn)差si′之間的距離)明顯增長時(shí),表明樣本分布出現(xiàn)了變化,已經(jīng)不穩(wěn)定,先前訓(xùn)練好的模型已經(jīng)不適用于當(dāng)前的樣本。當(dāng)pi′+ 2si′達(dá)到最大值時(shí),pmax′+ 2smax′為分類錯(cuò)誤分布距離最大的點(diǎn),系統(tǒng)會(huì)存儲(chǔ)值 pmax′和 smax′。

若存在:

稱α 為警示水平。超出此級別之后,表明系統(tǒng)可能發(fā)生概念漂移,系統(tǒng)將在此時(shí)存儲(chǔ)樣本。

當(dāng):

稱β 為漂移水平。一旦超過這個(gè)水平,就表示系統(tǒng)發(fā)生了概念漂移。系統(tǒng)將利用在警示觸發(fā)時(shí)存儲(chǔ)的樣本訓(xùn)練新的模型,并重置pmax′和 smax′。

具體地,當(dāng)模型至少發(fā)生30 個(gè)分類錯(cuò)誤時(shí),系統(tǒng)會(huì)根據(jù)之前設(shè)定好的漂移水平去檢測模型是否發(fā)生了概念漂移,而在30 個(gè)分類錯(cuò)誤發(fā)生的期間,系統(tǒng)可能已經(jīng)存儲(chǔ)大量樣本。這里將分類錯(cuò)誤次數(shù)設(shè)置為30 的原因是因?yàn)橐浪銉蓚€(gè)連續(xù)錯(cuò)誤之間的距離分布并將其與未來的分布進(jìn)行對比,以此發(fā)現(xiàn)樣本分布的變化。其中,pmax′+ 2smax′表示了95%的特征分布區(qū)間,α和β分別被設(shè)置為0.95和0.90。

2.4 基分類器的集成

在概念漂移的情況下,若用固定的模型去學(xué)習(xí)變化中的流樣本,其分類精度定然不高,故本文采用以權(quán)值取代平均值的方式對基分類器進(jìn)行集成[23]。集成分類器的計(jì)算公式如下:

其中:|Sn|表示流樣本的數(shù)目為樣本(x,c)被錯(cuò)誤分類的概率表示樣本被正確分類的概率。

;1- f c

i(x)

假設(shè)分類器隨機(jī)進(jìn)行預(yù)測,實(shí)例x被分為c類的概率等于c的類分布p(x),則分類器的隨機(jī)均方誤差為:

由于隨機(jī)模型不包含關(guān)于數(shù)據(jù)的有用知識,因此使用MSEr,即隨機(jī)分類器的錯(cuò)誤率作為加權(quán)分類器的閾值。也就是說,丟棄誤差等于或大于隨機(jī)均方誤差的分類器。分類器的權(quán)值計(jì)算公式如下:

3 實(shí)驗(yàn)與結(jié)果分析

為了驗(yàn)證本文基于集成學(xué)習(xí)的網(wǎng)絡(luò)流量分類模型的可行性,使用Moore 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境為Intel Core i5-7400 CPU @3.00 GHz,8.00 GB RAM,Windows 10 操作系統(tǒng),Weka3.8.3,Python 3.6.5。

3.1 實(shí)驗(yàn)數(shù)據(jù)

Moore 數(shù)據(jù)集由 Moore 等[7]整理,特征維數(shù)高,數(shù)據(jù)量大,能依據(jù)統(tǒng)計(jì)信息準(zhǔn)確判定網(wǎng)絡(luò)流量所屬的類別,是目前被用于網(wǎng)絡(luò)流量分類研究最為權(quán)威的數(shù)據(jù)集,它的統(tǒng)計(jì)信息如表1所示。該數(shù)據(jù)集采集于擁有1 000名左右工作人員的研究機(jī)構(gòu),通過對該機(jī)構(gòu)的研究設(shè)施進(jìn)行24 h 全雙工跟蹤得到10 個(gè)原始數(shù)據(jù)集,每次記錄時(shí)間約為28 min。Moore 數(shù)據(jù)集共有377 526 條流量樣本,包含12 個(gè)類,每一條樣本數(shù)據(jù)包括248個(gè)特征屬性以及該網(wǎng)絡(luò)流量所屬類別的類別信息。

表1 實(shí)驗(yàn)數(shù)據(jù)集的統(tǒng)計(jì)信息Tab. 1 Statistics of experimental dataset

從表1可以看出,Moore 數(shù)據(jù)集各類別樣本數(shù)量之間的差距非常大,大類(WWW 類)的樣本占比高于85%,小類(例如FTP-PASV 類、ATTACK 類)的樣本占比不足1%,是一個(gè)典型的類不平衡數(shù)據(jù)集。由于DATABASE、INTERACTIVE 和GAMES 這三類在某些數(shù)據(jù)子集中的樣本條數(shù)為0,故在實(shí)驗(yàn)過程中刪除了這三種類別的所有樣本。

3.2 評價(jià)指標(biāo)

在實(shí)驗(yàn)中,使用整體精確率(Accuracy)、準(zhǔn)確率(Precision)、召回率(Recall)、F1 值和G-mean 值作為算法的性能評價(jià)指標(biāo)。整體精確率反映了多分類模型的綜合預(yù)測能力,準(zhǔn)確率、召回率、F1值和G-mean值則可以反映多分類模型對單個(gè)應(yīng)用的預(yù)測能力。

3.3 結(jié)果對比

3.3.1 WSU_AMB算法所選特征數(shù)目

WSU_AMB 特征選擇算法的停止準(zhǔn)則是找到滿足合適維度的特征子集。特征數(shù)太少,可能漏選網(wǎng)絡(luò)流量的典型特征;特征數(shù)太多,會(huì)造成資源的浪費(fèi),且有可能會(huì)把個(gè)性當(dāng)成共性來學(xué)習(xí),出現(xiàn)“過擬合”現(xiàn)象。一般來說,在對網(wǎng)絡(luò)流量進(jìn)行分類時(shí),4~8個(gè)特征就可以很好地區(qū)分流量類型。利用Moore數(shù)據(jù)集的10 個(gè)子集進(jìn)行實(shí)驗(yàn)仿真,發(fā)現(xiàn)有相似的變化趨勢,故只選取兩個(gè)數(shù)據(jù)集進(jìn)行展示(Entry1、Entry2),如圖6 所示,當(dāng)所選特征數(shù)L= 6時(shí),模型可以取得較好的分類精度。

3.3.2 ELTCM基分類器的選擇

樸素貝葉斯(Naive Bayes,NB)算法學(xué)習(xí)和預(yù)測的效率很高,是一種常用的分類方法;邏輯斯蒂回歸模型(Logistic Regression,LR)運(yùn)算速度快、魯棒性較好,是經(jīng)典的分類方法;支持向量機(jī)(Support Vector Machines,SVM)具有較好的魯棒性,可以有效解決分類情景中的高維問題;C4.5 決策樹(Decision Tree,DT)能夠處理多輸出的問題,是多分類的常用算法。

利用 Moore 數(shù)據(jù)集的10 個(gè)子集(Entry1~Entry10)進(jìn)行實(shí)驗(yàn)仿真,選擇NB、LR、SVM和C4.5作為基分類器,以測試不同機(jī)器學(xué)習(xí)算法對ELTCM的分類精度的影響。

在Entry1 上,利用四種算法作為基分類器進(jìn)行模型的訓(xùn)練,用訓(xùn)練好的模型對Entry2~Entry10 進(jìn)行分類,其分類精度如表2所示。從表2中可以看出,NB算法的分類精度不高,平均分類精度只有85.52%,LR 算法的分類精度高于NB 算法,但低于 SVM 和 C4.5;SVM 和 C4.5 分類精度較高,均能達(dá)到90%以上,且穩(wěn)定性好,分類精度的波動(dòng)幅度較小,但相較于C4.5算法,SVM 算法無法直接用于多分類且不適用于大規(guī)模數(shù)據(jù)的訓(xùn)練,建模時(shí)間很長,會(huì)增加模型更新時(shí)間,故選擇C4.5算法作為本文模型的基分類器。

圖6 L值對分類模型的影響Fig.6 Impact of L value on classification model

3.3.3 分類模型的對比

文獻(xiàn)[8]中提出的模型首次將貝葉斯神經(jīng)網(wǎng)絡(luò)(Bayesian Neural Network,BNN)引入流量分類領(lǐng)域,可以獲得較好的分類效果,給研究人員帶來了巨大的啟發(fā);基于C4.5 決策樹的分類模型(Internet Traffic Classification based on C4.5 Decision Tree,DTITC)[9]在處理大規(guī)模流量分類問題時(shí),具有較好的優(yōu)勢;基于流量統(tǒng)計(jì)特征的分類模型(Internet traffic classification based on Flows’Statistical Properties with Machine Learning,F(xiàn)SPML)[18]能夠識別新的應(yīng)用,可以得到較高的分類準(zhǔn)確率;基于錯(cuò)誤率的概念漂移檢測分類模型(Classification model for concept Drift Detection based on Error Rate,ERCDD)能降低概念漂移帶來的影響,提升模型的分類性能。

將本文模型 ELTCM 與 BNN、DTITC、FSPML 和ERCDD 進(jìn)行對比,利用Entry1 按照訓(xùn)練集和測試集為7∶3 的比例生成分類器,用基于Entry1 生成的分類器對Entry1~Entry10 進(jìn)行分類。

各模型的分類整體精確率如圖7 所示,可以看出,五種模型的整體精確率均超過98%,ELTCM 的平均整體精確率最高,可以達(dá)到99.62%。各模型在Entry1上都能得到較高的整體精確率,而BNN、DTITC 和FSPML 模型在Entry2~Entry10 上的分類整體精確率卻出現(xiàn)了下降,且隨著時(shí)間的推移,模型分類精度下降趨勢越來越明顯,說明概念漂移對模型的分類性能有較大影響,即在一個(gè)數(shù)據(jù)集上訓(xùn)練得到分類器,利用該分類器對該數(shù)據(jù)集進(jìn)行分類時(shí),能得到較好的分類結(jié)果;而利用該分類器去分類時(shí)間上相鄰的其他數(shù)據(jù)集時(shí),分類精度會(huì)出現(xiàn)下降的趨勢。ERCDD 模型的平均整體精確率為99.26%,僅次于ELTCM,整體精確率的波動(dòng)小于BNN、FSPML 和DTITC 三種模型,說明該模型能在一定程度上減少概念漂移的影響,但其波動(dòng)幅度大于ELTCM。ELTCM 的整體精確率在9 個(gè)數(shù)據(jù)集上達(dá)到最高,整體精確率的波動(dòng)幅度不超過0.13%,具有較高的穩(wěn)定性,說明該模型能有效應(yīng)對概念漂移現(xiàn)象。

從 3.1 節(jié)可以得知,刪除 DATABASE、INTERACTIVE 和GAMES 三類之后,F(xiàn)TP-CONTROL(簡稱 FTP-C)、FTP-PASV(簡稱FTP-P)、ATTACK、P2P、MULTIMEDIA(簡稱MULT)和SERVICES(簡稱SERV)這6 類網(wǎng)絡(luò)流量在數(shù)據(jù)集樣本中所占比例不足1%,相較于WWW 所占的86.905%,這6 種類型均屬于小類。選擇這6 類應(yīng)用對五種分類模型在小類別上的性能進(jìn)行分析,考察不同分類模型對小類別的預(yù)測能力。

同樣的,利用Entry1 按照訓(xùn)練集和測試集為7∶3 的比例生成分類器,用基于Entry1生成的分類器對Entry1~Entry10進(jìn)行分類,可以得到各模型在每個(gè)應(yīng)用類別上的分類性能,對10個(gè)子集取平均值,結(jié)果如圖8所示。

圖7 不同分類模型的整體精確率對比Fig. 7 Comparison of overall accuracy between different classification models

Precision 表示被預(yù)測為類別C 的樣本中,實(shí)際屬于類別C的比例,從圖 8(a)可以看出,ELTCM 在 5 個(gè)小類別上的平均Precision 均高于對比算法,MULT 類的平均準(zhǔn)確率也僅比ERCDD 模型低0.07%,說明ELTCM 能更為精準(zhǔn)地識別小類別。Recall 衡量了某個(gè)類別的所有樣本被正確識別的比例,從圖8(b)可以看出,ELTCM 在小類別上有較好的查全率。F1值是Precision 和Recall 的綜合評價(jià)指標(biāo),更高的F1 值表示更好的分類效果,從圖8(c)可以看出,ELTCM在6種小類別上的F1 值均有所提升,說明ELTCM 的分類效果更好。G-mean 值是衡量不平衡分類問題的有效指標(biāo),G-mean 值越大,表明分類效果越好,從圖8(d)可以看出,ELTCM 可以取得較高的G-mean 值,能有效應(yīng)對類不平衡問題。相較于對比算法,ELTCM 在絕大多數(shù)小類別的分類性能上都存在明顯優(yōu)勢,這是因?yàn)?BNN、FSPML、DTITC 和 ERCDD 模型以整體分類精度為目標(biāo),多數(shù)類在分類過程中占優(yōu)勢,忽略了小類別的分類性能,且BNN、FSPML 和DTITC 模型未考慮概念漂移現(xiàn)象,ERCDD 模型僅僅基于錯(cuò)誤率進(jìn)行概念漂移檢測,不能很好地應(yīng)對漸變型概念漂移。綜上,ELTCM 在綜合評價(jià)指標(biāo)和單個(gè)應(yīng)用的評價(jià)指標(biāo)上取得了較好的結(jié)果,均優(yōu)于對比模型,驗(yàn)證了本文模型的有效性。

圖8 不同分類模型的小類別分類性能對比Fig.8 Comparison of classification performance of minority classes among different classification models

4 結(jié)語

本文通過對傳統(tǒng)基于機(jī)器學(xué)習(xí)的流量分類模型的分析,針對傳統(tǒng)模型難以實(shí)現(xiàn)頻繁、及時(shí)的更新,忽略了網(wǎng)絡(luò)流量樣本分布不平衡的問題,提出了一種基于集成學(xué)習(xí)的網(wǎng)絡(luò)流量分類模型。該模型引入了偏向于小類別的特征度量——加權(quán)對稱不確定性,利用基于WSU_AMB 的特征選擇算法選擇最優(yōu)特征子集,將所選特征輸入集成分類器系統(tǒng),采用增量學(xué)習(xí)的方式進(jìn)行網(wǎng)絡(luò)流量分類訓(xùn)練,提升模型的泛化能力,并對模型進(jìn)行早期概念漂移檢測,優(yōu)化網(wǎng)絡(luò)流量分類模型性能。利用公開數(shù)據(jù)進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文提出的分類模型能有效減小概念漂移問題帶來的影響,可以在保證整體分類準(zhǔn)確度的前提下,提高小類別的識別率。如何識別加密流量以及運(yùn)用未標(biāo)注流量進(jìn)行分類是下一步的主要研究內(nèi)容。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 日韩毛片免费视频| 波多野结衣中文字幕一区二区| 五月婷婷丁香综合| 久久香蕉国产线看观看精品蕉| 99视频只有精品| 不卡色老大久久综合网| 一区二区三区四区在线| 青青久久91| 亚洲无码37.| 日本伊人色综合网| 又黄又湿又爽的视频| 国产成a人片在线播放| 日韩精品一区二区深田咏美 | 午夜福利网址| 国产精品刺激对白在线| 国产黑丝一区| 欧美亚洲第一页| 激情视频综合网| 国产精品亚洲精品爽爽 | 欧美日韩v| 国产亚洲精品自在线| 国产亚洲精品精品精品| 成人亚洲国产| 欧美色99| 国产aⅴ无码专区亚洲av综合网| 久久五月天国产自| 免费在线看黄网址| 色综合国产| 欧美乱妇高清无乱码免费| 久久久久人妻一区精品| 国产午夜无码片在线观看网站| 色综合狠狠操| julia中文字幕久久亚洲| 亚洲成人免费在线| 亚洲va视频| 久久99国产综合精品1| 欧美一级在线| 美女无遮挡拍拍拍免费视频| 亚洲高清国产拍精品26u| 亚洲精品色AV无码看| 国产玖玖玖精品视频| 午夜视频在线观看免费网站 | 成人日韩视频| 色悠久久久久久久综合网伊人| 精品91自产拍在线| 久久久精品久久久久三级| 国产情侣一区二区三区| 欧美国产综合色视频| 香蕉综合在线视频91| av一区二区人妻无码| 亚洲IV视频免费在线光看| 在线看片中文字幕| 国产91视频免费观看| 四虎永久在线精品国产免费| 国产毛片基地| 亚洲第一色网站| 青青草一区二区免费精品| 成年A级毛片| 在线观看精品自拍视频| 免费国产小视频在线观看| 自拍偷拍欧美| 福利在线一区| 国产真实乱子伦视频播放| 久久9966精品国产免费| julia中文字幕久久亚洲| 欧美伊人色综合久久天天| 日韩美一区二区| 99热在线只有精品| 色欲国产一区二区日韩欧美| 国产AV毛片| 久久窝窝国产精品午夜看片| 欧美国产精品不卡在线观看| 国产日韩精品欧美一区喷| 亚洲电影天堂在线国语对白| 女人一级毛片| 亚洲成人福利网站| 在线欧美a| 红杏AV在线无码| 激情国产精品一区| 国产乱视频网站| 亚洲天堂久久| 久久精品aⅴ无码中文字幕|