999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線學習的大規模網絡流量分類研究

2016-06-02 08:25:22易磊潘志松邱俊洋薛膠任會峰
智能系統學報 2016年3期

易磊,潘志松,邱俊洋,薛膠,任會峰

(中國人民解放軍理工大學 指揮信息系統學院,江蘇 南京 210007)

?

在線學習的大規模網絡流量分類研究

易磊,潘志松,邱俊洋,薛膠,任會峰

(中國人民解放軍理工大學 指揮信息系統學院,江蘇 南京 210007)

摘要:傳統的批處理機器學習方法在面對大規模網絡流量分類問題時存在分類器訓練速度慢、計算復雜度高的缺陷。近年來迅速發展的在線學習方法是解決大規模問題的有效途徑。本文針對高速骨干網上的大規模網絡流量分類問題,提出了一個基于在線學習的分類框架,并應用了8種在線學習算法。在真實數據集上的實驗表明,在分類精度相當的情況下,在線學習算法與支持向量機(SVM)相比空間開銷小、模型訓練時間顯著縮短。同時,為了考察網絡流量中樣本順序對分類效果的影響,本文對比了樣本按時序處理與隨機處理兩種方式的差異,驗證了網絡流量樣本存在著時序上的相關性。

關鍵詞:在線學習;大規模;網絡流量分類;時序相關性;數據流;隨機優化

網絡流量分類是指識別網絡中的各種應用與協議并對相關的網絡流量進行分類的過程。網路流量分類是現代網絡管理與安全系統中最基本的功能[1],在QOS服務質量控制、網絡應用趨勢分析、入侵檢測等方面具有重大的作用。近年來,基于網絡流量統計特征的機器學習分類方法受到了研究者的極大關注[2]。這類方法主要是利用網絡流量在傳輸層的統計特征,根據實驗或經驗提取相關的特征屬性再運用機器學習的方法進行分類。傳統的機器學習方法在網絡流量分類領域已有了應用,但依然存在如下問題:隨著日益擴大的網絡帶寬與互聯網用戶規模,各類網絡流量呈現出爆炸式的增長。現有的批處理方法在處理大規模網絡流量分類問題時,其分類準確率與模型訓練速率等通常難以取得平衡,模型訓練時間將隨著樣本數量的增大而急劇上升。如何解決大規模網絡流量分類問題已成為學者和業界人士面臨的重大挑戰。

在機器學習領域中,在線學習代表著一類利用一組有序的樣本建立預測模型的高效的、大規模的算法。在線學習算法按時序一次處理一個或者一小批樣本,處理過的樣本不再處理也不再保存,這使得在線學習方法計算迅速且高效,更適合樣本規模大且樣本按時序到達并動態變化的應用場景。有些研究者認為,在線學習能夠敏銳地捕捉到數據變化的趨勢,進而解決數據非同分布和實時學習問題[3]。

針對高速骨干網上的大規模網絡流量分類問題,本文將在線學習方法應用于網絡流量分類問題,主要貢獻有:

1)提出了一種基于在線學習的網絡流量分類框架,在分類精度相當的條件下,在線學習方法比傳統的支持向量機(SVM)方法有更好的分類效率;

2)對比了8種不同在線學習算法在網絡流量分類應用中的分類性能差異,為應用打下了基礎;

3)為了考察網絡流量中樣本順序對分類效果的影響,對比了樣本按時序處理與隨機處理兩種方式的差異,驗證了網絡流量樣本存在著時序上的相關性。

1相關研究

近年來,基于流量統計特征的機器學習分類方法受到了研究者的極大關注[2]。這類方法主要是利用網絡流量在傳輸層的統計特征,根據實驗或經驗提取相關的特征屬性再運用機器學習的方法進行分類。基于統計特征的機器學習網絡流量分類方法主要分為監督學習和無監督學習兩類。監督學習方面,Moore等[4]提出了一種使用樸素貝葉斯的分類方法,分類準確率能達到約65%。Auld等[5]使用了貝葉斯神經網絡的方法,并對特征集合進行了特征選擇,使得分類精度得到了提高,分類準確率達到了95%。此外,還有一系列監督學習方法運用到了網絡流量分類問題中:文獻[6-7]將支持向量機運用到了網絡流量分類問題;文獻[8-9]運用了決策樹理論。無監督學習方面,Zander等[10]提出了基于AutoClass的無監督網絡流量分類方法,是一種基于EM算法的無監督貝葉斯分類器。Erman等[11]使用了EM聚類方法來解決流量分類問題,與貝葉斯分類方法相比有更高的分類準確率。這些算法都屬于批處理的方法,在解決大規模網絡流量分類問題時,存在著分類器訓練慢、計算復雜度高的缺陷。

在線學習是一種解決大規模問題的有效手段。在線學習自提出以來,已應用于許多實際的應用場景中,例如垃圾郵件檢測、在線廣告推送、多媒體檢索和金融時間序列預測。研究者們提出了大量的在線學習算法并進行了理論性證明。Rosenblatt于1958年提出的感知機算法[12]是最為人熟知的在線學習算法。Crammer等[13]提出的Passive-Aggressive(PA)算法也是一種著名的在線學習算法。為了提高在線學習算法的效率,研究者們提出了一系列的二階在線學習算法[14]。與一階算法不同,二階算法通常假定權重向量服從一個高斯分布,并在每次迭代時嘗試更新高斯分布的均值與方差。Confidence-Weighted (CW)算法[15]是一種典型的二階算法。此外,還有許多基于CW算法的改進算法, Crammer等[16]提出了一種改進CW算法魯棒性的AROW算法,Wang等[17]提出了Soft Confidence-weighted(SCW)算法。

本文提出的在線學習網絡流量分類框架應用了8種在線學習算法。其中,一階算法有感知機算法、在線梯度下降算法(OGD)、Passive-Aggressive算法(PA)以及兩種基于PA的改進算法:PA-I、PA-II算法;二階算法則選用了3種:Confidence-Weighted (CW)算法,以及基于CW算法改進的2種Soft Confidence-weighted(SCW)算法:SCW-I、SCW-II算法。

2在線學習的網絡流量分類框架

2.1在線學習網絡流量分類框架

在線學習概念自提出以來發展出了一系列的算法,既能處理二分類問題又能處理多分類問題。為了驗證在線學習方法在網絡流量分類 問題中的有效性,本文將網絡流量分類簡化為一個二分類問題。下面將由在線學習二分類算法的一般流程出發,提出在線學習網絡流量分類框架。

(1)

(2)

在線學習不再區分訓練階段與測試階段,在接收到新樣本后對樣本類別進行預測同時按照需要更新模型,其模型始終處于一個動態變化的過程,具有良好的實時性,能夠跟蹤數據流的變化趨勢。在線學習需要在模型對樣本進行預測后,能夠即時獲取到樣本的真實類別。網絡流量樣本雖然是流式數據,但是樣本的真實類別無法實時獲取。為此,提出了一種按照在線學習方法訓練分類器的網絡流量分類框架,如圖1所示。訓練階段,該框架首先對實時網絡流量進行抽樣并通過特征提取與樣本標記產生訓練數據集,然后使用在線學習算法對分類模型進行訓練。特征提取可使用Moore[3]提出的248維網絡流統計特征,樣本標記可使用深度包檢測工具nDPI以及開源工具Tstat。測試階段,該框架使用訓練完成的模型對實時網絡流量進行分類。將模型分類結果與nDPI與Tstat等工具的結果對比,當偏差達到一定閾值時對模型進行重新訓練。

圖1 在線網絡流量分類框架Fig.1 Online traffic classification scheme

本框架在獲取到完整訓練集后離線訓練在線學習分類模型。在線學習方法在優化理論中被稱作增量算法。增量算法的主要思路是:當目標函數由一些子函數之和組成時,可以通過每次僅對一個子函數進行“首尾相接”依次傳遞式的梯度優化迭代而最終得到原問題的最優解。當按照隨機的方式挑選子函數而不是按照順序依次進行優化時,增量式方法可以稱為隨機優化方法[3]。在線學習與隨機優化有很緊密的關系,在很多情況下,兩者甚至等同使用[19]。在線和隨機優化形式上雖然只是抽取樣本方式上的區別,但研究表明,它們的收斂性存在著差異。另一方面,有研究者認為在線學習按順序選擇樣本的方式能敏銳捕捉到數據變化的趨勢。為了考察網絡流量中樣本順序對分類效果的影響,本文在SCW-I算法的基礎上將順序抽取樣本的方式改為隨機抽取的方式,實驗對比了兩者在網絡流量分類問題中的差異,兩種方法之間的效果差異表明了網絡流量樣本存在著時序上的相關性。

2.2在線學習二分類算法

為了檢驗本文提出的在線學習分類框架,我們選取了8種在線學習方法進行驗證。所有的在線學習算法均滿足表1所示的在線學習算法一般流程,但由于理論基礎不同,它們在損失函數、學習率、模型的更新條件以及方式有差異。

2.2.1一階算法

感知機算法感知機算法[12]于1958年提出,是最早最簡單的一階在線學習算法,其優化目標是:最小化學習到的分類器由當前樣本帶來的損失。感知機算法采用0-1損失作為損失函數,當損失大于0時,按照梯度下降的方式更新模型,其學習率恒為1。

PA算法 Passive-Aggressive算法[13]是一種比感知機算法和OGD算法更加復雜的一階在線學習算法,其優化目標是如下兩個目標的權衡:最小化學習到的分類器與之前的分類器的距離、最小化學習到的分類器由當前樣本帶來的損失。PA算法可以看作為如下的在線優化問題:

(3)

式中目標函數項為Passive項,表示最小化學習到的分類器與之前的分類器的距離,約束項為Aggressive項,表示學習到的分類器由當前樣本帶來的損失。PA算法的損失函數采用了hinge損失,模型的更新方式為梯度下降,學習率為1。此外,PA算法還能擴展成PA-I算法與PA-II算法,這兩種算法能更好地處理不可分或者有噪聲的數據。

PA-I算法可以看作如下優化問題:

(4)

PA-Ⅱ算法可以看作如式(5)形式:

(5)

2.2.2二階算法

(6)

式中:目標函數項表示最小化新舊分布權重的KL散度,約束項表示分類正確的概率大于某個閾值。

SCW算法針對CW算法的局限,Wang等[17]于2013年提出了Soft Confidence-weighted算法。首先引入一種新的損失函數:

(7)

(8)

原始的CW算法采取了一種非常激進的更新策略,即盡可能地改變分布以滿足當前樣本帶來的約束。盡管這種方式有非常迅速的學習速率,但是在處理標記錯誤的樣本時會導致分布的參數誤修改。這就使CW算法在應用于有大量噪聲的真實問題中時效果不理想。

SCW算法的提出克服CW算法的上述缺陷,具體的形式如下:

(9)

式中C是權衡passiveness與aggressiveness的參數。式(9)表示的是SCW-I算法。此外,若使用平方懲罰項,則變成了SCW-II算法:

(10)

一階算法方面,感知機算法優化目標是最小化學習到的分類器由當前樣本帶來的損失,損失函數采用0-1損失,以定步長的梯度下降的方式來更新模型;OGD算法與感知機算法優化目標一致,但采用了4種不同的損失函數,梯度下降迭代的步長隨迭代輪數增長而縮短;PA算法的優化目標是最小化學習到的分類器與之前的分類器的距離、最小化學習到的分類器由當前樣本帶來的損失。PA算法也使用了梯度下降來更新模型。PA-Ⅰ算法與PA-Ⅱ算法類似,均使用了一個參數C來調節兩個目標的權重,只是PA-Ⅱ算法使用了平方約束項。

二階算法則是假定權重向量服從高斯分布,每次迭代使用梯度下降嘗試更新均值與方差。CW算法的優化目標是最小化新舊分布權重的KL散度來更新,并確保分類正確的概率大于一個閾值。SCW算法在CW算法中引入了新的損失函數,并使用了參數C來調節兩個目標的權重。SCW-Ⅰ算法與SCW-Ⅱ算法區別在于PA-Ⅱ算法使用了平方約束項。

3網絡流量分類實驗

3.1實驗數據集

為了檢驗本文提出的在線學習分類框架的性能,本實驗采用了Moore等在文獻[3]中所使用的網絡流量數據集,每個樣本均是由一條完整的雙向TCP流提取248維流量統計特征而來,實驗中我們直接使用了完整的248維屬性作為樣本特征。該數據集采集了某網絡出口24 h內10個時間段的雙向流量數據,每個時間段的平均抽樣時間約為1 680 s。該數據集共包含10種類別的377 526個網絡流量樣本,每種類別包含的流量和所占比例如表1。

表1 Moore數據集樣本類別分布

由表1可以看出,數據集中各類數據數量分布極不平均,WWW流量占據了數據集中的很高的比例。樣本數量不平均問題對分類器的效果會有很大的影響,這是網絡流量分類問題中的一個難點。本文重點不在于此,因此我們將數據集的樣本分類簡化為兩類:一類為WWW流,另一類為其他應用。如表2所示,本次實驗所用實驗數據集分為兩組,一組是將10個子集獨立的作為實驗數據集,記為:Moore1~Moore10;另一組將10個子集按順序合成為一個數據集,記為:MooreSet。為了模擬網絡流量按序到達的特點,我們將數據集的前90%樣本為訓練集訓練分類模型,后10%為測試集來測試模型效果。每個數據集的樣本分布如表2所示。

表2 數據集樣本分布

3.2實驗環境

為了驗證本文提出的在線學習網絡分類框架的有效性,本文使用MATLAB 2015a用于數值計算,SVM的實現采用了Libsvm軟件包,在線學習算法的實現采用了的LIBOL算法庫[20]。實驗采用普通臺式電腦,操作系統為Windows 7 旗艦版,其中CPU為Intel i5處理器,內存4 GB。

3.3評價指標

網絡流量分類系統的評價指標主要有兩個方面:分類系統的效率與精度,效率意味著分類模型的訓練時間足夠短,消耗的存儲空間能夠被接受,精度意味著分類準確率較高,且漏報率與誤報率控制在一定范圍內。為了對比批處理方法與在線學習方法在網絡流量分類問題中的性能差異,參考了文獻[21]的做法,將在線學習算法與SVM算法進行對比,采用了模型訓練時間、分類精度和F-measure為評價指標。

對于在線學習,模型訓練過程中的支持向量數量也是一項重要的評價指標。支持向量是指在線學習模型訓練過程中產生損失,并導致模型發生更新的樣本。支持向量數量過少導致模型訓練比較粗糙,可能無法達到相應的精度;數量過多則會導致計算量增加,降低模型訓練的效率。因此,在對比不同在線學習方法的性能時,增加了模型訓練過程的支持向量數。在對比樣本按時序處理與隨機處理的訓練過程的差異時,還采用了模型訓練的累積錯誤率作為評價指標。

3.4實驗與分析

為了評估本文提出的在線學習網絡流量分類框架,本節設計了兩個實驗。實驗1側重于對比在線學習算法與SVM以及不同在線學習方法之間的性能差異。實驗2側重于考察網絡流量中樣本順序對分類效果的影響,對比樣本時序處理方式與隨機處理方式的性能差異。

3.4.1性能對比實驗

性能對比實驗在10個數據子集與1個完整的數據集上,分別運行SVM算法與8種在線學習算法,使用每個數據集的前90%的樣本作為訓練集訓練模型,使用后10%的樣本作為測試集模擬模型實時運行的性能。實驗結果及分析如下:

表3 模型訓練時間

表3列出了不同算法在不同數據集上的訓練時間,由表可以看出:在線學習算法與SVM算法的模型訓練時間存在相當大的差異,在線學習模型訓練速度要遠快于SVM算法,在樣本數量大時,兩者速度差別尤其明顯。在使用完整數據集時,在線學習算法模型訓練時間最多只需要18 s,而SVM算法則需要3 990 s,超過了1 h。另一方面,一階在線學習算法與二階在線學習算法在模型訓練速度上也存在差異,二階算法要比一階算法略慢,其中可能的原因會在后文分析。

表4列出了不同算法在不同數據集上的測試精度,對于每個數據集,用黑體標出了分類精度比SVM更差的在線算法;用星號標出了分類精度最好的算法。由表可以看出:在使用完整數據集時,SVM的分類精度比所有的在線學習算法都要好。但在使用10個子集進行實驗時,二階在線算法總體來說具有比SVM更好的分類效果,一階算法在數據樣本較少的前5個子集上的分類效果明顯要差于SVM算法,尤其是OGD算法與感知機算法的分類效果最差,感知機算法在Moore3數據集上分類精度僅有0.452。后文將會解釋OGD算法與感知機算法在數據樣本少的情況下,分類精度差的原因。

表4 測試精度

表5列出了不同算法在不同數據集上的F-measure,對于每個數據集,用黑體標出了F-measure比SVM更差的在線算法;用星號標出了F-measure最好的算法。從表5可以得出與表4一致的結論。表6列出了8種不同在線算法在不同數據集上訓練時的支持向量數。支持向量是指在線學習模型訓練過程中產生損失,并導致模型發生更新的樣本。支持向量越多表示模型更新次數越多,模型訓練越充分,相應的計算量也越大。反之,則計算量更少,模型訓練可能不夠。這里嘗試從支持向量數的角度解釋上文中發現的二階算法訓練時間比一階算法慢,但是效果比一階算法好的現象。二階算法的模型更加復雜,模型每次更新的計算量更大,由表6可以看出,二階算法的支持向量數比一階算法略多,這就導致了二階算法比一階算法模型訓練所需時間更長。感知機與OGD算法的支持向量數明顯要少于其他在線算法,這導致了模型沒有得到有效的訓練,達不到其他算法相當的分類精度。我們注意到感知機算法的支持向量數最少,這可能是其分類精度極不穩定甚至分類精度非常低的原因。

表5 F-measure

表6 支持向量數

通過性能對比實驗可以發現,在8種在線學習分類算法中,二階算法的分類效果普遍優于一階算法,與SVM分類效果相當;SCW-Ⅰ算法有著較好的分類精度與分類效率,具有良好的應用前景。

3.4.2時序相關性實驗

為了考察網絡流量中樣本順序對分類效果的影響,我們將訓練數據集中樣本的順序隨機打亂,再用在線學習算法去訓練模型。本實驗使用10個數據子集作為實驗數據集,將分類性能最好的SCW-I算法分別用樣本按時序處理與隨機處理的方式進行訓練,然后使用測試集進行測試。其中,隨機處理方式按照不同的隨機順序重復實驗20次,對實驗結果取平均。實驗還使用了模型訓練過程中的累積錯誤率作為評價指標。時序方式與隨機方式對比見表7。

表7 時序方式與隨機方式對比

表7對比了SCW-Ⅰ算法時序方式與隨機方式在不同數據集下的性能指標,用黑體標出了較好的指標。由表可以看出:在網絡流量分類問題中,時序方式比隨機方式有更低的訓練累積錯誤率、較好的測試精度與F-measure、更快的模型訓練時間。這表明網絡流量的樣本順序對分類效果有正面影響,因此可以認為網絡流量樣本存在著一種時間上的相關性,這種特性對分類效率的提高有積極意義。

為了說明此種相關性,在模型訓練過程中按照樣本數量間隔設置了15個采樣點,記錄了在線方式與隨機方式訓練過程中訓練錯誤率的變化趨勢。我們選取了第4、6、8、10個子集的一次實驗結果,繪制了模型訓練累積錯誤率的趨勢,如圖2所示。

(a)Moore4

(b)Moore6

(c)Moore8

(d)Moore10圖2 訓練累積錯誤率Fig.2 Training cumulative mistake rate

由圖2可以看出,模型訓練過程中,隨機方式與時序方式的累積錯誤率的變化趨勢有很大的不同。兩種方法不僅是收斂速度的差異,隨機方式的累積錯誤率的變化趨勢是一個緩慢下降的過程,而在線方式的變化趨勢卻是一個曲折上升的過程,且每個數據集的曲線都有各自的結構特點。

由此可以發現,網絡流量樣本中存在著一種時間上的相關性,對模型的分類效果有一定的正面影響。但這種特性還缺乏理論性的分析,同時如何運用這種特性還需要進一步研究。

4結束語

本文針對高速骨干網大規模網絡流量分類問題提出了一種基于在線學習的網絡流量分類框架,并將8種在線學習方法運用到網絡流量分類問題中。對比在線算法與批處理方法SVM的性能差異,實驗表明在分類精度相當的情況下,在線學習算法與SVM相比空間開銷小、模型訓練時間顯著縮短;對比不同在線學習方法的分類性能,實驗表明SCW-Ⅰ算法在8種在線學習算法中有最好的分類效果;對比樣本時序處理方式與隨機處理方式的差異,實驗表明網絡流量樣本中存在著一種時間序列上的相關性。

本文發現的網絡流量樣本的相關性只是通過實驗來驗證,缺乏理論分析,也沒有找到合適的利用方法。另一方面,本文僅使用了二分類在線算法在實驗數據集上進行驗證,如何把算法擴展到多分類并實際應用于大規模網絡環境是下一步工作的重點。

參考文獻:

[1]ZHANG Jun, CHEN Xiao, XIANG Yang, et al. Robust network traffic classification[J]. IEEE/ACM transactions on networking, 2015, 23(4): 1257-1270.

[2]NGUYEN T T T, ARMITAGE G. A survey of techniques for internet traffic classification using machine learning[J]. IEEE communications surveys & tutorials, 2008, 10(4): 56-76.

[3]陶卿, 高乾坤, 姜紀遠, 等. 稀疏學習優化問題的求解綜述[J]. 軟件學報, 2013, 24(11): 2498-2507.

TAO Qing, GAO Qiankun, JIANG Jiyuan, et al. Survey of solving the optimization problems for sparse learning[J]. Journal of software, 2013, 24(11): 2498-2507.

[4]MOORE A W, ZUEV D. Internet traffic classification using bayesian analysis techniques[J]. ACM sigmetrics performance evaluation review, 2005, 33(1): 50-60.

[5]AULD T, MOORE A W, GULL S F. Bayesian neural networks for internet traffic classification[J]. IEEE transactions on neural networks, 2007, 18(1): 223-239.

[6]ESTE A, GRINGOLI F, SALGARELLI L. Support vector machines for TCP traffic classification[J]. Computer networks, 2009, 53(14): 2476-2490.

[7]SCHATZMANN D, MüHLBAUER W, SPYROPOULOS T, et al. Digging into HTTPS: flow-based classification of webmail traffic[C]//Proceedings of the 10th ACM SIGCOMM conference on internet measurement. New York, NY, USA, 2010: 322-327.

[8]WANG Yu, YU Shunzheng. Supervised learning real-time traffic classifiers[J]. Journal of networks, 2009, 4(7): 622-629.

[9]NGUYEN T T T, ARMITAGE G, BRANCH P, et al. Timely and continuous machine-learning-based classification for interactive IP traffic[J]. IEEE/ACM transactions on networking, 2012, 20(6): 1880-1894.

[10]ZANDER S, NGUYEN T, ARMITAGE G. Automated traffic classification and application identification using machine learning[C]//Proceedings of the IEEE conference on local computer networks 30th anniversary. Sydney, NSW, Australia, 2005: 250-257.

[11]ERMAN J, ARLITT M, MAHANTI A. Traffic classification using clustering algorithms[C]//Proceedings of the 2006 SIGCOMM workshop on mining network data. New York, NY, USA, 2006: 281-286.

[12]ROSENBLATT F. The perception: a probabilistic model for information storage and organization in the brain[J]. Psychological review, 1958, 65(6): 386-408.

[13]CRAMMER K, DEKEL O, KESHET J, et al. Online passive-aggressive algorithms[J]. Journal of machine learning research, 2006, 7(3): 551-585.

[14]CESA-BIANCHI N, CONCONI A, GENTILE C. A second-order perceptron algorithm[J]. SIAM journal on computing, 2005, 34(3): 640-668.

[15]CRAMMER K, DREDZE M, PEREIRA F. Exact convex confidence-weighted learning[C]//Advances in neural information processing systems 21. Mountain View, CA, USA, 2008: 345-352.

[16]CRAMMER K, KULESZA A, DREDZE M. Adaptive regularization of weight vectors[J]. Machine learning, 2013, 91(2): 155-187.

[17]WANG Jialei, ZHAO Peilin, HOI S C H. Exact soft confidence-weighted learning[C]//Proceedings of the 29th international conference on machine learning. Edinburgh, Scotland, UK, 2012.

[18]ZINKEVICH M. Online convex programming and generalized infinitesimal gradient ascent[C]//Proceedings of the international conference on machine learning. Washington, DC, USA, 2003: 928-936.

[19]CESA-BIANCHI N, CONCONI A, GENTILE C. On the generalization ability of on-line learning algorithms[J]. IEEE transactions on information theory, 2004, 50(9): 2050-2057.

[20]HOI S C H, WANG Jialei, ZHAO Peilin. LIBOL: a library for online learning algorithms[J]. Journal of machine learning research, 2014, 15(1): 495-499.

[21]LU Jing, HOI S C H, WANG Jialei, et al. Large scale online kernel learning[J]. Journal of machine learning research, 2014, 1: 1-48.

易磊,男,1991年生,碩士研究生,主要研究方向為機器學習及其在大規模網絡流量分類中的應用。

潘志松,男,1973年生,教授,博士生導師,江蘇省計算機學會模式識別與人工智能專委會委員,主要研究方向為模式識別、機器學習、網絡安全。主持國家科研項目多項,發表學術論文30余篇。

邱俊洋,男,1989年生,博士研究生,主要研究方向為機器學習及其在大規模網絡數據流異常檢測中的應用,發表學術論文2篇。

中文引用格式:易磊,潘志松,邱俊洋,等.在線學習的大規模網絡流量分類研究[J]. 智能系統學報, 2016, 11(2): 318-327.

英文引用格式:YI Lei, PAN Zhisong, QIU Junyang, et al. Large-scale network traffic classification based on online learning [J]. CAAI transactions on intelligent systems, 2016,11(3): 318-327.

Large-scale network traffic classification based on online learning

YI Lei, PAN Zhisong, QIU Junyang, XUE Jiao, REN Huifeng

(Institute of Command Information System, PLA University of Science and Technology,Nanjing 210007, China)

Abstract:Facing the challenges of large-scale network traffic classification problem, traditional batch machine learning algorithms suffer from slow training process and high computational complexity. In recent years, the rapid developing online learning technology is an effective way to solve large-scale problems. To address the issue of large-scale network traffic classification problem on a high-speed backbone network, we proposed a traffic classification scheme based on online learning and applied eight online learning algorithms. Experiments on real network traffic data sets showed that in the classification accuracy similar situation, online learning algorithm has less space overhead and training time than the support vector machine. Meanwhile, to examine the impact of the order of network traffic samples on the classification results, this paper compared the difference between the two ways of processing samples, sequentially and random, we verified that the presence of timing correlation in network traffic samples by comparing online learning and stochastic optimization.

Keywords:online learning; large-scale; traffic classification; timing correlation; data stream; stochastic optimization

作者簡介:

中圖分類號:TP181

文獻標志碼:A

文章編號:1673-4785(2016)03-0318-10

通信作者:易磊.E-mail:yileinjut@163.com.

基金項目:國家自然科學基金項目(61473149).

收稿日期:2016-03-18.網絡出版日期:2016-05-13.

DOI:10.3969/j.issn.1673-4785.201603033

網絡出版地址:http://www.cnki.net/kcms/detail/23.1538.tp.20150930.1557.028.html

主站蜘蛛池模板: 在线精品亚洲一区二区古装| 国产导航在线| 国产网友愉拍精品| 成人在线第一页| 欧美午夜网站| 国产在线观看91精品亚瑟| 夜夜高潮夜夜爽国产伦精品| 国产精品网址在线观看你懂的| 美女一级免费毛片| 香蕉蕉亚亚洲aav综合| vvvv98国产成人综合青青| 久久亚洲日本不卡一区二区| 午夜无码一区二区三区在线app| 91精品久久久无码中文字幕vr| 欧美激情二区三区| 亚洲最大看欧美片网站地址| 欧美天天干| 色综合色国产热无码一| 美女无遮挡免费网站| 激情综合五月网| 欧美亚洲国产日韩电影在线| 亚洲欧美自拍视频| 国产人人射| 91麻豆精品国产高清在线 | 亚洲视频影院| 亚洲天堂网站在线| 欧美成人精品一级在线观看| 成人亚洲视频| 亚洲侵犯无码网址在线观看| 亚洲国产成人无码AV在线影院L| 五月婷婷激情四射| 就去吻亚洲精品国产欧美| 日韩少妇激情一区二区| 国产精品亚欧美一区二区三区| 免费看av在线网站网址| 91视频国产高清| 亚洲一区毛片| 欧美视频在线播放观看免费福利资源| 人人妻人人澡人人爽欧美一区 | 国产午夜在线观看视频| 亚洲欧洲天堂色AV| 欧美区在线播放| 国产一区二区三区在线观看免费| 人妻免费无码不卡视频| 亚洲天堂视频在线观看| 国产区在线看| 亚洲最大福利视频网| 午夜丁香婷婷| 亚洲国产天堂久久综合226114| 国产一级二级三级毛片| 久久精品国产精品一区二区| 国产成人凹凸视频在线| 69视频国产| 欧美精品二区| 国产一区二区精品高清在线观看| 亚洲男人天堂久久| 国产欧美视频综合二区| 精品国产毛片| 毛片免费高清免费| 久久综合AV免费观看| 波多野结衣中文字幕一区二区| 国产成人无码AV在线播放动漫 | 91视频国产高清| 亚洲中文字幕久久无码精品A| 91欧洲国产日韩在线人成| 精品在线免费播放| 欧美日韩另类国产| 久久semm亚洲国产| 大学生久久香蕉国产线观看| 四虎在线观看视频高清无码| 亚洲香蕉在线| 国产午夜精品一区二区三| 国产91高清视频| 国产99精品久久| 亚洲成人一区二区| 成年av福利永久免费观看| 色综合天天综合| 高清乱码精品福利在线视频| 色一情一乱一伦一区二区三区小说 | 谁有在线观看日韩亚洲最新视频| 亚洲v日韩v欧美在线观看| 国产精品丝袜在线|