999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于過抽樣技術的P2P流量識別方法*

2014-03-12 05:17:20錢亞冠
電信科學 2014年4期
關鍵詞:分類方法模型

錢亞冠,張 旻

(1.浙江科技學院理學院 杭州 310023;2.杭州電子科技大學計算機學院 杭州 310018)

1 引言

近年來,P2P技術已被廣泛應用于文件共享、視頻內容分發、即時通信等網絡應用領域。自2004年以來,P2P流量在整個互聯網流量中逐漸占據主導地位(60%以上)[1,2]。P2P流量的快速增長給網絡帶寬帶來了巨大壓力,其近乎對稱的流量模式更加劇了網絡的擁塞。同時,基于P2P技術的惡意流量也開始肆虐互聯網,造成帶寬的過度消耗,甚至導致拒絕服務[3]。因此,如何快速正確地識別P2P流量已經成為當前網絡管理者面臨的巨大挑戰。

互聯網流量的識別技術經歷了最初的基于TCP端口、深度分組檢測(deep packet inspection,DPI)到目前興起的機器學習方法和基于網絡行為的識別等技術[4]。有的P2P應用為了躲避檢測,開始采用動態端口、數據分組加密等技術手段,使得基于TCP端口與DPI的方法效率越來越低。而基于統計學的機器學習方法卻可以克服上述不足,因而它逐漸顯示出在P2P流量分類中的優勢[5]。

傳統的機器學習方法通常假設目標類是均勻分布的,而實際的互聯網流量中的各種應用的分布是不均勻的。尤其是P2P這樣的大象流(elephant traffic),它們按字節數統計在流量上占很大比例,對網絡性能的影響很大,但從數據流(flow)角度統計卻占很少比例[6]。目前基于機器學習的流量分類方法通常基于數據流的統計信息,因此占數據流比例很小的P2P流量往往難以識別,分類器傾向于將P2P數據流識別為如WWW這樣的多數類。這種目標類比例嚴重失衡而導致少數類識別誤差增大的問題通常稱為類不平衡(class imbalance)問題,是目前P2P流量難以識別的一個重要原因。

網絡流量中的眾多應用比例極不均衡,流量分類問題面臨的是多類不平衡問題[7]。而P2P應用本身在數據流中所占比重很小,又受到其他應用目標類的干擾,本文提出將P2P識別中的多類不平衡問題轉化為兩類不平衡問題的思路,并通過過抽樣(over-sampling)方法增加P2P流量的比重,消除分類器在學習過程中的偏倚,提高P2P的識別率。本文提出改進的迭代SMOTE(i-SMOTE)過抽樣方法來提高Na觙ve Bayes算法的識別率,實驗結果證明本文提出的識別框架具有良好的識別性能。

2 類不平衡問題與SMOTE過抽樣方法

目前基于機器學習的流量分類方法大多利用數據流層面的統計信息。因此像P2P這類應用,盡管在字節流上占很大比重,在數據流層面卻占很小的比例,與WWW應用相比存在嚴重的不平衡性。這種不平衡性將導致P2P很高的誤分類率。傳統的機器學習分類算法旨在最小化全局分類誤差,并假設假正例與假負例的錯誤代價是相等的,因此偏向于把少數類預測到多數類上,如將P2P預測為WWW。而實際網絡管理過程中,可能對于識別類似P2P這樣的少數類更有價值,因此需要有提高P2P識別率的有效方法。為了克服上述類不平衡問題,機器學習界提出重抽樣技術來平衡目標類的分布,即對多數類(majority class)進行欠抽樣 (under-sampling),對少數類(minority class)進行過抽樣(over-sampling)。

傳統的欠抽樣與過抽樣技術都具有自身的不足:對多數類欠抽樣會導致一些信息的丟失,而對少數類的簡單重復抽樣在早期的研究中就已發現對于提高分類性能并無太大的幫助[8]。因此,Chawla N V等[9]提出了新的過抽樣技術SMOTE算法,其基本思想是通過人工合成新的少數類樣本來減輕類別的不平衡,解決傳統過抽樣技術因決策域變小而引起的過擬合現象。SMOTE算法的基本原理是在相距較近的少數類樣本之間進行線性插值,從而生成新的少數類樣本。首先根據過抽樣倍率N,從每個少數類樣本k(默認取5)個同類最近鄰中隨機選擇N個樣本;接著將每個少數類分別與它的N個選中的樣本按式(1)合成N個新的少數類樣本,并加入到原訓練樣本集中,形成新的訓練樣本集。

其中,i=1,2,…,N;rand表示0~1的一個隨機數;NewSample表示合成的新樣本;x表示少數類樣本;y[i]表示x的第i個近鄰樣本。

3 P2P流量識別方法

整個P2P流量的分類識別方法框架如圖1所示。

圖1 P2P流量的分類識別方法框架

步驟1 將訓練數據進行兩分類標注,即標注所有的P2P數據流后,將其他應用的數據流均標注為非P2P(non-P2P)。這樣就可將多標簽分類問題歸約到相對簡單的二分類問題求解。

步驟2 采用i-SMOTE算法,獲得更大的P2P數據流樣本。原始的SMOTE算法只是在原有的少數類樣本的基礎上進行線性插值獲得新的樣本,但最新研究表明P2P這樣的流量少數類具有明顯的概念漂移現象[10],少量的原始樣本不能完全表達P2P的概念。因此,采用多次迭代SMOTE算法的方法,在前一次迭代獲得的樣本集合上再進行插值運算,使得SMOTE算法的輸入樣本逐漸豐富,以便獲得更完整的P2P概念表達。通過i-SMOTE算法,獲得足夠的P2P樣本數,在此基礎上進行步驟 3。

步驟3 特征提取,去除冗余特征,獲得維度較低的特征空間。具體的特征提取算法可以采用基于相關性的方法[11]等。

步驟4 訓練分類器,建立預測P2P流量的模型。目前已有很多機器學習的分類模型被嘗試用于流量分類,如Na觙ve Bayes[14]、決策樹[13]、支持向量機[14]、神經網絡[15]等。這些模型被應用于流量分類,具有各自的優缺點。如Na觙ve Bayes具有模型簡單、訓練時間短的優點,但缺點是對于少數類的識別率低;而支持向量機與神經網絡的識別率比較高,但模型復雜、訓練與分類時間過長。本文考慮到實際環境中對P2P流量識別的實時性要求,認為選擇簡單的模型更有利于快速獲得預測結果,因此選擇Na觙ve Bayes模型作為評估模型。通過實驗比較分析得出,當i-SMOTE方法獲得足夠的 P2P樣本數時,Na觙ve Bayes模型可以對 P2P獲得很高的識別率。i-SMOTE算法過程如下。

4 實驗評估策略

本文提出通過i-SMOTE過抽樣的方法來提高P2P流量的識別率。利用最簡單的Na觙ve Bayes模型比較分析SMOTE算法和i-SMOTE算法過抽樣效果:隨著P2P樣本數的逐漸增加,考察它們對識別率的影響。選擇最簡單的Na觙ve Bayes模型的原因是:在未進行過抽樣的情況下,它的識別率非常低。如果過抽樣技術能提高這類簡單模型的識別效果,則可以證明過抽樣技術對于P2P識別的有效性。

評估指標采用召回率(recall)與精度(precision)這兩個指標:recall=TP/P,precision=TP/(TP+FP)。其中,P 為測試集中事先標識為P2P的樣本數,TP為分類器正確預測為P2P的樣本數,TP為被分類器錯誤地將non-P2P流量預測為P2P的樣本數。

4.1 實驗數據集合

本文采用的數據集1為劍橋大學Moore等提供的公開流量數據集[16]。該數據集通過連續采集24 h的流量數據,并隨機抽取10個約28 min的數據塊,在這些數據塊上構建出數據流,構成10個數據子集Data1,Data2,…,Data10。筆者在10個數據子集上進行的實驗結果非常相似,因此只列出了Data1的實驗結果。原始Data1中共有12種流量類型,如WWW、E-mail、FTP等,將它們均表示為non-P2P數據流,共計24524條,P2P數據流共計339條,占總數的1.36%。

數據集2是從校園網中心的某臺交換機上通過端口映射方法獲得的流量數據,該交換機匯聚了某幢男生宿舍訪問外網的所有網絡流量。經過連續1 h(晚上 21∶30-22∶30)的連續數據采集,共計獲得325538條數據流,其中P2P數據流有18632條,占總數的5.72%。為保護隱私的需要,只截取數據分組的分組頭部分,并通過Tcpdpriv工具對IP地址進行了匿名化處理。

4.2 Na觙ve Bayes 模型評估

Moore等[12]早在2004年就已深入分析和應用Na觙ve Bayes模型到互聯網流量分類中。通過選擇合理的流量特征和核估計方法,Na觙ve Bayes模型在全局正確率(accuracy)上達到96.29%。但他們的工作只是提高了整體的正確率,并沒有解決類不平衡的問題,因而對于像P2P這樣的少數類的識別率提升有限。Na觙ve Bayes模型具有簡單、計算效率高的特點,與其他復雜模型相比更具有實際應用價值,因此首選它作為評估過抽樣技術的效果。

對數據集1、數據集2的原始P2P數據采用如下過抽樣倍率:N=100%、300%、700%、1500%、3100%,應用 SMOTE算法過抽樣獲得新的P2P樣本集,抽樣結果分別見表1、表2。為了便于比較,提出的i-SMOTE算法每次迭代采用固定倍率N=100%,這樣獲得的P2P樣本數可與前述SMOTE算法保持一致。另外,通過傳統的隨機過抽樣方法產生一個同比例規模的數據集作為比較基準。

表1 過抽樣數據集1獲得的結果(樣本數/所占比例)

表2 過抽樣數據集2獲得的結果(樣本數/所占比例)

采用10折交叉驗證的方法對不同P2P樣本數下 (見表1、表2)的識別率進行評估。特征選擇采用FCBF算法[17]。圖2給出了隨機抽樣、SMOTE算法與i-SMOTE算法同比例擴大P2P的樣本數的情況下召回率的對比。可以明顯發現P2P樣本數從開始的339條數據流增加到2712條數據流時,即P2P比例從1.36%增加到9.96%時,Na觙ve Bayes模型在i-SMOTE數據集上獲得的P2P召回率明顯高于SMOTE數據集與隨機過抽樣數據集,前者為81.6%,后者分別為31.2%與21.8%。同樣,當P2P樣本數增加至5424條,比例增加到18.11%時,i-SMOTE數據集上的召回率達到98.5%,而SMOTE數據集與隨機過抽樣數據集分別只有78.5%與38.2%。最后當P2P的數量比例達到30.67%時,SMOTE數據集與i-SMOTE數據集上的召回率均在97%以上,而隨機過抽樣數據集僅為47.9%。從上述過程可以看出,i-SMOTE算法與SMOTE算法及隨機過抽樣相比,可以更快速地提高召回率。同樣,可以看到三者在精度上的區別 (如圖3所示)。隨著P2P樣本數的增加,3種過抽樣方法獲得的數據集在P2P識別精度上都得到了提升,但當P2P樣本比例到達30.67%時,i-SMOTE數據集上的精度達到了99.1%,而SMOTE數據集上的精度卻從94.7%跌至53.6%,甚至低于隨機過抽樣。圖4、圖5給出了數據集2的10折交叉驗證的結果,與數據集1的驗證結果相似。從圖2~圖5的比較分析中可以得出以下兩個結論。

·通過對P2P樣本的過抽樣,與原始數據相比不論召回率還是精度都可得到提高。

·SMOTE算法可以使召回率與精度兩者同時提高到90%以上,而SMOTE算法在召回率增長到一定程度時,精度會出現下降。精度的下降意味著non-P2P樣本被錯誤地預測為P2P的比例增加,即假陽性率增加。傳統的隨機過抽樣方法盡管有所提高,但提高程度有限。

因此,綜合召回率與精度這兩個評價指標,i-SMOTE算法比SMOTE算法及隨機過抽樣技術更為有效。

圖2 數據集1不同規模的P2P樣本數的召回率

圖3 數據集1不同規模的P2P樣本數的精度

圖4 數據集2不同規模的P2P樣本數的召回率

圖5 數據集2不同規模的P2P樣本數的精度

5 結束語

本文通過過抽樣技術提高對P2P流量的識別率。提出基于迭代的SMOTE算法可以比原始的SMOTE算法及傳統的隨機過抽樣方法具有更好的表達P2P概念的能力。實驗結果表明本文提出的基于過抽樣的方法可以有效地提高 Na觙ve Bayes模型對于 P2P 的識別率。Na觙ve Bayes模型由于其簡單性,在流量分類中不及SVM、神經網絡等復雜模型的正確率高,通常為研究人員所忽視。但正是Na觙ve Bayes模型的簡單性,使得它具有很好的算法效率,容易被應用到實際工作環境。機器學習方法的分類正確率不僅僅取決于分類模型,與數據預處理的質量也有重要關系。本文正是通過改善數據質量的思路,使得i-SMOTE方法與簡單的Na觙ve Bayes模型相結合實現對P2P的高精度識別。

1 Mochalski K,Schulze H.Ipoque internet study 2008/2009.http://www.ipoque.com/resources/internet-studies/internet-study-2008_2009,2009

2 MacManus R.Trend watch:P2P traffic much bigger than Web traffic.http://www.readwriteweb.com/archives/p2p_growth_trend_watch.php,2006

3 Sun X,Torres R,Rao S.Preventing DDoS attacks on internet servers exploiting P2P systems.Computer Networks,2010,54(15):2756~2774

4 Dainotti A,Pescapè A,Claffy K C.Issues and future directions in traffic classification.Network,IEEE,2012,26(1):35~40

5 Gong S F,Chen J.A P2P traffic detection method based on support vector machine.Applied Mechanics and Materials,2012,198:1280~1285

6 Erman J,Mahanti A,Arlitt M.Byte me:a case for byte accuracy in traffic classification.Proceedings of the 3rd Annual ACM Workshop on Mining Network Data,San Diego,California,USA,2007:35~38

7 Liu Q,Liu Z.A comparison of improving multi-class imbalance for internet traffic classification.Information Systems Frontiers,2012(7):1~13

8 Ling C,Li C.Data mining for direct marketing problems and solutions.Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining(KDD-98),New York,NY,1998

9 Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique.Journal of Artificial Intelligence Research,2002(16)

10 Wang R Y,Zhang L,Liu Z.Classifying imbalanced internet traffic based PCDD:a per concept drift detection method.Smart Computing Review,2013(2)

11 Hall M A.Correlation-based Feature Selection for Machine Learning.The University of Waikato,1999

12 Moore A W,Zuev D.Internet traffic classification using bayesian analysis techniques.ACM SIGMETRICS Performance Evaluation Review,2005,33(1):50~60

13 Xu P,Lin S.Internet traffic classification using C4.5 decision tree.Journal of Software,2009,20(10):2692~2704

14 Yuan R,Li Z,Guan X,et al.An SVM-based machine learning method for accurate internet traffic classification.Information Systems Frontiers,2010,12(2):149~156

15 Sun R,Yang B,Peng L,et al.Traffic classification using probabilistic neural networks. Proceedings of Natural Computation (ICNC),2010 Sixth International Conference on IEEE,Valencia,Spain,2010

16 Moore A W.Dataset.http://www.cl.cam.ac.uk/research/srg/netos/nprobe/data/papers/sigmetrics/

17 Yu L,Liu H.Feature selection for high-dimensional data:a fast correlation-based filter solution.Proceedings of the Twentieth International Conference on Machine Learning (ICML 2003),Piscataway,NJ,USA,2003

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产人人乐人人爱| 精品91视频| 东京热av无码电影一区二区| 久久福利网| 欧美一级在线播放| 国产小视频免费观看| 日韩大片免费观看视频播放| 伊人久久婷婷五月综合97色| 国产91麻豆免费观看| 91久久大香线蕉| 久久99久久无码毛片一区二区| 伊人福利视频| 亚洲第一精品福利| 永久免费精品视频| AV无码一区二区三区四区| 99青青青精品视频在线| 成人在线不卡| 久久免费观看视频| Jizz国产色系免费| 91久久国产综合精品女同我| 日韩精品一区二区深田咏美| 久久九九热视频| 日韩午夜片| 免费国产高清视频| 日本免费新一区视频| 亚洲香蕉在线| 91啪在线| 亚国产欧美在线人成| 亚洲国产精品日韩欧美一区| 精品国产免费观看| 宅男噜噜噜66国产在线观看| 国产毛片高清一级国语| av在线人妻熟妇| 国产黑丝一区| 成人福利在线免费观看| 国产精品微拍| 国产成人a毛片在线| 91成人免费观看| 91亚洲影院| 国产www网站| 免费精品一区二区h| 亚洲无码视频一区二区三区| 亚洲精品欧美重口| 精品中文字幕一区在线| 亚洲精品亚洲人成在线| 最新国产精品第1页| 亚洲天堂日韩在线| 日本人又色又爽的视频| 亚洲91在线精品| 在线欧美日韩| 欧美国产另类| 欧美中文字幕第一页线路一| 精品国产一区二区三区在线观看 | 日本91视频| 亚洲国内精品自在自线官| 国产精品v欧美| 国产人碰人摸人爱免费视频| 亚洲精品无码抽插日韩| 91原创视频在线| 久久综合色天堂av| 亚洲天堂.com| 国产资源站| а∨天堂一区中文字幕| 国产人人射| 亚洲v日韩v欧美在线观看| 精品综合久久久久久97超人该 | 国产91熟女高潮一区二区| 国产精品香蕉| 亚洲三级视频在线观看| 99精品热视频这里只有精品7 | 欧美日韩免费在线视频| 8090成人午夜精品| 免费人欧美成又黄又爽的视频| 久久精品视频亚洲| 欧美中文字幕在线二区| 色妞永久免费视频| 91麻豆精品国产91久久久久| 成人综合在线观看| 中文字幕无码av专区久久| 日韩123欧美字幕| 国产亚洲精品va在线| 亚洲男女在线|