999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種使用DBSCAN聚類的網(wǎng)絡(luò)流量分類方法

2009-12-31 00:00:00何震凱陽愛民劉永定

摘 要:提出了基于DBSCAN算法的網(wǎng)絡(luò)流量分類方法,對(duì)流的定義、特征產(chǎn)生、特征選擇以及分類規(guī)則和分類性能的評(píng)測等內(nèi)容進(jìn)行了介紹。提出了基于PCA的網(wǎng)絡(luò)流量最優(yōu)特征子集的選擇方法。實(shí)驗(yàn)結(jié)果表明,提出的分類方法能夠達(dá)到較高的總精確度和查準(zhǔn)率,能夠有效地使用于網(wǎng)絡(luò)流量分類中。

關(guān)鍵詞:網(wǎng)絡(luò)流量分類; 主成分分析; 特征選擇; DBSCAN聚類

中圖分類號(hào):TP18; TP393文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2009)09-3461-04

doi:10.3969/j.issn.1001-3695.2009.09.073

Method of network traffic classification using DBSCAN clustering

HE Zhen-kai1, YANG Ai-min1,2, LIU Yong-ding1, QIU Mi1

(1. College of Computation Communication, Hunan Industry University, Zhuzhou Hunan 412008, China;2. School of Informatics, Guangdong University of Foreign Studies, Guangzhou 510006, China)

Abstract:This paper presented a network traffic classification method based on DBSCAN algorithm, and introduced the definition of flow, the feature generated, the feature selection as well as the rule of classification and the performance evaluation of classification. Furthermore, employed the principle component analysis (PCA) approach to extract the optimization attribute set from the original network traffic data. The experiment results show that the method of presented can achieve higher overall accuracy and precision, and to effective use in network traffic classification.

Key words:network traffic classification; principle component analysis; feature selection; DBSCAN clustering

近年來,隨著Internet網(wǎng)絡(luò)技術(shù)的發(fā)展,很多新的網(wǎng)絡(luò)服務(wù)(如P2P、在線游戲)采用動(dòng)態(tài)端口、協(xié)議加密以及其他技術(shù),使傳統(tǒng)的基于端口的和基于有效載荷的網(wǎng)絡(luò)流量分類方法已不能保證進(jìn)行正確的識(shí)別和分類。國內(nèi)外一些學(xué)者開始使用機(jī)器學(xué)習(xí)的方法[1]來進(jìn)行網(wǎng)絡(luò)流量分類的研究。這些研究方法大多數(shù)是在flow-level的層次上展開的,認(rèn)為不同的應(yīng)用具有不同的傳輸數(shù)據(jù)的模式,因此根據(jù)這些模式可以對(duì)流量進(jìn)行分類。這些方法的特點(diǎn)是抽取與協(xié)議和端口無關(guān)的統(tǒng)計(jì)特性(如報(bào)文長度、持續(xù)時(shí)間等),形成特征向量,用特征向量表示流,以流的應(yīng)用類型(如Web、FTP、DSN等)作為流的類別,然后用機(jī)器學(xué)習(xí)方法構(gòu)造分類器,對(duì)網(wǎng)絡(luò)流量進(jìn)行分類。McGregor等人[2]使用傳輸層屬性對(duì)網(wǎng)絡(luò)流量進(jìn)行了聚類分析,但哪些屬性能夠得到最好的聚類結(jié)果,沒有進(jìn)行分析。Moore等人[3] 采用監(jiān)督的naive Bayes分類方法進(jìn)行流量分類與應(yīng)用識(shí)別,首先將網(wǎng)絡(luò)流量數(shù)據(jù)手動(dòng)分類,確定了流量的具體應(yīng)用類型,并將流量數(shù)據(jù)分成訓(xùn)練集和測試集。利用naive Bayes方法進(jìn)行分類,平均分類準(zhǔn)確率超過了83%。Roughan等人[4]采用最近鄰和線性判別分析的方法,僅使用連接持續(xù)時(shí)間和包的平均大小作為流量分類的特征,采用Bayes的方法進(jìn)行分類。然而只采用兩個(gè)屬性的統(tǒng)計(jì)信息并不能區(qū)分所有的應(yīng)用類別,因此獲得的準(zhǔn)確度很低。Zander等人[5]采用了Autoclass的方法,并通過特征選取技術(shù)SFS(sequential forward search)來選取較優(yōu)的流屬性集,評(píng)價(jià)了不同的特征集對(duì)結(jié)果的影響。為了驗(yàn)證其方法的有效性,使用從不同的網(wǎng)絡(luò)位置收集的網(wǎng)絡(luò)數(shù)據(jù)來進(jìn)行測試,得到了較好的分類結(jié)果。Erman等人[6]采用無監(jiān)督的EM(expectation maximization)方法,識(shí)別不同應(yīng)用的網(wǎng)絡(luò)流量,使用total number packets、mean packet size、mean data packet size、flow duration和mean inter-arrival time of packets這五個(gè)流量統(tǒng)計(jì)特征來標(biāo)志每個(gè)連接。通過與Bayes的分類方法進(jìn)行比較,獲得了更為準(zhǔn)確的分類結(jié)果。但該方法的缺點(diǎn)是訓(xùn)練時(shí)間較長。

本文采用基于密度的聚類算法(density-based spatial clustering of application with noise, DBSCAN)。這種算法將僅使用傳輸層的統(tǒng)計(jì)特性(如雙向報(bào)文到達(dá)時(shí)間、雙向報(bào)文長度等),對(duì)包含了P2P(如BitTorrent等)和非P2P(如Web、FTP、DNS等)的網(wǎng)絡(luò)流量進(jìn)行分類。該方法具有能形成任意形狀的簇、自動(dòng)標(biāo)記噪聲等特點(diǎn)。

1 網(wǎng)絡(luò)流的定義及特征產(chǎn)生

1.1 網(wǎng)絡(luò)流的定義及表示

本文以網(wǎng)絡(luò)流為研究對(duì)象,將流定義如下:在基于TCP/IP協(xié)議的互聯(lián)網(wǎng)中,按照?qǐng)?bào)文(packet)的五元組(tuple),即源IP地址、源端口號(hào)、目標(biāo)IP地址、目標(biāo)端口號(hào)和IP協(xié)議,將報(bào)文分成雙向TCP或UDP流(flow)。規(guī)定流與流之間的空閑時(shí)間(idle timeout)為60 s,超過60 s被認(rèn)為是不同的流。

按照上述流的定義,本文將流及相關(guān)信息表示如下:F={F1,…,F(xiàn)i,…,F(xiàn)N}(i=1,2,…,N)表示樣本流集合,F(xiàn)i表示第i條流。其中Fi={fi1,…,fij,…, fiM}(j=1,2,…,M), Fij表示ith流的jth的屬性值。上述表示中,N是樣本流的數(shù)目,M是流的屬性數(shù)目。在本文的研究中,流看成是一個(gè)M維向量。在網(wǎng)絡(luò)流量分類中,流的屬性由流的統(tǒng)計(jì)特性,如持續(xù)時(shí)間、雙向字節(jié)傳輸數(shù)、數(shù)據(jù)包的總數(shù)等信息產(chǎn)生。設(shè)L={L1,…, Lp,…, LP}為流的應(yīng)用類型的標(biāo)簽集合。其中P表示是應(yīng)用類型的數(shù)量,P的取值代表不同的應(yīng)用類型。

1.2 特征產(chǎn)生及選擇方法

1.2.1 候選特征的產(chǎn)生

根據(jù)流的定義按照五元組 (源IP地址、源端口號(hào)、目標(biāo)IP地址、目標(biāo)端口號(hào)、IP協(xié)議)定義,將采集到的報(bào)文解析為流。為了形成有利于機(jī)器學(xué)習(xí)的流樣本,在流的特征產(chǎn)生上應(yīng)考慮獨(dú)立于協(xié)議、通信端口的特征。因此將從報(bào)文長度(packet length)的統(tǒng)計(jì)特性、報(bào)文間隔到達(dá)時(shí)間(packet inter-arrival time)的統(tǒng)計(jì)特性、報(bào)文(packet)數(shù)目及流的持續(xù)時(shí)間(duration of the flow)等方面來分析和產(chǎn)生雙向流的候選特征集。文獻(xiàn)[7]的研究表明,潛在的流的特征有很多,本文主要通過表1中所列出的34個(gè)屬性來產(chǎn)生流的候選特征。

表1 流候選的特征及含義

特征的符號(hào)表示特征的描述特征個(gè)數(shù)

流的報(bào)文個(gè)數(shù)及大小特征fPacket、bPackets、fByte、bByte、minFpktLen、minBpktLen、maxFpktLen、maxBpktLen、meanLenFsm、meanLenBsum、stdLenFqsm、stdLenBqsm前向、后向總的報(bào)文的個(gè)數(shù)、字節(jié)數(shù)、最小長度、最大長度、平均長度、均方差

12

流的時(shí)間特征duration流的持續(xù)時(shí)間1

雙向報(bào)文長度的范圍區(qū)間fLess100、bLess100、fLess500、bLess500、fLess1000、bLess1000、fBig1000、bBig1000、avePktPerSe-cond前向、后向報(bào)文長度小于100、500、1000、大于1000及平均包/s9

雙向分片標(biāo)志位特征fframNum、bframNum前向、后向分片標(biāo)志2

雙向報(bào)文的TCP標(biāo)志位特性fAckCnt、bAckCnt、fRstCnt、bRstCnt、fPshCnt、bPshCnt、fUrgCnt、bUrgCnt、fSynCnt 、bSynCnt前向、后向報(bào)文中Ack 、Rst、Psh、Urg、Syn10

1.2.2 特征選擇方法

特征選擇的方法根據(jù)評(píng)價(jià)函數(shù)與分類器的關(guān)系分為過濾器(filter)[8,9]和封裝器(wrapper)[10,11]兩種,很多學(xué)者對(duì)此進(jìn)行了不少的研究[12~14]。本文通過主成分分析(principal component analysis, PCA)方法[15]來選擇合適的特征子集。

以下是基于PCA的網(wǎng)絡(luò)流量特征選擇算法。

輸入:訓(xùn)練樣本流集合F(用候選特征表示)及閾值threshold;

輸出:流較優(yōu)的特征子集。

主成分分析方法廣泛應(yīng)用于特征選擇,該方法在文獻(xiàn)中有詳細(xì)的介紹,這里只給出處理網(wǎng)絡(luò)數(shù)據(jù)的主要步驟:

a)訓(xùn)練樣本流的矩陣產(chǎn)生。將Fi表示為[fi1,…,fij,…, fiM]T,那么F可以表示為[F1,…,F(xiàn)i,…,F(xiàn)N]T。這樣可以產(chǎn)生一個(gè)M×N訓(xùn)練樣本流的矩陣,用F_matrix表示。

b)計(jì)算F_matrix的協(xié)方差矩陣。令FF=1/N∑Ni=1Fi,Φi=Fi-FF,矩陣A=[Φ1,Φ2,…,ΦN],則對(duì)應(yīng)的協(xié)方差矩陣為Q=1/(N-1)∑Ni=1ΦiΦTi=AAT。

c)計(jì)算協(xié)方差矩陣Q的特征值。

求Q的特征值λj (j=1,2,…,M),并將特征值按大小順序排列,λ1≥λ2≥…≥λ1M及其對(duì)應(yīng)的特征向量μj(1≤j≤M)。Q是對(duì)稱的,μ1 ,…,μj,…,μM為主成分,并且可以線性表示為Fi-FF,即FiFF=∑Mj=1bjμj。

d)確定優(yōu)選的特征值。保留H個(gè)最大的特征值,并使得∑Hj=1λj/∑Mj=1λj>threshold。一般threshold取值為大于0.85。 

2 基于DBSCAN算法的網(wǎng)絡(luò)流量分類

DBSCAN算法由Ester等人[16]提出。它是利用類的高密度連通性,快速發(fā)現(xiàn)任意形狀的簇。其基本思想是:對(duì)于簇中的每個(gè)數(shù)據(jù)點(diǎn),在給定的半徑(用Eps表示)的鄰域(neighborhood)內(nèi)包含的數(shù)據(jù)點(diǎn)數(shù)目必須不小于某一給定值(用min Pts表示)。在本文的研究中,將利用DBSCAN算法聚類得到簇,利用簇構(gòu)建網(wǎng)絡(luò)流量分類器。

2.1 基于DBSCAN算法的網(wǎng)絡(luò)流量聚類的相關(guān)定義

定義1 流的鄰域。流Fi的鄰域是以該流為中心、以Eps為半徑的超圓區(qū)域內(nèi)包含的流集合,記做NEps(Fi), NEps(Fi)={Fk∈F|dist(Fi,F(xiàn)k)≤Eps}。其中:F是樣本流數(shù)據(jù)集;dist(Fi,F(xiàn)k)是流Fi與Fk之間的距離,用式(1)來計(jì)算:

dist(Fi,F(xiàn)k)=[∑Mj=1fij-fkj2]1/2(1)

定義2 直接密度可達(dá)。給定Eps和min Pts,若流Fi從Fk直接密度可達(dá),則滿足:a)Fi處于Fk的鄰域中,即Fi∈NEps(Fk);b)Fk是核心點(diǎn),即| NEps(Fk)|≥min Pts。

定義3 密度可達(dá)到。給定流集合F,當(dāng)存在一個(gè)流對(duì)象鏈F1,F(xiàn)2 ,…,F(xiàn)N,F(xiàn)1=Fk,F(xiàn)N=Fi,對(duì)于Fi+1是Fi關(guān)于Eps、min Pts直接密度可達(dá)的,則稱Fi從Fk關(guān)于Eps、min Pts密度可達(dá)。

定義4 密度連接。如果樣本流數(shù)據(jù)集F中存在一條流Fl使得流Fi和Fk是從Fl關(guān)于Eps、min Pts密度可達(dá),那么流Fi和Fk關(guān)于Eps、min Pts密度連接。

定義5 簇(cluster)。F是樣本流數(shù)據(jù)集,簇Lp是F的一個(gè)關(guān)于Eps、min Pts的非空子集,當(dāng)且僅當(dāng)Lp滿足:a)對(duì)于Fi,F(xiàn)k,若Fi∈Lp,且Fk從Fi密度可達(dá),則Fk∈Lp;b)對(duì)于Fi,F(xiàn)k∈Lp,則Fi從Fk是關(guān)于Eps、min Pts密度連接的。

定義6 噪聲(noise)。設(shè)L1,…,Lp,…,LP是樣本流數(shù)據(jù)集F中滿足參數(shù)Epsp、min Ptsp(p=1,…,P)的簇,則定義噪聲為流數(shù)據(jù)集中不屬于任何簇Lp的點(diǎn),即noise={FO∈F|p∶FOLp}。

2.2 基于DBSCAN的網(wǎng)絡(luò)流量聚類方法

DBSCAN算法檢查樣本流集合F中每個(gè)流數(shù)據(jù)點(diǎn)的鄰域NEps(Fi)。若一條流Fi的鄰域NEps(Fi)包含多于min Pts條流,就要?jiǎng)?chuàng)建包含流Fi的新簇,并將Fi看成核對(duì)象流;然后根據(jù)這些核對(duì)象流,循環(huán)收集直接密度可達(dá)的流數(shù)據(jù)點(diǎn),其中可能涉及進(jìn)行若干密度可達(dá)簇的合并。當(dāng)各簇再無新流數(shù)據(jù)點(diǎn)加入時(shí)聚類進(jìn)程結(jié)束。

DBSCAN算法聚類過程可以從流數(shù)據(jù)集中的任一條流開始,對(duì)于聚類結(jié)果沒有任何影響。算法中要強(qiáng)調(diào)的是,只要一條流的Eps鄰域的密度到達(dá)了min Pts,才能成為一個(gè)核對(duì)象流。只有核對(duì)象流才可以將周圍的流數(shù)據(jù)點(diǎn)聚成一個(gè)簇。

基于DBSCAN的網(wǎng)絡(luò)流量聚類方法的偽代碼如下:

DBSCAN (setOfPoints,Eps,min Pts)

//setOfPoint表示待聚類的訓(xùn)練樣本流集合

clusterId:=nextId(NOISE):

for i from 1 to setOfPoints.size do

point:=setOfPoints.get(i);

if Point.ClId:=UNCLASSIFIED then

if expandCluster(setOfPoints,Point,

clusterId,Eps,min Pts) then

clusterId:=nextId(ClusterId)

end if

end if

end for

end;//DBSCAN

上述偽代碼中setOfPoints表示待聚類的訓(xùn)練樣本流集合,Eps和min Pts是兩個(gè)全局密度參數(shù),這兩個(gè)參數(shù)往往不能惟一確定,它們要根據(jù)數(shù)據(jù)集的具體分布情況作出合理的選擇。函數(shù)setOfPoints.get(i)返回?cái)?shù)據(jù)點(diǎn)集中的第i條流。聚類函數(shù)expandCluster的偽代碼如下:

expandCluster (setOfPoints,Point,

clusterId,Eps,min Pts):Boolean;

seeds:=setOfPoints.regionQuery(point,Eps);

if seeds.size

setOfPoint.changeClId(Point,NOISE);

return 1;

else //all point in seeds are density reachable from Point

setOfPoints.changeClIds(seeds,ClId);

seeds.delete(Point);

while seeds<>empty do

currentP:=seeds.first();

result:=SetOfPoints.regionQuery(currentP,Eps);if result.size>=min Pts then

for i from 1 to result.size do

resultP:=result.get(i);

if resultP.ClIdIN{UNCLASSIFIED,NOISE} then

if resultP.ClId:=UNCLASSIFIED then

seeds.append(resultP);

end if;

setOfPoints.changeClIds(seeds,ClId);

end if;//UNCLASSIFIED or noise

end for;

end if;//result.size>=min Pts

seeds.delete(currentP);

end while;//seeds<>empty

return true;

end if;

end;

上述偽代碼中setOfPoints.regionQuery(point, Eps)返回對(duì)point這一點(diǎn)周圍鄰域內(nèi)的所有點(diǎn)。

2.3 簇所屬的應(yīng)用類別的確定

訓(xùn)練樣本流集合F經(jīng)過上述聚類方法,可得到多個(gè)簇以及這些簇的核對(duì)象流數(shù)據(jù)點(diǎn)、簇所包含的訓(xùn)練樣本流。設(shè)聚類后的簇用Ck表示,用Cfk表示簇的核對(duì)象點(diǎn)(可看做簇的中心),每個(gè)簇所包含的樣本流數(shù)據(jù)集合用Fk(Fk∈F)表示。其中k=1,2,…,K,K表示簇的數(shù)目。在前面的介紹中,L={L1,…, Lp,…, LP}表示流的應(yīng)用類型的標(biāo)簽集合。簇所屬的類別采用簡單多數(shù)投票的方式來確定,即按照式(2)進(jìn)行。

Ck∈arg maxPp=1(vote(Fk∈Lp))(2)

其中:vote()表示Fk中屬于類別Lp的流數(shù)據(jù)的數(shù)目。

2.4 網(wǎng)絡(luò)流量分類器的分類規(guī)則

利用聚類產(chǎn)生的簇及簇所對(duì)應(yīng)的類別,分類器的分類規(guī)則如式(3)所示。

if Fi is the closest Cb, then Fi∈Lp and Cb∈Lp(3)

利用式(3)的分類規(guī)則,對(duì)于待分類的流Fx可以按式(4)的判別式進(jìn)行分類。

Fx∈Cb=argKk=1 min distFx,Cfk→Lp(4)

其中:Cb→Lp表示簇所對(duì)應(yīng)的應(yīng)用類別;dist()表示歐氏距離。

2.5 分類器評(píng)測準(zhǔn)則

本文將采用查準(zhǔn)率(precision)和總精確度(overall accuracy)指標(biāo)來評(píng)價(jià)分類器的性能。其計(jì)算公式分別如式(5)和(6)所示。

precision=TP/(TP+FP)(5)

overall accuracy=∑Pp=1TPp/total number of flows(6)

其中:TP(true positives)是指給定一個(gè)類別,正確分類的流數(shù)量;FP(1 positives)為被錯(cuò)誤分類的流的數(shù)量。

3 實(shí)驗(yàn)評(píng)測

3.1 實(shí)驗(yàn)數(shù)據(jù)集采集及處理

通過校園網(wǎng)絡(luò)中心交換機(jī)(Cisco 6509)的端口鏡像的方式來采集網(wǎng)絡(luò)流量數(shù)據(jù)。采集時(shí),截取報(bào)文前面的128 Byte長度,采集的數(shù)據(jù)形成Libpcap(.dmp)格式的網(wǎng)絡(luò)流量蹤跡文件(trace files)。筆者用18個(gè)月的時(shí)間,在不同的時(shí)間段共采集了大約180 GB的網(wǎng)絡(luò)蹤跡文件。本文只選用三個(gè)子集,數(shù)據(jù)的信息如表2所示。

表2 Dmp數(shù)據(jù)的基本信息

data-Set開始時(shí)間結(jié)束時(shí)間持續(xù)時(shí)間/s數(shù)據(jù)大小/GB

subSet12008-10-0914:05:252008-10-0916:08:1314 5654.98

subSet22008-10-1019:57:482008-10-1108:31:0145 1937.56

subset32008-10-1122:18:182008-10-1207:54:3534 0134.14

將網(wǎng)絡(luò)蹤跡文件解析為流之后,要對(duì)流的應(yīng)用類型標(biāo)注成形樣本流。筆者采用文獻(xiàn)[17]的方法進(jìn)行標(biāo)注。數(shù)據(jù)集中的應(yīng)用類型包含有WWW、DNS、POP3、SMTP、FTP、SOCKS等常見的應(yīng)用類型和BitTorrent、BtSprit等幾種P2P類型流量。表3給出了數(shù)據(jù)集的相關(guān)信息。

表3 數(shù)據(jù)集中應(yīng)用類型的分布

應(yīng)用類型流的數(shù)量比例/%應(yīng)用類型流的數(shù)量比例/%

WWW4 20029.58BtSprit1 2008.45

DNS4002.82FTP3 00021.13

POP35003.52Xunlei1 2008.45

SMTP4002.82SOCKS3002.11

BitTorrent3 00021.13總數(shù)14 200100

在這些樣本流的基礎(chǔ)上對(duì)提出的方法進(jìn)行了實(shí)驗(yàn)和性能評(píng)測。

3.2 特征選擇實(shí)驗(yàn)

實(shí)驗(yàn)中,以表1中的候選特征作為流的初始特征,以采集的樣本流集合為對(duì)象,運(yùn)用PCA方法對(duì)特征選擇實(shí)驗(yàn)。

實(shí)驗(yàn)中,使用各種類型的樣本流數(shù)量為2 000,threshold=0.90。由1.2節(jié),首先計(jì)算協(xié)方差矩陣Q的特征值,并按由大到小的順序排列,如圖1所示。其中最大的特征值為11.278 08,最小的為0。

通過計(jì)算,∑34j=1λj=31.946 5,前十個(gè)特征值之和為29.303 2,根據(jù)∑Hj=1λj/∑Mj=1λj>Threshold的原則,前十個(gè)特征值的比重達(dá)到了91.583%,具體信息見表4。選取與它們對(duì)應(yīng)的特征代替原始的特征集,于是這些被選的特征即為較優(yōu)特征子集。這些特征是fPackets、fBytes、bPackets、bBytes、minFpktLen、maxFpktLen、meanLenFsum、minBpktLen、maxBpktLen、meanLenBsum。

表4 前十個(gè)特征值的基本信息

序號(hào)特征值所占比例累計(jì)比例

111.278 080.352 440.352 44

24.938 30.154 320.506 76

33.731 230.116 60.623 36

42.044 970.063 910.687 27

51.693 980.052 940.740 2

61.544 720.048 270.788 48

71.405 370.043 920.832 39

81.208 680.037 770.870 17

90.840 870.026 280.896 44

100.620 260.019 380.915 83

3.3 聚類及分類實(shí)驗(yàn)

DBSCAN算法對(duì)輸入?yún)?shù)Eps、min Pts極為敏感,輸入?yún)?shù)的不同可能導(dǎo)致聚類結(jié)果大不相同。實(shí)驗(yàn)中取Eps為0.02、0.03、0.04,min Pts為4、8、12。當(dāng)min Pts=4時(shí),聚類算法產(chǎn)生的簇明顯多于其他值所產(chǎn)生的簇,這說明min Pts越小越有利于簇的形成,形成了很多的小簇。圖2是不同輸入?yún)?shù)時(shí)的overall accuracy值,在min Pts=4,Eps=0.04時(shí),取得最大值達(dá)到94.38%。從圖2中可以看到,當(dāng)min Pts確定時(shí),Eps增大,overall accuracy的值也增大,說明DBSCAN聚類算法對(duì)Eps值越大越容易形成聚類。同樣,Eps、min Pts的取值不同對(duì)查準(zhǔn)率的值也有影響。圖3給出的是Eps=0.04時(shí),Eps取不同值時(shí)各種應(yīng)用類型的查準(zhǔn)率。從圖中可以看出,Eps確定,min Pts越小,各種類型的查準(zhǔn)率越高。在Eps取其他值時(shí),情況極為類似。

3.4 特征選擇前后實(shí)驗(yàn)結(jié)果比對(duì)

本文還對(duì)特征選擇前和特征選擇后的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),將結(jié)果進(jìn)行比對(duì),以說明特征選擇的重要性。取Eps=0.04、min Pts=4進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示。實(shí)驗(yàn)發(fā)現(xiàn)通過特征選擇后,計(jì)算的維度降低,減少了計(jì)算機(jī)的開銷,節(jié)省了大量的運(yùn)算時(shí)間,而且查準(zhǔn)率也有不同程度的提高。實(shí)驗(yàn)結(jié)果表明,通過合適的特征選擇算法實(shí)現(xiàn)降維,找到能夠代表特征集信息較優(yōu)的特征子集,能夠很好地提高分類效率。

4 結(jié)束語

實(shí)驗(yàn)研究表明,本文提出的基于DBSCAN聚類算法的網(wǎng)絡(luò)流量分類方法實(shí)現(xiàn)簡單、分類準(zhǔn)確高;采用的基于PCA特征選擇方法,在網(wǎng)絡(luò)流量特征選擇中也切實(shí)可行,能夠有效地提高算法效率。下一步將繼續(xù)研究其他聚類算法作為網(wǎng)絡(luò)流量分類工具,找到更快更好的算法,以適應(yīng)在線和離線的網(wǎng)絡(luò)流量分類。

參考文獻(xiàn):

[1]MITCHELL T M. Machine learning[M]. ISE ed.[S.l.]:McGraw-Hill Education,1997.

[2]McGREGOR A, HALL M, LORIER P, et al. Flow cluster using machine learning technique[C]//Proc of PAM 2004. 2004.

[3]MOORE A, ZUEV D. Internet traffic classification using Bayesian analysis techniques [C]//Proc of SIGMETRIC’05. Banff, Canada:[s.n.], 2005.

[4]ROUGHAN M, SEN S, SPATSCHECK O, et al. Class-of-service mapping for QoS: a statistical signature-based approach to IP traffic classification [C]//Proc of IMC’04. Taormina, Italy:[s.n.], 2004.

[5]ZANDER S, NGUYEN T, ARMITAGE G. Automated traffic classification and application identification using machine learning [C]//Proc of LCN’05. Sydney, Australia:[s.n.], 2005.

[6]ERMAN J, MAHANTI A, ARLITT M. Internet traffic identification using machine learning[C]//Proc of GLOBECOM’06. San Francisco:[s.n.], 2006.

[7]DASH M, LIU Huan. Consistency-based search in feature selection[J]. Artificial Intelligence, 2003, 151(1-2):155-176.

[8]LIU Huan, SETIONO R. A probabilistic approach to feature selection: a filter solution [C]//Proc of

International Conference on Machine Learning. 1996:319-327.

[9]DAS S. Filters, wrappers and a boosting based hybrid for feature selection[C]//Proc of the 8th International Conference on Machine Learning. 2001:74-81.

[10]YUAN Huang, TSENG S S, WU Gang-shan, et al. A two-phase feature selection method using both filter and wrapper[C]//Proc of IEEE International Conference on Systems, Man, and Cybernetics. 1999:132-136.

[11]KOHAVI R, JOHN G H. Wrappers for feature subset selection [J]. Artificial Intelligence Journal, 1997, 97(1-2): 273-324.

[12]俞研,黃皓. 面向入侵檢測的基于多目標(biāo)遺傳算法的特征選擇[J]. 計(jì)算機(jī)科學(xué),2007,34(13):197-200.

[13]WILLIAMS N, ZANDER S, ARMITAGE G. Evaluating machine learning algorithms for automated network application identification, Technical Report 060410B[R]. 2006.

[14]HALL M. Correlation-based feature selection for machine learning[D]. Hamilton: Department of Computer Science, Waikato University,1998.

[15]JOLLIFFE I T. Principal component analysis[M]. 2nd ed.New York: Springer-Verlag,2003.

[16]ESTER M, KRIEGE H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proc of the 2nd International Confabulation Knowledge Disco-very and Data Mining. Portland, Oregon:[s.n.], 1996.

[17]鄧河, 陽愛民, 劉永定.一種基于SVM的P2P網(wǎng)絡(luò)流量分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(14):122-126.

主站蜘蛛池模板: 欧美区国产区| 91久久精品日日躁夜夜躁欧美| 无码网站免费观看| 国产网友愉拍精品| 无码精品福利一区二区三区| 国产流白浆视频| 精品视频91| 国产va视频| 中文字幕亚洲电影| 在线一级毛片| 91青青草视频| 国产极品美女在线| 国产精品第三页在线看| 亚洲天堂网在线观看视频| 在线视频亚洲欧美| 亚洲精品国偷自产在线91正片| 欧美亚洲一二三区| 亚洲综合精品香蕉久久网| 亚洲成综合人影院在院播放| 欧美区一区二区三| 在线无码av一区二区三区| 在线网站18禁| 国产人成在线视频| 99这里只有精品6| 欧美精品啪啪一区二区三区| 日本高清免费不卡视频| a级毛片免费播放| 欧美国产日产一区二区| 亚洲av无码成人专区| 久久亚洲国产视频| 色视频国产| 激情六月丁香婷婷四房播| 国产高清在线观看| 国产综合日韩另类一区二区| 最新加勒比隔壁人妻| 国产第一色| 午夜免费小视频| 久久久久久久蜜桃| 99资源在线| 国产美女久久久久不卡| 色综合色国产热无码一| 国产鲁鲁视频在线观看| 在线免费无码视频| 久久夜色撩人精品国产| 中国美女**毛片录像在线 | 久久精品国产精品国产一区| 人人爽人人爽人人片| 亚洲国产无码有码| 国产成人超碰无码| 婷婷在线网站| 亚洲欧美一区二区三区蜜芽| 欧美高清日韩| 国产区在线观看视频| 一级毛片免费播放视频| 精品午夜国产福利观看| 好紧太爽了视频免费无码| 日韩av在线直播| 欧美黄网在线| 国产精品国产三级国产专业不| 刘亦菲一区二区在线观看| 黄色在线不卡| 久久久久人妻精品一区三寸蜜桃| 亚洲欧洲国产成人综合不卡| 亚洲欧美在线综合一区二区三区| 四虎免费视频网站| 国产在线观看一区精品| 亚洲成a人片| 亚洲综合狠狠| www.精品视频| 18禁高潮出水呻吟娇喘蜜芽| 国产特一级毛片| 国产精品三级av及在线观看| 中文字幕在线日韩91| 亚洲中文字幕国产av| 丁香婷婷激情综合激情| 黄色在线网| 波多野结衣一二三| 男人天堂亚洲天堂| 国产精品毛片一区| 一区二区三区四区在线| 中文字幕人妻无码系列第三区| 亚洲av无码人妻|