999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)流量分類與應(yīng)用識(shí)別的研究

2008-01-01 00:00:00劉穎秋李云春

摘要: 首先介紹了網(wǎng)絡(luò)流量分析的不同層次及機(jī)器學(xué)習(xí)領(lǐng)域的相關(guān)知識(shí),分析了采用端口號(hào)映射及有效負(fù)載分析的方法進(jìn)行流量分類與應(yīng)用識(shí)別存在的問(wèn)題;然后從網(wǎng)絡(luò)流量的統(tǒng)計(jì)特征出發(fā),重點(diǎn)介紹了機(jī)器學(xué)習(xí)中聚類和分類的方法在流量分類的應(yīng)用和問(wèn)題;最后基于聚類和分類在流量分類中的效用,指出了未來(lái)的研究趨勢(shì)。

關(guān)鍵詞:流量分類;應(yīng)用識(shí)別;機(jī)器學(xué)習(xí);無(wú)監(jiān)督聚類;有監(jiān)督分類

中圖分類號(hào):TP393.07文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2008)05-1492-04

目前,基于TCP/IP技術(shù)的Internet正向縱深方向發(fā)展。一方面,新一代的基礎(chǔ)設(shè)施已經(jīng)或正在部署,新的技術(shù)不斷發(fā)展,新的應(yīng)用模式和應(yīng)用需求不斷涌現(xiàn);另一方面,Internet也在其飛速發(fā)展的過(guò)程中,向人們提出了一系列挑戰(zhàn),其中的關(guān)鍵問(wèn)題在于:如何更好地提供服務(wù)質(zhì)量保證,如何來(lái)避免異常流量對(duì)網(wǎng)絡(luò)的影響。

與Internet的飛速發(fā)展相比,對(duì)網(wǎng)絡(luò)行為的研究比較少。與一般的自然系統(tǒng)相比,Internet不僅具有多變、異質(zhì)、動(dòng)態(tài)等特點(diǎn),還具有很強(qiáng)的社會(huì)性。廣大用戶的行為對(duì)于Internet具有重要影響。如何認(rèn)識(shí)這樣一個(gè)系統(tǒng)的統(tǒng)計(jì)特性和動(dòng)力學(xué)性質(zhì),認(rèn)識(shí)Internet使用者的行為特征,正日益引起人們的興趣。另一方面,對(duì)Internet及其用戶行為的研究,也是網(wǎng)絡(luò)的規(guī)劃、設(shè)計(jì)和管理的重要依據(jù)。網(wǎng)絡(luò)一直處在持續(xù)的發(fā)展變化過(guò)程中,Internet 中存在大量的應(yīng)用,每個(gè)應(yīng)用都有自己的流量行為特征并且新的應(yīng)用還在不斷涌現(xiàn)。如何對(duì)這些流量進(jìn)行分類并識(shí)別新的應(yīng)用是一個(gè)值得研究的問(wèn)題。另外, Internet的飛速發(fā)展以及社會(huì)對(duì)其依賴的加深,對(duì)網(wǎng)絡(luò)管理也提出了更高的要求。政府、工業(yè)部門和私人用戶使用網(wǎng)絡(luò)的各種應(yīng)用,每天都會(huì)產(chǎn)生成千上萬(wàn)的網(wǎng)絡(luò)應(yīng)用流,具有惡意的攻擊很容易在海量的網(wǎng)絡(luò)流量中隱藏自己,從而達(dá)到攻擊的目的。因此,如何給廣大Internet使用者提供一個(gè)安全、可靠和高效的使用環(huán)境,如何發(fā)現(xiàn)并避免網(wǎng)絡(luò)的異常流量,是網(wǎng)絡(luò)管理需要解決的問(wèn)題。

為解決上述問(wèn)題,網(wǎng)絡(luò)流量分析應(yīng)運(yùn)而生[1]。幾乎所有與網(wǎng)絡(luò)相關(guān)的活動(dòng)都是與網(wǎng)絡(luò)流量聯(lián)系在一起的。網(wǎng)絡(luò)流量是記錄和反映網(wǎng)絡(luò)及其用戶活動(dòng)的重要載體。網(wǎng)絡(luò)流量的行為是網(wǎng)絡(luò)行為的重要組成部分,通過(guò)對(duì)網(wǎng)絡(luò)流量的統(tǒng)計(jì)分析,人們可以間接掌握網(wǎng)絡(luò)的統(tǒng)計(jì)行為。

隨著網(wǎng)絡(luò)中各種應(yīng)用的不斷出現(xiàn),除了傳統(tǒng)的HTTP、E-mail、Web、FTP等應(yīng)用外,目前P2P的應(yīng)用占有統(tǒng)治地位。因此對(duì)網(wǎng)絡(luò)流量進(jìn)行分類并識(shí)別應(yīng)用將是一項(xiàng)很有意義的工作,它有助于趨勢(shì)分析、動(dòng)態(tài)訪問(wèn)控制。并且識(shí)別不同應(yīng)用類型的流量也是網(wǎng)絡(luò)安全和流量工程的重要依據(jù)。不同應(yīng)用類型的網(wǎng)絡(luò)流量的統(tǒng)計(jì),反映了用戶使用網(wǎng)絡(luò)的行為,從而幫助網(wǎng)絡(luò)管理員在必要的時(shí)候控制用戶的流量。并且對(duì)流量進(jìn)行分類也是發(fā)現(xiàn)入侵或惡意攻擊的重要方法,同時(shí)可以識(shí)別影響網(wǎng)絡(luò)資源分布的新應(yīng)用的出現(xiàn)。

1流量分析的層次及相關(guān)算法

1.1不同層面的流量分析

目前對(duì)網(wǎng)絡(luò)流量分析的研究,主要在以下幾個(gè)不同的粒度或者說(shuō)層面上展開[1,2]:

a)Bit-level 的流量分析

主要關(guān)注網(wǎng)絡(luò)流量的數(shù)量特征,如網(wǎng)絡(luò)線路的傳輸速率以及吞吐率的變化等。

b)Packet-level的流量分析

主要關(guān)注IP包(packet)的到達(dá)過(guò)程、延遲和丟包率等。C. Fraleigh等人[3]采用被動(dòng)的監(jiān)控系統(tǒng)捕獲packet-level的流量,研究骨干網(wǎng)在流量負(fù)載、TCP流的雙向傳送時(shí)間、包的無(wú)序比率和包的延遲等方面的變化。

c)Flow-level 的流量分析

Flow是一個(gè)相對(duì)較為寬松的定義,其劃分的主要依據(jù)是地址和應(yīng)用協(xié)議。例如,C. Barakat等人[4]給出的定義是一個(gè)由源 IP 地址和端口、目標(biāo) IP 地址和端口以及應(yīng)用協(xié)議組成的五元組(源 IP 地址、源端口、目標(biāo) IP 地址、目標(biāo)端口、應(yīng)用協(xié)議)。這方面的研究主要關(guān)注 Flow的到達(dá)過(guò)程、達(dá)到間隔以及其局部特性。

d)Stream-level 的流量分析

文獻(xiàn)[2]給出 stream 的定義是一個(gè)由源、目標(biāo) IP 地址以及應(yīng)用協(xié)議組成的三元組(源 IP 地址、目標(biāo) IP 地址、應(yīng)用協(xié)議)。其目的主要是在一個(gè)更粗的粒度上研究主干網(wǎng)的長(zhǎng)期流量統(tǒng)計(jì)特性。

上述四個(gè)層面的研究,流量的粒度由小到大遞增,所關(guān)注的時(shí)間尺度也逐漸增大。在不同時(shí)間尺度上,網(wǎng)絡(luò)流量往往表現(xiàn)出不同的行為規(guī)律。例如,有研究指出:毫秒級(jí)的細(xì)時(shí)間粒度的網(wǎng)絡(luò)流量行為主要受網(wǎng)絡(luò)協(xié)議的影響;小時(shí)以上的粗時(shí)間粒度的網(wǎng)絡(luò)流量行為主要受外界因素的影響;而介于上述兩者之間的秒時(shí)間粒度上的網(wǎng)絡(luò)流量則表現(xiàn)出自相似性。通常,網(wǎng)絡(luò)設(shè)備(三層交換機(jī)、路由器等)本身提供了基于IP包頭的分析功能,負(fù)責(zé)網(wǎng)絡(luò)流數(shù)據(jù)的分析和整理,按照一定的條件和定義良好的數(shù)據(jù)格式向流采集器(flow collector)輸出數(shù)據(jù),然后再用相關(guān)的軟件將采集到的網(wǎng)絡(luò)流數(shù)據(jù)進(jìn)行整理、分析和客戶端展現(xiàn)。因此Flow-level的流量分析將成為趨勢(shì)。

1.2流量分類的相關(guān)算法

機(jī)器學(xué)習(xí)[5]是現(xiàn)代人工智能技術(shù)中的一個(gè)重要研究?jī)?nèi)容和方向,其主要研究是從觀測(cè)數(shù)據(jù)(樣本)出發(fā)尋找規(guī)律,并利用這些規(guī)律對(duì)未來(lái)數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。機(jī)器學(xué)習(xí)的發(fā)展經(jīng)歷了四個(gè)階段:學(xué)習(xí)機(jī)器的產(chǎn)生;學(xué)習(xí)理論基礎(chǔ)的創(chuàng)立;神經(jīng)網(wǎng)絡(luò)的創(chuàng)立;統(tǒng)計(jì)學(xué)習(xí)理論。采用機(jī)器學(xué)習(xí)的方法進(jìn)行流量分類是在入侵檢測(cè)的背景下提出的,其不斷獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu),使之不斷改善自身性能的特性,使其成為網(wǎng)絡(luò)流量分類中廣泛采用的方法。

目前,用于流量分類的方法主要有機(jī)器學(xué)習(xí)中的聚類[6]和分類[7]。

1)聚類方法

聚類是根據(jù)數(shù)據(jù)之間的相似程度將數(shù)據(jù)劃分成不同的數(shù)據(jù)集合,使得這些數(shù)據(jù)集合內(nèi)部對(duì)象之間相似度大,而數(shù)據(jù)集合之間的差別大。聚類分析是人類的一個(gè)重要行為,人類就是通過(guò)不斷改進(jìn)意識(shí)中的聚類模式來(lái)識(shí)別各類事物的。聚類問(wèn)題是無(wú)監(jiān)督學(xué)習(xí),它只根據(jù)數(shù)據(jù)內(nèi)部的相似程度產(chǎn)生有意義的劃分。聚類分析既可以作為其他算法的預(yù)處理過(guò)程(這些算法對(duì)聚類處理后的數(shù)據(jù)進(jìn)行分析),它又能夠作為一個(gè)獨(dú)立的工具獲取數(shù)據(jù)分布的情況,觀察各個(gè)簇的特點(diǎn),然后集中對(duì)特定的某些簇作進(jìn)一步分析。根據(jù)算法思想、發(fā)展階段及歷史影響,聚類方法通常可分為四大類,即劃分法、層次法、基于密度的方法和基于網(wǎng)格的方法。

劃分法根據(jù)給定的一個(gè)包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫(kù),以及要生成的簇的數(shù)目k,將數(shù)據(jù)對(duì)象組織為k個(gè)劃分(k≤n),其中每個(gè)劃分代表一個(gè)簇。其代表算法有CLARANS[8]、K-means。層次法根據(jù)其分裂自底向上還是自頂向下形成,可以分為凝聚的和分裂的層次聚類。凝聚的層次聚類首先視每個(gè)對(duì)象為一個(gè)簇,然后根據(jù)某種原則合并原子簇,直到所有的對(duì)象都在一個(gè)簇中,或者某個(gè)終結(jié)條件被滿足。其代表算法有CURE[9]、ROCK[10]。分裂的層次聚類與凝聚的層次聚類思想正好相反,其代表算法有BIRCH[11]。基于密度的方法將數(shù)據(jù)分布的密度性質(zhì)納入到聚類考慮之中,通過(guò)ε-鄰域和MinPts參數(shù)來(lái)區(qū)分核心點(diǎn)與邊緣點(diǎn)。其代表算法有DBSCAN[12]。基于網(wǎng)格的方法將空間量化為有限數(shù)目的單元,這些單元形成了網(wǎng)格結(jié)構(gòu),所有的聚類操作都在網(wǎng)格上進(jìn)行。其代表方法有WaveCluster[13]和CLIQUE[14]。圖1表示了聚類算法的分類。

2)分類方法

分類是一種有監(jiān)督的學(xué)習(xí),其目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個(gè)分類函數(shù)或分類模型(也常稱做分類器)。該模型能將未知類別的樣本映射到給定類別中的某一個(gè)。它與聚類問(wèn)題最大的不同就是:在聚類中,需要在訓(xùn)練實(shí)例中找到其分類屬性;而在分類問(wèn)題中,事先知道訓(xùn)練樣例的分類屬性。數(shù)據(jù)分類是一個(gè)兩步的過(guò)程:

a)建立一個(gè)模型,描述預(yù)定的數(shù)據(jù)類或概念集。通過(guò)分析由屬性描述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型。

b)使用模型進(jìn)行分類。首先評(píng)估模型(分類算法)的預(yù)測(cè)準(zhǔn)確率。如果認(rèn)為模型的準(zhǔn)確率可以接受,就可用該模型對(duì)其他數(shù)據(jù)元組進(jìn)行分類。

目前,分類模型的構(gòu)造方法有決策樹、貝葉斯、關(guān)聯(lián)規(guī)則學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。

決策樹是一種從無(wú)序、無(wú)規(guī)則的訓(xùn)練樣本集中推出決策樹表示形式的分類規(guī)則的方法,其每個(gè)分支代表一個(gè)測(cè)試輸出,而每個(gè)葉節(jié)點(diǎn)代表類別。其代表方法有ID3[15]、C4.5[16]等。貝葉斯分類是一種利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的方法,可以預(yù)測(cè)一個(gè)未知類別的樣本所屬各類別的概率,并選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。其代表方法主要有Nave Bayes[17]。關(guān)聯(lián)規(guī)則分類的思想是先利用標(biāo)準(zhǔn)關(guān)聯(lián)規(guī)則挖掘算法挖掘有關(guān)的關(guān)聯(lián)規(guī)則,再基于該規(guī)則構(gòu)造一個(gè)分類器。其代表方法有CBA(classification association rules)[18]。神經(jīng)網(wǎng)絡(luò)就是一組相互連接的輸入/輸出單元。這些單元之間的每個(gè)連接都關(guān)聯(lián)一個(gè)權(quán)重。在學(xué)習(xí)階段,網(wǎng)絡(luò)通過(guò)調(diào)整權(quán)重來(lái)實(shí)現(xiàn)輸入樣本與其相應(yīng)類別的對(duì)應(yīng)。其代表算法有MIND[19]、GAC-RDB[20]。圖2為分類算法的分類。

2流量分類與應(yīng)用識(shí)別的方法和技術(shù)

對(duì)網(wǎng)絡(luò)流量進(jìn)行分類并識(shí)別應(yīng)用是網(wǎng)絡(luò)管理任務(wù)的一項(xiàng)重要目標(biāo),如流量的優(yōu)先權(quán)、流量策略、帶有診斷的監(jiān)控等。目前,網(wǎng)絡(luò)應(yīng)用的主要類型有HTTP、P2P、SMTP、POP3、Telnet、DNS、FTP等。當(dāng)前所采用的流量分類的方法主要有:端口號(hào)映射、有效負(fù)載分析、機(jī)器學(xué)習(xí)。

2.1端口號(hào)映射法

傳統(tǒng)的流量分類方法依賴于將應(yīng)用與其眾所周知的端口號(hào)(由IANA[21]指定)進(jìn)行映射以識(shí)別不同的應(yīng)用,如HTTP流量使用端口號(hào)80,F(xiàn)TP使用端口號(hào)21,并取得了相當(dāng)大的成功。但是隨著P2P應(yīng)用的出現(xiàn),它采用動(dòng)態(tài)的端口號(hào),并時(shí)常采用HTTP和FTP協(xié)議的端口來(lái)偽裝自己,避免了被該方法檢測(cè)到其應(yīng)用;另外,只有事先已知端口號(hào)的應(yīng)用才能被識(shí)別出來(lái),從而使這種基于端口號(hào)的流量分類的方法受到了阻礙。

2.2有效負(fù)載分析法

為了處理上述基于端口號(hào)的分類方法的弊端,又提出了基于有效負(fù)載分析的技術(shù)[22,23]。在這種方法中,通過(guò)分析包的有效負(fù)載來(lái)確定其是否包含已知應(yīng)用的特殊簽名。研究表明,這些方法能夠準(zhǔn)確地識(shí)別不同應(yīng)用的流量甚至是P2P的流量。然而,有些P2P的應(yīng)用如BitTorrent使用純文本密碼、可變長(zhǎng)度的包和加密等令人困惑的方法來(lái)躲避這種技術(shù)的識(shí)別。另外,由于存在著如下問(wèn)題:a)這種技術(shù)只能識(shí)別那些可以獲得簽名的流量,卻無(wú)法分類其他未知的流量;b)這種技術(shù)需要較高的處理和存儲(chǔ)能力;c)有效負(fù)載的分析會(huì)侵犯私密和安全性的考慮。因此,其發(fā)展也受到了一定的阻力。

2.3基于機(jī)器學(xué)習(xí)的方法

目前,采用機(jī)器學(xué)習(xí)的方法進(jìn)行流量的分類受到了越來(lái)越多的關(guān)注。機(jī)器學(xué)習(xí)的過(guò)程通常由兩部分組成,即分類模型的建立和分類。首先采用訓(xùn)練數(shù)據(jù)(樣本)建立分類模型;然后基于該模型產(chǎn)生一個(gè)分類器并對(duì)未知數(shù)據(jù)集進(jìn)行分類。網(wǎng)絡(luò)流量分類中所采用的機(jī)器學(xué)習(xí)方法是在Flow-level的層次上展開研究的,它認(rèn)為不同的應(yīng)用具有不同的傳輸數(shù)據(jù)的模式,因此根據(jù)這些模式可以對(duì)流量進(jìn)行分類。通常采用Flow的統(tǒng)計(jì)信息如IP包的平均大小、流的長(zhǎng)度、IP包的總個(gè)數(shù)等描述流量的傳輸模式。

Moore[24]采用有監(jiān)督的Nave Bayes分類方法進(jìn)行流量分類與應(yīng)用識(shí)別。筆者已經(jīng)將網(wǎng)絡(luò)流量數(shù)據(jù)手動(dòng)分類,確定了流量的具體應(yīng)用類型,并將流量數(shù)據(jù)分成訓(xùn)練集和測(cè)試集。為了評(píng)估NB方法的性能,每個(gè)數(shù)據(jù)集依次作為訓(xùn)練集輸入到Nave Bayes分類器中,其他的數(shù)據(jù)集作為測(cè)試集進(jìn)行評(píng)估,獲得的平均分類準(zhǔn)確性超過(guò)了83%。Roughan采用最近鄰和線性判別分析的方法[25],連接持續(xù)時(shí)間和平均包的大小作為流量分類的特征向量,仍然采用Bayes的方法進(jìn)行分類。然而只采用兩個(gè)屬性的統(tǒng)計(jì)信息并不能區(qū)分所有的應(yīng)用類別,因此獲得的準(zhǔn)確度很低。這些方法的關(guān)鍵點(diǎn)只在于針對(duì)給定類別的流量數(shù)據(jù),如何提高分類器的準(zhǔn)確度,而無(wú)法發(fā)現(xiàn)新的應(yīng)用模式, 所以這類方法的應(yīng)用有很大的局限性。

S. Zander等人[26]采用了autoclass的方法,并通過(guò)特征選取技術(shù)SFS來(lái)選取較優(yōu)的流量屬性集,并評(píng)定不同的特征集對(duì)結(jié)果的影響。為了驗(yàn)證其方法的有效性,使用了從不同的網(wǎng)絡(luò)位置收集的流量來(lái)進(jìn)行評(píng)估,獲得的平均準(zhǔn)確率為86.5%。然而該方法在選取數(shù)據(jù)時(shí),排除了所有傳輸包的個(gè)數(shù)少于3的流,這在某種程度上也會(huì)提高其分類的準(zhǔn)確性,并降低泛化能力。

J. Erman等人[27]采用無(wú)監(jiān)督的方法Expectation Maximization(EM)來(lái)識(shí)別不同應(yīng)用的網(wǎng)絡(luò)流量,并采用Total Number of Packets、Mean Packet Size(in each direction and combined)、Mean Data Packet Size、Flow Duration和Mean Inter-Arrival Time of Packets 這五個(gè)流量統(tǒng)計(jì)特征來(lái)標(biāo)志每個(gè)連接。通過(guò)與Bayes的分類方法進(jìn)行比較,獲得了更為準(zhǔn)確的分類結(jié)果。然而該方法的缺點(diǎn)是訓(xùn)練時(shí)間較長(zhǎng),在其后續(xù)的工作[13]采用了K-means和DBSCAN的聚類方法來(lái)對(duì)流量進(jìn)行分類并識(shí)別應(yīng)用。這兩種方法可以在較短的時(shí)間內(nèi)構(gòu)造出所需的模型,但是所獲得的模型在分類的準(zhǔn)確度上有所下降,并且這兩種方法都要提前指定某些參數(shù)的值,當(dāng)選取不當(dāng)時(shí),算法的性能會(huì)大幅度地下降。

L. Bernaille等人[28]并不根據(jù)上述的五元組的屬性來(lái)對(duì)網(wǎng)絡(luò)流量進(jìn)行分類并識(shí)別應(yīng)用,提出了采用每個(gè)TCP流的前五個(gè)數(shù)據(jù)包的大小來(lái)標(biāo)志不同的應(yīng)用,并盡可能早地識(shí)別出流量的應(yīng)用類型,而不是等到傳輸結(jié)束后再確定其應(yīng)用類型。文獻(xiàn)[28]將流量分類機(jī)制分為兩個(gè)階段,即離線學(xué)習(xí)和在線分類。離線學(xué)習(xí)階段采用K-Means方法對(duì)原始的流量進(jìn)行劃分,并給出每個(gè)簇的描述和其所屬的應(yīng)用類型;在線分類階段根據(jù)學(xué)習(xí)的知識(shí)確定新的流量所屬的應(yīng)用類型。通過(guò)實(shí)驗(yàn)評(píng)估,最高的準(zhǔn)確率可達(dá)96.92%。但是該方法的局限性在于,如果數(shù)據(jù)包沒(méi)有按序傳輸,或者兩個(gè)應(yīng)用的前五個(gè)數(shù)據(jù)包有著相同的大小時(shí),其準(zhǔn)確度會(huì)有大幅度的下降。這也是筆者提到的其方法面臨的挑戰(zhàn)。

基于以上分析,有監(jiān)督的學(xué)習(xí)方法是在已知類別的網(wǎng)絡(luò)流量中進(jìn)行訓(xùn)練,根據(jù)已有的準(zhǔn)確的類別來(lái)判斷其分類的準(zhǔn)確性。這種方法無(wú)法發(fā)現(xiàn)新的應(yīng)用模式,而只能在訓(xùn)練數(shù)據(jù)集已有的應(yīng)用類型的基礎(chǔ)上,對(duì)未知的流量進(jìn)行分類。而無(wú)監(jiān)督的方法就克服了有監(jiān)督方法的劣勢(shì),它只根據(jù)網(wǎng)絡(luò)流量的相似程度劃分成不同的簇,從而新的應(yīng)用被劃分到不同的簇中而被識(shí)別出來(lái),但是必須對(duì)該劃分結(jié)果形成分類器,才能對(duì)未知流量判斷其應(yīng)用類型。目前的研究表明,采用兩階段的分析方法,即用聚類的方法進(jìn)行離線學(xué)習(xí)和用分類的方法進(jìn)行在線分類,將成為網(wǎng)絡(luò)流量分類與應(yīng)用識(shí)別的重要發(fā)展方向。

3結(jié)束語(yǔ)

網(wǎng)絡(luò)流量作為網(wǎng)絡(luò)應(yīng)用的一個(gè)重要特征,一直為研究者所關(guān)注。本文從網(wǎng)絡(luò)流量的微觀角度出發(fā),根據(jù)不同的應(yīng)用分析其流的特性,目的在于間接掌握網(wǎng)絡(luò)的統(tǒng)計(jì)行為,為網(wǎng)絡(luò)管理提供一個(gè)新思路。

本文概述了流量分析及機(jī)器學(xué)習(xí)的相關(guān)知識(shí),簡(jiǎn)要分析采用端口號(hào)映射、有效負(fù)載分析方法進(jìn)行流量分類存在的問(wèn)題,重點(diǎn)對(duì)機(jī)器學(xué)習(xí)的相關(guān)方法在流量分類中的應(yīng)用進(jìn)行了比較。

目前,機(jī)器學(xué)習(xí)的方法在網(wǎng)絡(luò)流量分類中的應(yīng)用還處在發(fā)展階段,聚類分析無(wú)須事先知道流量的應(yīng)用類別就能發(fā)現(xiàn)新的應(yīng)用特性,引起了較為廣泛的關(guān)注。鑒于網(wǎng)絡(luò)流量本身具有的復(fù)雜性與動(dòng)態(tài)性,對(duì)網(wǎng)絡(luò)流量進(jìn)行分類與應(yīng)用識(shí)別應(yīng)更多地從以下幾方面考慮:

a)從原始流量中提取有意義的特征屬性。因?yàn)闇?zhǔn)確的特征選取是模型構(gòu)建的基礎(chǔ),只有選取的特征有效,才能對(duì)網(wǎng)絡(luò)流量進(jìn)行有意義的劃分,它們決定了流量分類模型的有效性。

b)流量分類模型的構(gòu)建與有效性。融合各種聚類、分類技術(shù)的思想,綜合利用不同算法的優(yōu)點(diǎn),采用兩階段的分析方法:用聚類的方法進(jìn)行離線學(xué)習(xí),用分類的方法進(jìn)行在線分類,使得構(gòu)建的流量分類與應(yīng)用識(shí)別模型能夠在動(dòng)態(tài)變化的網(wǎng)絡(luò)中進(jìn)行主動(dòng)學(xué)習(xí),降低訓(xùn)練時(shí)間,提高其泛化能力。

c)將人的指導(dǎo)信息引入模型構(gòu)建過(guò)程。人的指導(dǎo)信息有助于分析不同應(yīng)用的流量特征、選擇合適的流量分類算法,從而進(jìn)一步提高流量分類模型的有效性。

參考文獻(xiàn):

[1]何飛.基于網(wǎng)絡(luò)流量工程的CERNET主干網(wǎng)性能管理系統(tǒng)[D].北京:清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,2001.

[2]HE Tao,ZHANG Hui,LI Zhi-chun.A methodology for analyzing backbone network traffic at stream-level[C]//Proc of Communication Technology Proceedings.2003:98-102.

[3]FRALEIGH C,MOON S,LYLES B,et al.Packet-level traffic measurements from the sprint IP backbone [J].IEEE Trans on Networks,2003,17(6): 6-16.

[4]BARAKAT C,THIRAN P,IANNACCONE G,et al.Modeling Internet backbone traffic at the flow level[J].IEEE Trans on Signal Processing Special Issue on Networking,2003,51(8):2111-2124.

[5]MITCHELL T. Machine learning[M].[S.1.]:McGraw Hill,1997.

[6]ANDRITSOS P.Data clustering techniques,Technical Report CSRG-443[R].2002.

[7]HAN J, KAMBER M.Data mining:concepts and techniques[M].San Francisco:Academic Press,2001.

[8]NG R T,HAN J,BOCCA J,et al.Efficient and effective clustering method for spatial data mining[C]//Proc of Int Conf Very Large Data Bases.San Francisco:Morgan Kaufmann,1994:144-155.

[9]GUHA S,RASTOGI R,SHIM K.CURE:an efficient clustering algorithm for large databases[C]//Proc of ACM SIGMOD Conference.New York:ACM Press,1998:73-84.

[10]GUHA S,RASTOGI R,SHIM K.ROCK:a robust clustering algorithm for categorical attributes[C]//Proc of the 15th ICDE.[S.1.]:IEEE Computer Society,1999:512-521.

[11]ZHANG T,RAMAKRISHNAN R,LIVNY M.Birch:an efficient data clustering method for very large databases[C]//Proc of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,1996:103-114.

[12]ESTER M,KRIEGEL H P,SANDER J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proc of the 2nd ACM SIGKDD.1996:226-231.

[13]SHEIKHOLESLAMI G,CHATTERJEE S,ZHANG A.WaveCluster:a multiresolution clustering approach for very large spatial databases[C]//Proc of the 24th International Conference on Very Large Data Bases.San Francisco: Morgan Kaufmann,1998:428-439.

[14]AGRAWAL R,GEHRKE J,GUNOPULOS D,et al.Automatic subspace clustering of high dimensional data for data mining applications[C]//Proc ofSIGMOD’98.New York:ACM Press,1998:94-105.

[15]QUINLAN J R.Induction of decision trees[J].Machine Learning,1986,1(1):81-106.

[16]QUINLAN J R.C4.5:programs for machine learning [M]. California: Morgan Kaufmann, 1993.

[17]FRIEDMAN N,GEIGER D,GOLDSZMIDT M.Bayesian network classifier[J].Machine Learning,1997,29(1):131-163.

[18]LIU Bing,HSU W,MA Yi-ming. Integrating classification and association rule mining[C]//Proc of the 4th International Conference on Knowledge Discovery and Data Mining.New York:AAAI Press,1998:80-86.

[19]WANG Min, IYER B,VITTER J S.Scalable mining for classification rules in relational databases[C]//Proc ofIDEAS’98.UK:IEEE Computer Society,1998:58-67.

[20]LU Hong-jun, LIU Hong-yan.Decision tables:scalable calssification exploring RDBMS capabilities[C]//Proc fo the 26th International Conference on Very Large Databases.2000:373-384.

[21]IANA.Internet assigned numbers authority[EB/OL].http://www.iana.org/assignments/port-numbers.

[22]DEWS C,WICHMANN A,F(xiàn)ELDMANN A.An analysis of Internet chat systems[C]//Proc ofIMC’03.New York:ACM Press,2003:51-64.

[23]HAFFNER P,SEN S,SPATSCHECK O,et al.ACAS:automated construction of application signatures[C]//Proc of SIGCOMM’05 MineNet Workshop.New York:ACM Press,2005:197-202.

[24]MOORE A,ZUEV D.Internet traffic classification using Bayesian analysis techniques[C]//Proc of SIGMETRICS’05.New York:ACM Press,2005:50-60.

[25]ROUGHAN M,SEN S,SPATSCHECK O,et al.Class of service mapping for QoS:a statistical signature-based approach to IP traffic classification[C]//Proc of IMC’04.Italy:Taormina,2004:5-27.

[26]ZANDER S,NGUYEN H,ARMITAGE G.Automated traffic classification and application identification using machine learning[C]//Proc of the 30th IEEE Conference on Local Computer Networks Anniversary.Washington DC:IEEE Computer Society,2005:250-257.

[27]ERMAN J,ARLITT M,ANIRBAN M.Traffic classification using clustering algorithms[C]//Proc of SIGCOMM Workshop on Mining Network Data.New York:ACM Press,2006:11-15.

[28]BERNAILLE L,TEIXEIRA R,AKODJENOU I.Traffic classification on the fly[C]//Proc of ACM SIGCOMM Computer Communication Review.New York:ACM Press,2006:23-26.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

主站蜘蛛池模板: 国产中文一区二区苍井空| 久久综合丝袜日本网| 欧美成人综合在线| 国产成年女人特黄特色毛片免| 国产va欧美va在线观看| 国产精品乱偷免费视频| 国产黄在线观看| 日韩东京热无码人妻| 精品综合久久久久久97超人| 波多野结衣在线se| 日韩最新中文字幕| 尤物在线观看乱码| 五月天天天色| 国产亚洲欧美在线视频| 国产一级裸网站| 国产精品香蕉在线观看不卡| 在线欧美a| 97精品久久久大香线焦| 亚洲欧洲日韩综合色天使| 无码精品福利一区二区三区| 台湾AV国片精品女同性| 天天综合网色中文字幕| 国产高清在线观看| 天天干天天色综合网| 久久精品丝袜高跟鞋| 欧美激情福利| 国产精欧美一区二区三区| AV网站中文| 亚洲成A人V欧美综合天堂| 亚洲乱强伦| 欧美全免费aaaaaa特黄在线| 无码专区在线观看| 99视频在线观看免费| 中文字幕调教一区二区视频| 久久久噜噜噜久久中文字幕色伊伊 | 伊人久久久久久久| 亚洲浓毛av| 国产亚洲精品自在久久不卡| 国内99精品激情视频精品| 久久久久青草线综合超碰| 欧美精品xx| 99视频在线精品免费观看6| 最新亚洲人成无码网站欣赏网| 亚洲无码不卡网| 美女免费精品高清毛片在线视| 有专无码视频| 免费福利视频网站| 亚洲视频免| 麻豆精品久久久久久久99蜜桃| 成人精品午夜福利在线播放| 久久精品这里只有国产中文精品| 国产精品丝袜在线| 亚洲人成网18禁| 精品伊人久久久香线蕉| 成年女人18毛片毛片免费| 国产另类视频| 亚洲成aⅴ人片在线影院八| 久久大香香蕉国产免费网站| 亚洲免费黄色网| 一本色道久久88亚洲综合| 精品一区二区三区四区五区| 狠狠亚洲五月天| 亚洲无码高清一区| 国产亚洲欧美日韩在线一区二区三区| 国产综合精品一区二区| 亚洲毛片网站| 黄片一区二区三区| 国产屁屁影院| 一级黄色网站在线免费看| 国产精品99在线观看| 午夜性爽视频男人的天堂| 久久人妻系列无码一区| 一本大道香蕉中文日本不卡高清二区| 91黄视频在线观看| 国产在线麻豆波多野结衣| 97超爽成人免费视频在线播放| 亚洲欧美在线综合一区二区三区| 伊人丁香五月天久久综合| 99精品福利视频| 精品成人一区二区三区电影 | 精品日韩亚洲欧美高清a| 干中文字幕|