基于UDP流量的P2P流媒體流量識別算法研究.

2012-10-26 09:09:38董仕1王崗2

通信學報 2012年12期

關鍵詞：特征

董仕1,2,3,4，王崗2,3,4

(1.周口師范學院計算機科學與技術學院，河南周口 466001；2.東南大學計算機科學與工程學院，江蘇南京 210092；3.江蘇省計算機網絡技術重點實驗室，江蘇南京 210092；4.國家教育部計算機網絡和信息集成重點實驗室，江蘇南京 210092)

1 引言

網絡技術的成熟和互聯網帶寬的不斷增長使得P2P應用越來越普及，如何有效地管理和控制網絡中的P2P流量，以保證其他網絡業務的需要并使網絡得以正常運行已成為目前網絡管理中必須要面對的一個問題。據統計中國國內互聯網流量中UDP比例已接近 50%[1,2]，而西方國家同期的數據大約僅為20%[3,4]。國內互聯網UDP流量比例遠高于西方的主要原因是由于國內 P2P應用被廣泛使用。高UDP比例流量網絡的運行風險要更高，這是因為當擁塞發生時，UDP流量會對TCP流量產生抑制[5]，而網絡上所有重要數據均采用TCP傳遞。所以對P2P流量進行有效的管理在中國顯得更加重要。

對P2P流量進行有效管理的前提是對P2P流量的準確識別。目前傳統的應用類型識別主要分3類:基于端口[6]、基于機器學習[7～11]和基于深度報文檢測(DPI)[12～15]。P2P應用普遍使用隨機動態端口，基于特定端口的檢測方法已不適用，而DPI方法基于全報文檢測需要已知特征碼，對加密P2P應用束手無策。基于機器學習的方法可以在流層面完成基于流量行為特征檢測，但算法復雜度高，識別率低，漏報率和誤報率較大。目前并沒有一個能夠得到公認的有效面向P2P應用的識別算法。本文的研究工作圍繞P2P流量識別這個基本問題展開，研究工作基于擴展的流記錄進行。與上述所有的研究方法不同的是，本文的核心思路是用時間粒度聚合并揭示P2P應用在實際使用過程中因為“流控”和“并發”所體現出的特性，并據此將其標識。選擇具有代表性的以UDP作傳輸層協議的幾款P2P網絡電視為研究對象，希望能將其準確地從流量中標識出來。在詳細討論了算法后，文中采用在“峰時”和“谷時”長度分別為1h的實測IP TRACE作為實驗，結果表明采用EXID算法識別結果查準率和查全率均超出97%。并與比較流行的機器學習識別算法進行了比較，結果表明采用此識別算法在查準率上優于機器學習識別算法，有很高的總體正確率，且不易受到樣本比重的影響。

2 相關工作

目前的P2P 流量識別方法主要包含4種:端口識別、深層數據分組檢測、基于機器學習的流量識別、基于傳輸層連接模式的識別。

2.1 端口識別

早期的P2P應用程序使用固定的端口號，所以網絡服務提供商(ISP)常利用固定端口號識別 P2P流量。然而目前的P2P應用程序使用端口跳變技術和端口偽裝技術來躲避流量檢測。Bleul等[16]分析DirectConnect網絡得出，在已觀察到的端口中，70%的端口僅僅被使用了一次。可見，基于端口的P2P流量識別技術已不能滿足當前需求。

2.2 深層數據分組檢測(DPI)

DPI技術常采用模式匹配算法搜索流量載荷中P2P協議的特征值，進而通過特征匹配判斷是否屬于該P2P流量。流量載荷特征提取是確保DPI識別準確率的關鍵，而模式匹配算法是確保DPI執行效率的關鍵。

目前,基于DPI技術的P2P流量識別研究主要通過改進模式匹配算法來提高DPI技術的吞吐量。Sen等設計了一個基于模式匹配算法的在線分類器識別P2P流量，并評估了SR(standard regex)算法、AR(AST regex)算法和 KR(Karp-Rabin)算法的流量識別性能，其吞吐量分別為 0.21%～2.39%、8.7%～77.60%和0.07%～0.9%。可見，AR算法的性能相對最好。Xu等[17]利用 Rabin字符串匹配算法搜索主機上傳流量和下載流量中是否存在相同的負載內容，如果存在相同的負載內容，則認為該主機為P2P主機。實際上，為了保證DPI健壯性，模式匹配算法常常要結合其他技術，例如流狀態跟蹤、協議狀態檢測機制等。

綜上所述，在大多數情況下，DPI技術準確性高、可靠性好，且能夠細粒度地識別流量，主要適合于非加密流量的識別，其識別的準確性依賴于特征庫的更新。而學術界也常以該技術作為新流量識別方法的比較基準。L7-filter能夠準確識別128種協議流量，但對負載加密的Skype流量和迅雷流量識別能力有限。文獻[18]中識別負載加密的 emule流量，其準確性僅在 30%～70%之間。此外，在實際應用中，由于DPI技術侵犯個人隱私，其應用面受到限制。

2.3 基于機器學習的流量識別

基于機器學習的流量識別一般不依賴于應用層負載信息，它利用流量統計特征作為屬性，建立機器學習分類模型識別P2P流量。P2P流量的統計特征提取可以從數據分組級和數據流級提取。

1) 數據分組特征

數據分組特征主要統計單個流內數據分組大小、數據分組到達的間隔時間、數據分組比率(單位時間內傳輸數據分組的個數)等。Bleul等比較分析Bittorrent、DirectConnect、eDonkey、Gnutella 以及FastTrack這5種P2P流量發現，它們之間的平均數據分組長差異較大。除了eDonkey協議外，其他4種頻繁出現長度是小于200byte的數據分組。Teufl等[19]指出，音頻流的分組到達間隔時間非常相似。Marcell等[20]對 Skype呼叫流量進行實驗分析，發現平均語音數據分組大小在40～320byte之間變化，單向講話流的帶寬在 20～80kbit/s之間變化，而Skype語音數據分組到達的時間間隔是 30ms或者60ms，相應的數據分組比率分別是 33個數據分組/s和16個數據分組/s。它們利用這些特征將Skype流量與其他的VoIP流量(MSN、YahooMessenger、AOL Messenger、Gtalk)區分開。Bonfiglio 等[21]對 Skype流量進行實驗分析發現，在Skype呼叫連接的前30s內，Skype客戶端發送的數據分組大小大約是以后發送數據分組大小的2倍，平均數據分組到達時間間隔是20ms、30ms或者60ms。它們對Skype流量識別的誤報率為 0～0.01%，漏報率為9.82%～29.98%。Yang等[22]統計分組長度、分組到達時間間隔和分組的字節數等特征，對 Bittorrent流量、pplive 流量、Skype流量和MSN流量的識別準確性在 91%～95%。Este等[23]研究了數據分組特征的時空穩定性，發現數據分組大小受到網絡時空環境變化的影響相對最小，而且每個TCP連接成功后的第1個數據分組大小對分類的貢獻最大。它們僅分析了TCP協議下的數據分組特征穩定性，對于UDP協議下的特征穩定性未進行深入研究。文獻[24]利用數據分組大小和數據分組方向(客戶端發送的數據分組為正，服務器發送的數據分組為負)分類網絡流，對Bittorrent的識別準確率為96.8%。此外，Roughan等[25]的研究表明:僅統計數據分組特征還不足以區分大數據塊流和流媒體，也不能將FTP流與WWW流區分開，因此還需要在數據流級獲取更多的統計特征。

2) 數據流特征

數據流特征主要包括流的源/目的端口號、流大小、流持續時間以及標識位(FIN、SYN、RST、PUSH、ACK、URG)被設置的TCP數據分組數目等。流大小是指同屬于一個數據流的所有數據分組字節數總和。流持續時間由一個流的結束時刻減去流開始時刻得到。一般而言，TCP流的開始時刻是其SYN數據分組到達時刻，TCP流的結束時刻是其FIN或RST數據分組到達時刻。UDP流的開始時刻和結束時刻還沒有明確定義，目前，Cisco Netflow將流的超時值設置為60s。即，連續2個UDP數據分組到達時間間隔超過60s則認為是2個流。目前，對于數據流特征提取，國內外學術界已有大量工作。文獻[26,27]對P2P數據流和Web數據流的統計特征進行了比較分析，發現P2P流大小的均值比Web流大小的均值大，P2P流的平均持續時間要比Web流的平均持續時間長。陳慶章等[28]指出 FTP流量和 P2P流量各自的數據流特征，發現P2P流的數據分組大小變化幅度更大，流的持續時間更長，流的總長度更大。Moore等[29]提取249種TCP數據流特征，將網絡流量粗略分成10種類別，采用BAYES+NBK識別Web流量的準確性高達99.27%，而對P2P文件共享流量(KazaA，Bittorrent，Gnutella)識別準確性僅達到 36.45%。由于 249 維特征向量有較大的計算開銷和存儲開銷，Li[30]利用基于相關的快速特征選擇算法(FCBF, fast correlation-based filter)從249 種數據流特征中選出12種TCP 流特征。此外，Li還提取了9種UDP流特征。Erman等[31]用向后貪婪特征選擇算法從25種TCP 數據流特征中選擇11種流特征。

2.4 基于P2P傳輸層連接模式識別

針對不同的網絡行為特征可以設計出多種流量識別算法，本節介紹一些基于傳輸層連接模式的識別算法。Sen等[32]查閱大量的P2P協議相關文檔，提取出 Gnutella，KazaA，DirectConnect，BitTorrent，eDonkey等5種P2P文件共享流量特征，識別準確率在90.1%～100%。手工方式提取特征比較耗時，對于協議文檔不公開或加密的流量，獲取特征更加困難。Karagiannis等[33]發現，P2P網絡傳輸層連接的2個特征:一是大約2/3的P2P應用同時使用TCP和UDP協議，而其他少數應用中同時使用2種協議的僅僅包括NetBIOS、DNS、游戲等，這些少數應用大多使用固定的端口進行通信，例如NetBIOS使用135、137、139和445端口，通過端口號可排除掉這些非P2P應用；二是在P2P文件共享網絡中。對等體之間通常僅使用一條 TCP連接進行文件傳輸；而對于Web等非P2P應用，客戶端和服務器之間通常存在多條并發的TCP連接。Karagiannis利用這2個特征識別P2P流量，其誤報率在80%～12%之間[34]。針對對等網絡(P2P)中技術網絡的分布式特點，依據節點在單位時間內連接的目的子網數量(d值)和節點單位時間內連接的目的IP數目與有效連接數目的比值(m值)特性，提出一種基于節點連接特性的P2P節點識別算法。P2P節點的d值和 m值都明顯大于其他節點(如典型的 HTTP節點)，并存在一個閾值區間，據此可高效識別P2P節點。在清華大學校園網上的實驗結果顯示,該算法比當前主流的算法識別效果更好，節點誤識別率和丟失率都小于5%。目前雖然對P2P應用識別已經取得了很多研究成果，但是針對P2P流媒體識別的研究卻很少，因此本文針對目前流行的5種P2P流媒體進行特征發現并提出了一種流量識別算法。

3 行為特征分析

針對當前流行的5種P2P流媒體:PPS點播、PPLIVE、UUSEE、QQLIVE和皮皮點播分別進行研究，并對P2P流媒體進行了大量的抓分組分析，總結和歸納了2個特征，分別介紹如下。

3.1 同一端口特征

本特征為共性特征。所有這些P2P軟件在使用過程中雖然以隨機方式選擇端口，但在一次使用（點播或直播）過程中，無論與多少個對象進行交換，均使用同一個本地非系統端口。這個特性可以進一步描述為:一個IP地址為X的主機發起的一次P2P交互，無論與多少個對端主機進行交互，均使用一個相同的本地端口Y（Y＞1023）。

命題1 一個地址為X的主機發起的一次P2P交互所產生所有流記錄的五元組均具有（X,Y,*,*,UDP）或（*,*,X,Y,UDP）的特征，其中，Y為一個大于1023的固定值，*代表一個任意的IP地址或端口。

基于這個特征和所有應用只能選擇未被正在使用的端口這個基本原理，可以將一個時間段內所有符合條件的流記錄按P2P交互劃分集合，每個集合中的所有流記錄屬于同一個P2P活動，當然也屬于同一個P2P應用。這個命題的意義在于對P2P的識別可以在這個流記錄集合的層面上進行，只要可以準確識別集合中的一個流記錄就可以使所有的流記錄得到標識，另一方面也可以利用整個集合體現出的特性進行標識。

3.2 報文長度和流控特征

P2P應用在獲得UDP協議帶來好處的同時，也失去 TCP協議的一些優點，其中之一就是流控，TCP協議使用滑動窗口機制完成這項工作，單純的UDP沒有類似的功能。流控顯然是P2P應用必須具備的一項功能，這是因為通過端系統的觀察，發現所有 P2P軟件的所有下載過程均呈現雙向的 UDP連接，但在流量（報文長度）上呈現出明顯的差異。由于沒有滑動窗口機制的支持，每個P2P應用各自選擇了一組固定的報文長度，不同的應用其選擇各自不同。圖1描述了5種不同應用的報文長度按頻率所占的比重降序排列，取比重較大的前4個報文長度進行觀察和分析，從識別算法實現方便的角度，筆者根據觀察實測數據，選擇了各種P2P應用最長報文和最短報文作為識別特征。每個應用具體確定的數字如表1所示。

圖1 5種P2P應用的頻率比重分布

表1 P2P應用的最大最小報文長度

4 EXID流量識別算法

本文的識別算法依據第 3節總結和歸納的特征，并基于擴展的流記錄格式對網絡流量進行識別。

4.1 擴展流記錄定義

流記錄是對面向會話報文集合的描述。最早從學術研究角度提出的流記錄判定標準為五元組超時，基本的流記錄數據還包括起始時間、終止時間、流內字節數和流內報文數四項。思科公司基于路由器實現的NetFlow[14]中，在此基礎上擴展了TOS、下一跳路由器地址、源宿AS等字段。

本文識別算法使用另外一種擴展的流記錄，擴展項為流內最長報文字節數和最短報文字節數，具體描述如下。

定義1 擴展流記錄FLOWS1的格式為八元組（sip，dip，sport，dport，prot，lastime，lgest，shest），其中，lastime為流終止時間，lgest為流內最長報文長度，shest為流內最短報文長度。

4.2 EXID識別算法

算法的輸入是格式為 FLOWS1的流記錄集合Flow，核心思路是將輸入的流記錄根據 lastime和給的時間粒度參數 t，劃分成不同的子集，在此基礎上對子集內的流記錄根據3.1節的特征進行聚類，然后根據3.2節的個性特征確定每個類所屬的應用。

定義2 設有一個任意給定的t和一個FLOWS1格式的流記錄集合Flow，令Maxlastime和Minlastime為 Flow中所有流記錄的最大、最小 lastime值，n=(MaxLastime?MinLastime)/t，則可根據流記錄的lastime將 Flow劃分成 n個子集合{flow1,flow2,…,flowi,…,flown}，其中，任意一個，flowi稱為該Flow的第i個時間粒度子集。

根據這個定義，可得出結論:如果 Flow中的流記錄Rx和Ry屬于同一個時間粒度子集，flowi，則R x.lastime -R y.la stime |≤ t。還可以得到如下。

命題2 流記錄集Flow的時間粒度子集，flowi構成Flow的完整劃分。

定義3 Flow的時間粒度子集，flowi中的任意流記錄Rx和Ry，如果滿足

則Rx和Ry屬于 flowi的同一個聚類，表示為(IP, port)

根據3.1節中的命題1，flowi_setj(ip,port)中的所有流記錄屬于同一次P2P交互，它們屬于同一種P2P應用。

由于主機端口不能并發使用，一臺主機的一個端口在同一時刻只能與唯一的另一臺主機通信，實際上本文算法是利用了這個特征來聚類流記錄并識別其應用的。設一個客戶端口在一次使用完畢后，在時間粒度 t內再次被使用的概率為 p，則一個流記錄Rx同時屬于2個聚合集的概率小于p。假設一臺參與交互的P2P主機平均每Δt需要使用一個新端口，平均正在使用的端口數量為N，本地流的平均持續時間為則 p＜t/(Δt/(65536?1024?N))。如果取 Δt=5，t=5min，N=512，則p＜0.1%。

設持續時間小于 t時間內的同類流比例為 q。根據觀察，持續時間小于 5min的點播流的比例小于 30%，這樣 2個條件同時成立的可能性為pq＜0.02%，即認為一個flowi中流記錄xR只可能屬于一個聚類。下面給出具體的聚類及識別算法，分成聚類中雙向流報文長度對（pairs）生成算法和核心標識EXID識別算法由2部分組成，分別是報文長度對（pairs）生成算法BFPS和核心識別算法。

算法1 報文長度對生成算法

上述算法的目的是對相同5元組的流進行快速有效地合并，并根據3.2節中提出的流控特征，尋找并合并聚類中的雙向流，給出所有雙向流的最長、最短報文對，以便下面的核心算法利用3.2節中的報文長度特征進行識別。

算法2 報文長度特征識別算法

4.3 算法時空復雜度分析

EXID識別算法主要分2步:聚類和識別。聚類過程時間復雜度為流 S數 n的線性函數，即為O(n)。而識別過程時間復雜度也為O(n)，因此，總的算法復雜度為 O(n)+O(n)，由于聚類的時候，需要k個最大報文長度Lgest的數目和k個最小報文長度Shest的數目，因此需要的空間復雜度為O(k)，在識別過程中因為需要存儲5對最大和最小的報文長度，這將占據空間復雜度為O(2×5)，另外總的聚類和識別程序本身所占的空間復雜度為O(n)，因此總的空間復雜度為O(k)+ O(2×5)+O(n)。

5 實驗與分析

本節利用EXID識別算法對基于IPTAS系統[1]提供的實測數據進行P2P流媒體細粒度識別，而基準數據集是采用L7filter進行標識。

5.1 驗證方法

從IPTAS中選定用于驗證的IP TRACE，采用L7-filter 直接對Trace中5種報文進行打標簽，構成標準數據集A，將Trace中的UDP報文選出并將其根據流超時參數T組成符合FLOWS1格式的流記錄集合Flow，按第3節中提出的算法完成該Flow中各P2P流媒體類型的標記，根據對Flow的標記結果完成原始Trace中5種報文的標識，并將所有已標識的報文構建集合B，并以此獲得該算法的查全率、查準率以及整體正確率。

5.2 評估標準

本文采用常規的流量識別算法的有效評估標準，所涉及的概念有以下幾個。

真正TP(true positive):實際類型為i的樣本中被分類模型正確預測的樣本數。

假正FP(false positive):實際類型為非i的樣本中被分類模型誤判為類型i的樣本數量。

假負FN(false negative):實際類型為i的樣本中被分類模型誤判為其他類型的樣本數。查準率（precision）為

查全率（recall）為

整體準確率（overall accuracy）為

5.3 分析數據和驗證結果

分析數據為實測的 IP Trace[1]，采集地點是CERNET江蘇省網邊界10Gbit/s主干信道。采集時采用了1/4的流抽樣，但這樣的抽樣方法對本文的分析結果沒有影響。筆者選擇了2組數據進行分析，第1組（ALL_Trace1）谷時數據采集于2010年5月18號00:00 ～ 1:00，第2組（ALL_Trace2）峰時數據是當天19:00 ～ 20:00的數據。具體參數如表2所示，流超時參數T=16，ALL_Trace的Flows count包括TCP流。

表2 Trace數據描述

表3 5種P2P流媒體所占比重

從表3可以看出，5種P2P流媒體分別占總UDP報文的比重和占總報文的比重，PPS所占的比重最大，且這5種P2P流媒體已占總UDP報文數或字節數的20%左右。

根據 5.1節所提出的驗證方法和上述實驗數據，獲得如下計算結果，具體如表4所示。分析過程使用的時間粒度t是5min。

表4 5種P2P流媒體的查準率和查全率

從表4的結果來看，5種P2P流媒體的識別正確率均達到 97%以上，所采用的實驗數據是谷時ALL_Trace1和峰時ALL_Trace1數據的總和。而為了分析 Trace數據采集在不同時段對分類結果的影響，將其與典型的機器學習算法C4.5及Naivebayes進行了對比分析。機器學習所采用的測度屬性如表5所示。在表5中列出了16種所采用的測度屬性，并以此構建機器學習的分類器，在進行機器學習訓練前要對這些標記的TRACE數據進行組流，并計算上述16種測度屬性。為了便于對“谷時”和“峰時”2組數據進行研究討論，僅選擇5種P2P流媒體數據中的一種——PPS點播。

表5 測度屬性及測度說明

從圖2和圖3可以看出本方法的查準率指標優于查全率，對“峰時”的效果優于“谷時”。而采用NAIVEBAYES和C4.5機器學習算法則查準率劣于查全率，并且無論是查準率和查全率都要低于EXID識別算法。因為“峰時”的TRACE中包含大量的P2P交互的報文，這樣隨著樣本數的增加，對于識別精度也有所增大。而從下面的分析來看，這個影響的效果比機器學習方法的效果要小。主要是通過分析5種P2P流媒體總體正確率來說明算法的有效性以及樣本數對算法的影響。具體如圖4所示。

圖2 查準率比較

圖3 查全率比較

圖4 5種常見P2P流媒體的識別整體正確率

從圖4可以看到，EXID算法在對5種常見的P2P流媒體的識別總體正確率比其他2個經典的基于機器學習算法要高。更進一步分析發現采用C4.5和NaiveBayes對5種P2P流媒體識別正確率QQLive最高，而皮皮點播的最低。從理論可以分析，由于機器學習對于樣本數據的比重較為敏感，而本TRACE數據中數據類型的比重大小排序為QQLive＞pps 點播＞pplive＞UUSEE＞皮皮點播，QQLive所占類型比例最大。從圖3觀察可以得出，采用機器學習的2種識別算法更易受樣本比重的影響，同時這也驗證了機器學習算法對樣本容量大的數據具有較好的識別結果。

涉及到在線流量識別問題，就要考慮到算法的時間效率，因此下面通過對比其他2個經典的機器學習算法來分析EXID算法的時間效率，實驗數據采用由1G的TRACE組流得到76530條流，并通過DPI技術構建NOC_SET標準數據集，具體實驗結果如表6所示。

表6 算法時間效率

通過4.3節提到的時間復雜度的分析，并根據實驗結果可以得出EXID算法僅使用0.001s時間就完成了5種P2P流媒體的識別。而傳統的機器學習方法NaiveBayes和C4.5由于需要對數據集先進行訓練然后再進行分類識別處理，這樣就耗費了一定的時間，從而對分類的時效性造成了影響。這也是目前機器學習在高速在線的流量識別中所要解決的問題。EXID算法僅采用聚類方法且時間復雜度較低、不需要進行訓練。因此具有較高的時間效率。在目前高速在線的流量識別過程中可以考慮采用此解決方案對P2P流媒體流量進行分類識別。

6 結束語

本文通過對流行的 P2P流媒體行為特征的分析，提出了一種面向P2P流媒體應用的UDP流量識別方法，經對包含5種典型的P2P流媒體電視數據進行識別，其實驗結果表明所提出的EXID算法具有很高的查全率和查準率，而且時間復雜度低，在其使用的擴展流記錄格式能夠滿足的條件下，可實現在線識別。并且通過和經典的機器學習算法的比較，結果表明:

1) 具有更高的識別精度和整體的識別率；

2) 不易受樣本比重的影響，這樣就可以把抽樣的影響降到最低。

本文的研究工作也對其他路由器或具備流記錄生成能力的制造廠商在定義自己流記錄格式時具有參考意義。

本文提出的基于最大最小報文長度的識別方法是從滿足在線識別角度出發設計的，而這些最大最小報文并不是實際中使用頻數最高的。如果不考慮時間復雜度的代價，僅從提高識別準確率的需求考慮，按本文的思路，通過設計更復雜的測度標準可以設計出更好的算法，這些算法可以用于靜態IP Trace的分析，是今后工作的一個目標。

[1]IP trace distribution system[EB/OL].http://iptas.edu.cn, 2010.

[2]張藝瀕,張志斌,趙詠等.TCP與UDP網絡流量對比分析研究[J].計算機應用研究,2010,27(6):2192-2197.ZHANG Y B, ZHANG Z B, ZHAO Y, et al.TCP and UDP network traffic comparison analysis[J].Application Research of Computers,2010, 27(6):2192-2197.

[3]LEE D, CARPENTER B E, BROWNLEE N.Observations of UDP to TCP ratio and port numbers[A].Proc Int Conf on Internet Monitoring and Protection (ICIMP)[C].Barcelona, Spain, 2010.99-104.

[4]Tcpudpratio[EB/OL].http://www.caida.org/research/traffic-analysis/tcpudpratio, 2009.

[5]樊華,李理,袁堅等.互聯網流量控制的朗之萬模型及相變分析[J].物理學報,2009,58 (11) :7507-7513.FAN H, LI L, YUAN J, et al.Langevin model of the flow control in the internet and its phase transition analysis[J].Acta Physica Sinica,2009, 58 (11):7507-7513.

[6]Coralreef[EB/OL].http://www.caida.org/tools/measurement/coralreef,1999.

[7]ROUGHAN M, SEN S, SPATSCHECK O, et al.Class-of-service mapping for QOS:a statistical signature-based approach to IP traffic classification[A].Proc of the ACM SIGCOMM Internet Measurement Conf[C].Taormina, Italy, 2004.135-148.

[8]MOORE A W, ZUEV D.Internet traffic classification using Bayesian analysis techniques[A].Proc of the 2005 ACM SIGMETRICS Int’l Conf on Measurement and Modeling of Computer Systems[C].Banff,Alberta, Canada, 2005.50-60.

[9]李君, 張順頤, 王浩云等.基于貝葉斯網絡的Peer to peer識別方法[J].應用科學學報, 2009, 27 (2):124-130.LI J, ZHANG S Y, WANG H Y, et al.Peer to peer identification using Bayesian networks[J].Journal of Applied Sciences, 2009, 27(2):124-130.

[10]徐鵬, 劉瓊, 林森.基于支持向量機的 Internet 流量分類研究[J].計算機研究與發展, 2009, 46 (3):407-414.XU P, LIU Q, LIN S.Internet traffic classification based on support vector machines[J].Journal of Computer Research and Development,2009, 46 (3):407-414.

[11]KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M.BLINC:Multilevel traffic classification in the dark[A].Proc of the ACM Sigcomm[C].Philadelphia, USA, 2005.229-240.

[12]L7-filter, application layer packet classifier for Linux[EB/OL].http://l7-filter.sourceforge.net, 2003.

[13]胡超,陳鳴,許博等.一種基于爬蟲的分布式PPLive流實時檢測系統[J].解放軍理工大學學報,2008,9(5):512-516.HU C, CHEN M, XU B, et al.Reptiles distributed PPLive streaming real-time detection system[J].Journal of PLA University of Science and Technology (Natural Science Edition).2008, 9(5):512-516.

[14]Cisco system, IOS netflow feature(S)[EB/OL].http://www.cisco.com/warp/public/732/Tech/nmp/NetFlow/, 2004.

[15]胡超.一種P2P流識別和分析系統的設計與實現[D].南京:解放軍理工大學, 2008.HU C.Design and Implementation of a P2P Flow Identification and Analysis System[D].Nanjing:PLA University, 2008.

[16]BLEUL H, RATHGEB E P, ZILLING S.Advanced P2P multiprotocol traffic analysis based on application level signature detection[A].Proc of the Telecommunications Network Strategy and Planning[C].New Delhi, India, 2006.1-6.

[17]XU K, ZHANG M, YE M J, et al.Identify P2P traffic by inspecting data transfer behavior[J].Journal of Computer Communications, 2010,33(10):1141-1150.

[18]LIU X B, YANG J H, XIE G G, et al.Automated mining of packet signatures for traffic identification at application ayer with apriori algorithm[J].Journal on Communications, 2009, 30(12):51-59.

[19]TEUFL P, PAYER U, AMLING M, et al.InfeCT-network traffic classification[A].Proc of the 7th Int’l Conf on Networking (ICN)[C].Cancun, Mexico, 2008.439-444.

[20]PERéNYI M, MOLNáR S.Enhanced skype traffic identification[A].Proc of the 2nd Int’l Conf on Performance Evaluation Methodologies and Tools[C].Brussels, Belgium, 2007.1-9.

[21]BONFIGLIO D, MELLIA M, MEO M, et al.Revealing skype traffic:when randomness plays with you[A].ACM SIGCOMM Computer Communication Review[C].New York, USA, 2007.37-48.

[22]YANG A M, JIANG S Y, DENG H.A P2P network traffic classification method using SVM[A].Proc of the 9th Int’l Conf for Young Computer Scientists (ICYCS 2008)[C].Zhangjiajie, China, 2008.398-403.

[23]ESTE A, GRINGOLI F, SALGARELLI L.On the stability of the information carried by traffic flow features at the packet level[A].ACM SIGCOMM Computer Communication Review[C].New York, USA,2009.13-18.

[24]ESTE A, GRINGOLI F, SALGARELLI L.Support vector machines for TCP traffic classification[J].Computer Networks, 2009, 53(14):2476-2490.

[25]ROUGHAN M, SEN S, SPATSCHECK O, et al.Class-of-service mapping for QoS:a statistical signature-based approach to IP traffic classification[A].Proc of the 4th ACM SIGCOMM Conf on Internet Measurement[C].New York, USA, 2004.135-148.

[26]MORI T, UCHIDA M, GOTO S.Flow analysis of Internet traffic:world wide web versus peer-to-peer[J].Journal Systems and Com-puters in Japan, 2005,36(11):70-81.

[27]BASHER N, MAHANTI A, WILLIAMSON C, et al.A comparative analysis of Web and peer-to-peer traffic[A].Proc of the 17th Int’l Conf on world wide web[C].New York, USA, 2008.287-296.

[28]CHEN Q Z, SHAO B, CHEN C.Design and implementation of P2P traffic identification system based on compound characteristics[J].Journal of Southeast University (Natural Science Edition), 2008, 38(S1):109-113.

[29]MOORE A W, ZUEV D.Internet traffic classification using bayesian analysis techniques[A].ACM SIGMETRICS Performance Evaluation Review[C].New York, USA, 2005.50-60.

[30]LI W, CANINI M, MOORE A W, et al.Efficient application identification and the temporal and spatial stability of classification schema[J].Computer Networks, 2009, 53(6):790-809.

[31]ERMAN J, MAHANTI A, ARLITT M, et al.Offline/realtime traffic classification using semi-supervised learning[J].Performance Evaluation, 2007, 64(9-12):1194-1213.

[32]SEN S, SPATSCHECK O, AND D.WANG accurate, scalable in-network identification of P2P traffic using application signatures[A].in WWW[C].New York, USA, 2004.512-521

[33]KARAGIANNIS T, BROIDO A, FALOUTSOS M.Transport layer identification of P2P traffic[A].Proc of International Measurement Conference[C].Sicily, Italy, 2004.121-134.

[34]魯文斌,楊家海,劉洪波.基于節點連接模式的 P2P節點識別算法[J].清華大學學報(自然科學版),2009, 49(7):1045-1049.LU W B, YANG J H, LIU H B.Identification of P2P peers based on connection patterns[J].Journal of Tsinghua University (Natural Science Edition), 2009, 49(7):1045-1049.