季一木,袁永閣,張蘇銳
(1.南京郵電大學計算機學院,江蘇 南京 210023;2.南京郵電大學先進技術研究院,江蘇 南京 210023)
一種新型P2P流媒體協議及其流量模型研究*
季一木1,2,袁永閣1,張蘇銳1
(1.南京郵電大學計算機學院,江蘇 南京 210023;2.南京郵電大學先進技術研究院,江蘇 南京 210023)
針對FlashP2P技術,對其RTMFP協議進行了深入分析,提出了一種基于RTMFP包檢測的FlashP2P流量識別算法,并采用該算法對國內主流視頻網站的FlashP2P流進行了有效的識別。在此基礎上,對FlashP2P流量特征進行分析并證明其具有自相似性。最后,提出了一種基于ARIMA模型的經驗模式分解預測自相似網絡流量的方法,而且進行了仿真驗證。結果表明,該模型不僅降低了算法的復雜度,并且對短期預測精度較高。
FlashP2P;流量識別;EMD;流量預測
當下視頻業務傳輸主要基于CDN網絡、P2P網絡或兩者混合的網絡結構,P2P流媒體技術在大大降低內容提供商的硬件成本和帶寬租賃成本的同時,有效提高了視頻業務的QoS。基于Web的Flash平臺于10.0版本開始使用支持P2P技術的實時流媒體傳輸協議RTMFP(Real Time Media Flow Protocol)。然而,P2P流媒體技術產生了巨大的網絡流量,對于網絡運營商而言,為了對其進行有效管理,研究FlashP2P流量的識別及其建模的方法就成為一個重要的課題。
P2P流量識別是對P2P流量進行研究建模的基礎和前提。基于深層數據包檢測DPI(Deep Packet Inspection)技術往往需要對P2P應用的傳輸協議進行深入分析,如Zhao Rui等人[1]提出Gnutella、KazaA、DirectConnect、BitTorrent和eDonkey等五種P2P應用的流量特征。模式匹配算法在DPI技術中具有重要作用,文獻[2]綜合分析了單模式匹配算法BM、BHM以及QS算法的優點,并設計了新的用于P2P網絡流量識別的改進算法。P2P網絡行為特征主要包括對等體的連接模式、流行度、擾動性等[3],基于這些特征的P2P流量識別經典算法有:利用P2P的連接模式來識別算法的PTP算法[4]以及Gallagher B等人[5]提出的計算應用層連接同質性的算法,但其不能細化到具體的P2P傳輸協議[3]。基于統計學習算法的識別技術主要依賴于P2P流量的數據包級和數據流級特征。 P2P流量識別常用的機器學習算法有無監督學習的K均值聚類[6]、GMM和HMM等聚類方法[7]和監督學習的貝葉斯核估計算法[8]、支持向量機算法[9]等。由于Flash的相關技術一般是Adobe公司私有,對RTMFP協議[10]和FlashP2P技術的相關研究很少,也不夠深入[11],因此對FlashP2P網絡流量的識別帶來了困難。
網絡流量模型通常用于描述網絡流量的特征,特定的網絡流量模型還可以用于流量預測。傳統的網絡流量模型有泊松模型、馬爾可夫模型和回歸模型等,但這些模型僅適合描述具有短相關性的網絡流量。研究發現,當下的網絡流量普遍表現出自相似性和長相關性,基于自相似性的流量模型有重尾分布的ON/OFF模型、M/G/∞排隊模型以及能夠描述多尺度特性的小波模型等[12]。近年來隨著智能算法的不斷發展,如基于人工神經網絡的模型[13]、基于混沌理論的模型[14]和基于模糊理論的模型[15]等也被應用于網絡流量的建模。
本文主要內容如下:第2節主要研究FlashP2P流量的檢測方法,在分析RTMFP報文結構的基礎上提出RTMFP包檢測算法,并結合國內視頻網站非標RTMFP報文載荷特征給出具有較高識別精確度的FlashP2P流量的識別方法;第3節主要對抓取的FlashP2P流量建立EMD-ARMA和EMD-ARIMA模型,并對FlashP2P流量進行短期預測;第4節作了總結。
2.1 RTMFP報文特征分析
RTMFP是基于UDP的實時傳輸協議,傳輸過程中要求必須加密,加密后的RTMFP包載荷部分數據格式如圖1所示。
RTMFP數據包可以分為兩個部分:前四個字節是加擾的會話標志SSID(Scrambled Session ID),從第五個字節開始是用AES128 CBC方式加密的報文。 原始的會話標志SID(SessionID)是一個32位無符號整數,SSID由SID與加密部分的前兩個32位字段按位異或形成,公式如下:

031SSIDEncryptedPart[0]EncryptedPart[1]…
Figure 1 Encrypted RTMFP packet
圖1 加密后的RTMFP包
SSID=SID⊕(Encrypted_Part[0])⊕
(Encrypted_Part[1])
(1)
說明:
(1)連接建立的前兩次握手階段,SSID均為0。
(2)從第三次握手開始,雙方需要告知對方一個確定的SID,此后,對方發來的所有RTMFP包,都必須采用這個SID。兩個方向(Send/Receive)是兩個SID,它們可以不同。
(3)由于采用128位塊加密的方式,所以加密部分的位數必須是128的整數倍。若不滿足,則RTMFP包內部就會產生Padding,以達到這一要求。
2.2 RTMFP包檢測算法
上一節介紹了傳輸過程中加密的RTMFP包的包文特征,在此基礎上可以建立RTMFP包的檢測算法。從抓取的網絡流量P中提取FlashP2P流量的算法如下:
步驟1根據IP數據包中0x11字段從抓包文件P中篩選出UDP包,再根據常用端口號剔除其中DNS、DHCP等基于UDP協議的包集合Q。
步驟2從剩余的UDP包集合P-Q中按抓取的時間順序讀入一個包,從載荷部分的第五個字節開始,檢測剩余部分位數能否被128整除。若能,則判定為RTMFP包,轉步驟3;否則判定為非RTMFP包,并重新讀入。
步驟3判斷SSID字段是否等于0,若等于0則說明該包為RTMFP的控制包,轉步驟4;否則為正常通信包,轉步驟5。
步驟4建立RTMFP包五元組(源IP,目的IP,RTMFP包長度,加密部分長度,SSID),并將布爾型SSID置0,轉步驟2。
步驟5建立RTMFP包五元組(源IP,目的IP,RTMFP包長度,加密部分長度,SSID),并將布爾型SSID置1,轉步驟2。
2.3 Flash P2P流量識別
上一節介紹了RTMFP包的檢測方法,經在南郵校園網環境下驗證,該方法平均可以檢測出100%的攜帶視頻數據的RTMFP包和96%以上的RTMFP通信包,具有相當高的準確率。但是,由于AES128 CBC加密方式被廣泛采用,實際檢測出的數據包有包含非RTMFP視頻包的可能,所以該RTMFP包的檢測方法存在一定的誤報率。
為了解決這一問題,對國內采用Flash平臺作為播放器的視頻網站,如愛奇藝、優酷、搜狐等進行抓包分析,發現各視頻網站根據RTMFP標準協議制訂了各自私有的非標RTMFP傳輸協議,協議實現細節被加密屏蔽。但是,從攜帶視頻數據的RTMFP包的載荷部分長度可以看出,各視頻網站的協議實現并不完全相同,如表1所示。

Table 1 Load length of some domestic videosites RTMFP video packets表1 國內部分視頻網站RTMFP視頻包的載荷長度
因此,在FlashP2P流量識別的過程中,可以通過上述RTMFP包的檢測方法結合RTMFP包載荷長度等信息的方式,來提高FlashP2P流量識別的精確度,同時降低誤報率。
3.1 FlashP2P流量基本特征
本節將對FlashP2P網絡流量進行建模,用于預測未來一段時間內FlashP2P流量的變化趨勢,以便合理有效地管控FlashP2P流量。在南郵校園網一臺帶寬為1 Gbps的服務器端抓取網絡數據包,利用前述FlashP2P流量識別方法從中提取RTMFP包,即得到其中的FlashP2P流量。本文主要針對FlashP2P流量做短期預測,故抓包時長選為1小時,時間粒度取60 s,得到FlashP2P流量時序F(t)(t=1,2,…,60),如圖2所示。
由圖2,對FlashP2P流量采用帶常數項和趨勢項的ADF模型進行檢驗[16],在各顯著性水平下均接受單位根存在的原假設,說明流量時間序列F(t)是顯著非平穩的。
Paxson V和Floyd S[17]提出,不同時間粒度的網絡流量服從不同的行為規律,其中秒級時間粒度的流量行為體現出自相似性,所測流量F(t)恰好符合這一時間粒度。網絡流量的自相似性可以由Hurst指數描述,若Hurst指數在(0.5,1),則說明流量序列具有自相似性,Hurst指數越大說明流量序列的自相似(長相關)程度越高,突發性也越強[18]。通過R/S分析法估算F(t)的Hurst值,得到HurstFt=0.717,可以認為F(t)具有自相似性。
3.2 FlashP2P流量分解
經驗模態分解[19]是將原始數據在不同的時間尺度上分解為若干本證模態函數IMF(Intrinsic Mode Functions),各IMF分量包含原數據的不同時間局部特征。IMF滿足如下條件:
(1) 每個IMF信號的極值點數目與穿過零點的數目必須相等或者至多相差一個;
(2) 在任一時間點上,IMF信號的局部最大值與局部最小值所定義的信號包絡的均值為零。
對獲取的FlashP2P流量序列F(t)做EMD分解,得到四個IMF分量和一個趨勢項r(t),如圖3所示。為了敘述方便,這里將殘差項記為IMF5。由圖3可知,IMF1至IMF5頻率遞減,確定性遞增,其中IMF1隨機性最強。

Figure 3 IMFs of F(t)圖3 F(t)EMD分解后的IMFs
根據EMD分解原理,可知其可以將長相關的流量轉化成短相關。對IMF分別做ADF檢驗并用R/S分析法估算Hurst指數,結果顯示,除IMF1外,其余IMF的Hurst指數的估計值均小于0.5。由圖觀察可知,IMF2~IMF4的圖形越來越接近正弦曲線的一部分,因此不可能具有自相似性,文獻[20]給出了EMD分解可以消除流量序列的長相關性的數學證明。
3.3 FlashP2P流量模型
3.3.1 EMD-ARMA(p,q)模型
自回歸滑動平均ARMA(Auto Regression-Moving Average)模型,如下式:
(2)
其中,φi為自回歸系數,θj為移動平均系數,白噪聲εt~W(0,σ2),θ0=1,c為常數。為了使序列平穩,還必須保證下面的特征多項式在單位圓內沒有根:
(3)
確定ARMA(p,q)模型的過程就是確定p和q的階數,選取使AIC、BIC達到最小值的階數,從而確定模型。
以抓取的FlashP2P流量序列F(t)為例建立EMD-ARMA(p,q)模型,即對經過EMD分解的IMF分別采用ARMA建模。為量化模型預測精度,考慮到各IMF分量幅度不同,定義標準化均方誤差NMSE(Normalized Mean Square Error)作為評價標準,分別計算各IMF分量的NMSE值,如圖4所示。從圖4a中可以看出,IMF2~IMF5的NMSE值均趨近于零,但IMF1的NMSE值接近0.5,表明IMF1擬合效果較差,IMF2~IMF5的擬合效果都比較好。這主要是因為IMF1包含最多的隨機高頻信息,為了降低IMF1的建模誤差,可以采取差分的辦法進一步使流量序列平穩化,以提高擬合精度。

Figure 4 NMSE圖4 NMSE
3.3.2 EMD-ARIMA(p,d,q)模型
求和自回歸滑動平均ARIMA(Auto Regressive Integrated Moving Average)模型,如下式:
(4)
其中,φ(B)=1-φ1B-…-φpBp,|B|≤1;θ(B)=1-θ1B-…-θpBp,|B|≤1。B為后移算子,即BXt=Xt-1,=(1-B)為差分算子,d=(1-B)d為分數差分算子。
對上述FlashP2P流量序列F(t)分解得到的IMF1建立EMD-ARIMA(p,d,q)模型,并分別計算不同階數下的NMSE值,得到圖4b,其中DIMF1表示差分后的IMF1。圖中顯示,NMSE值呈現先減后增的趨勢,且d=2時的NMSE值最低。于是建立d=2的EMD-ARIMA(p,d,q)模型如圖5所示,Unit表示分解后加總的流量值。

Figure 5 EMD-ARMA model of D2IMF1圖5 D2IMF1的EMD-ARMA模型
顯然,還可以用EMD-ARIMA(p,d,q)模型對IMF2~IMF5進行建模以提高精度,這里不再贅述。至此,FlashP2P的流量模型建立完畢,建模結果及殘差見圖6。

Figure 6 EMD-ARIMA forecasting model圖6 EMD-ARIMA預測模型
3.4 FlashP2P流量預測
下面利用F(t)的數值的前60-n個值作為輸入,按上述模型進行建模,采用迭代法分別作n(n=1,2,…,5)步預測,對預測值計算均方誤差MSE(Mean Square Error),得到表2。

Table 2 MSE表2 MSE
從表2可以看出,隨著預測步數的增加,MSE值也不斷增加,預測結果在可接受范圍內。
本文對RTMFP協議的分析進行了深入分析,提取出RTMFP加密報文的載荷特征,在此基礎上提出基于RTMFP包檢測的FlashP2P流量識別算法,并對主流視頻網站FlashP2P流進行了抓取,驗證了算法的有效性。通過研究發現,FlashP2P流量具有自相似性,基于這一特性,對實驗室獲取的FlashP2P流量進行流量建模,并用EMD-ARIMA模型成功對FlashP2P流量進行了預測。本文提出的FlashP2P流量識別方法可以很好地識別FlashP2P流量,具有一定創新性,但由于國內視頻網站采用基于RTMFP的私有協議,其載荷特征可能發生變化,因而本算法也存在一定的缺陷。此外,該模型對于具有自相似特性的網絡流量都可以進行有效短期預測,但長期預測的精度較低,有待改進。
[1] Zhao Rui.The study and implement of P2P flow identify based characteristic string[D]. Chengdu:University of Electronic Science and Technology of China, 2009.(in Chinese)
[2] Lu Gang, Zhang Hong-li, Ye Lin. P2P traffic identify[J]. Journal of Software,2011,22(6):1281-1298.(in Chinese)
[3] Sen S, Spatscheck O, Wang D M. Accurate, scalable in-network identification of P2P traffic using application signatures[C]∥Proc of the 13th International Conference on World Wide Web (WWW 2004), 2004:512-521.
[4] Karagiannis T,Broido A,Faloutsos M,et al.Transport layer identification of P2P traffic[C]∥Proc of the 4th ACM SIGCOMM Conference on Internet Measurement, 2004:1.
[5] Gallagher B,Iliofotou M,Eliassi-Rad T,et al.Link homophily in the application layer and its usage in traffic classification[C]∥Proc of the INFOCOM, 2010:1-5.
[6] Bernaille L, Teixeira R, Akodkenou I, et al. Traffic classification on the fly[J]. ACM SIGCOMM Computer Communication Review, 2006, 36(2):23-26.
[7] Bernaille L, Teixeira R, Salamatian K. Early application identification[C]∥Proc of the 2006 ACM CoNEXT Conference, 2006:1-12.
[8] Moore A W,Zuev D.Internet traffic classification using Bayesian analysis techniques[J]. ACM SIGMETRICS Performance Evaluation Review, 2005,33(1):50-60.
[9] Xu P, Liu Q, Lin S. Internet traffic classification using support vector machine[J]. Journal of Computer Research and Development, 2009,46(3):407-414.(in Chinese)
[10] Thornburgh M C. Adobe's secure real-time media flow protocol[EB/OL].[2014-05-01].http://tools.ietf.org/html/rfc7016.
[11] Kaufman M.RTMFP overview for IETF77 TSV AREA[EB /OL].[2014-05-01].http://www.ietf.org/proceedings/10mar/slides/tsvarea-1.pdf.
[12] Flandrin P.Wavelet analysis and synthesis of fractional Brownian motion[J]. IEEE Transactions on Information Theory, 1992,38(2):910-917.
[13] Liu J,Huang Y L.Nonlinear network traffic prediction based on BP neural network[J]. Journal of Computer Applications, 2007,27(7):1770-1772.(in Chinese)
[14] Lu J J, Wang Z Q. Prediction of network traffic flow based on chaos characteristics[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2006,38(2):217-221. (in Chinese)
[15] Wang Z X, Sun Y G, Chen Z Q, et al. Study of predicting network traffic using fuzzy neural networks[J]. Journal on Communications, 2005,26(3):136-140.(in Chinese)
[16] Wang Li-ming,Wang Lian, Yang Nan. Application time sequence analysis[M].Shanghai:Publisher of University of Fudan,2009.(in Chinese)
[17] Paxson V,Floyd S. Wide-area traffic:The failure of Poisson modeling[J]. IEEE/ACM Transactions on Networking, 1995,3(3):226-244.
[18] Hong Fei, Wu Zhi-mei.Adaptive Hurst index estimator based on wavelet[J]. Journal of Software, 2005, 16(9):1685-1689.(in Chinese)
[19] Huang N E, Shen Z, Long S R. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[C]∥Proc of Royal Soc London A, 1998:903-995.
[20] Gao Bo, Zhang Qin-yu, Liang Yong-sheng, et al. Predicting self-similar networking traffic based on EMD and ARMA [J]. Journal on Communications, 2011, 32(4):47-56.(in Chinese)
附中文參考文獻:
[1] 趙瑞.基于特征串的P2P流量識別研究與實現[D]. 成都:電子科技大學,2009.
[2] 魯剛,張宏莉,葉麟. P2P流量識別[J]. 軟件學報,2011,22(6):1281-1298.
[13] 劉杰,黃亞樓.基于BP神經網絡的非線性網絡流量預測[J].計算機應用,2007,27(7):1770-1772.
[14] 陸錦軍,王執銓.基于混沌特性的網絡流量預測[J].南京航空航天大學學報,2006,38(2):217-221.
[15] 王兆霞,孫雨耕,陳增強,等.基于模糊神經網絡的網絡業務量預測研究[J].通信學報,2005,26(3):136-140.
[16] 王黎明,王連,楊楠.應用時間序列分析[M].上海:復旦大學出版社,2009.
[18] 洪飛,吳志美. 基于小波的Hurst指數自適應估計方法[J]. 軟件學報,2005,16(9):1685-1689.
[20] 高波,張欽宇,梁永生,等. 基于EMD及ARMA的自相似網絡流量預測[J]. 通信學報,2011,32(4):47-56.
JIYi-mu,born in 1978,PhD,associate professor,CCF member(E2000014042S),his research interests include P2P network, cloud computing, and bigdata.

袁永閣(1992),男,江蘇徐州人,碩士生,研究方向為P2P網絡、云計算和大數據。E-mail:1196980536@qq.com
YUANYong-ge,born in 1992,MS candidate,his research interests include P2P network, cloud computing, and bigdata.
《計算機工程與科學》高性能計算專刊和專欄征文通知
一、刊物簡介
《計算機工程與科學》是由國防科技大學計算機學院主辦的中國計算機學會會刊,是國內外公開發行的計算機類綜合性學術刊物。本刊已先后被列為中文核心期刊、中國科技信息研究所中國科技論文統計分析源期刊(中國科技核心期刊)、中國科學引文數據庫來源期刊(CSCD核心期刊)、中國學術期刊(光盤版)全文入編期刊、中國期刊網全文入編期刊、中國學術期刊綜合評價數據庫來源期刊。
二、征稿范圍(但不限于)
目前,國內高性能計算的研究方興未艾,為更好地宣傳目前國內高性能計算領域的研究和應用現狀,我刊計劃從2013年開始每年出版一期高性能計算專刊,并且常年增設高能性能計算專欄,重點是面向國內高性能計算領域的研究和應用。包括:
(1)系統研制技術:體系結構、系統軟件、軟件并行化、多核編程、編譯技術、GPU計算、低功耗技術、系統優化技術。
(2)系統應用:EDA設計仿真、CAE、數值計算、計算化學、計算物理、材料設計、量子力學、分子動力學、流體力學、工業設計、圖像渲染、生物信息、生命科學、氣象、天文、金融、石油勘探、工程計算、地震資料處理、集群管理、并行應用軟件開發(MPI、OpenMP、CUDA)、Linpack測試研究、超算服務等。
三、投稿要求
(1)投稿方式:采用“計算機工程與科學在線投稿系統”(http://www.joces.org.cn)投稿。投稿時請在備注欄中注明“高能性能計算專刊或專欄”字樣。
(2)稿件格式:參照《計算機工程與科學》下載中心的排版規范(網站上提供了論文模版,可下載)。
(3)投稿文章未在正式出版物上發表過,也不在其他刊物或會議的審稿過程中,不存在一稿多投現象;保證投稿文章的合法性(無抄襲、剽竊、侵權等不良行為)。
(4)其他事項請參閱投稿指南: http://www.joces.org.cn/CN/column/column291.shtml。
(5)專刊投稿文章按《計算機工程與科學》正常標準收取審稿費和版面費,但將會優先發表;發表之后,將按《計算機工程與科學》的標準支付稿酬,并贈送樣刊。
《計算機工程與科學》編輯部
AnovalP2Pstreamingprotocolanditstrafficmodel
JI Yi-mu1,2,YUAN Yong-ge1,ZHANG Su-rui1
(1.School of Computer Science & Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023;2.Institute of Advanced Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)
The RTMFP protocol of FlashP2P technique is analyzed in detail and a FlashP2P traffic recognition algorithm based on RTMFP packet detection is proposed.The algorithm is used to effectively identify the FlashP2P streams of the domestic mainstream video sites. On this basis,the characteristics of FlashP2P flow are analyzed and their self-similarity is proved.Finally, based on the empirical mode decomposition of the ARIMA, we build a model to predict the self-similar network traffic. The simulation results show that the model not only reduces the complexity of the algorithm but also has high short-term forecast accuracy.
FlashP2P;traffic identification;EMD;traffic forecasting
1007-130X(2014)11-2100-06
2014-06-05;
:2014-08-15
江蘇省自然科學基金青年基金資助項目(BK20130876);中國博士后基金資助項目(2013M541702);江蘇省未來網絡項目(BY2013095-4-03);國家自然科學基金資助項目(61170065,61373017)
TP391.02
:A
10.3969/j.issn.1007-130X.2014.11.008

季一木(1978),男,安徽無為人,博士,副教授,CCF會員(E2000014042S),研究方向為P2P網絡、云計算和大數據。E-mail:jiym@njupt.edu.cn
通信地址:210023 江蘇省南京市南京郵電大學計算機學院842號信箱
Address:Mailbox 842,School of Computer Science & Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023,Jiangsu,P.R.China