【摘要】提出一種基于小波變換、相空間重構理論和LS-SVM的P2P流量預測模型。首先將P2P流量分解為小波系數和尺度系數,然后分別對各個系數進行相空間重構,將重構的分量分別通過LS-SVM模型進行預測,最后用小波方法將各個分量的預測值進行再重構,得到原始流量的預測結果。仿真結果表明該模型的預測結果較傳統的LS-SVM模型有更高的精度。
【關鍵詞】流量預測小波變換LS-SVMP2P
A p2p Network Forecasting Model Based on Wavelet Decomposition and PSR-LSSVM
AbstractPropose a p2p traffic forcasting model based on wavelet transform,phase space reconstruction theory and LS-SVM.First,p2p traffic is decomposed into wavelet components and scaling components .Then use the phase space reconstruction theory to determine the optimal delay time and minimum of each component.And we use the LS-SVM model to train and predict.Finally,reconstruct each component to get the predicting result of the oringin p2p traffic using wavelet method.Simulating results show that the prediction of this new model approaches higher accuracy than the traditional model.
一、引言
自1995年Napster[1]出現,P2P很快就嶄露頭角,如今,P2P流量已成為互聯網流量的主流。基于P2P協議的軟件有下載應用類的軟件如BitTorrent、eDonkey、迅雷等和即時信息類軟件如:騰訊QQ、微軟MSN等以及網絡電視類軟件如PPstream、PPlive等。P2P應用占用了60%-80%以上的流量,然而,測量結果[2]表明90%的P2P流量僅由20%的peers進行傳輸,P2P的應用使得少部分人占用了大量的網絡帶寬,給網絡運營帶來了很大的壓力。
傳統的網絡流量預測模型如AR、MA、ARMA[3,4]等線性時間序列模型只能描述短相關特性的流量。然而隨著網絡環境的不斷發展,網絡流量顯示出明顯的自相似性[5,6]、突發性[7]和周期性等特性,傳統的預測模型已經不能準確地刻畫出網絡流量的新特性,在實際應用的有很大的局限性。近年來,學者提出了許多新的模型,如FARIMA[8]、灰色模型[9]、神經網絡模型[10]、小波模型[11]、SVM[12]等人工智能模型。
針對P2P[13]流量的非線性、數據量大、周期性強、用戶行為明顯等特性,本文提出了一種基于小波變換、相空間重構和LS-SVM的網絡流量預測模型。
二、建模原理
2.1多分辨率分析理論
Mallat等人在1987年提出了多分辨率分析[13]的概念,多分辨率分析的基本思想就是將所選信號分解到不同的頻率上。被分解到尺度空間上的信號叫做平滑信號,而另一部分信號叫做細節信號。小波變換就是將信號分解到不同的頻率上。
(1)P2P流量時間序列的多尺度分解
首先,選取適當的小波函數和級數,將P2P流量時間序列X(k)分解為j層,如下式:
2.2相空間重構
相空間重構(phase space reconstruction,PSA)理論[14]是分析混沌時間序列的重要方法,它是一種通過有限的樣本重構吸引子來研究系統動力學特性的理論。在動力學系統中,一個分量的改變都可以從其它有關的分量顯示出來,通過選擇合適的相空間重構維數和延遲時間,我們可以得到擁有原系統動態規律的新系統,從而從高維相空間里還原混沌吸引因子。
假定有一時間序列為y(t),t屬于(1,N),子為時間的延遲量,m為嵌入維數。M=N-(m-1)子,M是重構后的相點的個數。則此時間序列在重構之后,N個相點在m維相空間中的軌跡為:
其中,||·||表示向量的范數,Yi(m+1)為第i個重構的相空間向量,而m+1為其嵌入維數;Yn(i,m)(m)是距離Yi(m+1)最近的向量,為了檢測出E(m)的變化情況,令
E1(m)=E(m+1)/ E(m)
如果預測的序列是混沌序列,那么隨著m的增大,E(m)的值會趨于飽和。若大于m0時,E(m)的值接近飽和,那么最小嵌入維數即為m0+1。
2.3最小二乘支持向量機
支持向量機的基本思想是:首先使用非線性變換將輸入向量映射到高維特征空間,在這個空間中構造最優決策函數,在構造最優決策函數時應用結構風險最小化原則,并巧妙地利用原空間的核函數取代高維特征空間中的點積運算。最小二乘支持向量機是支持向量機的一種擴展形式,它在支持向量機中引入了最小二乘線性系統,通過二次規劃的方法來解決函數估計的問題,其回歸算法見文獻[15]。
三、基于小波變換和PSR-LSSVM的P2P流量預測模型
3.1模型結構
在實際的網絡環境中,P2P流量時間序列是一個非線性、多尺度變換的動力系統。針對它明顯的自相似性、突發性、混沌和周期性等特性,本文提出了基于小波變換、相空間重構和LS-LVM的P2P流量預測模型,模型結構圖如下:
3.2建模步驟
(1)對原始的P2P流量時間序列y(n)進行M尺度的分解和重構,得到高低頻分量aM、dj(j=1...M)。(2)針對aM、dj分別進行相空間重構,根據計算出的嵌入維數m和延遲系數子,得到重構的多維相空間AM(n)、Dj(n),對LS-SVM模型進行訓練。(3)將第一步分解的高低頻系數分別通過第二步訓練好的LS-SVM模型,得到各分量的預測結果y贊aM(n)、y贊dj(n)(4)將上一步的預測結果進行線性
四、仿真實驗
本實驗數據為在某一主機上,采集QQLive觀看電影時產生的流量,以5秒為間隔,數據數量為600。前420個數據作訓練集,后180個數據作預測集。并將本模型預測的結果同傳統的LS-SVM做比較。為了較好地評價模型的性能,本文選取的性能指標有:
參考文獻
[1] Napster[EB/OL].[2012-05-20]. http://www.napster.com
[2]張云飛,雷連虹等. Internet中Peer-to-Peer應用流量測量與分析[J].鐵道學報, 2004, 10: 55—60.
[3] Systems //Multimedia Computing and Networding 2002 (MMCN’02)
[4] G. Zhang, G. Xie, J. Yang, D. Zhang, D. Zhang. Self-similar characteristic of traffic in current metro area network [J]. Proc. of 15th IEEE Workshop on Local and Metro Area Networks, 2007,1:176-181.
[5] A Callado, C Kamienski, G Szabó, B Péter-Gero··, J Kelner, S Fernandes et al. A Survey on Internet Traffic Identification [J]. IEEE Communications Surveys and Tutorials, 2009,11(3):37-52.
[6] Kun-Chan Lan, John, Heidemann. A measurement study of correlations of Internet Flow characteristics [J].The International Journal of Computer and Telecommunications Networking,2006,50(1):46-62.
[7]魏武雄.時間序列分析———單變量多變量方法[M].北京,中國人名大學出版社,2005
[8] LiuYuan,CaoJianhua. NetworkTrafficPredictionBasedonGrey Neural Network Integratd model[C]//Proc. of2008 International Conference on Computer Science and Software Engineering.[S.L.]:IEEE Press,2008.
[9]蔡娜娜,陳月輝,李偉.基于神經網絡的蛋白質三級結構預測[J].計算機工程,2010,36(9):176—177
[10]雷霆,余鎮危.一種網絡流量預測的小波神經網絡模型[J].計算機應用,2006,26(3):56-58
[11] FengHuifang,ShuYantai,Wangshuyi. SVM-based Models for Pedicitng WLAN Traffic [C]//Proc·ofIEEE International Conference on Cornmunications.[S.L]:IEEE Press, 2006
[12] M R Foster I. Mapping the Gnutella network. IEEE Internet-Computing Jan. 2002,6 :50-57
[13] Saroiu S, Gummadi P K, Gribble S D.A Measurement Study of Peer to Peer File Sharing
[14]呂金虎,陸君安,陳士華,混沌時間序列預測與應用[M].武漢:武漢大學出版,2002
[15]楊延西,劉丁.基于小波變換和最小二乘支持向量機的短期電力負荷預測[J].電網技術,2005,29(13):60-64