劉春茂,郝倩,張云崗
?
基于PSO-LSSVM的網絡流量預測
劉春茂,郝倩,張云崗
摘 要:流量預測是計算機網絡管理的一項關鍵技術,以提高網絡流量預測的準確性為目標,本文提出一種粒子群優化算法和最小二乘支持向量機的網絡流量預測模型。首先對網絡流量歷史數據進行混沌分析,重構網絡流量樣本集,然后采用粒子群算法優化最小二乘支持向量機對網絡流量數據進行建模,最后采用仿真模擬實驗對網絡流量的預測結果分析。實驗結果表明,其模型可以描述網絡流量的變化趨勢,獲得高精度的網絡流量預測結果,提供了一種新網絡流量預測工具。
關鍵詞:網絡流量預測;最小二乘支持向量機;粒子群優化算法;核函數參數選擇
近年來,隨著上網用戶的不斷增加,Internet的規模急劇增加,網絡數據以及種類如圖像、視頻等越來越多,網絡擁塞越來越嚴重,從而增加了網絡管理難度[1]。網絡流量預測可以了解將要發生的網絡行為,預測結果有助于管理人員分析網絡安全狀況,并提出相應的管理和防范措施。因此,網絡流量的建模與預測具有重要的意義[2]。
近些年來,人們對網絡流量預測問題重視程度越來越高,許多學者和專家花了大量的時間和心血進行網絡流量的建模與預測研究,取得一系列的研究成果[3,4]。傳統網絡流量預測模型為線性建模方法,如自回歸(AR)模型,差分自回歸滑動平均(ARIMA)模型以及多元線性回歸模型,它們根據網絡流量歷史數據之間的變化關系,分析網絡流量的變化特點以及將來的變化態勢,對于小規模網絡,它們的建模效率高、預測精度高[5-7]。網絡流量受到外界因素影響越來越多,傳統模型雖然簡單、易實現,但不能準確反映復雜多變的網絡流量變化特性[8]。為此,一些學者提出了一些非線性網絡流量建模方法,如神經網絡、支持向量機等,它們具有非線性和自適應建模能力,能夠擬合網絡流量的變化特點,預測精度得到了提高[9-11]。在網絡流量實際建模與預測過程中,神經網絡是一種基于“大數定理”的建模方法,對網絡流量的歷史樣本數據要求大,因此,對于小規模的歷史樣本數據,神經網絡的預測結果不穩定,許多樣本點出現過擬合缺陷[12]。對于小樣本數據,支持向量機的預測準確高,但對于大規模的網絡流量數據,支持向量機的訓練時間長,建模效率低,不符合網絡流量管理中的實時性建模與預測要求[12]。最小二乘支持向量機(LSSVM)是一種專門解決支持向量機建模效率低、神經網絡過擬合缺陷的機器學習算法,更加符合網絡流量的非線性建模要求。參數好壞直接反映了LSSVM的網絡流量預測準確性,當前有交叉驗證算法、遺傳算法確定LSSVM參數,但它們自身存在著一些不足,如遺傳算法的交叉概率、變異概率沒有理論指導,全憑經驗確定,網絡流量預測性能有待進一步改善[13]。
為了提高網絡流量預測的準確性,提出一種粒子群優化算法和最小二乘支持向量機的網絡流量預測模型,該模型對網絡流量歷史數據進行混沌處理,然后最小二乘支持向量機進行建模,并采用粒子群算法優化其參數,最后仿真模擬實驗結果表明,本文模型可以描述網絡流量的變化趨勢,獲得高精度的網絡流量預測結果。
1 相關理論1.1 最小二乘支持向量機


LSSVM回歸為公式(1):

LSSVM訓練過程可以看作如下優化問題如公式(2):

公式(2)中,γ為可調整正則化參數。
為了簡化運算,提高效率,引入Lagrange函數把式(2)變成為公式(3):

式中,
為Lagrange乘子。
對L對求偏導為,消除變量w和:
和b的解,

其定義如公式(5)::

1.2 粒子群優化算法



2 PSO-LSSVM的網絡流量預測模型
2.1 LSSVM參數尋優的數學模型
參數γ和σ直接決定了LSSVM的網絡流量擬合效果,γ值越大,網絡流量的擬合精度就越高,而網絡流量預測結果的泛化能力就差,而σ值越小,網絡流量會出現欠學習缺陷,計算復雜度大,運行效率低。同時σ值越大,網絡流量的擬合和預測誤差均大,預測精度比較低,為了解決該難題,本文提出采用粒子群優化算法選擇LSSVM的參數,將LSSVM的參數(γ,σ)看作是一個組合優化問題,那么(γ,σ)的數學模型為公式(8):

2.2 具體設計
2.21 粒子編碼機制
由于PSO算法與LSSVM參數(γ,σ)之間建立聯系才能進行尋優求解操作,本文采用實數編編碼方式將(γ,σ)組成一個粒子,具體如圖1所示:

圖1 粒子的編碼機制
2.22 個體適應度函數

PSO-LSSVM的工作步驟
(1)對網絡流量歷史樣本進行混沌處理,確定其嵌入維和延遲時間,得到一個有規律的網絡流量數據序列。
(2)確定LSSVM參數(γ、σ)的范圍,并初始化PSO算法的參數,如最大迭代次數等。
(3)隨機產生初始的粒子群,每一個粒子包括(γ,σ)兩部分,并且設置初始迭代次數t=0。
(4)對于網絡流量訓練樣本,每一組參數作為LSSVM學習參數,通過10折交叉驗證法計算每一個粒子的適應度值。
(5)根據適應度值確定每一個粒子的當前優位置pbest和粒子群的當前最優位置gbest。
(6)根據公式(6)和公式(7)更新粒子的速度和位置,產生新的粒子群。
(7)近代次數自加,即有t=t+1。
(8)判斷PSO算法的終止條件,如何滿足就根據粒子群的最優位置gbest得到最優的(γ、σ)值,不然轉步驟(4)繼續尋優。
(9)根據最優的(γ、σ)值和網絡流量訓練樣本,建立基于PSO-LSSVM的網絡流量預測模型。
綜合上述可知,基于PSO-LSSVM的網絡流量建模與預測流程如圖2所示:

圖2 PSO-LSSVM的工作流程
3.1 源數據
為了分析PSO-LSSVM的網絡流量預測性能,選擇http://news.ntu.edu.tw/stat/的2014年5月1日到2014年5月16日每小時的流量作為實驗對象,共得到30個流量數據,選擇最后100個數據測試對PSO-LSVM的泛化性能,具體如圖3所示:

圖3 實驗流量
對比模型
選擇時間序列模型(ARIMA)、BP神經網絡(BPNN)和遺傳算法優化最小二乘支持向量機(GA-LSSVM)進行對比實驗,采用2種評價標準評價模型的性能,它們分別為:預測準確率(Accuracy)和均方根誤差(RMSE),具體定義如公式(10)、公式(11):

樣本集的建立
網絡流量受到上網人行為、網絡價格等因素影響,因此其不僅具有一定的變化規律,同時具體一定的混沌性,為此,需要對圖3的網絡流量進行混沌處理,找到延遲時間(τ)和嵌入維數(m)從而準確描述網絡流量的變化特點,分別采用自相關法和假近鄰法確定τ和m,結果如圖4所示:

圖4 樣本集的建立
當τ=6時,網絡流量之間的相關性變小,這樣可以認為此時τ=6最合理;當m=9時,樣本點的假近鄰數不再發生變化,趨于穩定,這樣可以認為此時m=9最合理,根據τ=6,m=9對網絡流量數據進行處理,建立PSO-LSSVM的樣本集。
預測結果與分析

圖5 PSO-LSSVM的預測結果
采用LSSVM對前200個網絡流量數據進行學習,并采用PSO算法對LSSVM的參數(γ,σ)進行估計,最終選擇γ=10.755,σ=0.158作為LSSVM的網絡流量建模最優參數,從而網絡流量的預測模型,測試樣本的預測結果如圖5所示:在圖5(a)中,PSO-LSSVM可以很好描述該種網絡流量數據的變化特點,預測值與實際值擬合精度相當的高,這說明PSO-LSSVM可以從網絡流量的歷史數據中找到網絡流量將來的變化趨勢,網絡流量預測結果的泛化能力好。從圖5(b)可發現,PSO-LSSVM的預測值與實際網絡流量值的偏差小,而且整個網絡流量偏差波動控制在一定的范圍內,PSO-LSSVM可以準確刻畫了網絡流量的非線性、周期性變化特點,是一種精度高、泛化能力強的網絡流量預測模型。對PSO-LSSVM與當前網絡流量流行預測模型的性能進行對比分析,統計它們的預測結果的Accuracy和RMSE,具體如表1所示:

表1 Accuracy和RMSE對比
對表1中各模型的Accuracy和RMSE進行對比,我們可以發現,對于兩種評價指標,PSO-LSSVM均優于所有當前網絡流量預測模型,如:BP神經網絡,對比實驗結果表明,PSO-LSSVM可以獲得比PSO-LSSVM更理想的網絡流量預測結果。
針對當前LSSVM核函數以及參數選擇問題,為了提高網絡流量預測精度,本文提出一種PSO-LSSVM的網絡流量建模方法,并通過仿真實驗對其性能進行測試,可以得到如下結論:
(1)網絡流量受到許多外界影響因素的作用,具有復雜的非線性和時變性,采用嵌入維和延遲時間對網絡流量歷史樣本進行重構,能夠得到一個有規模的網絡流量數據樣本,有助于后續的網絡流量建模。
(2)核函數以及參數不同,得到的LSSVM的預測性能不同,針對具體網絡流量數據,通過PSO算法的尋優能力在所有LSSVM參數尋找最合理的參數,減少網絡流量訓練過程中的支持機量少,網絡流量的預測精度和建模效率均得到了不同程度的改善,而且優于當前的流行網絡流量預測模型。
網絡流量預測的準確性不僅與LSSVM參數相關,實際與網絡流量訓練樣本長度密切相關,如何選擇最合理的網絡流量訓練樣本,以進一步提高網絡流量預測精度,這是我們下一步將要進行的研究。
參考文獻
[1] 黨小超,閻林. 基于多元線性自回歸模型的流量預測[J].計算機工程, 2012,38(1):84-89
[2] 鄒柏賢,劉強. 基于ARMA模型的網絡流量預測[J]. 計算機研究與發展, 2002, 39(12): 1645-1652
[3] 段智彬,孫恩昌,張延華,董燕. 基于ARMA模型的網絡流量預測[J]. 中國電子科學研究院學報, 2009,4(4):325 -356.
[4] 張冉,趙成龍.ARIMA模型在網絡流量預測中的應用研究[J]. 計算機仿真, 2011, 28(1): 171-174
[5] 胡玉清,譚獻海,宋正陽.基于FARIMA的網絡建模與性能分析[J]. 計算機工程與設計, 2008, 29(18): 4666-4714
[6] Clegg R G. A Practical Guide to Measuring the Hurst Parameter [J]. International Journal of Simulation: Systems,Science & Technology, 2006, 7(2):3-4
[7] 馬華林,李翠鳳,張立燕. 基于灰色模型和自適應過濾的網絡流量預測[J]. 計算機工程, 2009,35(1):130-152
[8] 洪飛,吳志美. 基于小波的多尺度網絡流量預測模型[J].計算機學報,2006,29(1):166-171
[9] 劉杰,黃亞樓. 基于BP神經網絡的非線性網絡流量預測[J]. 計算機應用,2007,27(7):1770-1772
[10] 王俊松,高志偉.基于RBF神經網絡的網絡流量建模與預測[J]. 計算機工程與應用, 2008, 44(13):7-11
[11] 曹建華,劉淵,戴悅. 一種基于灰色神經網絡的網強流量預測模型[J]. 計算機工程與應用, 2008,44(5):155-157.
[12] 王治. 基于混沌粒子群優化SVR的網絡流量預測[J].計算機仿真, 2011, 28(5): 151-154.
[13] 周輝仁, 仁仙玲. 最小二乘向量機的參數優選方法及應用[J]. 系統工程學報, 2009, 24(2): 248-252.
Network Traffic Forecast Based on PSO-LSSVM
Liu Chunmao, Hao qian, Zhang Yungang
(Henan Polytechnic Institute, Nanyang 473000, China)
Abstract:Network traffic forecasting is a key technology in computer network management. In order to improve the accuracy of network traffic forecasting, a network traffic forecasting model based on particle swarm optimization algorithm and least square support vector machine is proposed in this paper. Firstly, it analyzes the historical data of network traffic by chaotic theory, and reconstructs the network traffic sample. And then, particle swarm optimization algorithm optimizing least square support vector machine is used to model the network traffic data. Finally, the simulation results are used to test the forecasting results of network traffic. Experimental results show that the proposed model can describe the change trend of network traffic, and obtain the high accuracy of network traffic forecasting results, which provides a new tool for network traffic modeling and forecasting.
Key words:Network Traffic Forecast; Least Squares Support Vector Machine; Particle Swarm Optimization A lgorithm; Kernel Function Parameter Selection
中圖分類號:TP391
文獻標志碼:A
文章編號:1007-757X(2016)05-0027-04
基金項目:河南省科技攻關項目(132102210208).
作者簡介:劉春茂(1979-),男,南陽人,河南工業職業技術學院,電子信息工程系,講師,碩士,研究方向:信息處理技術及網絡管理研究,南陽,473000 郝 倩(1983-),女,南陽,河南工業職業技術學院,電子信息工程系,講師,碩士,研究方向:計算機應用,南陽,473000張云崗(1983-),男,南陽,河南工業職業技術學院,電子信息工程系,講師,碩士,研究方向:數據庫與知識庫,南陽,473000
收稿日期:(2015.10.23)