王雪松
?
改進支持向量機的網絡流量預測①
王雪松
(佛山職業技術學院電子信息系, 佛山 528137)
支持向量機具有良好的非線性建模能力, 其參數對網絡流量預測結果有直接影響, 為了解決支持向量機的參數確定的難問題, 根據雜草算法的優勢, 提出了改進支持向量機的網絡流量預測模型. 首先收集大量網絡數量原始數據, 將支持向量機參數作為雜草種子, 然后模擬雜草的生存、繁殖過程搜索最優參數尋優, 建立網絡流量預測模型, 最后采用具體網絡流量數據測試模型的可行性. 結果表明, 該模型不僅得到了高精度的網絡流量預測結果, 而且可以應用網絡流量管理中.
網絡流量; 雜草算法; 混沌理論; 支持向量機
隨著Internet的數據不斷增加, 網絡管理面臨巨大的挑戰, 為了防止出現網絡擁堵現象, 網絡流量預測引起了人們的高度關注. 流量預測從歷史數據中發現將來網絡狀態的變化趨勢, 為企業和管理人員提供有意義的參考信息, 已經成為網絡管理領域中的研究重點[1,2].
當前網絡流量預測模型分為兩類: 傳統模型和現代, 傳統模型主要有: 多元線性回歸算法、時間序列分析法等[3,4], 根據歷史數據確定網絡流量預測模型的參數, 建模速度快、硬件要求低, 然而它們均基于網絡流量是一種固定變化趨勢, 如周期性、單調遞增等, 不能描述網絡流量隨機變化特點, 預測精度低[5]. 現代模型采用現代統計學對網絡流量進行建模與分析, 主要有: 神經網絡、支持向量機(support vector machine, SVM)等, 可以反映網絡流量變化的隨機性、時變性, 網絡流量預測結果更加靠, 獲得了較高的預測精度[6-8]. SVM具體要求歷史樣本少, 泛化能力優等優勢, 成為網絡流量當前主要的建模工具, 然而網絡流量預測精度與核函數及相關參數密切相關, 因此SVM參數確定是網絡流量建模和預測首先要解決的問題[9]. 為了解決SVM參數確定問題, 業內學者們采用進化算法、粒子群算法等實現[10], 它們得到了較好的SVM參數, 但它們同樣存在不足, 如進化算法的收斂速度慢, 遺傳算法參數確定沒有理論指導, 憑經驗隨機確定, 通用性差, 難以找到最優的SVM參數, 影響網絡流量的預測結果.
為了獲得更優的網絡流量預測結果, 針對SVM參數優化難題, 提出了改進支持向量機的網絡流量預測模型(IWO-SVM), 采用雜草優化算法(invasive weed optimization algorithm, IWO)搜索最優的SVM參數, 采用網絡流量預測實驗測試可行性和可靠性.
1.1 支持向量機(SVM)
設訓練樣本集為: {(x,y)},=1,2,…,, 根據函數將其映射到高維特征空間實現回歸, 即:
式中,為權值向量;為偏置向量[11].
將式(1)轉換為最小化問題, SVM回歸的目標函數為:
式中,為懲罰參數;e為回歸誤差.
采用拉格朗日算子(i)進行變換, 得到相應對偶問題為:
式中,為核寬度.
對SVM的工件原理進行分析可知, 預測結果與參數和相關, 為了克服當前算法存在的不足, 利用雜草算法搜索能力強、速度快的優點, 解決參數和選擇問題, 建立更加科學的網絡流量預測模型.
1.2 雜草優化算法(IWO)
受到雜草生長和繁殖過程啟發, 有學者提出了雜草優化算法[12], 具體過程如下:
1) 每一個雜草(i)在領域內繁殖一些種子, 種子數量i計算公式為
式中,(x)為雜草i的適應度值;min和max分別為雜草最小和大種子數;min和max為種群的最小和最大的適應度值.
2) 種子服從(0,)分布, 其中標準偏差的計算公式為:
式中,initial和final為的初值和終值;max和為最大進化代數和當前進化代數;為調和參數.
3) 當種群的種子數超過最大數量, 對雜草和種子進行排序, 選擇前個適應度值最大的個體產生新的種群, 丟棄其它個體.
由于參數和的優化目標是提高流量預測的精度最高, 因此和優化數學模型可以描述為:
基于IWO-SVM的網絡流量預測步驟為:
1) 收集某一段時間的網絡流量歷史數據, 為了防止數據值間的差異過大進行預處理, 具體為:
2) 網絡流量受到人為因素、上網時間等影響, 具有一定的混沌性能, 因此需要對原始網絡流量時間序列進行相空間重構[13], 產生支持向量機的訓練和驗證樣本.
3) 初始化雜草種群, 并初始化其它參數的值, 個體與一組(,)相對應.
4) 支持向量機根據每一組(,)對訓練樣本集進行建模, 計算網絡流量的預測精度, 得到相應的適應度值.
5) 判斷是否達到結束條件, 若達到就輸出最優個體, 否則執行步驟(6).
6) 產生新的種子, 并與其它種子和雜草組合, 選擇max個優秀個體組成新的種群, 返回步驟(4).
7) 最優個體對應的和為支持向量機的最優參數, 根據對訓練樣本進行學習建立網絡流量預測模型.
3.1 源數據
選擇一臺網絡服務器出口的每小時網絡流量進行仿真實驗, 得到1000個樣本, 具體如圖1所示. 選擇前800個數據點作為訓練樣本集構建網絡流量預測模型, 其它數據點作為驗證集分析模型的性能, 在VC++ 6.0平臺實現仿真實驗.

圖1 網絡流量數據
3.2 訓練樣本和驗證樣本的重構
通常情況下, 網絡流量有弱混沌特性, 設延遲時間=1, 采用假近鄰算法估計最優嵌入維數(), 結果如圖2所示, 從圖2可以清楚看出最優=5, 根據=1,=5對原始網絡流量數據進行相空間重構, 得到重構后的訓練樣本和驗證樣本, 將其變為有規律的數據, 便于支持向量機進行建模.

圖2 估計最優m
3.3 IWO估計最優(,)SVM參數
采用IWO算法搜索支持向量機的參數和的最優值, 1步和3步預測的最優和如表1所示.

表1 C和σ的最佳值
3.4 結果與討論
3.4.1本文模型的預測結果
IWO-SVM的網絡流量單步預測結果如圖3所示, 單步預測值與實際值變化趨勢相似, 二者間的誤差小, 可以反映網絡流量數據的時變性, 預測結果可信.

(a) 預測結果
(b) 預測偏差
圖3 IWO-SVM的網絡流量1步預測結果
1步預測只能提前一個時刻對網絡流量變化趨勢進行描述, 不能滿足網絡管理的要求, 因此實現了提前3步的網絡流量預測實驗, 結果如圖4所示, 3步預測精度明顯要小于1步預測精度, 預測偏差也增大, 然而IWO-SVM還是能夠描述網絡流量整體變化趨勢, 預測結果可以為網絡管理者提供有用的信息.

(a) 預測結果
(b) 預測偏差
圖4 IWO-SVM的網絡流量3步預測結果
3.4.2與經典模型的性能對比
選擇當前經典網絡流量預測模型進行對照實驗, 它們為: ARIMA、BP神經網絡, 采用均方根誤差()和相對平均誤差()作為性能評價指標, 結果見表2. IWO-SVM的和均要小于經典模型的和, 網絡流量預測精度更高, 說明IWO-SVM是一種精度高、結果可靠的網絡流量預測模型.

表2 網絡流是的MPAE和RMSE對比
針對網絡流量的SVM參數優化問題, 提出了基于IWO-SVM的網絡流量預測模型, 采用雜草算法搜索SVM參數, 解決當前參數選擇的盲目性, 實驗結果表明, IWO-SVM的網絡流量預測精度高, 預測結果好于經典模型, 具有廣泛的應用前景.
1 史振華,劉外喜,楊家燁.SDN 架構下基于 ICMP 流量的網絡異常檢測方法.計算機系統應用,2016,25(4):135–142.
2 鄔平,吳斌.采用回歸方法優化網絡流量管理模型處理性能. 計算機工程與應用,2012,48(4):104–106.
3 姜明,吳春明,張曼,胡大民.網絡流量預測中的時間序列模型比較研究.電子學報,2009,37(11):2353–2358.
4 陳曉大,劉靜嫻.改進的基于小波變換和FARIMA模型的網絡流量預測算法.通信學報,2011,32(4):153–157.
5 麻書欽,范海峰.基于小波變換和時間序列的網絡流量預測模型.河南理工大學學報:自然科學版,2013,32(2):188–192.
6 曲樺,馬文濤,趙季紅,等.基于最大相關熵準則的網絡流量預測.高新技術通訊,2013,23(1):134–145.
7 王雪松,梁昔明.基于BPSO–RBF神經網絡的網絡流量預測. 計算機應用與軟件,2014,31(9):102–105.
8 肖漢杰,桑秀麗.相關向量機超參數優化的小時間尺度網絡流量非線性預測方法.計算機應用研究,2016,33(6): 1882–1885.
9 于明,艾月喬.基于人工蜂群算法的支持向量機參數優化及應用.光電子激光,2012,23(2):374–398.
10 邵信光,楊慧中,陳剛.基于粒子群優化算法的支持向量機參數選擇及其應用.控制理論與應用,2006,23(5):740–748.
11 劉忠寶.新型支持向量機在風速預測模型中的應用研究. 電子科技大學學報,2014,43(5):754–758.
12 Mallahzadeh AR, Oraizi H, Davoodi RZ. Application of the invasive weed optimization technique for antenna configurations. Progress in Electromagnetic Research, 2008, 20(79): 137–150.
13 黃發明,殷坤龍,張桂榮,等.基于相空間重構和小波分析-粒子群向量機的滑坡地下水位預測.地球科學-中國地質大學學報,2015,40(7):1254–1265.
Network Traffic Predicting Model Based on Improved Support Vector Machine
WANG Xue-Song
(Department of Electronic Information, Foshan Polytechnic College, Foshan 528137, China)
Aiming at parameters optimization problem of support vector machine in network traffic predicting, a network traffic predicting model is proposed based on improved support vector machine. Parameters of support vector machine are considered as a weed, the optimal parameters are found by invasive weed optimization algorithm, and network traffic data is used to test the performance. The experimental results show that the proposed model obtains high predicting accuracy and fastens the model speed, and it can meet the requirements of network traffic predicting.
network traffic; invasive weed optimization algorithm; chaotic theory; support vector machine
廣東省教育廳項目(2010TJK446)
2016-06-09;
2016-08-08
[10.15888/j.cnki.csa.005668]