鄂曉晨 劉立士



摘 ?要:網絡流量預測對于設計新一代網絡協議、實現網絡規劃和流量管理以及提升網絡的高質量服務具有重大意義。該文研究了網絡流量的自相似特性,并在此基礎上采用FARIMA時間序列模型進行流量預測。首先對網絡流量進行平穩化預處理,其次估算Hurst系數來確定差分次數,最后通過AIC準則確定該型階數并進行預測。比較結果表明,雖然FARIMA模型相對于傳統的ARMA模型建模和計算復雜度較高,但是可以對非平穩數據預測且受流量突發性影響較小,預測精準度較高。
關鍵詞:自相似性 ?流量預測 ?ARMA模型 ?FARIMA模型
中圖分類號:TP393 ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:1672-3791(2021)04(c)-0062-04
Research on Time Series Model of Self Similar Traffic
E Xiaochen ? LIU Lishi*
(Shenyang Ligong University, Shenyang, Liaoning Province, 110159 ?China)
Abstract: Network traffic prediction is of great significance for the design of new generation network protocol, the realization of network planning and traffic management,and the improvement of network quality service. In this paper, the self similarity of network traffic is studied, and on this basis, FARIMA time series model is used for traffic prediction. Firstly, the network traffic is smoothed. Secondly, the Hurst coefficient is estimated to determine the difference times. Finally, the AIC criterion is used to determine the order of this type and predict it. The comparison results show that although FARIMA model has higher modeling and computational complexity than traditional ARMA model, it can predict non-stationary data with less impact of traffic burst and higher prediction accuracy.
Key Words: Self-similarity; Traffic prediction; ARMA model; FARIMA model
隨著網絡業務量的增長和互聯網環境的日益復雜,網絡擁塞現象也在不斷發生。網絡擁塞可能會導致網絡的性能降低、網絡中間節點丟棄大量的數據包等問題。網絡流量是網絡規劃的重要指標,反映了網絡的運行狀態,為了保證信息傳輸的有效性和精準性,必須采用適宜的手段對網絡流量進行監控。通過研究發現,網絡流量也呈現出自相似性[1]以及可預測性,因此可以通過選擇合適的預測模型實現對自相似網絡流量的預測,并根據預測得到的數據流量提前進行網絡規劃和流量管理,如果將預測結果引入到其他網絡管理機制,將會極大地提高網絡性能和服務質量。
1 ?自相似流量特性與預測模型
在實際測量研究中發現,現實中的網絡流量普遍具有自相似性(或長相關性)。網絡流量的自相似性實際上就是局部特征和整體相似。長相關特性的問題可以同時存在于多個網絡時間點的范圍內,并且對于整個網絡的時延、丟包率以及網絡吞吐量都有很大程度的影響。為了更好地滿足網絡流量的長相關特征(Long range dependence,LRD),于是通過增加計算Hurst系數和差分過程,得到基于分形自回歸差分滑動平均模型(Fractional Auto-regressive Integrated Moving Average,FARIMA)[2]。雖然提高了復雜度和運算量,但也極大地提高了精準度。該文采用基于FARIMA時序模型的自相似流量預測方法,通過改進使其能夠準確預測網絡流量趨勢。
2 ?FARIMA時序模型原理和預測
2.1 原理
FARIMA(p,d,q)即分形自回歸差分滑動平均過程,該模型可以能夠同時描述自相似網絡流量的短相關結構和長相關特性,但在實際應用過程中會受到一定的限制。FARIMA可以用式(1)來表示,其中d是分數差分階數,p是自回歸項數,且是p階自回歸(AR)多項式,q是滑動平均項數,且是q階滑動平均(MA)多項式。其中d,。
(1)
設定為差分算子,分數差分算子為?d,可用式(2)表示。
(2)
FARIMA模型是基于ARMA預測,并進行相關參數的判定,唯一的區別就是FARIMA模型存在分數差分過程。因此,分形自回歸差分滑動平均過程在滿足p,q不同時為零的前提下,可以看作是一個基于ARMA(p,q)預測上增加了d階分數差分FARIMA(0,d,0)的過程。
2.2 預測過程
(1)對原始數據進行預處理,因為實際情況下的時間序列不一定完全是平穩的,如果序列非平穩,則需要進行相應的平穩化處理,并通過ADF和KPSS單位根檢驗[3]來判斷平穩性。該文采用ON/OFF源模型模擬產生自相似流量,數據具有隨機性,因此選擇添加一個周期性函數來平滑其隨機性。
(2)計算Hurst系數,并進行d階分數差分。通過R/S分析法求得Hurst系數[4],即計算不同時刻的極差R(n)和標準差S(n),并求出R(n)和S(n)的比值。R/S與Hurst的關系如式(3)所示。
loglog(3)
在對數坐標下進行擬合并用最小二乘法來近似估算曲線斜率,即為近似估算的Hurst系數值,且d=h-0.5,即可求出FARIMA模型分數差分系數。
(3)基于ARMA模型的項數定階,可通過ACF和PACF來確定p,q項數,但會存在系數過大計算復雜的問題,所以該文采用AIC(赤池信息準則)和BIC(貝葉斯信息準則)自動懲罰判決獲得p、q項數。其中參數k為模型設定參量的數量,參數n為樣本總體數量,參數L為極大似然函數。
AIC(4)
BIC(5)
在測試模型過程中,針對可能出現的過擬合問題,兩種信息準則都增加與參量相關的懲罰判決項,并有效防止因樣本總體數量過大和模型高精度判決而導致的模型過于復雜的問題。
(4)判斷殘差檢驗是否為一段白噪聲信號,確保有用的信號都已經提取到ARMA模型中,也可以通過Durbin-Watson針對時間序列數據檢驗回歸分析中統計量殘差的一階自相關性,該統計量值越接近2越好,一般在(1,3)之間說明沒問題。
(5)通過ARMA模型對差分濾波后的數據進行預測,并對預測結果進行差分還原處理得到預處理后的流量序列,并去掉預處理時添加的周期函數來獲得通過基于FARIMA模型實際預測流量。通過和原始流量對比分析,對FARIMA模型預測效果進行評估[5-7]。
3 ?仿真結果與分析
該文基于ON/OFF源模型模擬產生自相似流量,并使用Matlab軟件進行仿真,參數設置如下:信源到達過程服從泊松分布(λ=0.5),信源時間間隔服從指數分布(μ=2),持續時間服從帕累托分布gprnd(0.01,1.5,1),傳輸速率R=30(packet/s)。仿真結果:圖2、圖3為傳統ARMA模型預測效果對比圖,圖4、圖5為FARIMA模型預測效果對比圖。
圖2、圖3中隨機抽取了6個點作為數據對比依據,在時間軸坐標為10 s、46 s、87 s、92 s、142 s、152 s時,產生的自相似流量數據包個數為240、180、240、180、180、270,經過ARMA預測過得數據包個數約為246、185、246、185、185、275,相對誤差百分比為2.5%、3.3%、2.5%、3.3%、3.3%、2.5%。
圖4、圖5中隨機抽取了6個點作為數據對比依據,在時間軸坐標為128 s、410 s、722 s、1 091 s、1 174 s、1 608 s時,產生的自相似流量數據包個數為600、240、300、420、300、450,而經過FARIMA預測過得數據包個數約為603、243、303、423、303、453,其相對誤差百分比為0.5%、1.25%、1%、0.71%、1%、0.67%。
選擇使用MAE、MAPE、RMSE、NMSE這4種誤差指標對預測效果評估。傳統ARMA模型和FARIMA模型預測結果誤差率見表1。
通過上述指標來量化誤差,ARMA模型和FARIMA模型的MAE分別為3.275和1.417,均小于預設值4,且MAPE和NMSE都遠小于1,接近于0,誤差較小,因此ARMA和FARIMA均可以實現對網絡流量的預測,并通過誤差分析FARIMA預測模型各項數據均優于傳統的ARMA模型,因此有相對更高的精確度。
4 ?結語
該文基于ON/OFF模型產生自相似網絡流量,并選擇FARIMA時序模型對網絡流量進行預測,通過多次改進驗證以及多項量化指標論證,雖然FARIMA模型建模以及分數差分計算過程較為復雜,但能反映流量的長相關特性,并相對于傳統的ARMA模型預測具有相對更高的精準度。下一步的研究重點是針對FARIMA模型更準確計算Hurst系數值,以及優化分數差分過程來消除流量的長相關性,更為準確地預測網絡流量趨勢。
參考文獻
[1] 王曉婷,王憶文,李平.一種自相似網絡流量生成器的設計與實現[J].微電子學與計算機,2016,33(8):54-58.
[2] 史明虎.基于FARIMA模型的自相似業務流量預測[D].西安電子科技大學,2013.
[3] 翟靜,曹俊.基于時間序列ARIMA與BP神經網絡的組合預測模型[J].統計與決策,2016(4):29-32.
[4] 付鈺,劉立士,胡俊超,等.一種基于Matlab仿真模擬估計Hurst參數的方法[J].科技資訊,2017,15(23):241-242.
[5] 邱艷,張洪.一種有效的網絡流量預測算法[j].成都大學學報:自然科學版,2016,35(2):150-152.
[6] 孫強,周洋,張治鵬.基于FARIMA的鐵路數據網流量趨勢預測[J].鐵道學報,2019,41(2):84-88.
[7] 耿傳鑫.基于自相似流量預測的AOS擁塞控制技術研究[D].沈陽理工大學,2019.
①作者簡介:鄂曉晨(1997—),男,碩士,研究方向為現代通信技術與系統。
通信作者:劉立士(1973—),男,碩士,副教授,研究方向為無線通信,E-mail:liulishi2005@sina.com。