劉文暄,曹秀娟,王嘉琪,黃崇政,袁皓涵
(1.山東科技大學,山東 濟南 250031;2.西安歐亞學院,陜西 西安 710065)
近年來,隨著移動互聯網的爆炸式發展,基站的流量負荷問題變得越來越重要。 一方面,為了緩解流量高峰期基站負荷超量造成的網速減慢問題,就需要增加基站的載頻數量,使其可以承擔更多流量; 另一方面,受基站潮汐現象的影響,在某些時段,用戶數量會大幅降低。 從長期來看,大部分基站的整體流量呈逐漸增加趨勢。 在流量增長到一定程度時,動態開關載頻已經無法滿足要求,這就需要通過新建扇區或者基站來進行物理擴容。 物理擴容因涉及到采購資金、 總體布局等問題,規劃時間非常長,所以需要提早預估基站物理擴容的時間,從而可以更早地進行規劃和設計。
通過分析,可以看出,除了節假日,每周的數據流量基本都具有周期性,因為用戶量一直增長,每周的流量總量增長,因此可以忽略影響。 單一的算法難以直接預測周期性增長數據,因此把這種預測拆分開來預測每周流量的整體增長變化情況[1]。
短期預測采用1eaf-wise 算法進行采樣優化: 保留上行流量梯度較大的樣本,對于流量變化趨勢較小的樣本進行抽取采樣。 同時在計算增益時,對上行流量變化趨勢較緩的樣本增加權重系數[2]。

其中帶來的增益可以定義為式中:Vj|o(d)為最大增益;no為分位點個數;x 為平方損失減少值; i 為單棵樹的節點; j 為全局重要度特征; o 為根據j 將數據分為左右子節點的訓練集; gi為上行流量數據; gr為下行流量數據。
若使用單邊梯度采樣算法 (Grandient-based One-Side Samp1ing,GOSS) 后,增益定義為

再進行特征抽取,將互斥特征綁定在一起,從而減少特征維度。 運用1eaf-wise 生長策略進行預測,因其最大增益不變,且無需重復計算。 其短期預測結果見第43 頁表1。 從預測結果可以看出,使用1eaf-wise 算法預測的結果相對可靠,可用于各個小區小時級上行和下行流量的短期預測。

表1 短期預測結果
考慮到小區上下行流量很容易受到地區或者時間的影響,在使用1eaf-wise 算法進行長期上下行流量預測時,由于1eaf-wise 算法對周期性數據的預測結果存在一定的偶然誤差,所以可建立ARIMA 模型進行流量的長期預測。 ARIMA 模型要求所使用的的序列數據必須是平穩的,通過對原始數據進行分析,發現小區流量序列存在不平穩情況,為得到平穩的原始序列,所以在構建ARIMA 模型之前有必要對小區流量數據進行ADF 檢驗。
圖1 為差分處理前后的ADF 檢驗結果。 在圖1-a 中,原數據T 統計量大于任何置信度的臨界值,且p 值大于0.05,因此,確定該序列是非平穩的,需要對序列進行一階差分處理。 在圖1-b 中,差分處理之后,T 統計量小于5%與10%的置信度的臨界值,且p 值小于0.05,說明在差分處理后,序列平穩。

圖1 差分處理前、差分處理后的ADF 檢驗結果
ARIMA 模型常用AIC 準則與BIC 準則進行參數確定。 由于AIC 準則存在一定的不足之處,其計算公式為

式中: k 為參數的數量; L 為似然函數。
當樣本容量很大時,在AIC 準則中擬合誤差提供的信息就要受到樣本容量的放大,而參數個數的懲罰因子卻和樣本容量沒關系。 BIC 貝葉斯信息準則彌補了AIC 的不足,其公式為

利用AIC 和BIC 可以選取模型最佳的p,q 組合,應當選取AIC 和BIC 值達到最小的那一組為理想階數。 模型參數結果見圖2。

圖2 模型估計結果圖
通過調整p 和q 參數,使AIC 與BIC 的數值達到最小。 經過比較,p=0,q=1 為理想階數。 綜上,建立ARIMA(0,1,1)的模型進行求解,其長期預測結果見表2。

表2 長期預測結果
在預測出長期結果后,還應該進行檢驗分析。從ARIMA 模型的預測結果可以看出,一階差分的時間序列的均值和方差基本平穩,但是還應比較二階差分后時間序列的效果是否更佳。 自相關和偏自相關結果見圖3,可以看出自相關和偏相關都縮小至0,即為一個混合模型[3-4]。將差分次數d 的值設置為2,對該模型做D-W 檢驗,因為自相關系數的值介于-1 和1 之間,當DW 值顯著地接近于0 或4時,則存在自相關性。 而接近于2 時,則不存在(一階) 自相關性。 最終得出的檢驗結果為2.0242,接近于2,殘差序列不存在自相關性,說明二階差分后的時間序列與一階差分相差不大,并且隨著時間的推移,二階差分后的時間序列的均值和方差幾乎保持不變。

圖3 自相關圖和偏自相關圖
現在是大數據的時代,幾乎可供人們使用的數據都和時間有關系,這就是時間序列數據。 本文基于1eaf-wise 算法以及ARIMA 模型建立了短期和長期流量預測模型。 向量自回歸模型篩選能力,其四元時間序列的模型篩選正確率明顯高于二元時間序列。 本文所建立的模型適用于金融、 天氣情況、 銷售量、 股票的預測等很多方面。