覃姜色,過 銳,任 宇,張澤鵬,靳寶霞
(柳州工學院,廣西 柳州 545000)
由于傳統的數據分析、處理及預測方法已不能滿足發展的需要,因此一種適合發展需要的研究方法應運而生。時間序列有3種重要形式,即AR、MA以及ARMA。實際計算表明,許多常見的時間序列可以用ARIMA序列來表示,而且從數學模型的角度來看,這些序列都是近似的[1]。在預測精度方面,對噪聲進行了分析處理,只留下當前的白噪聲。通過對噪聲模型的詳細分析和處理,不僅可以得到最優的線性預測,而且還可以得到各種概率情況的精確極限[2]。同時,利用該模型研究噪聲的概率分布可以了解不同概率情況下的偏差大小,從而很好地解決隨機干擾問題[3]。因此,時間序列模型被廣泛應用于各種工程領域,如經濟領域、通信領域、氣象領域以及交通領域等[4]。
時間序列也稱為動態序列,是通過按時間順序排列某一現象指數值而得到的數值序列。時間序列分析可分為3個主要部分,即對過去的描述、分析規律以及對未來的預測[5]。根據時間和數字的性質分為時間序列和點時間序列。在時間序列中,數字元素反映了某一現象在某一特定時期內演變的結果。在點時間序列中,數字元素反映了某一現象在某一時刻的瞬時水平[6]。時間序列分析中使用季節分解、指數平滑以及ARIMA模型3種模型,并結合SPSS軟件對時間序列數據進行建模。許多實際問題中所觀測到的樣本數據序列{Xt}(t=0,1,2,…)通常不是平穩序列,故本文進行了d次差分處理得到平穩的差分序列,從而可用平穩序列模型來進行研究[7]。
本文數據來源2020年Mathor Cup大數據比賽所給的某地塊2018年3月—4月通信基站流量數據。面對龐大的通信基站流量數據,首先利用Python對數據文件進行了分割。通過觀察,發現所有的數據都是按日期組織的,但是一天中不同時間的數據是無序的。通過提取地塊編號得到需要編列經費,用來記錄的上游和下游的交通日期是2018年3月1日—4月19日,共50天,每天24 h。
對于滿足ARIMA(p,d,q)模型的樣本數據序列{Xt}(t=0,1,2,…)進行d次差分后,差分算子的階數d通常取0或1,一般不超過2,便可以得到ARIMA(p,q)序列。數據經過轉化之后,可以用ARMA模型的參數估計方法對處理后的數據進行建模[8]。
為了建立一個合適的ARIMA模型,首先要對模型進行初步識別。模型類別可以根據自相關函數和部分相關函數的延遲或截斷來確定,然后應用BIC信息標準來確定訂單。對于所采用的模型參數的估計可以使用殘差分析和擬合度分析進行線性擬合。在時間序列模型建立之后,對該模型進行合理檢驗和預測,可以采用χ2統計檢驗法來檢驗,并確認擬合模型的殘差是否為白噪聲,如果是則該模型通過考核,否則需要重新對該時間序列模型進行識別估計[9]。
2.2.1 定義模型
設d是非負整數,稱Φ(B)?dXt=Θ(B)εt是關于{Xt}的一個ARIMA(p,d,q)序列,其中Φ(B)和Θ(B)是兩個分別次數為p和q的特征多項式(p、q均為正整數),表達式分別為:

式中,B是延遲算子,有:

?d為d階差分算子,有:

εt為高斯白噪聲序列,服從W~N(0,σ2)分布。
2.2.2 殘差分析
因為本文分析的模型是ARIMA模型,所以ACF和PACF都顯示出重要的價值。ACF可用于估計MA部分(即q值),PACF可用于估計AR部分(即P值)。殘差分析結果如圖1和圖2所示。

圖1 殘差的ACF分析圖
從殘差的ACF和PACF圖形中可以看出,自相關函數呈現出典型的拖尾性,說明數據的自相關性隨時間間隔下降,偏自相關系數也在兩倍標準差范圍內波動。據此可判斷該序列具有短期相關性,進一步確定序列平穩。模型擬合的統計量中,決定系數R方為0.596,說明模型擬合效果較好,并且楊-博克斯得出的顯著性系數為0.595,即統計量觀測值顯著,模型擬合效果良好。認為殘差是白噪聲序列說明時間序列中有用的信息已經被提取完畢,剩下的全是隨機擾動,無法預測和使用。殘差序列如果通過了白噪聲檢驗,則建模就可以終止。因為沒有信息可以繼續提取,所以一元ARMA模型中的循環波動能夠很好的識別本例中的移動通信基站流量數據。
2.2.3 模型的擬合度分析
貝葉斯信息準則(Bayesian Information Criterion,BIC)由Schwarz提出,它與AIC準則相似,也是用于模型選擇。當增加參數k的數量時,就增加了模型的復雜度,似然函數也會增大,與AIC相似,也易導致過度擬合的現象。針對此現象,AIC和BIC的處理方式相似,都引入了與參數相關的懲罰項,但是BIC的懲罰項相對AIC而言會更大一點。通過考慮樣本量,樣本量較大時,就能有效解決由于模型精度過高導致復雜度也較高的問題[10]。
BIC的一般表達式為:

式中,k表示的是模型中參數的個數,L表示的是對數似然函數,n是樣本量,kln(n)表示懲罰項。得到模擬擬合度及相關參數如表1所示。

表1 模擬擬合度及相關參數
根據分析可知,本文的正態化BIC是-8.271,在所有模型中它的值最小,說明擬合度比較好。平穩R方為0.596,說明模型解釋的變化幅度適中,所以這個模型最適用。
對所建立的模型進行檢驗,用SPSS軟件對模型參數進行估計后,其模型的殘余量用統計檢驗,可以認為該模型的殘余量是白噪聲,所以該模型通過考核。本文只針對上層流量變化進行了分析,模型能很好地模擬仿真真實的基站流量,并對未來的預測也可以達到比較精確的預測效果,且預測的結果在可信區間范圍內。
現實中一些對移動通信網絡數據分析的相關工作中指出相鄰基站之間并不是孤立的,而是存在著必要的聯系。利用相鄰基站的歷史信息可以減少基站負載預測的不確定性,經過剔除趨勢項和其他的影響因素后可以得到一個短時相關的隨機流量時間序列。由于對短時相關隨機流量時間序列的研究非常成熟和完善,因此通過該方法可以得到較為精確的宏觀網絡綜合業務量的預測模型。用ARIMA模型分析移動基站流量可以從宏觀上把握移動基站的發展軌跡、成長趨勢以及在一定尺度下的流量特征。本文就是基于這種模型對移動基站流量進行模擬仿真,并且該模型可以實時預測未來流量,以提高基站管理員對流量監控管理的效率,從而達到提高服務質量的最終目的。