倪飛祥
(1.上海微系統(tǒng)與信息技術(shù)研究所 上海201210;2.中國科學(xué)院大學(xué) 北京100049)
基于改進(jìn)小波-Elman神經(jīng)網(wǎng)絡(luò)算法的蜂窩網(wǎng)流量預(yù)測
倪飛祥1,2
(1.上海微系統(tǒng)與信息技術(shù)研究所 上海201210;2.中國科學(xué)院大學(xué) 北京100049)
對于在現(xiàn)代蜂窩網(wǎng)資源管理中,動態(tài)信道資源和能源效率控制技術(shù)的提升,很大程度依賴于早期精準(zhǔn)的監(jiān)測和對蜂窩基站流量的預(yù)測。分析基站流量數(shù)據(jù),主要通過有效提取基站間隱含的時空信息進(jìn)行流量預(yù)測。在本文中,我們通過對華北某大城市的實測數(shù)據(jù),進(jìn)行了基于時空關(guān)聯(lián)性的分析,采用k-NN算法,獲取蜂窩網(wǎng)基站間的時間相關(guān)性,選擇合適的移動窗口大小,并結(jié)合了小波-Elman神經(jīng)網(wǎng)絡(luò)(ENN)算法來實現(xiàn)流量預(yù)測。最后,通過量化蜂窩網(wǎng)流量預(yù)測的準(zhǔn)確度,并與先前存在的其他方法進(jìn)行對比,得出了本文提出的方法有優(yōu)越性。
流量預(yù)測;k-NN算法;Elman神經(jīng)網(wǎng)絡(luò);小波變換分析
隨著移動用戶的快速增長,隨之產(chǎn)生的數(shù)據(jù)流量也爆炸式地增長,據(jù)思科近期發(fā)布的關(guān)于全球移動數(shù)據(jù)流量預(yù)測的白皮書中,預(yù)計到2019年,全球移動數(shù)據(jù)流量的月度數(shù)值將會超過24.3 EB/月[1]。盡管目前移動數(shù)據(jù)流量只占了全球IP流量的一小部分,但其同期增長速度是全球IP無線流量的3倍。屆時由智能手機(jī)所產(chǎn)生的移動數(shù)據(jù)總流量將占移動數(shù)據(jù)總流量的75%。爆炸式的數(shù)據(jù)流量增長方式給移動運營商對基站資源的有效分配,能源有效利用率的提高提出了巨大的挑戰(zhàn)。因此,分析蜂窩網(wǎng)流量數(shù)據(jù),并能有效預(yù)測未來流量數(shù)據(jù)對有限資源的優(yōu)化及節(jié)能方面,顯得尤為重要。
通過對流量數(shù)據(jù)的分析預(yù)測,主要為了幫助移動運營商預(yù)知未來幾小時的擁堵情況,以及建立一個應(yīng)用于提高網(wǎng)絡(luò)容量的資源分配模型。此外,超過80%的能源被消耗在基站上[2]。因此,通過有效預(yù)測流量數(shù)據(jù),關(guān)閉某些不需要的基站,對移動運營商來說,也是非常有利的。
在實測基站流量數(shù)據(jù)中,從每個基站搜集到的數(shù)據(jù)為離散的時間序列。對于時序數(shù)據(jù)的預(yù)測,目前存在很多中方法,如ARIMA(Auto-RegressiveIntegrated Moving Average)模型[3],MMPP(Markov Modulated Poisson Process)模型[4],以及線性預(yù)測模型[5]等。但由于用戶的隨機(jī)不規(guī)則行為活動,使得無線網(wǎng)絡(luò)是非線性的以及基站的流量數(shù)據(jù)是非平穩(wěn)的。因此,基于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測方法已經(jīng)廣泛應(yīng)用于時序數(shù)據(jù)的分析和預(yù)測。其中,因Elman網(wǎng)絡(luò)是一個具有局部記憶單元和局部反饋連接的前向神經(jīng)網(wǎng)絡(luò),因此,對于預(yù)測問題,對比傳統(tǒng)預(yù)測方法以及 BP(Back Propagation)神經(jīng)網(wǎng)絡(luò),它的性能更好[6]。結(jié)合小波變換分解對數(shù)據(jù)的預(yù)處理,能提取更穩(wěn)定,更平滑以及更能量集中的信息,以此能有效提高數(shù)據(jù)的分析和預(yù)測性能[7]。在我們的論文中,主要在文獻(xiàn)[7]的基礎(chǔ)上,改進(jìn)了基站流量數(shù)據(jù)的預(yù)處理過程,使用稀疏壓縮感知的方法對缺失數(shù)據(jù)做了更高效的修補(bǔ)[8],用k-NN算法對訓(xùn)練樣本大小做了更科學(xué)的調(diào)整。
1.1 蜂窩網(wǎng)流量數(shù)據(jù)的特性
蜂窩網(wǎng)絡(luò)的流量數(shù)據(jù)是一種與用戶行為密切相關(guān)的數(shù)據(jù),這也導(dǎo)致了采集到的流量數(shù)據(jù)的一些固有特征,以及具有明顯的用戶相關(guān)性。在時間維度上,首先,用戶的行為一般都有明顯的白天-黑夜模式的差異,白天時段的網(wǎng)絡(luò)流量高,黑夜時段的網(wǎng)絡(luò)流量低;其次,每個蜂窩網(wǎng)用戶對于時間的管理和規(guī)劃概念基本相同,比如,工作日由于大部分用戶都處于工作狀態(tài),使用移動設(shè)備的時間較長,而周末大部分用戶則處于休息狀態(tài),使用各種通信手段的概率明顯降低。
在實際蜂窩網(wǎng)流量數(shù)據(jù)中,通常存在很大一部分?jǐn)?shù)據(jù)的丟失,而很多基于歷史流量數(shù)據(jù)的分析預(yù)測,都不允許有數(shù)據(jù)缺失或者丟失數(shù)據(jù)影響較大,因此對于流量數(shù)據(jù)的預(yù)處理對于最終預(yù)測性能的影響是至關(guān)重要的。
1.2 小波變換原理
離散小波變換(Discrete wavelet transform)在數(shù)字信號處理、石油勘探、地震預(yù)報、醫(yī)學(xué)斷層診斷、編碼理論、量子物理及概率論等領(lǐng)域中都得到了廣泛的應(yīng)用[9]。函數(shù)ψ∈L2(R)被稱為基本小波。
給定一個基波,通過對基本小波的尺度和平移,可得到:

如果函數(shù)f∈L2(R),則可用上述表示為

通過小波變換工具,將時序數(shù)據(jù)f用近似和細(xì)節(jié)系數(shù)cj,k表示。即可將f通過小波變換投影到不同的尺度[10-12],在一定的預(yù)測要求下,尺度選得太大并不能顯著提高預(yù)測性能,反而會降低計算效率。具體分解方式如圖1所示,首先將f分解成一個低頻分量a1和一個高頻分量d1,即分解為f=a1+d1。其次為了進(jìn)一步分析f的細(xì)節(jié)特性,低頻分量a1又可分解成a2和d2。因此,通過N級小波變換,可將f分解為f=d1+d2+d3+…+dN+aN。
在本文中,采用三級小波變換分解,以及用近似對稱、光滑的緊支撐雙正交小波Daubechies函數(shù)作為母小波。圖1是一周內(nèi)某基站流量數(shù)據(jù)及其小波分解系數(shù)。將原始信號分解成3個高頻信號與一個低頻信號。

圖1 三級小波變換分解
1.3 Elman神經(jīng)網(wǎng)絡(luò)
Elman神經(jīng)網(wǎng)絡(luò)是一種典型的局部回歸網(wǎng)絡(luò)(Global feed for ward local recurrent)[13]。它的主要結(jié)構(gòu)是前饋連接,包括輸入層、隱含層、輸出層,其連接權(quán)可以進(jìn)行學(xué)習(xí)修正;反饋連接由一組“結(jié)構(gòu)”單元構(gòu)成,用來記憶前一時刻的輸出值,其連接權(quán)值是固定的。圖2為基本的Elman神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。

圖2 Elman神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
在本文中,由于蜂窩網(wǎng)流量本身的非線性特性,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)無法準(zhǔn)確預(yù)測其流量。而Elman神經(jīng)網(wǎng)絡(luò)是在傳統(tǒng)網(wǎng)絡(luò)基本結(jié)構(gòu)的基礎(chǔ)上,通過存儲內(nèi)部狀態(tài)使其具備映射的動態(tài)特征功能,從而使系統(tǒng)具有適應(yīng)時變特性的能力。
2.1 改進(jìn)的相似基站算法
1)基站相似度
傳統(tǒng)蜂窩網(wǎng)流量預(yù)測在對該網(wǎng)絡(luò)的歷史數(shù)據(jù)分析預(yù)測時,往往忽略了基站與基站之間的空間相關(guān)性,而流量的變化往往與用戶行為事件的發(fā)生有關(guān),比如基站a周邊為某商業(yè)區(qū),往往跟同為商業(yè)區(qū)的基站b變化趨勢相似。因此,在對基站a的歷史數(shù)據(jù)進(jìn)行訓(xùn)練時,若把基站b的數(shù)據(jù)變化規(guī)律也學(xué)習(xí)進(jìn)來,對最終的預(yù)測結(jié)果將有明顯的提升。
在本文中,通過遍歷計算與其他基站數(shù)據(jù)的相似度,從而找出相似度最佳的基站。比較兩個序列的相似性常用算法有歐式距離與皮爾遜距離,兩者間距離越小越相似。由于皮爾遜距離更能捕捉到兩序列的變化趨勢,因此本文采用的皮爾遜相關(guān)系數(shù)。計算公式如下所示:

其中,X,Y分別代表兩個不同基站的數(shù)據(jù),N為其長度。
2)加權(quán)相似
在實際生活中,存在各種突發(fā)事件的情況,而只找一個皮爾遜距離最小的基站往往無法反應(yīng)出這種情形[14-15]。因此,在此基礎(chǔ)上,我們又對其做了改進(jìn)。
通過k-NN算法,找出與基站X最近似的k個基站,假設(shè)該k個基站分別為Y1,Y2,Y3,…Yk,相對應(yīng)的k個相關(guān)系數(shù)分別為,將ρX,Yi通過ρX,Yi/∑ρX,Yi歸一化后, 最終得到與基站X的加權(quán)相似基站Y為:

通過加權(quán)相似求得Y,對比沒有加權(quán)的,構(gòu)造出的樣本對目標(biāo)基站的預(yù)測更有針對性,也更加符合其變化趨勢。
2.2 蜂窩流量預(yù)測方法
文中采用k-NN算法尋找最佳相似基站,并通過三級小波分解將信號f分解成4部分,通過移動窗口的方式構(gòu)建訓(xùn)練樣本與測試樣本,最后將樣本輸入到Elman神經(jīng)網(wǎng)絡(luò)。其主要結(jié)構(gòu)如圖3所示。其中α3,d1,d2和d3為圖1中由小波變換分解產(chǎn)生的序列,和為通過Elman小波變換輸出的預(yù)測結(jié)果,并將其合成最終的時序數(shù)據(jù)。

圖3 小波-Elman神經(jīng)網(wǎng)絡(luò)預(yù)測模型
3.1 仿真數(shù)據(jù)
文中以華北某大城市實際用戶產(chǎn)生的移動基站流量數(shù)據(jù)做仿真,其中包含動態(tài)數(shù)據(jù)與靜態(tài)數(shù)據(jù),動態(tài)數(shù)據(jù)有基站等效流量話務(wù)量以及通話話務(wù)量,靜態(tài)數(shù)據(jù)有每個基站的位置信息,天線高度以及網(wǎng)絡(luò)類型等。選取時間為2012年6月1日至6月7日,采樣間隔為1小時。在實際中,根據(jù)用戶的作息規(guī)律,用戶數(shù)據(jù)主要產(chǎn)生于早上6:00至晚上22:00,因此,在文中只對該時段內(nèi)進(jìn)行預(yù)測。
3.2 評價標(biāo)準(zhǔn)
為了定量評判最佳的預(yù)測方法,本文采用均方誤差、標(biāo)準(zhǔn)平均絕對誤差和平均百分比誤差進(jìn)行評價和比較。設(shè)X(i,j)為流量實測值,X?(i,j)為流量預(yù)測值,n為測試點個數(shù),則誤差定義為:
均方誤差

標(biāo)準(zhǔn)平均絕對誤差

平均百分比誤差

3.3 預(yù)測結(jié)果和誤差分析
文中采用Matlab神經(jīng)網(wǎng)絡(luò)包進(jìn)行仿真。為了使本文的方法達(dá)到最佳性能,對于Elman網(wǎng)絡(luò)的參數(shù)進(jìn)行了調(diào)優(yōu),最終參數(shù)如表1所示。

表1 Elman神經(jīng)網(wǎng)絡(luò)參數(shù)
基于改進(jìn)小波-Elman神經(jīng)網(wǎng)絡(luò)算法預(yù)測的的蜂窩網(wǎng)流量相對誤差如圖4所示,將實測值和預(yù)測值相比較得到的逐點相對誤差,詳見表2。

圖4 某基站預(yù)測流量的相對誤差
從圖4中,可以看出總體相對正負(fù)誤差均在1.5%以下,處于可接受范圍,其中早高峰與晚高峰時刻尤為準(zhǔn)確,這也正符合實際需求。
為了與傳統(tǒng)其他方法進(jìn)行比較,采用同一批數(shù)據(jù),分別用前向反饋神經(jīng)網(wǎng)絡(luò)(FNN)、帶小波變換的前向反饋神經(jīng)網(wǎng)絡(luò)(FW)、Elman神經(jīng)網(wǎng)絡(luò)(ENN)以及線性預(yù)測做仿真。同時,為了體現(xiàn)出使用k-NN擴(kuò)充樣本的優(yōu)越性,本文也對其做了比較。比較結(jié)果分別用均方誤差(MSE)、標(biāo)準(zhǔn)平均絕對誤差(NMAE)以及平均百分比誤差(MAPE)評判。比較結(jié)果如表3所示。

表2 不同時刻對應(yīng)的相對誤差值

表3 不同方法的仿真結(jié)果比較
文中采用的預(yù)測模型在其它眾多的基站中選取了最佳相似的作為預(yù)測對象的樣本擴(kuò)充,同時采用小波變換與Elman神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測模型,使NMAE結(jié)果降至1.5%。
為了解決傳統(tǒng)模型在蜂窩網(wǎng)流量預(yù)測中預(yù)測精度不夠理想的問題,文中采用小波變換與Elman神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測模型,并結(jié)合實際數(shù)據(jù)產(chǎn)生規(guī)律,提出了通過k-NN算法尋找最佳相似基站。仿真結(jié)果表明,文中使用的方法相比傳統(tǒng)預(yù)測模型有更強(qiáng)的優(yōu)勢,具有較高的精準(zhǔn)度,是一種有效的蜂窩網(wǎng)流量的預(yù)測方法。
[1]Index C V N.Global mobile data traffic forecastupdate,2010-2015[J].White Paper,F(xiàn)ebruary,2011.
[2] Fettweis G, Zimmermann E. ICT energy consumption-trends and challenges[C]//Proceedings of the 11th International Symposium on Wireless Personal Multimedia Communications,2008,2(4):6.
[3]Shu Y,Yu M,Liu J,et al.Wireless traffic modeling and prediction using seasonal ARIMA models[C]//Communications,2003.ICC'03.IEEE International Conference on.IEEE,2003(3):1675-1679.
[4]Sang A,Li S.A predictability analysis of network traffic[J].Computer networks,2002,39(4):329-345.
[5]Makhoul J.Linear prediction:A tutorial review[J]. Proceedings of the IEEE,1975,63(4):561-580.
[6]劉寧,陳昱颋,虞慧群,等.基于 Elman神經(jīng)網(wǎng)絡(luò)的交通流量預(yù)測方法 [J].華東理工大學(xué)學(xué)報:自然科學(xué)版,2011,37(2):204-209.
[7]Zang Y,Ni F,Feng Z,et al.Wavelet transform processing for cellular traffic prediction in machine learning networks[C]//Signal and Information Processing(ChinaSIP),2015 IEEE China Summit and International Conference on.IEEE,2015:458-462.
[8]Zhang Y,Roughan M,Willinger W,et al.Spatiotemporal compressive sensing and internet traffic matrices[C]//ACM SIGCOMM Computer Communication Review.ACM,2009,39(4):267-278.
[9]虞湘賓,董濤.一種離散小波變換的快速分解和重構(gòu)算法[J].東南大學(xué)學(xué)報:自然科學(xué)版,2002,32(4):564-568.
[10]Percival D B,Walden A T.Wavelet methods for time series analysis [M].Cambridge university press,2006.
[11]Nguyen H T,Nabney I T.Combining the wavelet transform and forecasting models to predict gas forward prices[C]//Machine Learning and Applications,2008.ICMLA'08.Seventh International Conference on.IEEE,2008:311-317.
[12]Railean I,Stolojescu C,Moga S,et al.Wimax traffic forecasting based on neural networks in wavelet domain[C]//Research Challenges in Information Science(RCIS),2010 Fourth Interna-tional Conference on.IEEE,2010:443-452.
[13]Elman J L.Finding structure in time[J].Cognitive science,1990,14(2):179-211.
[14]羅辛,歐陽元新,熊璋,等.通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法 [J].計算機(jī)學(xué)報, 2010,33(8):1437-1445.
[15]蘇鵬,李玉忱,劉慧.一種新的加權(quán)k-最臨近分類方法[J].計算機(jī)工程與應(yīng)用,2004,39(35):183-185.
Cellular wireless traffic prediction based on improved wavelet-Elman neural network
NI Fei-xiang1,2
(1.Shanghai Institute of Microsystem and Information Technology,Shanghai 201210,China;2.University of Chinese Academy of Sciences,Beijing 100049,China)
In the wireless network system,theresource dynamic control and energy efficiency improvement allclosely depend on the early and precise prediction result of basestation traffic.The characteristic of network traffic volume overspace and time play an important role in traffic prediction.Inthis paper,we make the preprocessing based on both temporaland spatial view for the cellular traffic data generated by alarge population city of China.For each base station,combinethe most similar another one through using k-Nearest Neighbor,determine the most appropriatesliding window size,integrate the Elman Neural Network(ENN)and wavelet transform to achieve the traffic volume prediction.We present numerical results to illustrate the accuracy of wirelesstraffic volume prediction,and we test the performance of ourmethod to demonstrate improvement over some existing methods.
traffic volume analysis;k-NN;Elman neural network;wavelet transformanalysis
TN911.6
:A
:1674-6236(2017)03-0171-05
2016-02-25稿件編號:201602139
倪飛祥(1991—),男,浙江杭州人,碩士研究生。研究方向:通信中的大數(shù)據(jù)處理。