郭美麗,覃錫忠,賈振紅,陳 麗
(1.新疆大學信息科學與工程學院,新疆 烏魯木齊 830046;2.中國移動通信集團新疆有限公司,新疆 烏魯木齊 830063)
基于改進的網格搜索SVR的話務預測模型*
郭美麗1,覃錫忠1,賈振紅1,陳 麗2
(1.新疆大學信息科學與工程學院,新疆 烏魯木齊 830046;2.中國移動通信集團新疆有限公司,新疆 烏魯木齊 830063)
話務預測是整個通信保障工作的基礎,其預測精度決定了整個規劃的合理性和科學性。而節假日話務量,具有歷史樣本量較小和非線性強的特點,傳統的預測方法很難實現精確的預測。支持向量機在解決小樣本和非線性問題時表現出許多特有的優勢。提出了一種改進的網格搜索法和交叉驗證法對支持向量回歸機(SVR)參數優化選擇,并對節假日忙時話務進行預測,并與BP神經網絡、基本的SVR和網格搜索SVR三種預測模型進行比較。而且用免疫算法和粒子群算法優化SVR參數與本文算法作比較來預測普通日子的話務量。實驗結果表明,基于改進的網格搜索SVR預測精度高、耗時少、穩定性強,具有很好的實用性和推廣性。
節假日話務預測;支持向量回歸機;改進的網格搜索法
每逢重大節假日,如春節、國慶節等,移動通信網絡都面臨著高話務的沖擊。雖然給通信公司帶來了巨額的收入,但同時也帶來了巨大的壓力,因為過高的話務量極易造成交換系統過載,出現電路擁塞、話音接通率下降等現象,給用戶也帶了極大的不便。而話務量預測是整個通信保障工作的基礎,也是移動運營商進行網絡規劃和建設的依據,其預測精度決定了整個規劃的合理性和科學性。因此,移動運營商對話務量預測技術的需求非常急迫。
目前,對回歸預測的研究方法有時間序列法、神經網絡預測法、支持向量機SVM(Support Vector Machine)[1]等,實際應用中上述方法對月平均話務量、月忙時話務量等能取得較好的效果。但是,節假日當天忙時話務量存在較強的非線性,主要表現在話務量增長在區域分布上不均衡、互聯互通話務量增長與本地營銷策略關系大和長途話務量的增長幅度大等方面。針對上述問題,傳統的預測方法很難實現精確的預測,本文采用優化參數的支持向量回歸機建立預測模型。
支持向量機以統計學習理論SLT(Statistical Learning Theory)為基礎,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中[2]。近幾年,支持向量機作為一種預測工具,已經應用在了醫療診斷[3]、電力負荷預測[4]以及能量輸出預測[5]等方面。但是,在實際使用支持向量機時,支持向量機參數的尋優非常重要,合適的參數可以直接提高方法性能。本文主要研究的節假日話務量是非線性強的小樣本問題,所以本文提出一種改進的網格搜索算法來提高參數優化的準確率,進而提高其優化速度。該方法用于新疆各地區節日話務預測,取得了比較滿意的結果,在非節假日的小樣本話務預測中也取得了較好的結果。
支持向量機是基于Vapnik提出的小樣本統計學習理論建立的,以訓練誤差作為優化問題的約束條件,以置信范圍最小化為優化目標。它最終是求解一個凸規劃問題,或者是一個二次規劃(QP)問題。對于一組給定的數據集T={(x1,y1),…,(xi,yi)}?Rd×R,i=1,…,n,回歸問題就是要估計出xi與yi的關系:

其中〈·,·〉對應Rd空間的內積。Φ(·)為核函數,可以把訓練數據映射到高維空間F上,因此在原空間上解決非線性問題就等同于在新的高維空間上解決線性回歸問題。
機器學習理論對這一問題可以表述為在一組函數{f(x,ω)}中尋求一個最優的函數{f(x,ω*)},使得預期的期望風險R(ω)達到最小。

其中,n為樣本容量,h為VC維。支持向量機理論把式(2)轉化為尋求如下問題的最優解:

其中,ε由不敏感損失函數L(y,f(x,a))來定義,決定了回歸曲線的平坦程度,這里是事先取定的一個正數,且0<ε<1。當x點的觀察值y 與預測值f(x)之差不超過事先給定的ε時,則認為在該點的預測值f(x)是無損失的,盡管預測值f(x)和觀測值y可能并不完全相等。

式(3)中C為懲罰因子,表示對錯分樣本的懲罰。

由此支持向量機所求得的回歸函數可以表示為:

在SVR建模中,考慮到RBF核函數所體現出的較好的性能[7],本文選取式(4)RBF來進行建模研究。實際應用中大多憑經驗確定參數或采用試算法,導致由于參數選擇不準確而使最后的預測精度低于目標精度。因此,核函數參數和懲罰系數C的選擇對SVR的性能至關重要,只有選擇合適的模型參數,SVR的優越性才能更好地發揮出來。

SVR的參數選擇問題,其實質就是一個優化問題。在ε-SVR算法中,參數γ、C、ε對支持向量機的性能有著十分重要的影響。參數γ影響數據在高維空間中分布的復雜度;參數C是經驗風險和置信范圍的裁決;參數ε確保對偶變量的稀疏性,同時確保全局最小解和可靠泛化界的優化。比較常用的三種參數尋優方法是遺傳算法、粒子群優化算法和網格搜索法[7]。前兩種算法容易陷入局部極值,無法保證得到最優參數。近幾年發展起來的人工智能新方法——免疫算法[8],克服了遺傳算法的缺陷,能夠尋到全局最優解,但其運算耗時較長?;镜木W格搜索遍歷了在搜索范圍內所有的參數組合,可搜索到最優參數,但是運算量大、耗時長。
對于支持向量機的參數優化問題要根據實際問題具體解決,本文選擇網格搜索SVR參數具有以下優勢:(1)可以搜索到最優參數;(2)本文只需搜索兩個參數(因為由話務預測的先驗知識可知SVR的最優參數ε均在[0.0098,0.0109],所以為了節省搜索時間,本文設定ε=0.01),因此運行時間相對較少;(3)每組參數(C,γ)都是獨立的,因此很容易實現并行計算。為了使網格搜索能更快更精確地尋到最優參數,本文提出交叉驗證與改進的網格搜索法進行SVR參數選擇,進而對樣本小、非線性強的節假日忙時話務量進行預測。
網格搜索算法是一種窮舉法,在參數空間每維上取若干分格,遍歷輸入空間中所有網格交叉點,得到最優解。該算法首先確定每個參數的取值范圍,然后對每個參數取值范圍按照一定規律插值,得出若干組參數組合;對每組參數組合進行一次計算,應用交叉驗證計算其預測誤差;對應于預測誤差最小的參數組合,就是最優的參數取值。網格搜索法計算過程中各組參數相互解耦,便于并行計算,運行效率高[9]。本文提出一種改進的網格搜索法來提高優化準確率和優化速度。
傳統的網格搜索比較耗時,且不一定能搜索到滿足精度要求的最優參數組合,改進的網格搜索算法通過自動改變搜索范圍和搜索步長來更精細地搜索最優參數,最終預測出符合要求的預測精度。該方法選擇最佳參數(C,γ)的具體步驟如下:
步驟1設定參數C和γ的取值范圍,再設定比較大的搜索步長,以2的冪次方沿著兩個參數的不同增長方向生成網格。這樣既能遍歷所有的參數,又能方便網格的收縮與增長。由此參數將區間分別分為M、N等分,網格中的節點即為給定范圍內所有可能得到的參數對。
步驟2針對所有分割組合(Ci,γj)(i=1,…,M,j=1,…,N),對樣本集進行訓練和測試,比較得到使評價函數最小的參數組合(Ci,γj),判斷是否滿足精度要求或結果穩定,如果是則轉到步驟4,否則轉到步驟3。
步驟3選取參數(Ci,γj)相鄰的兩個區間作為新 的 參 數 范 圍 C∈ [Ci-1,Ci+1],γ∈ [γj-1,γj+1],并且分別減少搜索步長的2倍 (可使用其他的收縮率,但因子-2-收縮率是方便的,因為網格數是2的冪次方);再次搜索最優參數組合,判斷是否滿足精度要求或結果穩定,如果是則轉到步驟4,否則在這一步不斷循環直到尋找到最優的一組參數組合。
步驟4存儲參數,參數優化結束。
歷史數據是話務預測的基石,但歷史數據并非越多越好。在進行預測時,一定要選取具有較大相關性的歷史數據,數據的相關性越強,對預測準確性的幫助就越大。所謂相關性,是指歷史數據所依存的業務環境與現有環境具有較大的相似性。但是,在選取預測基準數據時,往往沒有足夠的相關性數據。這其中很重要的一個原因是:直接從ACDSee獲得的數據往往存在著各種異常因素。如:系統故障等原因引起的數據缺失,促銷活動、異常天氣等引起的話務量異動等。為了解決相關性數據缺乏的問題,通常需要對歷史數據進行清洗,如剔除缺失數據、修正異常數據等,這個過程其實就是要提高數據的相關性,使之更能反映業務現狀的特點。本文主要研究的是節假日的話務量,節假日話務量往往具有峰值特性,因此,我們只需選擇相關性大的數據也就是峰值周圍的數據做樣本,并對這些樣本做異常數據修正,從而導入到話務預測模型中進行預測。
本文實驗的數據是實時新疆移動通信話務量數據,話務量歷史數據包括新疆16個地州從2004年1月~2012年5月每天每小時的話務量。為了使移動運營商能夠根據預測出的節日忙時話務量對話務信道及時做處理,保障話務高峰期的正常通信,并且能降低誤差和減少訓練時間,達到最佳的預測效果,本文剔除掉節日前10天的話務數據,選取每年節日10天前的20天最忙時話務量做輸入樣本,歷年節日當天話務做輸出樣本,同時橫向和縱向訓練,建立預測模型,最終預測出要預測的節日當天最忙時話務量。本文以預測2012年元旦忙時話務量為例,隨機選取新疆五個地區做預測分析。
改進的網格搜索優化支持向量機進行節假日話務預測的步驟如下:
步驟1對話務數據進行預處理,主要是對一些缺失數據和異常數據進行相應處理,如對這些數據取相近的數據填補;
步驟2將選用的話務量數據劃分為訓練樣本和測試樣本,并將這些數據進行歸一化處理;
步驟3本文設定ε=0.01,設定網格搜索的C、γ值的初始搜索范圍和步長,這里設置為γ∈[2-8,28],步長為1,C∈[2-8,28],步長為1;
步驟4根據樣本集,利用改進的網格搜索法和交叉驗證[8]找出最佳參數組合(Ci,γj)(交叉驗證誤差是推廣誤差的一種近似無偏估計,在很多情況下表現出比其他估計量更好的性能[10],本文采用5-折交叉驗證);
步驟5根據樣本集和最優的(Ci,γj)組合,建立基于網格搜索的支持向量機話務預測模型;
步驟6利用建立好的模型對話務量進行預測。
本文采用MATLAB編寫改進的網格搜索尋參程序,結合libsvm支持向量機工具箱,用均方誤差MSE作為評價指標。

其中,Xi(i=1,2,…,n)是真實值,Yi(i=1,2,…,n)是預測值,MSE越接近于零,預測效果越好。輸入向量的維數選取8,則支持向量回歸機的輸入值與目標值可以表述為:

SVR參數選擇效果如圖1所示。得到的最優參數建立SVR預測模型,代入預測樣本數據進行運算,預測效果如圖2所示。

Figure 1 SVR parameters choice圖1 SVR參數選擇圖(3D視圖)
為了說明該方法的優越性,本文首先選取了BP網絡、傳統SVR和網格搜索SVR與之進行對比,對新疆五個地區元旦當天忙時話務量進行預測。預測誤差用相對誤差Erep表示,結果如表1所示。

其中,Xi(i=1,2,…,n)是真實值,Yi(i=1,2,…,n)是預測值。
通過表1可知,本文基于改進的網格搜索SVR取得了較好的預測結果,其誤差均小于5%,且穩定,運行時間均在3秒左右,符合規范預測精度,完全滿足實際預測的需求。而SVR模型雖然運行速度很快,但很難尋到最優模型參數,需人手動多次試驗,若有豐富的經驗知識,可能會得到較理想的預測結果;BP網絡效果要略好于SVR,但由于BP網絡易陷入局部極小,預測值波動很大,所以很難對每個地區做精確的預測?;镜木W格搜索SVR雖然取得了比較穩定的結果,但會出現個別地州達不到實際要求的精度,即沒有搜索到最優參數組合。而本文算法通過改變搜索范圍和搜索步長更精細地搜索最優參數直到滿足要求的精度才停止。因此,無論是從預測精度還是耗時來說,基于改進的網格搜索的SVR模型均優于傳統的SVR模型、網格搜索SVR模型和BP神經網絡模型。

Table 1 Comparison of forecast result 1表1 預測結果分析表1
該話務預測模型不僅適合于非線性強的節假日忙時話務預測,也適合平常話務(非節假日)的預測。目前支持向量機參數的選擇方法有很多,仍沒有形成一個統一的模式,一般視具體情況而定。本文隨機選取五個地區的某個平常日子代入話務模型進行預測,另選免疫算法(IA)和粒子群算法(PSO)對SVR尋優并應用于話務預測模型。與本文算法比較,由于前兩種算法每次運行的結果不同,某次結果可能是陷入局部極值時所得,不能代表整體預測效果,所以前兩種算法均運行50次,取結果的平均值,各算法的誤差和運行時間結果如表2所示。
由表2可知,三種算法誤差因地區的不同而不同,總體效果差不多。但是,由于PSO-SVR易陷入局部極值,且運行次數多,消耗時間長,IA-SVR能夠搜索到全局最優解,但其運算耗時還是較長,在實際應用中影響工作效率;而本文提出的改進的網格搜索法能安全地搜索到SVR的最優參數,不會陷入局部極值且每次運行的結果是相同的。所以,本文提出的算法模型只需運行一次就可得到穩定的值。因此本文算法在穩定性和運行時間上都有很大優勢。

Table 2 Comparison of forecast result 2表2 預測結果分析表2
本文利用改進的網格搜索法對支持向量機的關鍵參數進行尋優,然后進行交叉驗證,找出使交叉驗證精確度最高的(C,γ)對,進而建立模型并預測話務量,實現了支持向量回歸機參數的自動優化選擇,避免了通過實驗人工選擇的盲目性。實驗結果表明,本文算法在穩定性、準確率和運行速度等方面明顯優于現有算法,是一種預測忙時話務量的有效方法。當然,本文提出的改進的網格搜索法還處于研究的初步階段,對于參數較少的模型能有效地搜索到最優值,但對于參數多的模型,搜索復雜度加大,可能比較耗時,有待進一步探索。
[1] Vapnik V.Statistical learning theory[M].New York:John Wiley&Sons,1998.
[2] Zhang Xue-gong.About the statistical learning theory and support vector machine[J].ACTA Automatica SINICA,2000,26(1):32-42.(in Chinese)
[3] Khandoker A H,Palaniswami M,Karmakar C K.Support vector machines for automated recognition of obstructive sleep apnea syndrome from ECG recordings[J].IEEE Transactions on Information Technology in Biomedicine,2009,13(1):37-48.
[4] Elattar E E,Goulermas J Y,Wu Q H.Electric load forecasting based on locally weighted support vector regression[J].IEEE Transactions on Systems, Man and Cybernetics,2010,40(1):438-447.
[5] Shi Jie,Lee Wei-Jen,Liu Yong-qian,et al.Forecasting power output of photovoltaic systems based on weather classification and support vector machines[C]∥Proc of the IEEE Annual Meeting on Industry Applications(IAS),2011:1-6.
[6] Deng Nai-yang,Tian Ying-jie.A new method of data mining:Support vector machine[M].Beijing:Science Press,2004.(in Chinese)
[7] Wu Hai-wei,Yu Hai-ye,Zhang Lei.The net photosynthetic rate prediction model based on the optimized support vector machine[J].Spectroscopy and Spectrum Analysis,2011,31(5):1414-1418.(in Chinese)
[8] Huang Yan-qiu.The IA -SVM algorithm research in network intrusion detection[J].The Computer Simulation,2011,28(1):182-186.(in Chinese)
[9] Feng Guo-he.The large sample support vector research based on the clustering[J].Computer Science,2006,33(4):145-147.(in Chinese)
[10] Duan K,Keerthi S S,Poo A N.Evaluation of simple performance measures for tuning SVM hyperparameters[J].Neurocomputing,2003,51:41-59.
附中文參考文獻:
[2] 張學工.關于統計學習理論與支持向量機[J].自動化學報,2000,26(1):32-42.
[6] 鄧乃揚,田英杰.數據挖掘中的新方法:支持向量機[M].北京:科學出版社,2004.
[7] 武海巍,于海業,張蕾.基于參數優化支持向量機的林下參凈光合速率預測模型[J].光譜學與光譜分析,2011,31(5):1414-1418.
[8] 黃艷秋.IA-SVM算法在網絡入侵檢測中的研究[J].計算機仿真,2011,28(1):182-186.
[9] 奉國和.基于聚類的大樣本支持向量研究[J].計算機科學,2006,33(4):145-147.
The prediction model of traffic based on improved grid search SVR
GUO Mei-li1,QIN Xi-zhong1,JIA Zhen-hong1,CHEN Li2
(1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046;2.China Mobile Group Xinjiang Company Limited,Urumqi 830063,China)
The traffic prediction is the basis of the whole communication's security work,whose prediction accuracy determines the rationality and scientificity of the entire plan.While the prediction of holiday's traffic has the characteristics of small historical sample size and strong nonlinear,it is hard to realize accurate prediction for the traditional prediction method.An improved grid search method for selecting the optimized parameter of Support Vector Regression machine(SVR)and then predicting the busy traffic in holidays is proposed and compared with BP neural network,SVR and grid search SVR.And the traffic of general days is predicted by comparing our method with Immune algorithm and Particle Swarm Optimization algorithm in optimizing SVR parameters.The experimental results show that the improved grid search SVR has a higher forecast precision,a less time-consuming and a strong stability,thus having good practicality and promotion.
prediction of holiday's traffic;support vector regression machine;improved grid search method
1007-130X(2014)04-0707-06
TP181
A
10.3969/j.issn.1007-130X.2014.04.023
2012-09-11;
2012-12-19
中國移動通信集團新疆有限公司發展基金項目(XJM2011-11)
通訊地址:830046新疆烏魯木齊市勝利路14號新疆大學信息科學與工程學院
Address:College of Information Science and Engineering,Xinjiang University,14Shengli Rd,Urumqi 830046,Xinjiang,P.R.China
郭美麗(1987-),女,新疆塔城人,碩士生,研究方向為人工智能和移動通信。E-mail:guomeili314@126.com
GUO Mei-li,born in 1987,MS candidate,her research interests include artificial intelligence,and mobile communications.
覃錫忠(1964-),男,重慶人,碩士,副教授,研究方向為通信與信息處理。E-mail:qmqqxz@163.com
QIN Xi-zhong,born in 1964,MS,associate professor,his research interest includes communication and information processing.
賈振紅(1964-),男,河南洛陽人,博士,教授,研究方向為光通信和信號處理。E-mail:jzhh@xju.edu.cn
JIA Zhen-hong,born in 1964,PhD,professor,his research interests include optical communication,and signal processing.
陳麗(1980-),女,新疆烏魯木齊人,碩士,高級工程師,研究方向為移動通信。E-mail:chenli@xj.chinamobile.com
CHEN Li,born in 1980,MS,senior engineer,her research interest includes mobile communication.