基于支持向量機回歸的中國CPI預測研究

2013-04-29 00:00:00尹琴琴樊重俊

中國集體經濟 2013年5期

摘要：本文針對中國CPI指數的預測問題，首先用主成分分析方法對影響CPI指數的八個指標進行降維處理，然后利用支持向量機技術建立起中國CPI指數的預測模型并對我國實際的CPI指數進行了預測。實證分析結果表明，PCA-SVM模型能夠有效地對CPI指數進行短期預測。最后，與單純的支持向量機模型的預測結果做了對比，對比結果表明，支持向量機和主成分分析相結合的模型應用于CPI預測具有較高的精確度。

關鍵詞：CPI；支持向量回歸機；主成分分析

一、引言

居民消費價格指數也稱消費者價格指數（Consumer Price Index， CPI），是反映一定時期內城鄉居民所購買的生活消費品和服務項目價格變動趨勢和幅度的指數，是反映通貨膨脹水平的重要指標和根據。這一指數與居民的經濟生活有著密切的關系，它衡量的是生活消費品和服務項目的價格變動對居民實際生活支出的影響程度，在各級政府研究和制定貨幣、價格、工資、消費、社會保障政策及進行國民經濟核算等方面，發揮著很重要的作用。過高或過低的CPI指數都不利于國民經濟的健康發展，因此對CPI的預測具有很重要的現實意義，它關系到國家宏觀經濟調控的政策取向。

目前文獻在CPI指數預測方面，主要采用傳統統計方法和建模方法。傳統的統計方法包括協整回歸預測模型、ARIMA預測模型、自回歸模型等，建模方法主要有神經網絡模型等。本文提出了基于支持向量機（Support Vector Machine，簡稱SVM）的中國CPI預測模型并對我國CPI指數進行預測。SVM作為一種機器學習方法，是由Vapnik最先提出。它以統計學習理論和結構風險最小化原則為基礎，能夠克服神經網絡局部最優值等問題。支持向量機能夠很好地處理非線性數據問題，近幾年，在模式識別、數據挖掘和時間序列數據預測等方面得到了成功的應用，但是應用于我國CPI指數的預測并不多見。本文首先采用主成分分析法對數據進行降維處理，然后將支持向量機回歸方法應用于我國CPI的短期預測。預測結果表明利用主成分分析方法不僅能夠加快SVM的訓練速度，還能提高預測精度。

二、理論分析

（一）支持向量機回歸模型

給定訓練集（xi，yi），i=1，2...，N，其中N表示N個訓練樣本，xi表示輸入向量，yi表示相對應的輸出變量。則回歸函數可表示為y=f（x）=ωT？覬（x）+b，其中？覬（x）輸入空間到高維特征空間的非線性映射。求解系數ωT和b，根據經驗風險最小化原則，使得函數

R（f）=C■L（f（xi）-yi）+■||ω||2

最小化，其中，L（●）表示損失函數，C為懲罰因子。這里所說的損失函數是指常用的ε不敏感損失函數。問題就轉化為以下優化問題

■■||ω||2+C■（ξi+ξ*i）

s.t.yi-（ωT？覬（xi）+b）≤ε+ξi

（ωT？覬（xi）+b）-yi≤ε+ξ*i

ξi，ξ*i≥0，i=1，2...N.

其中，ξi，ξ*i分別表示目標值上下限的松弛變量。目標函數中，既要使得■||ω||2最小化，又要使得■（（ξi+ξ*i））最小化，即松弛變量最小，為了綜合考慮這兩個目標，引入了懲罰因子C>0，它反映了對■||ω||2最小化和松弛變量最小化的重視程度。引入拉格朗日函數，得到其對偶優化問題

■=-■■（ai-ai*）（aj-aj*）K（xi，xj）-ε■（ai+ai*）+■yi（ai-ai*）

s.t.■ai=■ai*，0≤ai，ai*≤C.

其中ai，ai*是拉格朗日乘子向量。解此優化問題，若得到的ai*≠ai，則稱與其對應的訓練點（xi，yi）為支持向量，否則稱為非支持向量。得到的回歸函數為

f（x）=■（ai-ai*）（？覬（xi）·？覬（x））+b

=■（ai-ai*）K（xi，x）+b

其中，K（xi，xj）=（？覬（xi）·？覬（xj））是滿足Mercer條件的核函數。核函數有線性核函數、多項式核函數、sigmoid核函數和徑向基核函數，通常使用的核函數是徑向基核函數。由于在以往的研究中，應用徑向基核函數能取得很好的效果，因此本文使用徑向基核函數

K（x，x′）=exp（-||x-x′||2/2σ2），σ>0

在支持向量機模型的應用過程中，需要確定的參數包括懲罰因子C、核函數、核參數、損失函數的參數。參數的選擇對于支持向量機模型的預測精度有很大的影響。參數的選擇主要有遺傳算法、粒子群優化算法、網絡遍歷法。在確定最優參數時，需要評價參數的優劣，通常使用的方法是k-折交叉確認法。

（二）主成分分析法

主成分分析（簡稱PCA）是采取一種數學降維的方法，找出幾個綜合變量來代替原來眾多的變量，使這些綜合變量能盡可能地代表原來變量的信息量，而且彼此之間互不相關。

設X1，X2，...，Xp為研究對象所涉及的p個屬性，Y1，Y2，...，Ym（m≤n）表示由x1，x2，...，xp線性組合得到的新的綜合變量，則有

Y■=l■x■+l■■x■+...+l■x■Y■=l■x■■+l■x■+...+l■x■…Y■=l■x■+l■x■+...+l■x■

其中，系數的選擇應使得以下條件成立。

1.Yi與Yj（i≠j，i，j=1，2，...，m）互不相關。

2.Y1，Y2，...，Ym的方差依次減小，即所包含的信息量依次減小。

于是，Y1，Y2，...，Ym分別為x1，x2，...，xp的第一主成分、第二主成分、......、第m主成分。在用主成分對變量做降維處理時，從m個主成分中選出前幾個包含信息量最大的，它們包含了原始變量絕大多數的信息，因此可以用這m個綜合變量代替原始變量，這樣既可以約減屬性，簡化分析，又可以在很大程度上包含原始變量的信息。

（三）PCA-SVM預測模型的設計

我國現行的CPI由八大類生活消費品和服務項目組成，即食品、煙酒及用品、衣著、家庭設備用品及服務、醫療保健及個人用品、交通和通信、娛樂教育文化用品及服務和居住。本文選取以上八大類指標數據作為預測模型的輸入，以下月的CPI指數作為模型的輸出。

主成分分析用來約減屬性，減少支持向量機輸入指標的個數。本文首先對八大類指標數據進行主成分分析，將約減后的指標數據作為支持向量機模型的輸入，支持向量機模型對輸入指標進行運算和處理，得出CPI的預測值。PCA-SVM預測模型的設計流程如下。

1.對數據進行預處理和主成分分析，確定主成分個數以及支持向量機的輸入指標。

2.將訓練數據輸入支持向量機模型，交叉驗證選擇最佳參數C、g和ε，得出訓練模型。

3.將測試集中的指標數據輸入訓練模型，進行擬合預測CPI指數。

三、實證分析

（一）對指標數據提取主成分

本文選取國家統計局網站公布的2006年1月至2013年5月的居民消費價格指數CPI及八個指標即居民消費價格分類指數，利用建模對CPI指數進行預測。

利用Matlab對指標數據進行主成分分析，分析結果如表1所示。

從表1可以看出，前4個主成分的累積貢獻率為91.405%，因此提取前4個主成分作為輸入變量。輸入維數降低一半，可提高SVM的訓練速度。

（二） SVM模型的訓練及預測

主成分分析方法的作用是降低支持向量機輸入向量的維數，支持向量機對輸入向量進行運算處理，得出CPI預測值。在本文中，我們將本月的前4個主成分值作為支持向量機模型的輸入變量，下月CPI指數作為輸出變量。本文選取2006年1月到2012年9月共81組數據作為訓練集，2012年10月到2013年5月共8組數據作為測試集。

在建立支持向量機模型之前，首先需要尋求最優參數。本文選用的核函數為常用的徑向基核函數，利用LIBSVM，通過網絡遍歷法反復實驗，搜索懲罰因子C、核參數g、損失函數的參數ε的最優值。C的搜索范圍為[2-10，210]，g的搜索范圍為[2-10，210]，ε的搜索范圍為[0，100]，對于每一組參數，利用5折交叉驗證法驗證其精度，選擇精度最高的一組參數。最終確定C的值為13225.5068，g的值為1.235，ε的值為0.0642。

在確定參數以后，在dos環境中利用LIBSVM中的訓練命令svmstrain對81組數據集訓練，得到預測模型，然后利用預測模型和svmpredict預測出我國2012年10月到2013年5月的CPI指數。預測結果如表2所示。

從結果看，各個月份CPI指數預測值的最大誤差為0.7，最小誤差為0.1，相對誤差基本保持在0.7%以下，均方誤差MSE為0.3674，平均絕對誤差MAE為0.325，說明PCA-SVM模型較穩定，可以較為準確地預測CPI指數。

為了評價此模型的預測精度，通過對比實驗，將其與未經過主成分分析的支持向量機模（SVM）的預測結果進行對比，預測效果評價結果見表3。

從表3可以看出，PCA-SVM模型比SVM模型的預測效果好，說明主成分分析法不僅可以降低支持向量機的輸入維數，更能很好地提高支持向量機模型預測的精度。

四、結語

通過以上的分析可以看出，PCA-SVM模型在CPI的預測中具有比較高的精度，在上月八大類消費和服務項目指數已知的條件下，應用該模型能夠比較準確地預測出下月的CPI指數，這說明該模型能夠較好地應用于我國CPI指數的短期預測領域。這可以給制定國家宏觀經濟政策的有關部門及企業提供一定的信息和幫助。由于指標體系中單純包含了經濟指標，沒有考慮到國家政策制定等其他因素對CPI的影響，因此PCA-SVM模型在預測的過程中會出現一定誤差，但從總體上看，本文取得了較好的預期效果。在今后的CPI預測研究中，可以更進一步深入，尋求更高效精確的參數優化方法，將非經濟的因素納入模型的建立中。

參考文獻：

[1]付紅研.國民經濟統計學[M]. 首都經濟貿易大學出版社，2008.

[2]鄧乃揚，田英杰.支持向量機—理論、算法與拓展[M].科學出版社，2009.

[3]何曉群.多元統計分析[M]. 中國人民大學出版社，2008.

[4]李伯年，吳禮斌. Matlab數據分析方法[M].機械工業出版社，2012.

[5]石城宇.基于支持向量機的匯率預測研究[D].哈爾濱工業大學，2011.

（工作單位：上海理工大學管理學院）

中國集體經濟2013年5期

中國集體經濟的其它文章: 組織支持感知與事業單位人力資源管理; 糧食產量影響因素的灰色關聯分析; 略談推動會計文化建設的路徑; 城市軌道交通網絡化應急資源配置; 完善財務監管體系的探討; 我國海洋產業發展SWOT分析及其對策建議