郭志鋼,蒲 忠,李 秋
(1.西南石油大學 經濟管理學院,成都 610500;2.中國石油西氣東輸公司豫鄂管理處,武漢 430073)
天然氣消費量的預測對于四川省這樣的一個天然氣資源大省有著非常重要的意義。隨著新一輪經濟的增長,四川省能源供需矛盾更加緊張,準確的預測不僅關系到四川省能源戰略的制定、經濟的可持續增長,還關系到人民生活水平的提高。
對于四川省天然氣消費量的預測既可以采用時間序列預測方法也可以采用回歸預測方法。由于時序預測法只考慮預測對象過去的時序模式,涉及的因素較少,因此建模雖然簡單,但是精度有所不夠?;貧w分析方法通常涉及到眾多因素,考慮問題比較全面,因此模型尤其是非線形模型相對復雜,但是精度比時間序列模型要高。
本文首先在考慮影響四川省天然氣消費量眾多影響因素的基礎上,選擇出比較有代表性的自變量體系,然后為降低預測模型的復雜度以及提高模型的預測精度,利用主成分分析方法對自變量體系進行降維及去噪,把多個自變量變為少數主成分,最后利用這些生成的主成分及應變量(四川省天然氣消費量)建立起基于最小二乘支持向量機的非線形預測模型。
PCA將原樣本矩陣分解為一組標準正交基與該正交基所張成的空間中投影坐標的外積,即將過程中大量的相關信息和帶有噪聲的數據投影到含所有相關信息的低維子空間上,從而起到降維和去噪的作用。計算過程如下:
設 X=(x1,x2,…,xp)T,求 X 的各主成分,等價于求它的協方差矩陣的各特征值及相應的正交單位特征向量λ1≥λ2≥…λp≥0 及 D=(d1,d2,…,dn)。
定義 Y=(Y1,Y2,…,Yn)T為主成分向量,則

即主成分分析是按特征值由大到小所對應的正交單位特征向量為x1,x2,…,xp的線性組合分別為 x的第一、第二、直到第p個主成分,而各主成分的方差等于相應的特征值,即 Var(Yk)=λk。
實際應用中,通常選取m<p,使前m個主成分的累計貢獻率達到較高的比例(如80%到90%)。這樣用前m個主成分 Y1,Y2,…,Ym代替原始變量 x1,x2,…,xp不但使變量維數降低,而且也不致于明顯損失原始變量中的信息。
基于回歸的LS-SVM原理如下:
首先考慮n個訓練樣本的線性回歸問題,設訓練數據集(xi,yi),i=1,2,…,n,xi∈Rd是第 i個樣本的輸入模式,yi∈R是對應第i個樣本的期望輸出。線性回歸函數為

根據SRM準則,綜合考慮正則化項與擬合誤差的平方和,將回歸問題轉化為如下的有約束二次優化問題,它存在唯一的最優解

其中γ為可調參數,它控制對超出誤差樣本的懲罰的程度,實現在訓練誤差和模型復雜度之間的折衷。與標準SVM不同,這里只有等式約束,且優化目標的損失函數是誤差ξi的二范數。引入Lagrange函數,把有約束優化問題轉化成無約束優化問題,

其中 αi≥0,i=1,2,…,n 為 Lagrange 乘子,根據 KKT 條件,把上式對w,b,ξi和αi求偏微分并令它們等于零,得到

上式對于i=1,2,…,n,消去w和ξi得到下面的方程組

解之,得到LS-SVM線性回歸模型

由(8)式可以看出,求解LS-SVM線性回歸模型的過程只涉及到訓練樣本之間的內積運算因此在樣本維數增加很多的情況下,求解過程的復雜度并沒有明顯增加,解決了維數災難問題。對于LS-SVM非線性回歸,通常用一個由低維空間到高維空間(Hilbert空間)的非線性映 φ(·):Rd→Rdh,把低維空間的非線性回歸轉化為高維空間的線性回歸,并定義高維空間的內積運算為


高維空間的內積運算K(xi,xj)稱為核函數,它可以是滿足Mercer條件的任意對稱函數,常用的有多項式核函數、徑向基核函數、Sigmoid核函數,本文采用徑向基核函數,其公式如下:

其中σ為徑向基函數的寬度,為待定系數。
影響天然氣消費量變化因素很多,依據系統性、可行性、科學性的特點,受數據統計的限制,選取四川省工業總產值(億元);四川省GDP(億元);四川省人均可支配收入(元);四川省總人口(萬人);四川省固定資產投資(億元);四川省天然氣產量(億立方米);煤炭價格指數(上一年為100%);電力價格指數(上一年為100%)為自變量體系X,各自變量分別命名為 X1、X2、X3、X4、X5、X6、X7、X8。 具體數據見表 1,其中Y代表四川省天然氣消費量(億立方米)。(數據來源于中國能源統計年鑒及四川省統計年鑒)
為了達到降維與去噪的目的,首先對樣本進行PCA處理。表2為原始樣本數據經過標準化處理后的相關矩陣的PCA計算結果。
從表2看出,前兩個主成分的累計貢獻率已達98.4%,能夠很好地概括原始變量。其中,第一個主成分的貢獻率為89.5%,并且在所有的變量上都有正的荷載且大小比較平均,因此可以看做是一個綜合成分;第二主成分的貢獻率為8.9%,在X2上有較大的荷載,因此第二主成分可以看作是工業發展對天然氣消費的影響。做主成分與應變量間的散點分析圖(圖1),從圖1可知,主成分與應變量間既存在線形關系,也存在非線形關系,顯然使用傳統的多元線形回歸預測模型來進行預測精度比較低,因此本文采用最小二乘支持向量機這種具有較強非線形擬合能力的機器算法建立預測模型。

表2 X相關矩陣的前兩個特征值、特征向量以及貢獻率

表3 基于主成分分析的LS-SVM模型學習樣本及測試樣本計算預測結果

圖1 主成分與應變量之間的散點圖

表4 三種模型預測性能比較
以生成的兩個主成分作為輸入變量,以對應年份的四川省天然氣消費量作為輸出變量建立LS-SVM預測模型,其中1997年至20005年這九組數據作為學習樣本,最后一組數據作為測試樣本。
LS-SVM模型的調整參數γ及徑向基函數的寬度σ的取值對預測模型的學習及范化能力影響較大,為了提高模型的學習及預測能力,利用遺傳算法對最小二乘支持向量機的參數進行優化,優化后的參數取值分別為:γ=5192,σ=21.35。
模型性能結果如表3所示。
為了說明問題,在同樣的原始數據的基礎上,本文同時建立了基于時間序列的LS-SVM預測模型(模型Ⅱ)及基于主成分分析的線形回歸預測模型(模型Ⅲ),并且采用預測樣本誤差均方差及預測樣本相對最大誤差兩個指標來進行衡量。具體結果見表4,其中模型Ⅰ代表本文所使用的模型。
從表4中可以看出,本文所采用的模型在預測性能指標上遠遠好于其它兩種預測模型,模型Ⅱ雖然通過LS-SVM模型模擬了自變量與應變量間的非線形關系,但是由于模型輸入變量包含的信息相對較少,因此預測誤差相對較大。模型Ⅲ雖然包含較廣自變量信息,但是由于僅使用線形回歸進行分析,顯然不符合自變量與應變量間的非線形關系,因此誤差比較大。而本文所建立的模型綜合上述二者的優點,模型自變量包含的信息較多,預測時丟失的信息較少,同時經過主成分分析實現了降維及去噪;另一方面利用LS-SVM模型成功的模擬了自變量與應變量間所存在的非線形關系,因此預測性能要遠強其它兩外兩種模型。
本文使用主成分分析方法對影響四川省天然氣消費量影響因素進行降維及去噪,利用遺傳算法改造后的最小二乘支持向量機回歸方法建立四川省天然氣消費量預測模型。結果表明該模型具有較強的學習能力及范化能力,具有一定的應用價值。
[1]郭志鋼.四川省天然氣消費量變權重組合預測[J].西南石油大學學報(社會科學版),2009.2.(2).
[2]王革麗.基于支持向量機方法對非平穩時間序列的預測[J].物理學報,2008,(2).
[3]周輝仁.LS-SVM的參數優選及鐵路客運市場預測[J].計算機工程與應用,2007,43(30).
[4]王效東.天然氣消費量的神經網絡方法預測[J].天然氣勘探與開發,2007,(9).
[5]覃章健.四川省成品油和天然氣需求預測[J].資源科學,2006,(9).
[6]殷建成.天然氣需求自適應優化組合預測模型的改進[J].油氣儲運,2005,24(10).
[7]永高,孫文建.基于主成分分析法的建筑企業競爭力評價研究[J].施工技術,2007,(12).
[8]萬璽.重慶市“十一五”天然氣需求組合預測研究[J].天然氣技術,2007,(6).
[9]Pelckmans K,Suykens Jak,DE Moor B.Building Sparse Representations and Structure Determination on LS-SVM Substrates[J].Neurocomputing,2005,(64).