[摘要]本文運用組合預測理論,利用偏最小二乘回歸方法建立了基于灰色預測模型GM(1,1)、2階自回歸模型AR(2)和龔伯茲曲線模型的組合預測模型,并對農業貸款需求進行了預測。
[關鍵詞]組合預測偏最小二乘法(PLS)農業貸款
組合預測法是指通過建立一個組合預測模型,把多種預測方法所得到的預測結果進行綜合,以得到一個較窄的預測值取值范圍供系統分析或決策使用。組合預測值往往比被組合的單一預測值具有更高精度。從定性角度看,每個單項預測模型都能從其獨特角度解構出樣本資料的統計特征,把不同的統計預測模型所反映出的樣本資料的有用信息加以綜合,就能更真實、更全面地反映樣本資料的內涵特征。從定量角度看,組合預測模型是建立在一個統計準則之下的,比如預測誤差為最小,那么,組合預測值必定比被組合的單一預測值具有更好的統計特性。因此,組合預測方法能夠取長補短,達到提高預測精度和增加預測結果可靠性的效果。
但在應用組合預測時,也需要注意一些問題。一是模型的適宜性,要求單項模型不僅適宜樣本資料的特點而且要適合組合預測模型的應用條件。二是單項模型的多樣性,經驗得知各單項模型的差異性越大,組合預測模型效果越好。三是要確定適合的單項模型的組合權重。
由于各個單項預測模型都是對同一個樣本資料的預測,因此各預測結果具有高度線性相關性。偏最小二乘回歸法是一種新型的多元統計數據分析方法,它的一個突出特點是將多元線性回歸分析、變量的主成份分析和變量問的典型分析有機地結合起來,提取對因變量解釋性最強的綜合變量,辨識系統中的信息和噪聲,從而有效地克服變量的多重相關性,特別是適合在小樣本(樣本容量小于變量個數)下進行回歸建模。因此本文采用偏最小二乘回歸方法賦權進行組合預測,并對我國農業貸款需求進行預測。
一、偏最小二乘回歸建模步驟簡介
設有q個自變量和p個因變量,共個觀測值的數據集。并不失一般性地將自變量矩陣X與因變量矩陣Y進行標準化處理,設為E0和F0。
提取第一對成分,并使之相關性最大。T、U分別為從自變量與因變量中提取的成分,這里提取的成分通常稱為偏最小二乘因子。各自盡可能多地提取所在變量組的變異信息,同時保證兩者之間的相關程度達到最大。
在第一個成份和被提取后,偏最小二乘回歸分別實施X對 以及Y對的回歸。如果回歸方程已經達到了滿意的精度,算法終止;否則,將利用X被解釋后的殘余信息以及Y被解釋后的殘余信息進行第二輪的成分提取。如此往復,直到能達到一個較為滿意的精度為止。若最終對X共提取了m個成分,偏最小二乘回歸將通過實施對的回歸,然后表達成關于原變量的回歸方程,。
二、基于PLS的農業貸款需求組合預測
1.數據
為了更好地說明建模步驟及模型的應用,本文以農業貸款需求預測為例進行建模型說明,從數據的可靠性和可獲得性角度選取2001-2010年《中國統計年鑒》中金融機構資金運用平衡表中的貸款年末農業貸款余額為農業貸款需求的代表,具體數據見表現。
2.單項預測模型
根據組合預測建模的適宜性和多樣性要求,同時根據農業貸款額數據序列的特點,本文選擇灰色預測模型GM(1,1),龔伯茲曲線模型,單變量線性回歸模型OLS三種模型進行單項預測,依據平均相對誤差最小為誤差統計原則,選擇平均相對誤差msn為模型測定系數。
其中,。
(1)灰色預測GM(1,1)模型
灰色系統理論認為,隨機量可以看作是在一定范圍內變化的灰色量。對于貧信息的灰色系統,灰色變量所取的值十分有限,并且數據變化無規律。對這些灰色變量作生成運算處理,處理后的數據變化有一定規律,與原始數據相比,增加了數據變化的確定性,從而在生成數據的基礎上建立灰色系統模型。本文運用累加生成運算法AGO(Accumulated Generating Operation)建立了GM(1,1)模型,模型如下:
預測結果如表1,模型的測定系數msn=0.048443。
(2)隨機時間序列模型
經單位根檢驗,農業貸款額序列是非平穩時間序列,不能直接建立模型。但是其含常數項和趨勢項的一階差分且滯后期為2的序列是平穩的,再根據序列的自相關系數、偏相關系數以及AIC準則,建立2階自回歸過程AR(2)。模型如下:
預測結果見表1,模型的測定系數msn=0.034975。
(3)龔伯茲曲線模型
根據圖1中農業貸款額曲線特征,符合龔伯茲曲線形態,故建立龔伯茲曲線模型進行擬合,并采用三點法求解模型參數。模型如下:
預測結果見表1,模型測定系數msn=0.054901。
表1 三個單項預測模型的預測結果 單位:億元
年份農業貸款額灰色預測模型(GM(1,1))自回歸預測模型
(AR(2))龔伯茲曲線模型
20004889
20015711.55678.29 6349.24
20026884.66268.60 6696.08 6699.70
20038411.48085.12 8768.91 8268.34
20049843.110164.45 10189.18 10106.00
200511529.911897.00 11390.11 11628.50
200613208.213415.13 13350.43 13012.43
200715429.315291.16 15416.52 14906.53
200817628.817437.61 17752.91 17356.20
20092162321353.40 21246.36 22095.14
模型測定系數msn0.0484430.0349750.054901
3.基于偏最小二乘回歸的組合預測模型
由于三個單項預測模型是對同一樣本資料進行了預測,因此其與實際值之間必定具有高度的相關性,表2給出了預測值和實際值之間的相關系數。可見,各預測值之間具有高度的線性相關性。也進一步證實使用PLS進行組合預測是適宜的。
表2 相關系數表
其中,y表示實際值,表示GM(1,1)模型預測值、表示AR(2)模型預測值、表示龔伯茲曲線模型預測值。
以三種預測模型對各年貸款額的預測值為自變量,以各年實際貸款額為因變量,建立最小二乘回歸模型。由于灰色預測模型和龔伯茲曲線模型沒有進行第一年數據的預測,而AR(2)模型不能預測出前兩年的數據,故剔除掉前兩年的數據,只用3個樣本共24年樣本觀測值進行建模。經“舍一交叉驗證”法得出,當提取一個成分時已提取了自變量99.2302%的信息,因變量99.4417%的信息,預測誤差平方和(PRESS)為最小,其值為0.0179。而且從預測模型的建立意義出發,只需提取一個成分建模型。最后建立的組合預測模型如下:
其中,表示組合預測值,組合預測結果如表3。
表3PLS模型對農業貸款需求的預測結果(單位:億元)
年份農業貸款額預測值絕對誤差相對誤差
20004889
20015711.5
20026884.66558.454-326.146-0.04737
20038411.48390.8681-20.5319-0.00244
20049843.110169.3103326.21030.03314
200511529.911657.2093127.30930.01104
200613208.213297.4284589.228450.00676
200715429.315258.912-170.388-0.01104
200817628.817585.9038-42.8962-0.00243
200921623.021640.2136817.213680.00080
模型的測定系數msn=0.02571,可見比前面三個單項預測模型的測定系數都要小,即組合預測模型的預測水平有了很大的提高。
為了反映出三個單項預測模型對組合預測的貢獻大小,表6給出了預測值的變量投影重要性指標VIP,從中可以看出,2階自回歸預測模型的重要性指標最大,再從組合預測模型的系數來看,三種預測模型對組合預測模型的作用系數都差不多大,但是由PLS賦予的權重之和為1.02104138>1,這就是PLS組合預測與其它確定權數方法的不同。
表6 變量投影重要性指標值VIP
三、結論
基于偏最小二乘回歸方法的組合預測模型具有計算簡便,預測精度高的特點,可根據單項預測模型的預測能力進行長短期預測,具有一定的應用價值。
本文采用PLS組合預測模型對2010年農業貸款進行預測,預測結果如表7。可以看出,2010年的農業貸款需求為22919.33億元,較之前年份有了較大幅度的增長。
表7 基于PLS的農業貸款余額需求組合預測(單位:億元)
參考文獻:
[1] 孫鳳:組合預測方法及其應用[J].山西財經學院學報,1991,6
[2] 楊廣喜:經濟預測中組合預測法的應用——關于單項預測模型的選取問題[J].統計與決策,1998,6
[3] 王惠文:偏最小二乘回歸方法及其應用[M].北京:國防工業出版社,1994
[4] 鄧聚龍:灰色預測與決策[M].武漢:華中科技大學出版社,2002
[5] 易丹輝.數據分析與EViews應用[M].中國統計出版社,2002