蔣 鋒,張 婷,周琰玲
(1.中南財經政法大學 統計與數學學院,武漢 430073;2.青海省海西州統計局,青海 德令哈 817099)
財政收入是衡量一個地區經濟實力的重要標準,控制著國民經濟命脈,而且影響財政收入的影響因素眾多,各類指標具有不確定性,因此對財政收入做科學的定量分析以及準確預測具有十分重要的意義,并且可以為相關部門實施相關的決策提供可靠的理論參考。
近年來,國內外學者采取了各種方法預測財政收入,根據預測模型的不同主要分為兩類:第一類是采用單一的預測模型[1-6],如VAR模型、ARIMA模型、回歸模型、H∞濾波算法、指數平滑自回歸模型、灰色殘差模型等對財政收入預測;第二類是采用組合預測模型[7-11],袁宏俊和胡凌云(2011)在建立指數預測模型、時間序列和回歸預測的基礎上,構建基于幾何貼近度的組合預測模型。李凱揚和韓文秀(2003)分別建立回歸和時間序列這兩個線性模型,再根據財政收入時間序列建立BP神經網絡,最后建立三者的變權組合預測模型進行預測。孫元和呂寧(2007)結合時間序列、多元回歸及SVM方法構建組合模型預測財政收入。范敏等(2008)將灰色預測模型和BP神經網絡進行組合,結果顯示該方法在地方財政收入預測中是可行的。方博等(2015)采用ARMA-BP神經網絡組合模型預測財政收入,得到組合模型的預測優于單一模型的結果。趙海華(2016)結合回歸分析的思想,建立了基于灰色RBF神經網絡的多因素財政收入預測模型。在以上研究的基礎上,發現組合模型可以彌補單一模型的不足,發揮單一模型的長處,提高預測精度。常見的研究一般都是比較單一模型和組合模型的優劣,本文通過比較多個組合模型,尋找更優的組合模型來預測地方財政收入。
由于影響財政收入的因素很多,在進行預測之前,需要剔除一些不重要的變量。Tibshirani[12]在傳統變量選擇方法的基礎上做了改進,提出Lasso變量選擇方法,該方法在實現參數估計的同時還可以壓縮變量。因此,本文使用Lasso方法選取影響海西州財政收入的主要因素,由于各影響因素和地方財政收入間往往存在復雜的非線性關系,Lasso方法并不適合處理這類問題,所以本文進一步采用具有強非線性擬合能力的神經網絡模型,以此來彌補Lasso方法在非線性映射問題方面的不足。GRNN神經網絡具有極強的非線性逼近能力、抗干擾性能,而且具有收斂速度快等優點,GRNN神經網絡廣泛應用于工業[13]、股指預測[14]和電力負荷預測[15]等領域。根據以上文獻,本文提出了Lasso-GRNN神經網絡模型,并將其與Lasso-BP和Lasso-RBF神經網絡模型做比較研究,同時根據本文提出的方法預測海西州的財政收入。
Lasso方法是一種壓縮估計,在進行參數估計時不僅可以壓縮估計值,還可以產生稀疏解,使得一些不重要變量的估計值為零,可以較好解決變量間的多重共線性問題。主成分分析方法雖然也能解決多重共線性問題,并達到降維的目的,但是應用在本文中效果并不好,所以本文選擇Lasso方法[12,16]來做變量選擇,減少變量個數。
假設有數據集 (X,Y),其中 X=(X1,X2,…,Xp)是p個指標的觀測值,對應的Y=(yi),i=1,2,…,n 是響應變量,并假定X中的數據都已經被標準化了。Lasso的基本思想就是在最小二乘估計的基礎上對回歸系數增加一個約束,使其絕對值之和小于一個給定的參數t這里的t是一個非負的調整參數。

廣義回歸神經網絡[13-15]是徑向基神經網絡的一種,具有很強的非線性映射能力和柔性網絡結構以及很好的逼近能力、分類能力和學習速度,網絡最后收斂于樣本量積聚較多的優化回歸面,適合處理非線性問題,并且在樣本數據較少時,預測效果也較好。
GRNN網絡連接權值的學習修正使用BP算法,由于網絡隱含層結點中的作用函數采用高斯函數,從而具有局部逼近能力,此為該網絡之所以學習速度快的原因。此外,由于GRNN中人為調節參數很少,只有一個閾值。網絡的學習全部依賴數據樣本,這個特點決定網絡以最大可能地避免人為主觀假定對預測結果的影響。
(1)GRNN神經網絡的構建
GRNN網絡由輸入層、模式層、求和層和輸出層構成。假設X為輸入向量,Y為輸出向量,如圖1所示。

圖1 廣義回歸網絡結構圖
輸入層由學習樣本構成,輸入層神經元個數等于學習樣本的輸入向量X的維數。模式層神經元數目是學習樣本的數目n,各神經元對應不同的樣本,模式層神經元傳遞函數為高斯函數,即:

其中,Xi為第i個神經元對應的學習樣本,σ為光滑因子。求和層是對模式層的神經元進行求和。輸出層神經元個數等于學習樣本中輸出向量Y的維數。
(2)GRNN網絡的訓練過程
步驟1:對輸入輸出向量進行標準化;
步驟2:確定輸入層和輸出層的神經元個數,本文根據輸入輸出向量的維數來確定神經元數目;
步驟3:計算樣本集的輸出值與期望值的偏差平方和,當偏差平方和小于給定閾值時結束訓練過程,否則轉入步驟4;
步驟4:根據輸出值與期望值的偏差,從輸出層反向傳播,逐層調整閾值和連接權值,直到輸入層;
步驟5:返回步驟2。
地方財政收入y的影響因素有很多,根據相關文獻初步選取以下19個指標作為影響地方財政收入的因素,即:財政支出(x1)、地區生產總值(x2)、第二產業增加值(x3)、工業增加值(x4)、工業增加值占GDP比重(x5)、第三產業增加值(x6)、批發零售業零售額(x7)、住宿和餐飲零售額(x8)、第二三產業產值比(x9)、固定資產投資額(x10)、居民消費價格(x11)、城市居民年人均可支配收入(x12)、城鎮單位職工年平均工資(x13)、規模以上工業企業盈虧相抵后的利潤總額(x14)、建筑業增加值(x15)、普通高等學校專任教師數(x16)、社會從業人數(x17)、社會消費品零售總額(x18)、年末總人口(x19)。
本文的數據來源于青海省海西蒙古族藏族自治州統計局,由于1994年我國的財政體制進行了重大改革,所以本文只對1994—2016年的數據進行統計和分析。
原數據集中有部分指標存在缺失值,因此本文首先對缺失值進行處理,主要采用二期移動平均方法來進行填充,進而對數據進行標準化處理。
運用 Lasso方法選擇了 10 個變量,即 x1、x2、x3、x5、x7、x11、x12、x13、x15、x16。從表 1 中的結果可知,這 10個變量的Lasso回歸系數顯著不為零,即剔除了工業增加值(x4)、第三產業增加值(x6)、住宿和餐飲零售額(x8)、第二三產業產值比(x9)、固定資產投資額(x10)、規模以上工業企業盈虧相抵后的利潤總額(x14)、社會從業人數(x17)、社會消費品零售總額(x18)、年末總人口(x19)這9個變量。這是因為工業增加值和規模以上工業企業盈虧相抵后的利潤總額與工業增加值占GDP比重存在明顯的多重共線性,第三產業增加值和第二三產業產值比與第二產業增加值相關性太強,而且青海海西的人口比較少,所以人口對財政收入的影響不是很大,這與海西州的當地情況是相符的。

表1 Lasso回歸系數
綜上,Lasso變量選擇模型選取了10個變量,分別是財政支出(x1)、地區生產總值(x2)、第二產業增加值(x3)、工業增加值占GDP比重(x5)、批發零售業零售額(x7)、居民消費價格(x11)、城市居民年人均可支配收入(x12)、城鎮單位職工年平均工資(x13)、建筑業增加值(x15)、普通高等學校專任教師數(x16)。因此,將這10個變量作為影響該地區財政收入的主要影響因素。
將Lasso選取出的這10個變量作為神經網絡模型中的輸入變量,記為P,以財政收入數據y這1項指標的數據作為輸出變量,記為T。將1994—2015年的數據作為訓練樣本,2016年的數據作為測試樣本,由于訓練樣本比較少,所以采用交叉驗證的方法訓練GRNN神經網絡,并采用循環迭代的方法找出最佳的SPREAD值,本案例中最后循環得到的最佳SPREAD值為0.9。Lasso-GRNN神經網絡模型的預測效果如圖2所示,從圖2可以看到2016年的預測值和真實值之間相差很小,幾乎重合,表明Lasso-GRNN神經網絡模型的樣本外預測效果非常好。

圖2 Lasso-GRNN神經網絡模型預測值與真實值的比較
方博(2015)[10]和趙海華(2016)[11]分別利用BP神經網絡和RBF神經網絡模型預測地方財政收入,為了檢驗本文提出的Lasso-GRNN神經網絡模型的預測效果,將Lasso-GRNN神經網絡模型和Lasso-BP、Lasso-RBF神經網絡模型做比較研究。最后得到三個組合模型的預測對比結果如表2所示。

表2 組合模型預測結果
從表2可以看出,Lasso-BP和Lasso-RBF的組合預測模型的預測相對誤差分別為3.455%和4.858%,Lasso-RBF的組合預測模型效果最差,而Lasso-GRNN神經網絡模型的預測相對誤差非常小,只有0.05%,預測精度最高。三組模型的預測效果圖見圖3,從圖3中的局部放大圖可以看出,Lasso-GRNN神經網絡模型在2016年的地方財政收入樣本外預測值和真實值之間相差最小。與BP神經網絡和RBF神經網絡相比較而言,GRNN神經網絡需要調整的參數較少,只有一個SPREAD值,在計算速度上占優勢,而且GRNN神經網絡在樣本量較小和噪聲較多的情況下預測效果也很好,這些都是另外兩種神經網絡模型所無法比擬的。

圖3 組合預測模型的比較
圖3預測結果顯示,海西州1994—2016年的的財政收入總體上呈上升趨勢,但近幾年的增長率減緩,且2015年的地方財政收入相對于2014年明顯下降,這是因為海西州財政收入主要來自工業,而2015年海西州的工業增加值占GDP比重相比2014年減少了7.33%,且其他影響該地區財政收入的指標如財政支出、地區生產總值、第二產業增加值、城鎮居民年人均可支配收入、建筑業增加值以及普通高校專任教師數相比2014年均處于一個較低的水平,因此2015年海西州地方財政收入受這些因素的影響導致下降,這也驗證了前面指標選取的合理性和有效性。
總之,經過反復訓練得到Lasso-GRNN神經網絡模型具有很好的預測效果,因此,可以用該組合模型來預測地方財政收入,其中2017年各因子的數值利用指數平滑法得到,以1994—2016年的數據作為訓練樣本,2017年的數據作為測試樣本,訓練神經網絡得到最佳SPREAD值為0.6,預測結果見圖4。

圖4 2017年地方財政收入預測
從圖4可以看出,雖然在個別點上預測誤差較大,但整體預測效果還是很好的。青海海西2017年的財政收入預測結果為455090萬元,略高于2016年的財政收入,主要是因為批發零售業、城鎮單位職工年平均工資和建筑業增加值這三個指標水平相對于2016年都處于一個較高的水平,而這三個指標對地方財政收入的影響起一定的正向作用,而對海西財政收入影響占較大比重的工業增加值占GDP的比重這個指標相比2016年沒有很大的提升,這在一定程度上阻礙了海西地區的經濟發展。因此,建議青海省海西州著重從工業、教育、消費以及城市居民收入水平這幾個方面做政策調整,加大對工業和教育的投入,著力提高居民收入水平,加快產業結構的升級換代,刺激消費,拉動內需,從而更好地促進經濟的發展。
由于地方財政收入的影響因素眾多,并且一些影響因素之間存在多重共線性問題,本文采用Lasso方法篩選影響地方財政收入的主要指標,從Lasso的參數估計系數可以看出影響海西地方財政收入的主要因素有財政支出、地區生產總值、第二產業增加值、工業增加值占GDP比重、批發零售業零售額、居民消費價格、城市居民年人均可支配收入、城鎮單位職工年平均工資、建筑業增加值、普通高等學校專任教師數,其中普通高等學校專任教師數是影響海西州地方財政收入的最重要的因素,可見教育是影響一個地區乃至國家經濟的一個重要因素,因為勞動者是首要生產力,而教育是培養勞動者創新能力的關鍵,其次工業增加值占GDP的比重影響次之。然后在變量選擇的基礎上,用GRNN神經網絡模型來擬合地方財政收入與各主要影響因素之間的非線性關系,最后用訓練好的Lasso-GRNN神經網絡模型預測地方財政收入,以青海省海西蒙古族藏族自治州相關數據為例對海西的財政收入做預測,并通過與Lasso-BP和Lasso-RBF組合預測模型的預測結果進行對比,驗證了Lasso-GRNN神經網絡組合預測模型的優越性和有效性,從預測精度和收斂速度來看,Lasso-GRNN神經網絡模型都優于另外兩個組合模型。