劉 怡, 徐平峰
(長春工業(yè)大學 數(shù)學與統(tǒng)計學院, 吉林 長春 130012)
財政是實行宏觀經濟調控的重要杠桿,探究地方財政收入發(fā)展變化情況,對政府而言,能夠幫助其進行合理的財政收支計劃安排和統(tǒng)籌相應的預算,更好地服務經濟發(fā)展;對社會而言,能夠促進社會公平、穩(wěn)定社會經濟,并提高人民生活幸福程度。因此,對財政收入的研究具有十分重要的意義。
一些學者使用回歸方法對財政收入的影響因素進行研究,李波等[1]針對我國財政收入可能存在的影響因素,基于LS多元線性回歸模型預測中國財政收入未來增長趨勢。楊涵等[2]通過多元線性回歸方法分析了河北省財政收入影響因素。江星等[3]通過計量經濟學相關知識,就安徽省財政收入及其相關經濟數(shù)據(jù)使用Eviews軟件建立多元回歸模型進行計量經濟學分析,并提出相關建議。更多的學者使用機器學習的方法建立模型,進而對影響因素進行探究。倪杰[4]首先利用統(tǒng)計學中的變量篩選方法與機器學習中的變量篩選方法分別對初步選擇的21個自變量進行篩選,然后利用自適應Lasso-半參數(shù)模型進行后續(xù)的預測。劉倩[5]為實現(xiàn)江浙滬財政收入的預測,用神經網絡模型來擬合財政收入與影響因子之間復雜的非線性關系,建立LASSO-RBF、嶺回歸-RBF、彈性網-RBF三個組合預測模型,為江浙滬未來的經濟發(fā)展提供了重要啟示。連強[6]建立了兼具灰色GM(1,1)模型和多元線性回歸模型優(yōu)點的河南省財政收入多因素灰色模型,模型預測結果顯示,河南省未來幾年財政收入將持續(xù)大幅增加。盧榮偉等[7]利用Adaptive-Lasso變量選擇方法識別影響財政收入的關鍵因素,在此基礎上,建立改進的灰色神經網絡預測模型,對南寧市財政收入值進行預測。
為預測河南省財政收入變化趨勢,選取1998-2020年間的數(shù)據(jù),根據(jù)相關資料,選取15個影響財政收入(Y)的主要因素:X1為就業(yè)人員數(shù);X2為城鎮(zhèn)非私營單位就業(yè)人員年平均工資;X3為社會消費品零售總額;X4為城鎮(zhèn)居民人均可支配收入;X5為城鎮(zhèn)居民人均消費性支出;X6為年末總人口;X7為全社會固定資產投資增速;X8為地區(qū)生產總值;X9為第一產業(yè)增加值,第一產業(yè)是我國的基礎產業(yè);X10為第二產業(yè)增加值,第二產業(yè)是指工業(yè)和建筑業(yè);X11為第三產業(yè)增加值,第三產業(yè)是指流通和服務行業(yè);X12為稅收收入;X13為進出口總額;X14為居民消費水平總指數(shù);X15為居民消費水平。
相關數(shù)據(jù)來源于河南省統(tǒng)計年鑒[8]。
首先對河南省地方財政收入及影響因素的原始數(shù)據(jù)進行描述性分析,給出了變量數(shù)據(jù)的最小值、最大值、25%臨界值、中位數(shù)、75%臨界值和均值6個主要統(tǒng)計量結果,見表1。

表1 描述性統(tǒng)計分析結果
由描述性統(tǒng)計分析結果可以看出,從1998-2020年,河南省財政收入翻了20多倍,從1998年河南發(fā)生特大洪水,經濟遭受重創(chuàng),到2021年河南在全國率先開展大規(guī)模高標準農田建設,黨的十八大以來,河南瞄準高質量發(fā)展主攻方向,三大產業(yè)協(xié)同向中高端邁進,推進河南產業(yè)體系加速形成,再到最后的財政收入飛速上升,這中間既離不開國家層面的有效引導和支持,也離不開地方政府的統(tǒng)籌規(guī)劃。除此之外,在眾多影響因素中,城鎮(zhèn)非私營單位就業(yè)人員年平均工資(X2),社會消費品零售總額(X3),地區(qū)生產總值(X8),第二產業(yè)增加值(X10),第三產業(yè)增加值(X11),稅收收入(X12),進出口總額(X13),居民消費水平(X15)也均翻了10倍以上,財政收入激增的背后是人民生活水平的提高,地方產業(yè)水平的提升,以及消費投資的不斷增長,各個環(huán)節(jié)之間相輔相成,共同促進了河南省朝著更富、更強、更美的方向邁進。
通過定性分析對影響河南省地方財政收入的因素進行了初步探討,但仍然需要對數(shù)據(jù)進行定量的相關分析,主要利用簡單的相關系數(shù)作初步分析,繪制相互兩個變量之間的熱力圖,如圖1所示。

圖1 兩個變量之間的熱力圖
由圖1結果可以得出,全社會固定資產投資增速(X7)與財政收入以及其余變量之間的相關系數(shù)均在[-0.4,0]之間,任意兩個變量間的相關性也很小,且變量之間是負相關關系。居民消費水平總指數(shù)(X14)與財政收入以及其余變量之間的相關系數(shù)也均在[-0.4,0]之間,任意兩個變量間的相關性很小,同樣,變量之間是負相關關系。這說明二者變量與河南省地方財政收入之間的關系不夠強,而其余因素變量的相關系數(shù)較高,與河南省地方財政收入都表現(xiàn)出高度的相關關系。
在最開始進行變量選擇時,往往選擇盡可能多的變量,以使得模型預測更加準確,預測結果更具有可靠性與準確性。但若變量選擇得過多或者不合理,也會增加預測成本,而變量之間也可能存在多重共線性,導致預測結果不盡如人意,所以,變量的選取至關重要,需要采用適合的方法進行變量的篩選。
作為經典的統(tǒng)計方法之一,多元線性回歸是將兩個或兩個以上變量的集合聯(lián)系起來的最常用的統(tǒng)計技術。引入多元線性回歸模型探究因變量(Y)和各個自變量之間的關系,由于選取的15個自變量之間一定存在著高度的多重共線性問題,若直接進行擬合,則無法選出相關性較強的變量,模型方程也會因為存在高度的多重共線性而存在問題,因此選用逐步回歸的方法先進行變量選擇,再使用最小二乘估計來求得回歸系數(shù),得出預測模型。逐步回歸選取的變量結果及對應的回歸系數(shù)和檢驗P值見表2。

表2 逐步回歸變量選擇結果
由表2可以看出,逐步回歸選擇出來的變量是:城鎮(zhèn)居民人均可支配收入(X4)、第二產業(yè)增加值(X10)、第三產業(yè)增加值(X11)、稅收收入(X12)、進出口總額(X13)。其中,城鎮(zhèn)居民人均可支配收入(X4)所對應的回歸系數(shù)為-0.034 470,且檢驗P值大于0.01,沒有通過檢驗;除此之外,其余4個變量均為正值,且P值檢驗的結果都小于0.01,通過了顯著性檢驗。
回歸診斷結果如圖2所示。

圖2 回歸診斷結果
圖2(a)用于驗證因變量與自變量是否線性相關,所有的點應該均勻地落在[-2,2]之間,而圖中的點落在了[-40,40]之間,遠超合理范圍,所以認為該模型不滿足線性假設。圖2(b)用于判斷因變量是否呈正態(tài)分布,當自變量值固定時,若因變量滿足正態(tài)假設,則殘差值也應該是一個均值為0的正態(tài)分布,正態(tài)Q-Q圖是在正態(tài)分布情況下的標準化殘差概率圖,可以看出圖上的點基本都落在呈45°角的直線上,滿足正態(tài)假設。圖2(c)用于驗證同方差性,可以看出水平線周圍的點在前半部分更密集,在后半部分更稀疏,并沒有十分均勻地隨機分布,所以認為該模型不滿足同方差假設。圖2(d)用于判斷是否存在離群點、高杠桿點和強影響點,通過Cook可以看出,存在Cook距離大于0.3的點,即有強影響點。
綜上所述,在建立多元線性回歸模型中,篩選出來的變量X4不通過顯著性檢驗,整個模型不通過線性檢驗和同方差檢驗,并且存在強影響點,所以認為該模型的建立不合理,接下來將使用其他方法來建立新的模型。
嶺回歸分析法是通過犧牲估計的無偏性來換取估計方差的大幅減小,以修正最小二乘法在多重共線情況下的估計效果[9]。嶺回歸與多元線性回歸的最大不同是,多元線性回歸對變量使用最小二乘估計的方法求得回歸系數(shù),而嶺回歸是在最小二乘估計的基礎上加了一個L2懲罰項,其中包括一個嶺回歸參數(shù)k。
建立嶺回歸模型的關鍵點在于確定好嶺回歸參數(shù),這個嶺回歸參數(shù)稱為最佳嶺回歸參數(shù),它是通過嶺跡圖來判斷的。首先,對樣本數(shù)據(jù)進行標準化處理,然后畫出嶺跡圖,根據(jù)跡圖確定最佳嶺回歸參數(shù)k,結果如圖3所示。

圖3 嶺跡圖
圖3中橫軸表示嶺參數(shù)k,縱軸表示嶺回歸系數(shù),取不同的k值,對應不同的嶺回歸系數(shù),一般k的取值范圍是0到1,當k取0時,對應的嶺回歸系數(shù)就是普通線性回歸中通過最小二乘估計得到的回歸系數(shù),隨著k的增大,模型對共線性處理的效果越來越好,但是擬合精度會有所下降,因此必須找好平衡點,確定出最佳嶺回歸參數(shù)。
綜上所述,根據(jù)最佳嶺回歸參數(shù)的選取原則,即在嶺軌跡變化趨于穩(wěn)定時選取其最小值,最終決定選擇最佳嶺回歸參數(shù)的取值為0.1。
通過R軟件得出在最佳嶺回歸參數(shù)確定下的模型方程的各自變量對應的嶺回歸系數(shù),見表3。

表3 嶺回歸變量的回歸系數(shù)
由于將數(shù)據(jù)進行了標準化,所以模型中不含截距項。
得到模型方程后,將數(shù)據(jù)代入得到每一年份河南省財政收入的估計值,然后與真實值作對比,得到的真實值與擬合值如圖4所示。

圖4 真實值與擬合值(嶺回歸)
通過圖4可以發(fā)現(xiàn),估計值與真實值之間的擬合效果還是不錯的,這表明通過嶺回歸建立的模型方程可以用于實際預測,當給出新一年自變量的取值后,可以拿來預測該年份對應的河南省財政收入的值。
Lasso是一種常用的同時估計和變量選擇的技術,相對于嶺回歸方法的優(yōu)點在于可以做變量選擇,Adaptive-Lasso方法是在進行運算的過程中將不同的懲罰給予不同的變量,變量不重要,懲罰就大;變量越重要,懲罰越小[10]。因此可以很容易地選擇重要的變量,而不重要的變量就會被剔除,從而達到變量選擇的目的,而同時也能對變量進行參數(shù)估計,這就在根本上改進了Lasso方法,Adaptive-Lasso 方法在彌補其不足的基礎上具有更廣泛的應用前景[11]。
通過R軟件調用Lasso包,得到的選擇變量結果及系數(shù)見表4。

表4 自適應Lasso的變量選擇結果
由表4可以發(fā)現(xiàn),某些自變量的系數(shù)被壓縮成0,可以將這些被壓縮成0的系數(shù)所對應的自變量從模型中剔除出去,將剩余的變量納入到模型中。地區(qū)生產總值與第一產業(yè)、第二產業(yè)、第三產業(yè)齊頭并進,共同決定和衡量河南省地區(qū)的財政收入水平。
灰色預測檢驗一般有殘差檢驗、關聯(lián)度檢驗和后驗差檢驗。這里采用后驗差檢驗,根據(jù)后驗差檢驗判別標準表檢驗各變量預測好壞。當計算結果C<0.35時,表示模型精度好;當0.35
由表5結果發(fā)現(xiàn),通過自適應Lasso選取的4個變量中,針對X8(地區(qū)生產總值),X9(第一產業(yè)增加值),X11(第三產業(yè)增加值)計算出的C值均小于0.35,所以對預測模型的精度是好的,只有變量X10(第二產業(yè)增加值)計算出的C值是0.469,大于0.35,但是依舊小于0.50,可以判斷是合格的。
綜上所述,通過灰色模型檢驗判斷,可以將通過自適應Lasso篩選出來的變量全部放到模型中。
通過自適應Lasso模型得出每一年的河南省財政收入分析的估計值,同樣將其與真實值作對比,得到擬合結果如圖5所示。

圖5 真實值與擬合值(自適應Lasso)
從圖5可以看出,通過神經預測模型得到各期的估計值與真實值之間很接近,兩條直線幾乎重疊,表明擬合效果較好。
單從兩條曲線的擬合度來看,自適應Lasso擬合的結果會比嶺回歸擬合的結果更好,但為了進一步說明,文中通過RMSE準則來判斷,即計算兩個模型的均方根誤差,結果見表6。

表6 模型比較
通過計算結果發(fā)現(xiàn),使用自適應Lasso進行變量選取來建立模型,得到模型結果的均方根誤差要小得多。
綜上所述,在針對河南省財政收入的分析所建立的模型中,最終選擇了后者。