◎文/張雨乾
財政是國家治理的基礎和重要支柱,財政收入作為財政管理的重要內容,地區財政收入的增加或減少對于財政支出有極其重要的影響,穩定的、可預期的財政收入對于政府機構運轉、教育醫療養老等社會民生領域有著極其重要的作用。2015年國務院就印發 《關于實行中期財政規劃管理的意見》,要求加快建立現代財政制度、改進預算管理和控制,全面推進中期財政規劃管理,研究未來三年涉及財政收支的重大改革和政策事項,并測算收支數額。科學合理地對財政收入進行預測,有助于準確把握未來的財政收入,建立合理的預期,可以更加合理、有效地安排財政支出計劃,實現財政業務的精細化管理,有效促進跨年度的預算平衡。
鑒于財政收入對于國計民生的重要性,不少學者都對此進行了研究,取得了不少成果。謝珊、汪盧?。?015)將當前財政收入預測方法歸納為三類:一是利用宏觀經濟數據與財政收入數據構建的線性回歸模型。二是采用當前先進的灰色關聯模型、BP神經網絡、支持向量機等模型進行預測。三是利用財政收入數據進行預測的時間序列模型。除此之外,還指出對中期預算框架下我國財政收入預測應充分考慮可能存在的非線性模型。王華春、劉清杰(2017)運用格蘭杰因果檢驗發現中國的財政收支存在長期均衡并且收入引起支出,符合以收定支的預算編制原則,利用ARIMA模型對中國財政收入進行了預測。安秀梅、肖堯(2017)采用主成分分析、時間序列、組合預測模型等模型對北京市的財政收入進行了預測。蔣鋒、張婷、 周琰玲 (2018) 運用Lasso-GRNN神經網絡模型對青海省海西州的財政收入進行實證分析,首先運用Lasso選取自變量,之后運用GRNN神經網絡模型進行預測,取得了較好的預測效果。
綜合上述文獻,本文通過Lasso方法選取影響天津市財政收入的主要變量,采用XGBboost模型進行財政收入預測。
本文使用數據來源于國家統計局主要城市年度數據以及2021年天津統計年鑒,其中地方一般公共預算收入(income)數據時間范圍為2002—2021年,其他變量的時間范圍為2001—2020年。表1為變量統計性描述。

表1 變量統計性描述
Lasso方法是一種壓縮估計,Lasso回歸可以使得一些變量系數變小,甚至一些絕對值較小的系數變為0,可以較好地解決變量間的多重共線性,特別適合變量篩選。因此本文采用Lasso回歸方法來選擇自變量,減少變量個數,解決變量間的多重共線性問題。
表2為Lasso回歸的結果,去除Lasso回歸系數小于等于0.01的變量,選取其中13個變量作為影響天津市財政收入的主要影響因素,分別是國內生產總值、常住年末總人口、在崗職工平均工資、房地產開發投資額、地方一般公共預算支出、城鄉居民儲蓄年末余額、郵政局(所)數、固定電話用戶數、社會商品零售總額、貨物進出口總額、普通本專科學生、居民消費價格指數、R&D經費支出。

表2 Lasso回歸系數
XGBoost基于梯度提升決策樹,是一個優化的分布式梯度增強庫,可以快速準確地解決許多數據科學問題,主要是用來解決監督學習問題,目前已經在眾多機器學習和數據挖掘比賽中得到廣泛認可(ChenT,Guestrin C,2016)。
XGBoost的目標函數:

目標函數包含兩個部分:訓練誤差和正則化。第一部分訓練誤差 l是一個可導的凸損失函數,測量預測值與實際值yi之間的差。為模型對訓練樣本的預測值,yi為訓練樣本的真實值。第二部分Ω為正則化項,定義了模型的復雜程度。其中,γ和λ為人工設置的參數,ω為決策樹所有葉子節點值形成的向量,T為葉子節點數。
首先將樣本數據分為兩部分,一部分為訓練數據,一部分為測試數據。之所以將樣本數據分為兩部分,原因在于防止出現過度擬合現象。如果將全部樣本都用XGBoost算法進行迭代訓練,得出的預測模型對于樣本數據當然是最優的預測也是最準確的,但是如果將樣本之外新的數據代入這一預測模型,得到的財政收入預測值是否接近真實數據,則是值得懷疑的。因此通過提取一部分樣本作為訓練數據,經過算法迭代得到最佳的財政收入預測模型,再通過測試數據代入模型來驗證財政收入預測模型的有效性,可以極大地提高財政收入預測模型的可信性和適用性。
訓練數據主要目的是通過XGBoost算法進行迭代訓練得到財政收入預測模型。選取2001—2017年自變量數據以及 2002—2018年財政收入數據作為訓練數據,通過訓練得到財政收入的預測模型。由于模型主要目標是財政收入預測,如果同時使用同一年的自變量和因變量進行模型訓練,無法實現預測下一年財政收入的作用,除此之外部分自變量還缺少2021年數據,因此對財政收入變量采取滯后一期進行分析。比如使用2018年財政收入代替原來樣本中的2017年財政收入數據作為因變量,而自變量還是使用2017年數據;2017年財政數據代替2016年財政收入數據,以此類推,這樣通過訓練得到的模型可以進行下一年度的財政收入預測。
訓練數據使用XGBoost算法進行迭代訓練,訓練目標是使得模型預測值最接近實際的財政收入。
表3為當財政收入的預測模型為最優時,XGBoost算法得到的模型預測值和財政收入的實際值,可以看出實際值與預測值兩者之間已經十分接近,說明訓練結果比較準確可靠。

表3 2002—2018年財政收入的模型訓練結果
測試數據用來模擬在真實環境下,財政收入預測模型的準確性、可靠性。將2018—2020年自變量數據測試數據代入預測模型中,得到模型的收入預測值,再通過比較模型收入預測值與真實收入數據差別,可以驗證在真實環境下財政收入預測模型的有效性,如果預測值和真實值差別越小,則說明模型的預測值越準確,模型越可靠。
從表4中可以看出,使用XGBoost模型得到的2019—2021年之間的財政收入預測值與真實值比較接近,尤其是考慮到近年來在疫情影響下天津市財政收入波動明顯,但2019—2021年的財政收入預測值還能比較接近真實值的數據。這充分說明了基于Lasso-XGBoost的財政收入預測模型可以在實際應用中取得良好的效果。
除此之外,使用Sequential模型(Keras中的一種神經網絡框架)進行財政收入的預測,得到的預測結果詳見表4。通過分別比較Sequential模型和XGBoost模型的預測結果與真實值之間的差別,可以明顯看出XGBoost模型得到的預測結果更加精準,誤差更小。

表4 2019—2021年財政收入預測值
在實際經濟生活中影響地方財政收入的因素較多,并且可能存在變量之間的多重共線性問題以及變量的非線性關系。本文通過Lasso回歸方法得到變量的系數,從眾多變量中選取影響財政收入的主要變量,在此基礎之上使用XGBoost模型得到財政收入的預測值,之后通過比較XGBoost模型和Sequencial模型與真實值的差別,發現XGBoost模型可以比較可靠的、精準的實現對天津市財政收入的預測。
通過分析Lasso回歸變量的系數(表2)可以看出常住年末總人口對于天津市財政收入具有最重要的影響。常住人口數量的增加,往往代表著有更多的人來該地定居、工作和生活,促進消費增長,同時人口的增加也意味著勞動力資源更加豐富,可以促進當地經濟發展和財政收入的增長。因此吸引更多外來人口來天津,增加本地常住人口數量可能會對天津市財政收入增長產生比較好的正向作用。
固定電話用戶數這一變量對于天津市財政收入也有比較重要的正向作用,這一點初看可能有些出人意料,因為就個體日常生活中的體驗可以發現個人及家庭用戶已經很少使用固定電話,造成這一現象的深層原因可能在于固定電話數量在一定程度上代表了企業的數量。當固定電話數量越多,一定程度上意味著企業數量越多,說明經濟越具有活力,也會產生更多的稅收等財政收入,當然會對地方財政收入有重要的正向影響。
本文采用 Lasso-XGBoost組合方法開展財政收入預測,具有較高的實用性和精準性,可以為以后財政部門開展財政收入預測以及編制中期財政規劃管理提供一定的幫助,也可以為今后的財政收入預測相關研究提供一定的參考。