引言
加強經濟監測預測分析工作,并及時準確研判未來經濟走勢,是提高宏觀經濟施策精準性、有效性的重要手段,也是防范化解重點領域風險、確保經濟平穩健康運行的重要抓手,更是促進經濟高質量發展的重要保障。當前,宏觀經濟預測領域面臨新變化,主要表現為高維、高頻數據可獲得性大幅提升,以及大數據技術應用于宏觀經濟預測等方面。新變化不僅拓展了宏觀經濟預測的研究邊界,而且也為預測提供了新的研究視角。隨著大數據等新研究范式的興起,提高宏觀經濟預測的時效性和準確性,對于制定宏觀經濟政策、提升治理能力現代化具有重要意義。
作為分析高維、高頻數據的重要方法,以因子分析為基礎的混頻模型是實現宏觀經濟預測的有力工具。該類模型兼具因子模型和混頻模型的特征,不僅通過降維的方式將豐富的信息集濃縮成少量因子,在不過度損失信息量的情況下較好地刻畫宏觀經濟運行情況,能夠實現對高維數據的深度挖掘,有助于提升預測的準確性。而且混頻模型在高頻變量和低頻變量之間建立聯系,能夠實現高頻變量對低頻變量的預測,進而提高預測的時效性。
近年來,基于因子分析的混頻模型在我國宏觀經濟預測領域的探索不斷豐富完善。秦磊等(2019)提出了混頻時間序列潛在因子方法(MIDAS-LF)和混頻時間序列潛在因子迭代算法(EM-LF),模擬和實際數據的分析均表明,MIDAS-LF方法具有更低的擬合誤差和預測誤差。費兆奇和劉康(2019)利用混頻動態因子(MF-DFM)模型構建日度先行指數,實證結果表明,所構建的日度先行指數不僅能夠及時捕捉到經濟運行的波動情形,而且還具有較好的樣本外預測能力。張偉等(2020)通過MF-DFM模型構建高頻輿情指數,用以反映宏觀經濟各維度發展狀況,研究發現,高頻輿情指數對國內生產總值(GDP)增長率有較強的解釋能力,有助于提高GDP預測的精度。王霞等(2021)認為,不斷更新的月度數據信息在季度GDP的預測中具有重要作用,特別是隨著可利用信息的逐漸增多,MF-DFM模型的預測精度進一步提升。劉漢等(2023)利用單調性檢驗方法驗證了實時預報的誤差會隨著更新數據信息的增加而單調遞減,并認為合理的建模技術可從眾多高頻高維指標中獲取有價值的信息,從而提升實時預測模型的精確性。郭瓊(2024)在對我國季度GDP預測時發現,因子混頻數據抽樣(FA-MIDAS)模型在時效性和精確性方面具有比較優勢,而且相較于傳統模型而言,外部沖擊對FA-MIDAS模型造成的負面影響相對較小。張延群等(2024)利用MF-DFM模型構建月度數字經濟狀態指數,能夠為實時預測季度數字經濟狀態指數提供有用的信息。
盡管得益于豐富的數據來源以及數據獲取速度的提升,基于因子分析的混頻模型在預測時具有較好的時效性和準確性。但該類模型的潛在假定是被預測變量與潛在因子具有共同的驅動因素,從而確保所構建的潛在因子對被預測變量具有較好的預測效果。如果潛在因子和被預測變量之間的驅動因素存在較大差異,那么由此構建的預測模型將存在較大預測偏差。特別是在大數據中,不僅包含有價值的信息,而且也會夾雜著眾多低效甚至是無效信息,由此產生噪聲大、信息密度低等問題。因此,如果事前不對變量進行篩選而直接利用因子分析等方法對大數據進行降維,則會導致部分與被解釋變量無關的信息納入因子中,從而降低模型預測效果。
通過對相關文獻的梳理發現,僅有少部分學者關注到上述問題。例如,何強和董志勇(2020)在利用互聯網大數據對季度GDP增速進行預測時發現,經廣義交叉驗證方法(GCV)篩選后得到的最優解釋變量集有助于提高機器學習模型的預測精度,任由模型通過大量數據機械的學習并不總會帶來模型預測精度的改善。閆政旭等(2021)提出了基于Pearson相關系數的隨機森林算法,先是利用Pearson相關系數對變量進行篩選,隨后根據隨機森林回歸模型對篩選后的變量進行建模。實證結果表明,改進后的隨機森林算法在股票短期預測精度方面有較好的提升。唐曉彬等(2022)發現,在經濟平穩運行時期,更多的變量以及合理的預測模型能夠提升預測的準確性。而當經濟受到較大沖擊時,利用模型置信集檢驗(MCS)和最小角回歸方法篩選出的變量能夠及時捕捉到GDP的核心變化,進而做出較為準確的現時預測。鄭陽陽等(2023)利用二元動態單因子模型的均方預測誤差對高維變量進行篩選,研究發現,基于二元模型變量選擇的MF-DFM 模型具有較好的預測效果。易艷萍等(2024)利用LASSO方法對混頻動態多因子模型中的因子變量進行選擇,實證結果表明,與傳統的混頻動態多因子模型相比,經LASSO方法壓縮后的模型具有更高的預測精度。
大數據時代的到來推動了機器學習等眾多研究方法的發展。洪永淼和汪壽陽(2021a;2021b)認為,大數據革命不僅帶來了經濟學研究范式的變革,而且還促進了研究方法的創新。面對高維解釋變量時,機器學習方法可以通過相關算法快速篩選出所有合適的解釋變量子集,從而得到一個低維的重要解釋變量合集,以此來實現最佳預測。當前國內鮮有文獻將機器學習方法用于混頻模型框架下的實時預測。因此,本文嘗試利用機器學習方法對高維變量進行篩選,并將篩選后的變量用于以因子分析為基礎的混頻預測模型中,進而實現機器學習方法與混頻預測模型的融合,同時也為相關部門提供決策參考依據。
一、理論分析
(一)基于FA-MIDAS模型的預測方法
由于FA-MIDAS 模型同時具有混頻數據抽樣模型和動態因子模型的優勢,既能同時包含季度、月度、周度以及日度等混頻數據,有助于提高模型預測的時效性,又能通過因子分析實現高維數據的降維處理,有效解決變量過多帶來的“維數災難”問題。因此,本文在FA-MIDAS 模型框架下,分析不同機器學習方法的變量篩選對我國季度GDP預測的影響。
一個向前 h 步的FA-MIDAS模型可表示成如下形式:

其中, yt 為低頻被解釋變量, r 為因子個數, β 為待估參數, L 為滯后算子,
為高瀕因子, Wi (
, θi )為權重多項式函數,且有 Wi (
, θi )=∑2=b;(k; θi )
, mi 為第i個高頻因子與被解釋變量的頻率之比, dimi 為第i個高頻因子的滯后階數, bi(k;θi) )為權重函數。根據Ghysels等(2007)的研究可將 bi (k;θi) )選取為Beta權重函數、指數型Almon權重函數和分段權重函數等。式(1)中的高頻因子具有動態因子形式 xt=Λft+ξt ,
。其中, xt 為 N×1 維的高頻解釋變量, Λ 為 N×r 維的因子載荷矩陣, ft 為 r×1 維的潛在因子, B ( L )為滯后多項式, ξt 和 ηt 均為白噪聲向量。當 Wi 2 \lef amp; = 1時,式(1)為無約束的因子混頻數據抽樣(FA-U-MIDAS)模型。
由于式(1)中同時具有混頻數據抽樣模型和動態因子模型的特征,因此可借鑒Marcellino 和Schumacher(2010)提出的“兩步法”對潛在因子和相關參數進行估計。第一步,先從高頻變量中提取公共因子。本文進一步利用Doz等(2011)提出的方法估計潛在因子。首先將動態因子模型表示成狀態空間形式,有


其中,式(2)為觀測方程,式(3)為狀態方程。然后利用主成分分析法得到潛在因子和因子載荷的估計值
和
, B1 , B2 ,……, Bp 的參數估計值由VAR(p)模型求得。潛在因子個數r可根據Bai和 Ng (2002;2007)的方法求得,滯后階數 p 則根據AIC準則或BIC準則求得。最后利用卡爾曼濾波法對
進行更新,以此來提高潛在因子的估計精度。
第二步,將更新后的因子
作為自變量帶人式(1),然后估計相關參數。本文將Chen和Tsay(2011)提出的廣義自回歸分布滯后模型(GADL)作為 bi (k; θi )的權重函數。與Beta權重函數和兩參數指數型Almon權重函數相比,GADL權重函數具有諸多優點。一方面,GADL權重函數計算簡便,通過OLS方法就能求得參數估計,特別是當模型中存在多個頻率以及有眾多參數需要估計時,OLS 方法的計算量較小。另一方面,GADL權重函數具有較高的靈活性,對參數施加的約束條件較少,不需要施加權重之和等于1以及權重為正等約束條件。而且GADL權重函數能夠在包含更高滯后階數的同時,又不增加計算的復雜性?;贕ADL權重函數,可將式(1)變換成如下形式:
Y=β0+X1V1γ1+X2V2γ2+……+XrVrγr+ε


在給定 di 、 mi 和 vi 的情況下,式(4)中的參數可通過OLS方法估計。 di 和 vi 的值可根據AIC準則或BIC 準則求得。
(二)基于機器學習方法的變量篩選
雖然FA-MIDAS模型通過從眾多變量中提取少數公共因子的方式實現降維處理,所提取的因子不僅包含豐富的信息,而且能夠刻畫宏觀經濟的大部分波動情形。但在眾多變量中可能僅有小部分變量對目標變量較為重要,其余變量對目標變量的影響較小,甚至是無效信息以及噪音項。如果將這些質量相對較低的數據集納入模型中,則會得到豐富但非有效的信息集,進而降低模型預測準確度。為降低低效和無效信息對預測效果的影響,可通過特征選擇方法對原始數據集進行篩選,在得到與目標變量最相關以及包含最多有效信息量的特征子集基礎上,進一步利用FA-MIDAS 模型做出預測。由于每種特征選擇方法從不同的角度實現對變量的篩選,均具有各自的優勢。為更加全面分析不同特征選擇方法對預測效果的影響,本文主要選取隨機森林(RF)方法、極端梯度提升(XGBoost)方法、Boruta 方法、LASSO方法以及遞歸特征消除(RFE)方法等5種機器學習方法展開研究。
1.RF方法
Breiman(2001)提出的RF方法是一種基于決策樹的集成學習方法,并在決策樹的基礎上進一步引入隨機性。其隨機性主要體現在樣本的隨機選擇和特征的隨機選擇兩方面。具體而言,先是通過自助法(bootstrap)有放回地從訓練集中隨機抽取 n 個樣本作為新的訓練集。然后用新的訓練集生成一棵決策樹,在對決策樹的節點進行分裂時,從樣本的所有特征中隨機抽取 k 個特征,根據信息增益或基尼系數等特征選擇原則劃分樣本集。重復上述步驟m次,并生成 m 棵決策樹,從而形成隨機森林。最后對所有決策樹的結果進行匯總,通過投票或加權平均的方法獲得最終結果。RF方法具有性能強大和易于應用等特征,不僅能夠有效解決模型的過擬合問題,而且有助于提高模型的泛化能力與預測效果,在處理高維數據以及非線性關系等方面具有比較優勢,RF方法一經提出便得到廣泛應用。
特征選擇是RF方法中的重要一環,通過計算每個特征在隨機森林模型中的貢獻來判斷特征的重要性。可將平均精度下降法(Mean Decrease Accuracy)作為特征重要性的評估指標。其基本思想是,在建立RF模型進行有放回抽樣時還有一部分尚未被抽到的數據,即袋外數據(out-of-bag,OOB),利用袋外數據作為測試集對特征重要性進行評判。將變量的第j個特征在袋外數據中隨機置換,置換后可得到新的袋外樣本均方誤差,并將其與置換前的袋外樣本均方誤差進行比較,如果置換后的準確性下降較多,則該特征較為重要。如果準確性下降較小,則該特征相對次要。具體計算公式為:

其中, m 為隨機樹的數量,MSE( 0OBl' )和MSE( OOBι )分別表示為第 l 棵樹的袋外數據中對變量X的第j個特征進行隨機置換后得到的均方誤差和未置換的均方誤差。通過對比MDA的大小來判斷變量的重要程度,進而實現變量篩選。
2.XGBoost方法
XGBoost方法同樣是基于決策樹的集成學習方法。其中,RF方法將決策樹并聯構建,每棵決策樹之間相互獨立。而XGBoost 方法則將決策樹串聯構建,每棵決策樹是基于前一棵決策樹的殘差生成的,由此導致每棵決策樹之間存在依賴關系。由于每次迭代均對上次的誤差進行糾正,因此迭代優化后的模型具有較好的擬合及預測效果。同時,在目標函數中加入正則化,不僅避免了過擬合問,而且也提高了模型的泛化能力。此外,XGBoost方法還可通過并行計算等提高模型訓練速度和計算效率,適用于處理大規模數據和高維空間的情況。
第 i 個樣本第t棵樹的預測值可表示成如下形式:

其中,
為樣本i在循環迭代t次后的預測結果, fk ( xi )為第 k 棵決策樹的預測結果,且有 F
為映射函數,用于把樣本映射到某個葉子節點,wq(x) 為葉子節點的權重,T為葉子節點的數量。由式(6)的遞歸形式可得:

XGBoost方法的損失函數為:

其中,
(fj? )為正則項,用于控制樹的復雜程度,防止模型過擬合。可將式(8)中的正則項進一步表示為:

將式(7)和式(9)帶入式(8),可得:

由泰勒公式可知,式(10)可近似表示成如下形式:

其中, gi 和 hi 分別為
)的一階導數和二階導數。
由于在 t 期時t-1期的值均為確定項,因此損失函數可簡化為:

j Ω
式(12)表示成:


由于 gi 和 hi 在第t期時為已知,因此需求解最優的 wj 使式(13)最小。令
,
,wj 的最優值及其對應的目標函數分別為:

葉子節點可通過貪心算法進行分裂,在每個葉子節點列舉所有可用特征,然后將每個特征進行升序排列,遍歷每個特征并計算該特征對應的分裂增益,增益最大的特征即為最優分裂點。某一節點特征分裂前和分裂后的目標函數分別為:


其中, L 和R分別表示在該節點分裂的左右兩個新節點。分裂后的增益為:

當樹達到最大深度、葉子節點數量小于特定閾值或者分裂帶來的增益小于 γ 時,則停止分裂。每個特征對應的增益同時也是評判特征重要性的依據,如果某個特征在所有樹中的平均增益越大,則其對最終預測結果的貢獻也就越大,表明該特征的相對重要性越高。
此外,為進一步避免過擬合,可根據Friedman(2002)提出的收縮方法將每棵樹的輸出結果乘以一個收縮系數,從而降低每棵樹的影響并提升模型的泛化能力。即:

3.Boruta方法
由于RF方法和XGBoost方法在進行特征篩選時需要人為的確定閾值,根據該閾值來決定特征的相對重要性,因此RF方法和XGBoost方法均存在一定的主觀性。同時,根據損失函數最小化排除的特征僅表明該特征對降低損失函數沒有幫助,但并不能證明該特征與因變量無關。Boruta方法能夠從給定的數據集中篩選出與因變量相關的集合,而非特征重要性的排序,從而更為有效的過濾掉不重要的特征。而且在變量篩選過程中并不需要設定閾值來判斷特征是否重要,篩選結果更具客觀性。
不同于在特征之間進行重要性對比,Boruta方法將影子特征作為比較基準,用于從隨機波動中識別出真正重要的特征。首先,將所有特征隨機打亂,由此生成的特征即為影子特征,然后將影子特征加人原有特征中形成新的特征集,在新特征集上計算特征的Z值。其中,Z值為特征重要性的均值與其標準差之比,特征重要性可由RF方法求得。在影子特征中找到最大的Z值并標記為MZSA,標記 Z值大于MZSA的特征,對未確定重要性的特征進行原假設為Z值等于MZSA的雙邊檢驗。將Z值顯著低于MZSA的特征標記為不重要,并將其從特征集中剔除,將Z值顯著高于MZSA的特征標記為重要。隨后移除所有影子特征并重復上述步驟,直至所有特征均被標記或者達到事先設置的運行次數,由此可篩選出與因變量有關的相對重要的特征。
4.LASSO 方法
在大數據背景下,雖然能夠收集大量特征數據進行建模,但存在有利用價值的信息相對有限的情形,導致僅有小部分自變量對因變量起決定性作用,其余自變量對因變量的影響可以忽略不計。如果利用全部變量進行分析時不僅會產生過擬合現象,進而降低模型的泛化能力,而且當變量個數大于樣本個數時,還會導致傳統線性回歸模型參數估計難的問題。Tibshirani(1996)提出的LASSO模型通過在目標函數中施加懲罰項,可將不重要的自變量系數稀疏化為0,從而能夠在眾多自變量中剔除不重要的變量,由此識別出重要的自變量。LASSO模型在降低模型復雜程度、提高模型泛化能力以及增強模型可解釋性等方面具有優勢,是高維數據分析中實現降維及變量篩選的重要工具。
LASSO模型的損失函數為:

其中,
為正則項(L1范數),用于控制模型的復雜程度并將某些變量的系數壓縮至0,從而實現模型的稀疏性。 λ 為正則化參數,可由交叉驗證法求得, λ 越大則自變量系數為0的個數越多。β 可由坐標下降法求得,先將參數初始化,然后在每次迭代過程中保持 βj ( j≠k )固定不變,求 βk 使最小化,則第 k 個坐標軸方向對應的最優值為:

。隨后選取下一個坐標軸方向進行優化,重復上述過程可得到每次迭代所有系數的更新值。當更新后的系數變化較小或者達到預設的迭代次數時停止對系數更新。
5.RFE方法
RFE 方法是一種貪心的特征選擇方法,通過反復構建模型并不斷刪除不重要的特征,從而篩選出最優特征子集,所選擇的特征對目標變量具有最大的預測能力。首先選擇線性回歸或者隨機森林等模型作為基礎的學習模型;其次將所有特征納人到學習模型中并計算特征的系數或特征重要性;再次將系數或特征重要性進行排序并剔除系數或特征重要性較低的特征;最后用剩余特征重新建立模型并進行反復迭代,直至達到預定的特征子集數量。特征子集數量可利用交叉驗證法選擇令均方根誤差(RMSE)最小時對應的特征子集。RFE方法能夠從原始特征集合中篩選出相對重要的特征子集,在實現降維的同時也能夠降低過擬合風險,有助于減少冗余和噪音特征的十擾并提高模型的預測效果。
二、實證分析
(一)變量選取及數據處理
選取季度GDP增長率作為因變量,同時根據數據可得性,選取生產類、需求類、價格類、金融類以及景氣指數類等在內的123維月度指標作為宏觀數據集。其中,生產類指標包括工業增加值、工業企業利潤、工業企業資產負債率、房屋施工面積、貨運量、全社會用電量等。需求類指標包括社會消費品零售總額、限額以上企業商品零售額、固定資產投資完成額、進出口金額、實際使用外資金額、商品房銷售面積、公共財政收入和支出等。價格類指標包括居民消費價格指數(CPI)、工業生產者出廠價格指數(PPI)和工業企業原料燃料動力購進價格指數(PPIRM)細分指標。金融類指標包括貨幣供應量、金融機構新增人民幣貸款、貨幣當局總資產、外匯儲備規模、社會融資規模、銀行間同業拆借加權平均利率、美元兌人民幣匯率、歐元兌人民幣匯率、日元兌人民幣匯率、股票總市值等。景氣指數類指標包括中國制造業采購經理指數(PMI)、美國制造業和非制造業PMI、歐元區制造業和服務業PMI、美國密歇根大學消費者信心指數、歐元區經濟景氣指數、歐元區消費者信心指數、日本消費者信心指數、日本經濟觀察家現況指數以及日本景氣動向綜合指數等。樣本時間維度為2005年1月至2024年12月。季度GDP增速和月度指標以累計同比為主,數據經過標準化和平穩化處理。在進行變量篩選時由于自變量和因變量的頻率不同,需將數據進行同頻化處理,月度非累計數據通過季度平均轉化為季度數據,月度累計數據選取每個季度月末的數據與季度數據相匹配,月度存量數據選取每個季度月末的同比數據作為季度數據。
(二)變量篩選
在對變量進行篩選時,需確定各種篩選方法的相關參數。其中,利用5折交叉驗證法確定RF方法樹的棵數ntree 和每棵樹的節點個數 mtry,二者分別為227和123 時對應的RMSE 最小,選取 MDA大于2的變量作為特征子集,最終選取52個變量。利用網格搜索法與5折交叉驗證法確定XGBoost的相關參數,樹的數量為100,每棵樹的最大深度為3, η=0.1 , γ=0.01 , λ=0.01 ,最終選取49個變量。在利用 Boruta方法進行變量篩選時,將最大的迭代次數設為30000 次,可篩選出與因變量有關的64個重要變量。利用5折交叉驗證法確定LASSO模型中的正則化參數 λ 為0.0095,由此篩選出22個變量。利用5折交叉驗證法確定的RFE 模型最優變量個數為34。此外,將向前逐步回歸法和Pearson相關系數法加入變量篩選方法的對比分析中,Pearson相關系數法選取的閾值為0.8,即選取自變量和因變量相關系數大于0.8時的變量。向前逐步回歸法和Pearson相關系數法分別選取55和23個變量作為特征子集。
研究結果發現,不同篩選方法得到的特征子集存在相似之處。一方面,不同篩選方法均對原始數據集中的變量進行大幅剔除,RF方法、XGBoost 方法、Boruta 方法、LASSO 方法、RFE 方法、向前逐步回歸法和相關系數法分別剔除了 57.7% 、 60.2% 、 48% 、 82.1% 、 72.4% 、 55.3% 和 81.3% 的變量。其中,Boruta方法對變量保留最多,LASSO 方法對變量保留的最少。另一方面,所有方法均將鮮果價格、衣著價格、歐元兌人民幣匯率、通訊器材類零售額、石油及制品類零售額、來源于利用外資的固定資產投資以及第一產業用電量剔除。所有方法均對外商及港澳臺投資企業的工業增加值進行保留。在所有變量中,工業增加值、國有及國有控股企業的增加值、股份制企業的工業增加值、私營企業工業增加值、CPI、PPI、紡織原料類價格、美國制造業PMI、中國從業人員 PMI、化妝品類零售額、商品房銷售額、來源于國內貸款的固定資產投資以及第二產業用電量被不同方法選中的次數較多,表明上述變量對GDP的預測較為重要。
與此同時,每種方法得到的篩選結果存在一定差異。如Boruta方法將糧食價格、生活用品及服務價格、黑色金屬材料類價格、木材及紙漿類價格、流通中的貨幣(M0)、貨幣當局總資產、社會融資規模、美國非制造業PMI、中國采購量PMI、工業企業利潤總額、固定資產投資本年施工項目計劃總投資額等指標納人特征子集,而其余方法均將這些變量排除在外。RF方法對全部工業品價格、化工原料類價格、美元兌人民幣匯率、中國消費者信心指數、日本消費者信心指數、公路貨運量、房屋施工面積、房屋新開工面積等指標進行保留,但這些指標并未包含在其余方法中。即便LASSO方法和相關系數法均保留較少的變量,但二者之間的篩選結果也存在差異。如LASSO方法在CPI、鮮菜、水產品以及蛋類等價格方面的數據保留較多,而相關系數方法將價格類數據全部剔除。相關系數法保留了社會消費品零售總額、公共財政收入、貨運量增速、日用品類零售額、家具類零售額、第二產業和第三產業固定資產投資完成額、全社會用電量等指標,但LASSO方法卻未包含上述指標。
(三)預測結果分析
將 2005年1月至2016年12月的數據作為訓練集,進行向前多步滾動預測,分析實時預測、向前1步預測和向前2步預測的預測效果,將 2017年1月至2024年12月的數據作為測試集。將均方預測誤差(MSFE)作為模型的評價標準,其中,
。同時,將全樣本數據作為模型比較的基準,如果經變量篩選后的模型與全樣本數據模型的MSFE之比小于1,表明經變量篩選后的預測效果優于全樣本數據模型。FA-MIDAS 模型分別選取GADL權重函數模型、無約束模型(U-MIDAS)以及在 0ilt;1 時的當期預測模型進行分析。令式(1)中的h分別為1和2,當 h=2 時表明當季數據僅發布前1個月的數據,當 h=1 時表明當季數據已發布前2個月的數據,所得結果如表1所示。
由表1可知,與全樣本數據相比,經RF方法篩選后的預測精度僅在實時預測情景中表現出一定改善,特別是對 h=2 時的U-MIDAS模型具有較為明顯提升,預測精度改進幅度為 50.1% 。而在進行向前1步預測和向前2步預測時,經RF方法篩選后的模型預測精度不但沒有提升,反而出現不同程度的下降。經XGBoost方法篩選后的預測精度在向前1步預測情景中表現較好,僅在 h=2 時的當期預測模型表現欠佳,其余模型均存在不同程度的改善。而且在 h=2 時,GADL權重函數模型和U-MIDAS模型均具有較好的預測效果,預測精度的改善幅度普遍在 15% 以上,特別是在實時預測方面,GADL權重函數模型和U-MIDAS模型預測精度改進幅度分別高達 35% 和 55% 。經Boruta方法篩選后,U-MIDAS模型預測精度的改進幅度較其他模型更為明顯,在 h=1 時的實時預測、向前1步預測和向前2步預測改進幅度分別為 42.9% 、 14.3% 和 7.3% ,在 h=2 時的實時預測、向前1步預測和向前2步預測改進幅度分別為 36.5% 、 29.6% 和 6.2% 。經LASSO方法篩選后,各個模型的預測精度普遍提高。其中,在 h=1 時的實時預測、向前1步預測情景中,GADL權重函數模型的預測精度改進幅度分別為 33.5% 和 11.9% ,U-MIDAS模型分別為 12.1% 和 20.2% ,當期預測模型分別為 34.5% 和8.5% 。在 h=2 時的實時預測、向前1步預測情景中,GADL權重函數模型的預測精度改進幅度分別為 48.7% 和 10.3% ,U-MIDAS模型的分別為 50.4% 和 25.7% 。經RFE方法篩選后,當期預測模型的預測效果較其他模型改善更好,在 h=1 時的實時預測、向前1步預測和向前2步預測改進幅度分別為 8.3% 、 8.2% 和 9.2% ,在 h=2 時的向前1步預測和向前2步預測改進幅度均在 10% 以上。經逐步回歸方法篩選后的預測效果欠佳,僅在個別情景中存在改善,改善情景最好的為 h=1 時U-MIDAS模型做出的向前1步預測,其改進幅度為 24.4% ,其余情景的預測精度均出現不同程度的降低。經相關系數方法篩選后,模型普遍在實時預測情景中表現較好,預測精度改進幅度最大的情景發生在 h=2 時的U-MIDAS 模型,改進幅度高達 72.5% 。模型在向前1步預測中存在一定程度的改善,但普遍在向前2步預測中表現欠佳。

總體而言,在不同模型對應的各種情景中,經LASSO方法篩選后得到的預測效果較好,出現預測精度改善的情景占比為 77.8% 。其次為Boruta方法和RFE方法,二者預測精度改善的情景占比均為66.7% 。XGBoost方法有超過 50% 的情景出現改善,情景改善占比為 55.6% 。相關系數方法的情景改善占比為 50% 。逐步回歸方法和RF方法表現不佳,大部分情景中的預測精度低于全樣本數據,僅分別有 27.8% 和 16.7% 的情景出現改善。
三、結論及展望
針對眾多變量可能包含低效甚至無效信息的情況,本文利用RF方法、XGBoost方法、Boruta 方法、LASSO方法和RFE方法等5種機器學習方法對變量進行篩選,同時加入逐步回歸方法和相關系數方法2種常用的篩選方法進行對比分析,在此基礎上建立FA-MIDAS 模型對我國季度GDP增速進行預測。實證結果表明,盡管包含全部指標的數據集具有最豐富的信息,但并非所有指標均是有效的,部分與因變量無關指標的加人反而會降低模型的預測精度。通過恰當的指標篩選方法得到的特征子集,不僅能夠進一步提升數據集的有效性,而且還能帶來預測精度的改進。也應注意到,部分指標篩選方法不但沒有帶來預測效果的增益,其預測精度反而低于全樣本模型。因此,在進行指標篩選時需嘗試不同的方法,以此來提高篩選方法與預測模型的適配性。在本文比較分析的7種指標篩選方法中,LASSO方法是一種有益的嘗試。
本文嘗試將機器學習方法與混頻模型進行融合,并用于季度GDP增速預測的研究中,但在實踐過程中發現仍有以下幾點改進空間:首先,本文發現RF方法和XGBoost方法所得的預測效果欠佳,一種可能的原因是RF方法和 XGBoost方法能夠準確的捕捉到變量間的非線性關系,但所建立的FA-MIDAS 模型屬于線性模型,并不能對非線性關系進行有效刻畫,從而降低了RF方法和XGBoost方法的適用性。因此,將FA-MIDAS 模型擴展至非線性模型可能會進一步提高預測的準確性。其次,本文僅將機器學習方法前置化,用于變量篩選過程。但機器學習方法在經濟預測中具有廣泛的應用,例如可以將機器學習方法后置化,對不同模型的預測結果進行集成學習,進而提高預測結果的準確度與穩健性。此外,在進行變量篩選前的數據處理過程中,為得到同頻化數據,本文僅將月度數據進行季度算數平均,或取單月累計值處理,并沒有考慮每個月發布的月度數據指標與季度指標的內在聯系。為提高指標篩選的靈活性,可根據每個月發布的月度指標進行動態篩選。
參考文獻:
1.秦磊、郁靜、孫強:《混頻時間序列的潛在因子分析及其應用》,《統計研究》,2019年第9期。
2.費兆奇、劉康:《中國宏觀經濟波動的高頻監測研究——基于混頻模型對日度經濟先行指數的構建和分析》,《管理世界》,2019年第6期。
3.張偉、田金方、曹燦:《基于混頻大數據的宏觀經濟總量實時預測研究》,《宏觀經濟研究》,2020 年第2期。4.王霞、司諾、宋濤:《中國季度GDP的即時預測與混頻分析》,《金融研究》,2021年第8期。5.劉漢、劉營、王永晶:《季度實際GDP增長率混頻預報單調性的統計檢驗》,《統計研究》,2023年第2期。6.鄔瓊:《混頻模型在我國宏觀經濟預測中的應用研究》,《價格理論與實踐》,2024年第2期。7.張延群、尹建兵、王妍艷等:《基于混頻動態因子模型的數字經濟狀態指數構建與預測研究——以杭州市為例》,《調研世界》,2024年第7期。8.何強、董志勇:《利用互聯網大數據預測季度GDP增速的方法研究》,《統計研究》,2020年第12期。9.閆政旭、秦超、宋剛:《基于Pearson特征選擇的隨機森林模型股票價格預測》,《算機工程與應用》,2021年第15期。10.唐曉彬、劉博、劉江寧:《大維變量選擇、混頻因子模型與新冠肺炎疫情沖擊下的GDP現時預測》,《統計研究》,2022年第1期。11.鄭陽陽、鮑勤、汪壽陽:《基于大規模數據的中國經濟增速實時預測》,《計量經濟學報》,2023年第4期。12.易艷萍、黃德金、王熙:《基于宏觀大數據的GDP即時預測》,《經濟學(季刊)》,2024年第3期。13.洪永森、汪壽陽:《大數據如何改變經濟學研究范式?》,《管理世界》,2021年第10期。14.洪永淼、汪壽陽:《大數據、機器學習與統計學:挑戰與機遇》,《計量經濟學報》,2021年第1期。15.Ghysels,E.,Sinko,A.,amp; Valkanov,R. MIDAS Regressions: Further Results and New Directions. Econometric Re-views,Vol.26,2007.16.Marcelino,M.,amp; Schumacher,C.Factor MIDAS for Nowcasting and Forecasting with Ragged-Edge Data:A modelComparison for German GDP Oxford Bulletin of Economicsand Statistics,Vol. 72,2010.17.Doz,C.,Giannone,D.,amp; Reichlin,L.A Two-Step Estimator for Large Approximate Dynamic Factor Models BasedonKalman Filtering.Journal of Econometrics,Vol. 164,2011.18.Bai,J.,amp;Ng,S.Determining the NumberofFactors in ApproximateFactor Models.Econometrica,Vol.27,2002.19.Bai,J.,amp;Ng,S. Determining the Numberof Primitive Shocks inFactor Models.Journal of Business amp; Economic Sta-tistics,Vol.25,2007.20.Chen,Y.C.,amp; Tsay,W.J.Forecasting Commodity Prices with Mixed-Frequency Data:An OLS-Based General-ized ADL Approach.IEASWorking Paper,2011.21.Breiman,L. Random Forests. Machine Learning,Vol. 45,2001.22.Tibshirani,R.Regresion Shrinkageand SelectionViatheLasso.Journal of theRoyal StatisticalSociety:SeriesB(Methodological),Vol.58,1996.23.Friedman,J.H.Stochastic Gradient Boosting. Computational Statisticsamp; Data Analysis,Vol.38,2002.
責任編輯:郭霞