馮 瀟,黃昱馨
(電子科技大學 成都學院, 四川 成都 611731)
長期以來中國與東南亞國家都保持著良好的經貿合作關系,而“一帶一路”建設更進一步推進了彼此的經貿往來合作。目前東南亞已成為中國三大核心貿易伙伴之一,因此預測中國-東南亞各國的進出口貿易額,對研判中國-東南亞貿易趨勢、制定貿易政策等具有重要意義。
關于中國與東南亞國家貿易預測的研究,常用的預測模型有經濟計量模型,如劉宓雯等通過面板回歸對東南亞各國的貿易總量進行了預測;余振岳等通過計算HM 指數評估了中國與東南亞的貿易趨勢。也有學者運用了機器學習對貿易額進行預測,如鄧洋洋構建了多種機器學習的中國-東盟貿易額預測模型。本文在前人研究的基礎上,基于線性回歸和非線性回歸的視角,構建多種機器學習模型對中國-東南亞各國進出口總額的歷史數據進行建模測算,并在此基礎上提出多模型組合的中國-東南亞貿易預測模型。
線性回歸旨在尋找一條直線或者一個平面對新的數據進行預測:

J(θ)為損失函數,計算方法主要有最小二乘法(OLS)和梯度下降法(SGD)。OLS 是對J(θ)中的每個θ 直接求偏導的過程。而SGD 是根據J(θ)更小的原則對θ 進行修改,直到J(θ)達到最小的過程。當變量個數較多且有相關關系時,Lasso 回歸能夠通過正則化項實現對變量的選取:






漸進梯度回歸樹(GBRT)與RF 類似,是一種迭代的決策樹回歸算法,計算如下:

而極端梯度提升(XGBoost)對損失函數L 進行了二階泰勒展開,并在L 里加入了正則項:

本文選取中國與東南亞11 國的GDP、人口總量和CPI 作為回歸模型的輸入變量,時間范圍為2000-2019年,輸出變量時間范圍為2001-2020 年。本文將存在缺失值的年份數據進行刪除,并將各經濟數據的量綱進行歸一化:

本文將前16 年的數據作為訓練集,將后3 年的數據作為測試集對訓練模型進行評估,評估指標為平均百分比誤差(MAPE):

7 種回歸模型在測試集上的MAPE 值如表1 所示。從該表可以看出,除OLS 線性回歸模型外,其余線性回歸模型和非線性回歸模型在不同國家數據集上有不同的預測優勢,其中SGD 與XGBoost 在多個數據集上預測效果較好。盡管LASSO 在多個國家數據集上預測效果不佳,但與其他模型相比,LASSO 在中國-文萊進出口數據預測上的預測效果最好。

表1 單個預測模型評估結果
為了綜合各機器學習回歸預測模型的優點,本文分別對各模型賦予不同權重,然后將各模型預測的加權平均值作為組合回歸預測結果,具體計算公式如下:




本文首先將各模型進行兩兩組合,通過對組合回歸模型目標函數進行求解,以得到單個模型在組合模型中的權重,隨后將組合模型對測試集的進出口貿易總額進行預測,檢驗結果如表2 所示。與表1 進行比較可以看出,組合后的模型能夠綜合兩個模型所包含的信息,有效降低單個模型的預測誤差,取得比單個模型更好的預測效果。同時從表2 可以看出,在15 種組合模型中,SGD-LASSO 組合模型預測誤差最小,故本文首先選取SGD回歸模型與LASSO 回歸模型進行模型組合。

表2 兩種模型組合評估結果
由于組合模型的基模型均是線性模型,而中國-東南亞國家進出口貿易總額與各國經濟變量之間并非存在著嚴格的線性關系,故本文將4 種非線性模型與SGD-LASSO 組合模型再次進行模型組合,以進一步降低對中國-東南亞進出口總額的預測誤差。模型評估結果及各模型權重計算結果如表3、表4 所示,從表3 可以看出,將SGD-LASSO 組合模型與各非線性回歸模型進一步組合后,模型預測誤差均有了不同程度的降低,其中SGD-LASSO-XGBoost 模型的MAPE 值低于其他組合預測模型的MAPE 值,說明在針對中國-東南亞進出口總額的預測問題上,SGD-LASSO-XGBoost 模型有更好的預測性能。

表3 線性-非線性組合模型評估結果

表4 SGD-LASSO-XGBoost 組合模型權重計算結果
本文從線性和非線的視角選擇了7 種常用的機器學習回歸模型分別對中國-東南亞11 國的進出口總額進行模型訓練,使用評估指標MAPE 值對測試集進行評估,發現線性模型與非線性模型在不同的數據集上有各自的預測優勢。因此結合線性模型與非線性模型的特點,對不同模型賦予不同權重,構建SGD-LASSO-XGBoost 組合回歸預測模型,得到了更準確的預測結果。