基于集成算法的工業(yè)增加值預(yù)測模型研究★

2024-05-27 14:30:56閆海波

現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化 2024年2期

謝洋，閆海波

（新疆財經(jīng)大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院，新疆烏魯木齊 830012）

0 引言

工業(yè)是立國之本、強(qiáng)國之基，工業(yè)作為國家經(jīng)濟(jì)的支柱，對實體經(jīng)濟(jì)運行狀況的準(zhǔn)確把握至關(guān)重要。工業(yè)增加值作為國家經(jīng)濟(jì)的關(guān)鍵指標(biāo)，在國民生產(chǎn)總值中占主導(dǎo)地位，同時在社會經(jīng)濟(jì)活動中扮演關(guān)鍵角色。工業(yè)的增長對國家建設(shè)、國際貿(mào)易、新技術(shù)創(chuàng)新以及落后地區(qū)經(jīng)濟(jì)發(fā)展都具有重要意義。

當(dāng)前，學(xué)術(shù)界對工業(yè)經(jīng)濟(jì)預(yù)測領(lǐng)域進(jìn)行了深入廣泛的研究。以吳彥軍、丘斌、王占峰[1]等人致力于運用大數(shù)據(jù)技術(shù)，拓展工業(yè)經(jīng)濟(jì)統(tǒng)計與預(yù)測的應(yīng)用。這一研究方向為提高預(yù)測準(zhǔn)確性開辟了新的思路。朱云英[2]的研究強(qiáng)調(diào)了統(tǒng)計指標(biāo)和景氣指數(shù)在工業(yè)經(jīng)濟(jì)預(yù)測中的重要性，特別是企業(yè)景氣指數(shù)在模型預(yù)測工業(yè)增加值時所具備的信息可靠、前瞻性強(qiáng)、預(yù)測性強(qiáng)等特點，為工業(yè)統(tǒng)計指標(biāo)在預(yù)測中的關(guān)鍵作用提供了有力支持。

在工業(yè)增加值預(yù)測的研究中，學(xué)者們通常采用傳統(tǒng)方法和人工智能方法這兩大類。傳統(tǒng)方法主要包括回歸模型法[3]、趨勢外推法模型[4]以及時間序列模型[5]。盡管這些方法相對簡單，但由于受制于宏觀經(jīng)濟(jì)數(shù)據(jù)在短期預(yù)測中的限制，它們的預(yù)測精度存在一定下降。與此同時，人工智能方法包括隨機(jī)森林、自適應(yīng)增強(qiáng)、極致梯度增強(qiáng)、支持向量回歸機(jī)和神經(jīng)網(wǎng)絡(luò)等[6]。因此，顧海燕[7]等人提出了基于多個模型的融合算法，以適應(yīng)更復(fù)雜的非線性數(shù)據(jù)和不同應(yīng)用場景需求。

因此本文使用GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 算法模型，并采用粒子群優(yōu)化算法對模型的重要參數(shù)進(jìn)行調(diào)整，通過對比分析選出在工業(yè)增加值預(yù)測中表現(xiàn)更好的預(yù)測效果。

1 相關(guān)算法原理

1.1 隨機(jī)森林回歸（RFR）

RFR 是一種基于決策樹的集成學(xué)習(xí)算法。其基本思想是通過隨機(jī)抽取Bootstrap 樣本并建立多個決策樹模型，通過對多個模型的預(yù)測結(jié)果進(jìn)行平均化，提高回歸問題的預(yù)測準(zhǔn)確性。RFR 模型建立的主要步驟如下：

1）通過Bootstrap 方法在原始樣本集s 中抽取k個訓(xùn)練樣本集。

2）使用CART 學(xué)習(xí)對k 個訓(xùn)練集訓(xùn)練從而形成k 棵決策樹模型。在決策樹生成中，假設(shè)有N 個特征向量，從N 個特征向量中隨機(jī)選擇m 個，每個內(nèi)部節(jié)點在這m 個特征變量中進(jìn)行優(yōu)化劃分，m 值為隨機(jī)森林模型形成中的一個常數(shù)。

3）將k 棵決策樹的結(jié)果組合起來，得到最終結(jié)果。回歸問題使用簡單平均的組合方法。

1.2 AdaBoos 算法

AdaBoost 是一種基于Boosting 算法的迭代學(xué)習(xí)方法。在K 次迭代中，它根據(jù)每次迭代的誤差調(diào)整樣本權(quán)重，通過組合多個弱分類器構(gòu)建出一個強(qiáng)分類器，提高模型性能。

1.3 CatBoost 算法

CatBoost 是一種梯度提升框架，專為處理類型特征而設(shè)計。它通過處理類別特征的優(yōu)化方法，降低了過擬合風(fēng)險，提高了訓(xùn)練效率。CatBoost 使用一種基于有序Ordered TS 的排名提升方法來解決預(yù)測偏差問題。其主要思想是為訓(xùn)練集生成一個隨機(jī)序列，用前個樣本訓(xùn)練第個模型，并用它來擬合第個樣本，得到一個樣本殘差估計值。Ordered 模型能進(jìn)一步優(yōu)化時間復(fù)雜度，減少需要訓(xùn)練的模型數(shù)量。

1.4 GBDT 算法

GBDT 算法也被稱為梯度提升決策樹，是一種由多個決策樹組成的迭代算法[11]，它通過不斷迭代，每次迭代都根據(jù)前一輪的殘差擬合一顆決策樹，最終通過組合多個弱分類器形成強(qiáng)分類器。

1.5 XGBoost 算法

XGBoost 是一種用于監(jiān)督學(xué)習(xí)算法中分類和回歸的極端梯度提升樹算法，由Chen 等人提出[12-14]。XGBoost 通過正則化控制樹模型復(fù)雜度，同時支持并行計算，提高了訓(xùn)練速度和模型性能。

1.6 LightGBM算法

LightGBM是一種基于梯度提升框架的決策樹算法，采用基于直方圖的學(xué)習(xí)方法，通過更高效的樹建立方式和并行學(xué)習(xí)，提高了訓(xùn)練速度和效率。相比于決策樹，預(yù)測精度得到提升，使得該算法同時兼顧了訓(xùn)練速度和預(yù)測精度。

1.7 粒子群優(yōu)化算法

Kennedy 和R.Eberhart 在1995 年提出的粒子群優(yōu)化，粒子群優(yōu)化（PSO）是指為了模仿鳥群的捕食行為，大量引入無質(zhì)量的粒子，并賦予粒子兩個屬性：行進(jìn)方向和行進(jìn)速度[7]。每個粒子在搜索空間中單獨的搜尋最優(yōu)解，并將其記為當(dāng)前個體極值，并將個體極值與整個粒子群里的其他粒子共享，找到最優(yōu)的那個個體極值作為整個粒子群的當(dāng)前全局最優(yōu)解，粒子群中的所有粒子根據(jù)自己找到的當(dāng)前個體極值和整個粒子群共享的當(dāng)前全局最優(yōu)解來調(diào)整自己的速度和位置。

粒子群算法優(yōu)化過程如下：

步驟一：設(shè)置關(guān)鍵字參數(shù)個體記憶因子c1，群體記憶因子c2，種群規(guī)模pop 以及最大迭代次數(shù)max_iter。

步驟二：從給定參數(shù)值范圍中生成一個隨機(jī)種群，從種群中隨機(jī)選擇一組參數(shù)值作為初始種群，并根據(jù)生成初始種群的方法生成一組初始化速度值和隨機(jī)位置。

步驟三：定義目標(biāo)函數(shù)（適應(yīng)度函數(shù)），即將測試集輸入模型后，計算模型的均方根誤差。以初始種群以及種群個體作為參數(shù)輸入，計算個體適應(yīng)度和群體適應(yīng)度，更新并比較個體和群體適應(yīng)度，從而獲得個體極值（pbest）與其位置和群體（全局）極值（gbest）與其位置。

步驟四：迭代尋優(yōu)，尋找速度與位置。

對粒子群的速度進(jìn)行更新，并對越界的速度進(jìn)行約束，速度更新公式為：

對粒子群的位置進(jìn)行約束，位置調(diào)整公式為：

步驟五：若滿足設(shè)定的最小誤差或最大迭代次數(shù)，輸出粒子群的全局最優(yōu)值和其對應(yīng)的位置以及每個粒子的局部最優(yōu)值和其對應(yīng)的位置。

2 指標(biāo)選取與處理

2.1 數(shù)據(jù)來源

在工業(yè)增加值的預(yù)測中，本研究精心選擇了一系列指標(biāo)，時間范圍覆蓋了2003 年第一季度至2022 年第四季度。這些指標(biāo)分為自然因素和社會因素兩大類，旨在深入理解它們對工業(yè)增加值的影響。

自然因素主要考慮了自然災(zāi)害、溫度和氣候等因素。盡管大規(guī)模的自然災(zāi)害，如火山噴發(fā)和地震，可能對工業(yè)產(chǎn)生短期負(fù)面影響，而溫度和氣候的變化也可能在一定程度上影響工業(yè)的成本，但由于這些因素的瞬時性和難以量化，在選擇預(yù)測工業(yè)增加值的指標(biāo)時決定不納入考慮。

本研究將焦點放在了社會因素上，包括固定資產(chǎn)投資、規(guī)模以上企業(yè)個數(shù)、GDP、居民消費價格指數(shù)、規(guī)模以上工業(yè)企業(yè)利潤總額、規(guī)模以上工業(yè)虧損企業(yè)虧損總額、規(guī)模以上工業(yè)企業(yè)發(fā)電量等。這些指標(biāo)是通過國家統(tǒng)計局統(tǒng)計得到的。

2.2 特征選擇

2.2.1 相關(guān)系數(shù)

對指標(biāo)進(jìn)行相關(guān)分析時，最常見的一種方法是計算相關(guān)系數(shù)，它能夠反映出變量之間的線性相關(guān)程度。其計算方法為：

式中：ρx，y絕對值越大，說明相關(guān)性越強(qiáng)。其優(yōu)點是計算簡單；缺點是只能用來判斷變量之間的線性相關(guān)程度，而無法描述變量間的非線性關(guān)系，即使它們之間的非線性關(guān)系很顯著，相關(guān)系數(shù)仍可能接近0。

圖1 的熱力圖直觀地展示了特征之間以及各特征與目標(biāo)變量之間的相關(guān)系數(shù)，可以初步分析特征的重要性。可以看出一些經(jīng)濟(jì)指標(biāo)之間存在較強(qiáng)的相關(guān)性。例如，固定資產(chǎn)投資、GDP、工業(yè)增加值等與其他指標(biāo)之間存在較強(qiáng)的正相關(guān)關(guān)系。這些觀察有助于了解不同經(jīng)濟(jì)因素之間的相互影響關(guān)系，為進(jìn)一步的分析和決策提供參考。

圖1 相關(guān)系數(shù)熱力圖

2.2.2 互信息

互信息屬于特征選擇中的一種過濾器方法，它能夠用來對變量之間的線性關(guān)系進(jìn)行描述，還能夠?qū)Ψ蔷€性關(guān)系進(jìn)行描述。通常既可以用于回歸也可以用于分類算法中。互信息的值越大，說明兩個變量之間的相關(guān)性較強(qiáng)。在特征選擇中，可以用互信息度量各個特征與目標(biāo)變量的依賴程度，從而篩選特征。其計算公式如下：

利用sklearn.feature_selection 中mutual_info_regression 函數(shù)可以得到各特征變量與目標(biāo)量的互信息值，對數(shù)據(jù)集中的特征運用互信息過濾法篩選。觀察可以發(fā)現(xiàn)，大多數(shù)互信息值大于0.1，因此，選取了互信息值大于0.1 的特征，經(jīng)過篩選后，最終所選取的特征按互信息值從大到小排序如圖2 所示。

圖2 經(jīng)濟(jì)指標(biāo)互信息值

由圖2 可知，根據(jù)互信息分析，固定資產(chǎn)投資與工業(yè)增加值之間存在強(qiáng)烈的正相關(guān)性，互信息值達(dá)到0.879 0，顯示其具有較高的預(yù)測價值。相反，規(guī)模以上工業(yè)企業(yè)利潤總額的互信息值較低，表明其對工業(yè)增加值的影響相對較弱。GDP 的互信息值異常高，提示其在工業(yè)增加值預(yù)測中可能起著關(guān)鍵作用。因此，在選擇預(yù)測模型的輸入特征時，可以優(yōu)先考慮這些具有較高互信息值的指標(biāo)，以提高模型的準(zhǔn)確性。

3 實證分析

3.1 數(shù)據(jù)準(zhǔn)備與實驗環(huán)境

本文選取固定資產(chǎn)投資、工業(yè)企業(yè)發(fā)電量、出口總額、社會消費品零售總額和GDP 共5 個指標(biāo)作為預(yù)測模型的輸入變量（影響因素），工業(yè)增加值作為預(yù)測指標(biāo)。數(shù)據(jù)分析實驗在Python 3.8 環(huán)境下完成。

3.2 回歸算法選取

本小節(jié)主要使用了由Python 程序語言設(shè)計的sklearn 框架來構(gòu)建的GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 算法以及Cat-Boost 的預(yù)測模型。進(jìn)行機(jī)器學(xué)習(xí)回歸算法預(yù)測模型的構(gòu)建大致流程為：特征工程、樣本集拆分、回歸算法選擇、模型參數(shù)調(diào)優(yōu)、模型驗證與評估、模型預(yù)測。

詳細(xì)步驟描述如下：

1）將經(jīng)過預(yù)處理后的數(shù)據(jù)用作樣本集，首先將樣本集隨機(jī)劃分成8∶2 的比例，其中80%的樣本數(shù)據(jù)作為訓(xùn)練樣本集，20%作為測試樣本集，利用pyhton編程語言包sklearn.model_selection 中KFlod 交叉驗證法將樣本集劃分為訓(xùn)練集和測試集，模型的評估指標(biāo)為MAE、MSE、RMSE 和R2。

2）利用缺失參數(shù)構(gòu)建GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 和CatBoost算法模型。

3）采用粒子群優(yōu)化（PSO）算法對各預(yù)測模型進(jìn)行相應(yīng)的參數(shù)尋優(yōu)，對預(yù)測模型進(jìn)行優(yōu)化。

4）通過誤差分析，對上述優(yōu)化算法調(diào)整的模型的預(yù)測能力進(jìn)行對比分析，得到基于機(jī)器學(xué)習(xí)回歸算法的預(yù)測效果排名靠前模型。

5）檢驗?zāi)Ｐ偷姆€(wěn)定性，并進(jìn)行預(yù)測。

根據(jù)以上步驟，可以得到最優(yōu)模型對應(yīng)的最優(yōu)參數(shù)組合，如表1 所示。

表1 粒子群優(yōu)化參數(shù)設(shè)置

3.3 模型的優(yōu)選

本文建立了GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型，并采用搜索優(yōu)化算法對模型的重要參數(shù)進(jìn)行調(diào)整，最終模型的預(yù)測效果以MSE、MAE 和可決系數(shù)R2三種評價指標(biāo)來評估。

均方誤差（MSE）：計算值與真實值之間誤差的平方和的平均數(shù)，MSE 值越接近于0，表明模型越準(zhǔn)確。

平均絕對誤差（MAE）：計算值與真實值之間誤差的絕對平均值，MAE 值越接近0，表明模型越準(zhǔn)確。

可決系數(shù)（R2）：用來衡量回歸模型的擬合能力，R2值越接近于1，模型解釋因變量的能力越強(qiáng)，即模型擬合效果越好。

對工業(yè)增加值進(jìn)行預(yù)測，各預(yù)測模型真實值與預(yù)測值對比圖見圖3。

圖3 六種預(yù)測模型真實值與預(yù)測值對比

由圖3 可知，經(jīng)過粒子群優(yōu)化（PSO）參數(shù)優(yōu)化后的六種模型，PSO-GBDT 模型和PSO-XGBoost 模型相較于其他四種模型預(yù)測更準(zhǔn)確。而PSO-LightGBM模型預(yù)測相對不準(zhǔn)確。為更加清楚地看出各模型預(yù)測結(jié)果，計算各模型MSE、MAR 與可決系數(shù)R2，結(jié)果如表2 所示。

表2 模型指標(biāo)對比表

結(jié)果顯示，對比粒子群優(yōu)化后的模型指標(biāo)，依據(jù)模型預(yù)測性能的優(yōu)劣情況將其按降序排列：XGBoost＞AadBoost＞CatBoost＞RFR＞LightGBM＞GBDT，顯然，與其他模型相比，XGBoost 模型具有更優(yōu)的預(yù)測性能，MSE、MAE、精度分別為0.000 8、0.019、0.999 2。GBDT 在精度上達(dá)到1，但需要注意，這可能是一個異常值或過擬合的跡象。綜上所述，基于粒子群優(yōu)化的XGBoost 模型預(yù)測性能顯著優(yōu)于其他模型，對于工業(yè)增加值預(yù)測具有更好的效果。

4 結(jié)論

本研究深入研究了一系列影響工業(yè)增加值的指標(biāo)，時間范圍覆蓋了2003 年第一季度—2022 年第四季度。本文通過建立GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型，并采用粒子群優(yōu)化算法（PSO）對模型的重要參數(shù)進(jìn)行調(diào)整，最后以MSE、MAE、精度作為模型評價指標(biāo)。實驗結(jié)果清晰地展示了模型經(jīng)過粒子群優(yōu)化后的表現(xiàn)，依據(jù)模型預(yù)測性能的優(yōu)劣對其進(jìn)行排序：XGBoost＞Adaboost＞Cat-Boost＞RFR＞LightGBM＞GBDT。其中，基于粒子群優(yōu)化算法的XGBoost 模型在工業(yè)增加值預(yù)測中呈現(xiàn)出更為卓越的預(yù)測效果，為提高工業(yè)經(jīng)濟(jì)預(yù)測的準(zhǔn)確性提供了有力支持。

這一研究成果為未來工業(yè)經(jīng)濟(jì)趨勢的預(yù)測和決策提供了可靠的工具和方法。深入分析影響工業(yè)增加值的關(guān)鍵因素，并結(jié)合先進(jìn)的集成算法及優(yōu)化技術(shù)，為更準(zhǔn)確、可靠地預(yù)測中國工業(yè)經(jīng)濟(jì)發(fā)展趨勢奠定了基礎(chǔ)。這對于政府決策、企業(yè)戰(zhàn)略規(guī)劃以及投資者的決策過程都具有積極的指導(dǎo)意義。