999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成算法的工業(yè)增加值預(yù)測模型研究★

2024-05-27 14:30:56閆海波
關(guān)鍵詞:優(yōu)化模型

謝 洋, 閆海波

(新疆財經(jīng)大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院, 新疆 烏魯木齊 830012)

0 引言

工業(yè)是立國之本、強(qiáng)國之基,工業(yè)作為國家經(jīng)濟(jì)的支柱,對實體經(jīng)濟(jì)運行狀況的準(zhǔn)確把握至關(guān)重要。工業(yè)增加值作為國家經(jīng)濟(jì)的關(guān)鍵指標(biāo),在國民生產(chǎn)總值中占主導(dǎo)地位,同時在社會經(jīng)濟(jì)活動中扮演關(guān)鍵角色。工業(yè)的增長對國家建設(shè)、國際貿(mào)易、新技術(shù)創(chuàng)新以及落后地區(qū)經(jīng)濟(jì)發(fā)展都具有重要意義。

當(dāng)前,學(xué)術(shù)界對工業(yè)經(jīng)濟(jì)預(yù)測領(lǐng)域進(jìn)行了深入廣泛的研究。以吳彥軍、丘斌、王占峰[1]等人致力于運用大數(shù)據(jù)技術(shù),拓展工業(yè)經(jīng)濟(jì)統(tǒng)計與預(yù)測的應(yīng)用。這一研究方向為提高預(yù)測準(zhǔn)確性開辟了新的思路。朱云英[2]的研究強(qiáng)調(diào)了統(tǒng)計指標(biāo)和景氣指數(shù)在工業(yè)經(jīng)濟(jì)預(yù)測中的重要性,特別是企業(yè)景氣指數(shù)在模型預(yù)測工業(yè)增加值時所具備的信息可靠、前瞻性強(qiáng)、預(yù)測性強(qiáng)等特點,為工業(yè)統(tǒng)計指標(biāo)在預(yù)測中的關(guān)鍵作用提供了有力支持。

在工業(yè)增加值預(yù)測的研究中,學(xué)者們通常采用傳統(tǒng)方法和人工智能方法這兩大類。傳統(tǒng)方法主要包括回歸模型法[3]、趨勢外推法模型[4]以及時間序列模型[5]。盡管這些方法相對簡單,但由于受制于宏觀經(jīng)濟(jì)數(shù)據(jù)在短期預(yù)測中的限制,它們的預(yù)測精度存在一定下降。與此同時,人工智能方法包括隨機(jī)森林、自適應(yīng)增強(qiáng)、極致梯度增強(qiáng)、支持向量回歸機(jī)和神經(jīng)網(wǎng)絡(luò)等[6]。因此,顧海燕[7]等人提出了基于多個模型的融合算法,以適應(yīng)更復(fù)雜的非線性數(shù)據(jù)和不同應(yīng)用場景需求。

因此本文使用GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 算法模型,并采用粒子群優(yōu)化算法對模型的重要參數(shù)進(jìn)行調(diào)整,通過對比分析選出在工業(yè)增加值預(yù)測中表現(xiàn)更好的預(yù)測效果。

1 相關(guān)算法原理

1.1 隨機(jī)森林回歸(RFR)

RFR 是一種基于決策樹的集成學(xué)習(xí)算法。其基本思想是通過隨機(jī)抽取Bootstrap 樣本并建立多個決策樹模型,通過對多個模型的預(yù)測結(jié)果進(jìn)行平均化,提高回歸問題的預(yù)測準(zhǔn)確性。RFR 模型建立的主要步驟如下:

1)通過Bootstrap 方法在原始樣本集s 中抽取k個訓(xùn)練樣本集。

2)使用CART 學(xué)習(xí)對k 個訓(xùn)練集訓(xùn)練從而形成k 棵決策樹模型。在決策樹生成中,假設(shè)有N 個特征向量,從N 個特征向量中隨機(jī)選擇m 個,每個內(nèi)部節(jié)點在這m 個特征變量中進(jìn)行優(yōu)化劃分,m 值為隨機(jī)森林模型形成中的一個常數(shù)。

3)將k 棵決策樹的結(jié)果組合起來,得到最終結(jié)果。回歸問題使用簡單平均的組合方法。

1.2 AdaBoos 算法

AdaBoost 是一種基于Boosting 算法的迭代學(xué)習(xí)方法。在K 次迭代中,它根據(jù)每次迭代的誤差調(diào)整樣本權(quán)重,通過組合多個弱分類器構(gòu)建出一個強(qiáng)分類器,提高模型性能。

1.3 CatBoost 算法

CatBoost 是一種梯度提升框架,專為處理類型特征而設(shè)計。它通過處理類別特征的優(yōu)化方法,降低了過擬合風(fēng)險,提高了訓(xùn)練效率。CatBoost 使用一種基于有序Ordered TS 的排名提升方法來解決預(yù)測偏差問題。其主要思想是為訓(xùn)練集生成一個隨機(jī)序列,用前個樣本訓(xùn)練第個模型,并用它來擬合第個樣本,得到一個樣本殘差估計值。Ordered 模型能進(jìn)一步優(yōu)化時間復(fù)雜度,減少需要訓(xùn)練的模型數(shù)量。

1.4 GBDT 算法

GBDT 算法也被稱為梯度提升決策樹,是一種由多個決策樹組成的迭代算法[11],它通過不斷迭代,每次迭代都根據(jù)前一輪的殘差擬合一顆決策樹,最終通過組合多個弱分類器形成強(qiáng)分類器。

1.5 XGBoost 算法

XGBoost 是一種用于監(jiān)督學(xué)習(xí)算法中分類和回歸的極端梯度提升樹算法,由Chen 等人提出[12-14]。XGBoost 通過正則化控制樹模型復(fù)雜度,同時支持并行計算,提高了訓(xùn)練速度和模型性能。

1.6 LightGBM算法

LightGBM是一種基于梯度提升框架的決策樹算法,采用基于直方圖的學(xué)習(xí)方法,通過更高效的樹建立方式和并行學(xué)習(xí),提高了訓(xùn)練速度和效率。相比于決策樹,預(yù)測精度得到提升,使得該算法同時兼顧了訓(xùn)練速度和預(yù)測精度。

1.7 粒子群優(yōu)化算法

Kennedy 和R.Eberhart 在1995 年提出的粒子群優(yōu)化,粒子群優(yōu)化(PSO)是指為了模仿鳥群的捕食行為,大量引入無質(zhì)量的粒子,并賦予粒子兩個屬性:行進(jìn)方向和行進(jìn)速度[7]。每個粒子在搜索空間中單獨的搜尋最優(yōu)解,并將其記為當(dāng)前個體極值,并將個體極值與整個粒子群里的其他粒子共享,找到最優(yōu)的那個個體極值作為整個粒子群的當(dāng)前全局最優(yōu)解,粒子群中的所有粒子根據(jù)自己找到的當(dāng)前個體極值和整個粒子群共享的當(dāng)前全局最優(yōu)解來調(diào)整自己的速度和位置。

粒子群算法優(yōu)化過程如下:

步驟一:設(shè)置關(guān)鍵字參數(shù)個體記憶因子c1,群體記憶因子c2,種群規(guī)模pop 以及最大迭代次數(shù)max_iter。

步驟二:從給定參數(shù)值范圍中生成一個隨機(jī)種群,從種群中隨機(jī)選擇一組參數(shù)值作為初始種群,并根據(jù)生成初始種群的方法生成一組初始化速度值和隨機(jī)位置。

步驟三:定義目標(biāo)函數(shù)(適應(yīng)度函數(shù)),即將測試集輸入模型后,計算模型的均方根誤差。以初始種群以及種群個體作為參數(shù)輸入,計算個體適應(yīng)度和群體適應(yīng)度,更新并比較個體和群體適應(yīng)度,從而獲得個體極值(pbest)與其位置和群體(全局)極值(gbest)與其位置。

步驟四:迭代尋優(yōu),尋找速度與位置。

對粒子群的速度進(jìn)行更新,并對越界的速度進(jìn)行約束,速度更新公式為:

對粒子群的位置進(jìn)行約束,位置調(diào)整公式為:

步驟五:若滿足設(shè)定的最小誤差或最大迭代次數(shù),輸出粒子群的全局最優(yōu)值和其對應(yīng)的位置以及每個粒子的局部最優(yōu)值和其對應(yīng)的位置。

2 指標(biāo)選取與處理

2.1 數(shù)據(jù)來源

在工業(yè)增加值的預(yù)測中,本研究精心選擇了一系列指標(biāo),時間范圍覆蓋了2003 年第一季度至2022 年第四季度。這些指標(biāo)分為自然因素和社會因素兩大類,旨在深入理解它們對工業(yè)增加值的影響。

自然因素主要考慮了自然災(zāi)害、溫度和氣候等因素。盡管大規(guī)模的自然災(zāi)害,如火山噴發(fā)和地震,可能對工業(yè)產(chǎn)生短期負(fù)面影響,而溫度和氣候的變化也可能在一定程度上影響工業(yè)的成本,但由于這些因素的瞬時性和難以量化,在選擇預(yù)測工業(yè)增加值的指標(biāo)時決定不納入考慮。

本研究將焦點放在了社會因素上,包括固定資產(chǎn)投資、規(guī)模以上企業(yè)個數(shù)、GDP、居民消費價格指數(shù)、規(guī)模以上工業(yè)企業(yè)利潤總額、規(guī)模以上工業(yè)虧損企業(yè)虧損總額、規(guī)模以上工業(yè)企業(yè)發(fā)電量等。這些指標(biāo)是通過國家統(tǒng)計局統(tǒng)計得到的。

2.2 特征選擇

2.2.1 相關(guān)系數(shù)

對指標(biāo)進(jìn)行相關(guān)分析時,最常見的一種方法是計算相關(guān)系數(shù),它能夠反映出變量之間的線性相關(guān)程度。其計算方法為:

式中:ρx,y絕對值越大,說明相關(guān)性越強(qiáng)。其優(yōu)點是計算簡單;缺點是只能用來判斷變量之間的線性相關(guān)程度,而無法描述變量間的非線性關(guān)系,即使它們之間的非線性關(guān)系很顯著,相關(guān)系數(shù)仍可能接近0。

圖1 的熱力圖直觀地展示了特征之間以及各特征與目標(biāo)變量之間的相關(guān)系數(shù),可以初步分析特征的重要性。可以看出一些經(jīng)濟(jì)指標(biāo)之間存在較強(qiáng)的相關(guān)性。例如,固定資產(chǎn)投資、GDP、工業(yè)增加值等與其他指標(biāo)之間存在較強(qiáng)的正相關(guān)關(guān)系。這些觀察有助于了解不同經(jīng)濟(jì)因素之間的相互影響關(guān)系,為進(jìn)一步的分析和決策提供參考。

圖1 相關(guān)系數(shù)熱力圖

2.2.2 互信息

互信息屬于特征選擇中的一種過濾器方法,它能夠用來對變量之間的線性關(guān)系進(jìn)行描述,還能夠?qū)Ψ蔷€性關(guān)系進(jìn)行描述。通常既可以用于回歸也可以用于分類算法中。互信息的值越大,說明兩個變量之間的相關(guān)性較強(qiáng)。在特征選擇中,可以用互信息度量各個特征與目標(biāo)變量的依賴程度,從而篩選特征。其計算公式如下:

利用sklearn.feature_selection 中mutual_info_regression 函數(shù)可以得到各特征變量與目標(biāo)量的互信息值,對數(shù)據(jù)集中的特征運用互信息過濾法篩選。觀察可以發(fā)現(xiàn),大多數(shù)互信息值大于0.1,因此,選取了互信息值大于0.1 的特征,經(jīng)過篩選后,最終所選取的特征按互信息值從大到小排序如圖2 所示。

圖2 經(jīng)濟(jì)指標(biāo)互信息值

由圖2 可知,根據(jù)互信息分析,固定資產(chǎn)投資與工業(yè)增加值之間存在強(qiáng)烈的正相關(guān)性,互信息值達(dá)到0.879 0,顯示其具有較高的預(yù)測價值。相反,規(guī)模以上工業(yè)企業(yè)利潤總額的互信息值較低,表明其對工業(yè)增加值的影響相對較弱。GDP 的互信息值異常高,提示其在工業(yè)增加值預(yù)測中可能起著關(guān)鍵作用。因此,在選擇預(yù)測模型的輸入特征時,可以優(yōu)先考慮這些具有較高互信息值的指標(biāo),以提高模型的準(zhǔn)確性。

3 實證分析

3.1 數(shù)據(jù)準(zhǔn)備與實驗環(huán)境

本文選取固定資產(chǎn)投資、工業(yè)企業(yè)發(fā)電量、出口總額、社會消費品零售總額和GDP 共5 個指標(biāo)作為預(yù)測模型的輸入變量(影響因素),工業(yè)增加值作為預(yù)測指標(biāo)。數(shù)據(jù)分析實驗在Python 3.8 環(huán)境下完成。

3.2 回歸算法選取

本小節(jié)主要使用了由Python 程序語言設(shè)計的sklearn 框架來構(gòu)建的GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 算法以及Cat-Boost 的預(yù)測模型。進(jìn)行機(jī)器學(xué)習(xí)回歸算法預(yù)測模型的構(gòu)建大致流程為:特征工程、樣本集拆分、回歸算法選擇、模型參數(shù)調(diào)優(yōu)、模型驗證與評估、模型預(yù)測。

詳細(xì)步驟描述如下:

1)將經(jīng)過預(yù)處理后的數(shù)據(jù)用作樣本集,首先將樣本集隨機(jī)劃分成8∶2 的比例,其中80%的樣本數(shù)據(jù)作為訓(xùn)練樣本集,20%作為測試樣本集,利用pyhton編程語言包sklearn.model_selection 中KFlod 交叉驗證法將樣本集劃分為訓(xùn)練集和測試集,模型的評估指標(biāo)為MAE、MSE、RMSE 和R2。

2)利用缺失參數(shù)構(gòu)建GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 和CatBoost算法模型。

3)采用粒子群優(yōu)化(PSO)算法對各預(yù)測模型進(jìn)行相應(yīng)的參數(shù)尋優(yōu),對預(yù)測模型進(jìn)行優(yōu)化。

4)通過誤差分析,對上述優(yōu)化算法調(diào)整的模型的預(yù)測能力進(jìn)行對比分析,得到基于機(jī)器學(xué)習(xí)回歸算法的預(yù)測效果排名靠前模型。

5)檢驗?zāi)P偷姆€(wěn)定性,并進(jìn)行預(yù)測。

根據(jù)以上步驟,可以得到最優(yōu)模型對應(yīng)的最優(yōu)參數(shù)組合,如表1 所示。

表1 粒子群優(yōu)化參數(shù)設(shè)置

3.3 模型的優(yōu)選

本文建立了GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用搜索優(yōu)化算法對模型的重要參數(shù)進(jìn)行調(diào)整,最終模型的預(yù)測效果以MSE、MAE 和可決系數(shù)R2三種評價指標(biāo)來評估。

均方誤差(MSE):計算值與真實值之間誤差的平方和的平均數(shù),MSE 值越接近于0,表明模型越準(zhǔn)確。

平均絕對誤差(MAE):計算值與真實值之間誤差的絕對平均值,MAE 值越接近0,表明模型越準(zhǔn)確。

可決系數(shù)(R2):用來衡量回歸模型的擬合能力,R2值越接近于1,模型解釋因變量的能力越強(qiáng),即模型擬合效果越好。

對工業(yè)增加值進(jìn)行預(yù)測,各預(yù)測模型真實值與預(yù)測值對比圖見圖3。

圖3 六種預(yù)測模型真實值與預(yù)測值對比

由圖3 可知,經(jīng)過粒子群優(yōu)化(PSO)參數(shù)優(yōu)化后的六種模型,PSO-GBDT 模型和PSO-XGBoost 模型相較于其他四種模型預(yù)測更準(zhǔn)確。而PSO-LightGBM模型預(yù)測相對不準(zhǔn)確。為更加清楚地看出各模型預(yù)測結(jié)果,計算各模型MSE、MAR 與可決系數(shù)R2,結(jié)果如表2 所示。

表2 模型指標(biāo)對比表

結(jié)果顯示,對比粒子群優(yōu)化后的模型指標(biāo),依據(jù)模型預(yù)測性能的優(yōu)劣情況將其按降序排列:XGBoost>AadBoost>CatBoost>RFR>LightGBM>GBDT,顯然,與其他模型相比,XGBoost 模型具有更優(yōu)的預(yù)測性能,MSE、MAE、精度分別為0.000 8、0.019、0.999 2。GBDT 在精度上達(dá)到1,但需要注意,這可能是一個異常值或過擬合的跡象。綜上所述,基于粒子群優(yōu)化的XGBoost 模型預(yù)測性能顯著優(yōu)于其他模型,對于工業(yè)增加值預(yù)測具有更好的效果。

4 結(jié)論

本研究深入研究了一系列影響工業(yè)增加值的指標(biāo),時間范圍覆蓋了2003 年第一季度—2022 年第四季度。本文通過建立GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用粒子群優(yōu)化算法(PSO)對模型的重要參數(shù)進(jìn)行調(diào)整,最后以MSE、MAE、精度作為模型評價指標(biāo)。實驗結(jié)果清晰地展示了模型經(jīng)過粒子群優(yōu)化后的表現(xiàn),依據(jù)模型預(yù)測性能的優(yōu)劣對其進(jìn)行排序:XGBoost>Adaboost>Cat-Boost>RFR>LightGBM>GBDT。其中,基于粒子群優(yōu)化算法的XGBoost 模型在工業(yè)增加值預(yù)測中呈現(xiàn)出更為卓越的預(yù)測效果,為提高工業(yè)經(jīng)濟(jì)預(yù)測的準(zhǔn)確性提供了有力支持。

這一研究成果為未來工業(yè)經(jīng)濟(jì)趨勢的預(yù)測和決策提供了可靠的工具和方法。深入分析影響工業(yè)增加值的關(guān)鍵因素,并結(jié)合先進(jìn)的集成算法及優(yōu)化技術(shù),為更準(zhǔn)確、可靠地預(yù)測中國工業(yè)經(jīng)濟(jì)發(fā)展趨勢奠定了基礎(chǔ)。這對于政府決策、企業(yè)戰(zhàn)略規(guī)劃以及投資者的決策過程都具有積極的指導(dǎo)意義。

猜你喜歡
優(yōu)化模型
一半模型
超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
民用建筑防煙排煙設(shè)計優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 久久国产精品国产自线拍| 久久久久亚洲精品成人网| 日本成人一区| 亚洲天堂日韩在线| 亚洲第一视频网| 中文字幕亚洲专区第19页| 国内精品小视频福利网址| 在线观看免费黄色网址| 国产精品999在线| 亚洲综合亚洲国产尤物| 成人亚洲天堂| 伊人久久久久久久久久| 成人国产一区二区三区| 日本欧美精品| 亚洲日韩久久综合中文字幕| 亚洲最新地址| 色天堂无毒不卡| 激情国产精品一区| 都市激情亚洲综合久久| 精品视频一区在线观看| 99热国产这里只有精品无卡顿"| 久久综合九色综合97婷婷| 欧美精品另类| av天堂最新版在线| 在线另类稀缺国产呦| 日韩精品欧美国产在线| 国产又黄又硬又粗| 亚洲色欲色欲www在线观看| 国产精品无码作爱| 全免费a级毛片免费看不卡| 欧美精品在线看| 亚洲黄色片免费看| 日韩成人午夜| 色综合久久无码网| 99无码熟妇丰满人妻啪啪| 久久精品国产亚洲AV忘忧草18| 五月婷婷激情四射| 欧美日韩精品综合在线一区| 看国产一级毛片| 尤物在线观看乱码| 粉嫩国产白浆在线观看| 亚洲国产综合自在线另类| 亚洲成人手机在线| 四虎国产成人免费观看| 亚洲乱码在线播放| 日本a级免费| 国产AV毛片| 大香伊人久久| 日韩在线第三页| 亚洲日本在线免费观看| 最新国产午夜精品视频成人| 亚洲人妖在线| 国产真实乱人视频| 日韩成人免费网站| 福利在线免费视频| 久久久久88色偷偷| 99国产在线视频| 国产网友愉拍精品视频| 精品色综合| 亚洲91精品视频| 手机成人午夜在线视频| 亚洲国产精品久久久久秋霞影院| 国产精品一区二区不卡的视频| 成人国产精品2021| 无码精品国产dvd在线观看9久| 午夜不卡福利| 67194亚洲无码| 成人国产精品一级毛片天堂| 深夜福利视频一区二区| 久久精品国产国语对白| 欧美无专区| 亚洲毛片一级带毛片基地| 亚洲h视频在线| 欧美激情第一区| 中文字幕无线码一区| 国产成人久久综合一区| 亚洲欧美精品日韩欧美| 欧美亚洲国产视频| 看国产一级毛片| 97国内精品久久久久不卡| 精品国产一二三区| 日本一区高清|