999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成算法的工業(yè)增加值預(yù)測模型研究★

2024-05-27 14:30:56閆海波
關(guān)鍵詞:優(yōu)化模型

謝 洋, 閆海波

(新疆財經(jīng)大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院, 新疆 烏魯木齊 830012)

0 引言

工業(yè)是立國之本、強(qiáng)國之基,工業(yè)作為國家經(jīng)濟(jì)的支柱,對實體經(jīng)濟(jì)運行狀況的準(zhǔn)確把握至關(guān)重要。工業(yè)增加值作為國家經(jīng)濟(jì)的關(guān)鍵指標(biāo),在國民生產(chǎn)總值中占主導(dǎo)地位,同時在社會經(jīng)濟(jì)活動中扮演關(guān)鍵角色。工業(yè)的增長對國家建設(shè)、國際貿(mào)易、新技術(shù)創(chuàng)新以及落后地區(qū)經(jīng)濟(jì)發(fā)展都具有重要意義。

當(dāng)前,學(xué)術(shù)界對工業(yè)經(jīng)濟(jì)預(yù)測領(lǐng)域進(jìn)行了深入廣泛的研究。以吳彥軍、丘斌、王占峰[1]等人致力于運用大數(shù)據(jù)技術(shù),拓展工業(yè)經(jīng)濟(jì)統(tǒng)計與預(yù)測的應(yīng)用。這一研究方向為提高預(yù)測準(zhǔn)確性開辟了新的思路。朱云英[2]的研究強(qiáng)調(diào)了統(tǒng)計指標(biāo)和景氣指數(shù)在工業(yè)經(jīng)濟(jì)預(yù)測中的重要性,特別是企業(yè)景氣指數(shù)在模型預(yù)測工業(yè)增加值時所具備的信息可靠、前瞻性強(qiáng)、預(yù)測性強(qiáng)等特點,為工業(yè)統(tǒng)計指標(biāo)在預(yù)測中的關(guān)鍵作用提供了有力支持。

在工業(yè)增加值預(yù)測的研究中,學(xué)者們通常采用傳統(tǒng)方法和人工智能方法這兩大類。傳統(tǒng)方法主要包括回歸模型法[3]、趨勢外推法模型[4]以及時間序列模型[5]。盡管這些方法相對簡單,但由于受制于宏觀經(jīng)濟(jì)數(shù)據(jù)在短期預(yù)測中的限制,它們的預(yù)測精度存在一定下降。與此同時,人工智能方法包括隨機(jī)森林、自適應(yīng)增強(qiáng)、極致梯度增強(qiáng)、支持向量回歸機(jī)和神經(jīng)網(wǎng)絡(luò)等[6]。因此,顧海燕[7]等人提出了基于多個模型的融合算法,以適應(yīng)更復(fù)雜的非線性數(shù)據(jù)和不同應(yīng)用場景需求。

因此本文使用GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 算法模型,并采用粒子群優(yōu)化算法對模型的重要參數(shù)進(jìn)行調(diào)整,通過對比分析選出在工業(yè)增加值預(yù)測中表現(xiàn)更好的預(yù)測效果。

1 相關(guān)算法原理

1.1 隨機(jī)森林回歸(RFR)

RFR 是一種基于決策樹的集成學(xué)習(xí)算法。其基本思想是通過隨機(jī)抽取Bootstrap 樣本并建立多個決策樹模型,通過對多個模型的預(yù)測結(jié)果進(jìn)行平均化,提高回歸問題的預(yù)測準(zhǔn)確性。RFR 模型建立的主要步驟如下:

1)通過Bootstrap 方法在原始樣本集s 中抽取k個訓(xùn)練樣本集。

2)使用CART 學(xué)習(xí)對k 個訓(xùn)練集訓(xùn)練從而形成k 棵決策樹模型。在決策樹生成中,假設(shè)有N 個特征向量,從N 個特征向量中隨機(jī)選擇m 個,每個內(nèi)部節(jié)點在這m 個特征變量中進(jìn)行優(yōu)化劃分,m 值為隨機(jī)森林模型形成中的一個常數(shù)。

3)將k 棵決策樹的結(jié)果組合起來,得到最終結(jié)果。回歸問題使用簡單平均的組合方法。

1.2 AdaBoos 算法

AdaBoost 是一種基于Boosting 算法的迭代學(xué)習(xí)方法。在K 次迭代中,它根據(jù)每次迭代的誤差調(diào)整樣本權(quán)重,通過組合多個弱分類器構(gòu)建出一個強(qiáng)分類器,提高模型性能。

1.3 CatBoost 算法

CatBoost 是一種梯度提升框架,專為處理類型特征而設(shè)計。它通過處理類別特征的優(yōu)化方法,降低了過擬合風(fēng)險,提高了訓(xùn)練效率。CatBoost 使用一種基于有序Ordered TS 的排名提升方法來解決預(yù)測偏差問題。其主要思想是為訓(xùn)練集生成一個隨機(jī)序列,用前個樣本訓(xùn)練第個模型,并用它來擬合第個樣本,得到一個樣本殘差估計值。Ordered 模型能進(jìn)一步優(yōu)化時間復(fù)雜度,減少需要訓(xùn)練的模型數(shù)量。

1.4 GBDT 算法

GBDT 算法也被稱為梯度提升決策樹,是一種由多個決策樹組成的迭代算法[11],它通過不斷迭代,每次迭代都根據(jù)前一輪的殘差擬合一顆決策樹,最終通過組合多個弱分類器形成強(qiáng)分類器。

1.5 XGBoost 算法

XGBoost 是一種用于監(jiān)督學(xué)習(xí)算法中分類和回歸的極端梯度提升樹算法,由Chen 等人提出[12-14]。XGBoost 通過正則化控制樹模型復(fù)雜度,同時支持并行計算,提高了訓(xùn)練速度和模型性能。

1.6 LightGBM算法

LightGBM是一種基于梯度提升框架的決策樹算法,采用基于直方圖的學(xué)習(xí)方法,通過更高效的樹建立方式和并行學(xué)習(xí),提高了訓(xùn)練速度和效率。相比于決策樹,預(yù)測精度得到提升,使得該算法同時兼顧了訓(xùn)練速度和預(yù)測精度。

1.7 粒子群優(yōu)化算法

Kennedy 和R.Eberhart 在1995 年提出的粒子群優(yōu)化,粒子群優(yōu)化(PSO)是指為了模仿鳥群的捕食行為,大量引入無質(zhì)量的粒子,并賦予粒子兩個屬性:行進(jìn)方向和行進(jìn)速度[7]。每個粒子在搜索空間中單獨的搜尋最優(yōu)解,并將其記為當(dāng)前個體極值,并將個體極值與整個粒子群里的其他粒子共享,找到最優(yōu)的那個個體極值作為整個粒子群的當(dāng)前全局最優(yōu)解,粒子群中的所有粒子根據(jù)自己找到的當(dāng)前個體極值和整個粒子群共享的當(dāng)前全局最優(yōu)解來調(diào)整自己的速度和位置。

粒子群算法優(yōu)化過程如下:

步驟一:設(shè)置關(guān)鍵字參數(shù)個體記憶因子c1,群體記憶因子c2,種群規(guī)模pop 以及最大迭代次數(shù)max_iter。

步驟二:從給定參數(shù)值范圍中生成一個隨機(jī)種群,從種群中隨機(jī)選擇一組參數(shù)值作為初始種群,并根據(jù)生成初始種群的方法生成一組初始化速度值和隨機(jī)位置。

步驟三:定義目標(biāo)函數(shù)(適應(yīng)度函數(shù)),即將測試集輸入模型后,計算模型的均方根誤差。以初始種群以及種群個體作為參數(shù)輸入,計算個體適應(yīng)度和群體適應(yīng)度,更新并比較個體和群體適應(yīng)度,從而獲得個體極值(pbest)與其位置和群體(全局)極值(gbest)與其位置。

步驟四:迭代尋優(yōu),尋找速度與位置。

對粒子群的速度進(jìn)行更新,并對越界的速度進(jìn)行約束,速度更新公式為:

對粒子群的位置進(jìn)行約束,位置調(diào)整公式為:

步驟五:若滿足設(shè)定的最小誤差或最大迭代次數(shù),輸出粒子群的全局最優(yōu)值和其對應(yīng)的位置以及每個粒子的局部最優(yōu)值和其對應(yīng)的位置。

2 指標(biāo)選取與處理

2.1 數(shù)據(jù)來源

在工業(yè)增加值的預(yù)測中,本研究精心選擇了一系列指標(biāo),時間范圍覆蓋了2003 年第一季度至2022 年第四季度。這些指標(biāo)分為自然因素和社會因素兩大類,旨在深入理解它們對工業(yè)增加值的影響。

自然因素主要考慮了自然災(zāi)害、溫度和氣候等因素。盡管大規(guī)模的自然災(zāi)害,如火山噴發(fā)和地震,可能對工業(yè)產(chǎn)生短期負(fù)面影響,而溫度和氣候的變化也可能在一定程度上影響工業(yè)的成本,但由于這些因素的瞬時性和難以量化,在選擇預(yù)測工業(yè)增加值的指標(biāo)時決定不納入考慮。

本研究將焦點放在了社會因素上,包括固定資產(chǎn)投資、規(guī)模以上企業(yè)個數(shù)、GDP、居民消費價格指數(shù)、規(guī)模以上工業(yè)企業(yè)利潤總額、規(guī)模以上工業(yè)虧損企業(yè)虧損總額、規(guī)模以上工業(yè)企業(yè)發(fā)電量等。這些指標(biāo)是通過國家統(tǒng)計局統(tǒng)計得到的。

2.2 特征選擇

2.2.1 相關(guān)系數(shù)

對指標(biāo)進(jìn)行相關(guān)分析時,最常見的一種方法是計算相關(guān)系數(shù),它能夠反映出變量之間的線性相關(guān)程度。其計算方法為:

式中:ρx,y絕對值越大,說明相關(guān)性越強(qiáng)。其優(yōu)點是計算簡單;缺點是只能用來判斷變量之間的線性相關(guān)程度,而無法描述變量間的非線性關(guān)系,即使它們之間的非線性關(guān)系很顯著,相關(guān)系數(shù)仍可能接近0。

圖1 的熱力圖直觀地展示了特征之間以及各特征與目標(biāo)變量之間的相關(guān)系數(shù),可以初步分析特征的重要性。可以看出一些經(jīng)濟(jì)指標(biāo)之間存在較強(qiáng)的相關(guān)性。例如,固定資產(chǎn)投資、GDP、工業(yè)增加值等與其他指標(biāo)之間存在較強(qiáng)的正相關(guān)關(guān)系。這些觀察有助于了解不同經(jīng)濟(jì)因素之間的相互影響關(guān)系,為進(jìn)一步的分析和決策提供參考。

圖1 相關(guān)系數(shù)熱力圖

2.2.2 互信息

互信息屬于特征選擇中的一種過濾器方法,它能夠用來對變量之間的線性關(guān)系進(jìn)行描述,還能夠?qū)Ψ蔷€性關(guān)系進(jìn)行描述。通常既可以用于回歸也可以用于分類算法中。互信息的值越大,說明兩個變量之間的相關(guān)性較強(qiáng)。在特征選擇中,可以用互信息度量各個特征與目標(biāo)變量的依賴程度,從而篩選特征。其計算公式如下:

利用sklearn.feature_selection 中mutual_info_regression 函數(shù)可以得到各特征變量與目標(biāo)量的互信息值,對數(shù)據(jù)集中的特征運用互信息過濾法篩選。觀察可以發(fā)現(xiàn),大多數(shù)互信息值大于0.1,因此,選取了互信息值大于0.1 的特征,經(jīng)過篩選后,最終所選取的特征按互信息值從大到小排序如圖2 所示。

圖2 經(jīng)濟(jì)指標(biāo)互信息值

由圖2 可知,根據(jù)互信息分析,固定資產(chǎn)投資與工業(yè)增加值之間存在強(qiáng)烈的正相關(guān)性,互信息值達(dá)到0.879 0,顯示其具有較高的預(yù)測價值。相反,規(guī)模以上工業(yè)企業(yè)利潤總額的互信息值較低,表明其對工業(yè)增加值的影響相對較弱。GDP 的互信息值異常高,提示其在工業(yè)增加值預(yù)測中可能起著關(guān)鍵作用。因此,在選擇預(yù)測模型的輸入特征時,可以優(yōu)先考慮這些具有較高互信息值的指標(biāo),以提高模型的準(zhǔn)確性。

3 實證分析

3.1 數(shù)據(jù)準(zhǔn)備與實驗環(huán)境

本文選取固定資產(chǎn)投資、工業(yè)企業(yè)發(fā)電量、出口總額、社會消費品零售總額和GDP 共5 個指標(biāo)作為預(yù)測模型的輸入變量(影響因素),工業(yè)增加值作為預(yù)測指標(biāo)。數(shù)據(jù)分析實驗在Python 3.8 環(huán)境下完成。

3.2 回歸算法選取

本小節(jié)主要使用了由Python 程序語言設(shè)計的sklearn 框架來構(gòu)建的GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 算法以及Cat-Boost 的預(yù)測模型。進(jìn)行機(jī)器學(xué)習(xí)回歸算法預(yù)測模型的構(gòu)建大致流程為:特征工程、樣本集拆分、回歸算法選擇、模型參數(shù)調(diào)優(yōu)、模型驗證與評估、模型預(yù)測。

詳細(xì)步驟描述如下:

1)將經(jīng)過預(yù)處理后的數(shù)據(jù)用作樣本集,首先將樣本集隨機(jī)劃分成8∶2 的比例,其中80%的樣本數(shù)據(jù)作為訓(xùn)練樣本集,20%作為測試樣本集,利用pyhton編程語言包sklearn.model_selection 中KFlod 交叉驗證法將樣本集劃分為訓(xùn)練集和測試集,模型的評估指標(biāo)為MAE、MSE、RMSE 和R2。

2)利用缺失參數(shù)構(gòu)建GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 和CatBoost算法模型。

3)采用粒子群優(yōu)化(PSO)算法對各預(yù)測模型進(jìn)行相應(yīng)的參數(shù)尋優(yōu),對預(yù)測模型進(jìn)行優(yōu)化。

4)通過誤差分析,對上述優(yōu)化算法調(diào)整的模型的預(yù)測能力進(jìn)行對比分析,得到基于機(jī)器學(xué)習(xí)回歸算法的預(yù)測效果排名靠前模型。

5)檢驗?zāi)P偷姆€(wěn)定性,并進(jìn)行預(yù)測。

根據(jù)以上步驟,可以得到最優(yōu)模型對應(yīng)的最優(yōu)參數(shù)組合,如表1 所示。

表1 粒子群優(yōu)化參數(shù)設(shè)置

3.3 模型的優(yōu)選

本文建立了GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用搜索優(yōu)化算法對模型的重要參數(shù)進(jìn)行調(diào)整,最終模型的預(yù)測效果以MSE、MAE 和可決系數(shù)R2三種評價指標(biāo)來評估。

均方誤差(MSE):計算值與真實值之間誤差的平方和的平均數(shù),MSE 值越接近于0,表明模型越準(zhǔn)確。

平均絕對誤差(MAE):計算值與真實值之間誤差的絕對平均值,MAE 值越接近0,表明模型越準(zhǔn)確。

可決系數(shù)(R2):用來衡量回歸模型的擬合能力,R2值越接近于1,模型解釋因變量的能力越強(qiáng),即模型擬合效果越好。

對工業(yè)增加值進(jìn)行預(yù)測,各預(yù)測模型真實值與預(yù)測值對比圖見圖3。

圖3 六種預(yù)測模型真實值與預(yù)測值對比

由圖3 可知,經(jīng)過粒子群優(yōu)化(PSO)參數(shù)優(yōu)化后的六種模型,PSO-GBDT 模型和PSO-XGBoost 模型相較于其他四種模型預(yù)測更準(zhǔn)確。而PSO-LightGBM模型預(yù)測相對不準(zhǔn)確。為更加清楚地看出各模型預(yù)測結(jié)果,計算各模型MSE、MAR 與可決系數(shù)R2,結(jié)果如表2 所示。

表2 模型指標(biāo)對比表

結(jié)果顯示,對比粒子群優(yōu)化后的模型指標(biāo),依據(jù)模型預(yù)測性能的優(yōu)劣情況將其按降序排列:XGBoost>AadBoost>CatBoost>RFR>LightGBM>GBDT,顯然,與其他模型相比,XGBoost 模型具有更優(yōu)的預(yù)測性能,MSE、MAE、精度分別為0.000 8、0.019、0.999 2。GBDT 在精度上達(dá)到1,但需要注意,這可能是一個異常值或過擬合的跡象。綜上所述,基于粒子群優(yōu)化的XGBoost 模型預(yù)測性能顯著優(yōu)于其他模型,對于工業(yè)增加值預(yù)測具有更好的效果。

4 結(jié)論

本研究深入研究了一系列影響工業(yè)增加值的指標(biāo),時間范圍覆蓋了2003 年第一季度—2022 年第四季度。本文通過建立GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用粒子群優(yōu)化算法(PSO)對模型的重要參數(shù)進(jìn)行調(diào)整,最后以MSE、MAE、精度作為模型評價指標(biāo)。實驗結(jié)果清晰地展示了模型經(jīng)過粒子群優(yōu)化后的表現(xiàn),依據(jù)模型預(yù)測性能的優(yōu)劣對其進(jìn)行排序:XGBoost>Adaboost>Cat-Boost>RFR>LightGBM>GBDT。其中,基于粒子群優(yōu)化算法的XGBoost 模型在工業(yè)增加值預(yù)測中呈現(xiàn)出更為卓越的預(yù)測效果,為提高工業(yè)經(jīng)濟(jì)預(yù)測的準(zhǔn)確性提供了有力支持。

這一研究成果為未來工業(yè)經(jīng)濟(jì)趨勢的預(yù)測和決策提供了可靠的工具和方法。深入分析影響工業(yè)增加值的關(guān)鍵因素,并結(jié)合先進(jìn)的集成算法及優(yōu)化技術(shù),為更準(zhǔn)確、可靠地預(yù)測中國工業(yè)經(jīng)濟(jì)發(fā)展趨勢奠定了基礎(chǔ)。這對于政府決策、企業(yè)戰(zhàn)略規(guī)劃以及投資者的決策過程都具有積極的指導(dǎo)意義。

猜你喜歡
優(yōu)化模型
一半模型
超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
民用建筑防煙排煙設(shè)計優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产xx在线观看| 中文字幕中文字字幕码一二区| 一级看片免费视频| 国产精品99在线观看| 国产农村精品一级毛片视频| 91久久国产成人免费观看| 天天综合亚洲| 亚洲中文字幕23页在线| 亚洲天堂久久| 亚洲三级色| 青青草国产在线视频| 青青草原国产av福利网站| 日本五区在线不卡精品| 亚洲日韩欧美在线观看| 亚洲成在人线av品善网好看| 青青青国产视频手机| 亚洲精品无码抽插日韩| 国产无码精品在线| 四虎成人免费毛片| 国产一区二区影院| 成人久久精品一区二区三区| 91在线国内在线播放老师| 在线播放精品一区二区啪视频| 黄片在线永久| 国禁国产you女视频网站| 色综合狠狠操| 欧美精品在线免费| a毛片免费看| 色婷婷啪啪| 8090成人午夜精品| 亚洲色图在线观看| 综合色亚洲| 色135综合网| 亚洲国产黄色| 大学生久久香蕉国产线观看| 亚洲精品天堂自在久久77| 毛片免费在线视频| 国产拍揄自揄精品视频网站| 免费在线a视频| 久久久精品国产SM调教网站| 又黄又湿又爽的视频| 超碰91免费人妻| 免费看久久精品99| a国产精品| 久久精品66| 国产精品蜜臀| 农村乱人伦一区二区| 一级毛片无毒不卡直接观看| 不卡午夜视频| 国产农村妇女精品一二区| 亚洲天堂福利视频| 精品成人一区二区三区电影 | 91国内视频在线观看| 国产专区综合另类日韩一区| 亚洲欧洲美色一区二区三区| 欧美中文字幕在线播放| 54pao国产成人免费视频| 亚洲人成网站18禁动漫无码| 波多野结衣久久高清免费| 无码在线激情片| 欧美亚洲另类在线观看| 国产精品原创不卡在线| 国产成人无码Av在线播放无广告| 欧美国产日韩在线观看| 国产主播福利在线观看| 精品国产免费观看一区| 免费a级毛片18以上观看精品| a级毛片免费播放| 91破解版在线亚洲| 国产xx在线观看| 综合色88| 精品人妻无码区在线视频| 狠狠色综合久久狠狠色综合| 国产精品成人AⅤ在线一二三四| аⅴ资源中文在线天堂| 欧美日韩北条麻妃一区二区| 午夜少妇精品视频小电影| 亚洲日本中文综合在线| 99尹人香蕉国产免费天天拍| 午夜不卡福利| 国内精品视频在线| 亚洲国产午夜精华无码福利|