摘 要: 為了提高PM2.5 濃度的預(yù)測精度,基于PM2.5 序列的復(fù)雜性和非線性,提出孤立森林(isolated forests,IF)異常值檢測、逐次變分模態(tài)分解( successive variational mode decomposition, SVMD) 和白鯨魚算法( Beluga whaleoptimization,BWO)優(yōu)化長短期記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)相結(jié)合的預(yù)測模型。首先,利用孤立森林算法清除數(shù)據(jù)中異常值;其次使用SVMD 將原始不平穩(wěn)的PM2.5 序列進(jìn)行分解,去除噪聲數(shù)據(jù)后得到多個平穩(wěn)的固有模態(tài)分量和殘差分量,提高模型預(yù)測精度;然后,對分解后各個子序列使用LSTM 進(jìn)行預(yù)測,并利用BWO算法優(yōu)化LSTM 的權(quán)重和閾值,進(jìn)一步提高組合模型的預(yù)測精度;最后將各個子序列進(jìn)行疊加得到最終的預(yù)測結(jié)果。實(shí)驗(yàn)結(jié)果表明:IF-SVMD-BWO-LSTM 模型在均方根誤差比SVMD-BWO-LSTM 模型和BWO-LSTM 模型分別降低了4.03 μg/m3 和10.3 μg/m3。在擬合度方面,該模型比SVMD-BWO-LSTM 模型和BWO-LSTM 模型分別高了3.8%和9.5%。因此在空氣質(zhì)量預(yù)測上,該組合模型提高了PM2.5 預(yù)測精度,達(dá)到預(yù)期的預(yù)測效果。
關(guān)鍵詞: PM2.5 預(yù)測; 孤立森林; 逐次變分模態(tài)分解; 白鯨魚算法; 長短期記憶網(wǎng)絡(luò)
中圖分類號: TB9; TP393; TN98 文獻(xiàn)標(biāo)志碼: A 文章編號: 1674–5124(2024)11–0173–12
0 引 言
隨著工業(yè)化和城市化進(jìn)程加快,空氣污染日益嚴(yán)重,霧霾天氣迅速增加,尤其是在發(fā)展中國家。近年來,中國許多地區(qū)的霧霾天氣變得越來越嚴(yán)重,嚴(yán)重污染的空氣會對經(jīng)濟(jì)和人民生活造成巨大破壞[1]。因此,PM2.5 的準(zhǔn)確預(yù)測對于空氣污染的防治具有重要意義。
目前,我國在許多城市建立了環(huán)境監(jiān)測系統(tǒng),可以提供大量的顆粒物監(jiān)測數(shù)據(jù)[2]。然而,PM2.5 數(shù)據(jù)受到許多因素的影響,并且隨著時間的推移波動很大,這使得PM2.5 的預(yù)測變得非常困難[3]。因此,為了提高預(yù)測的準(zhǔn)確性,研究人員開發(fā)了許多模型和工具來預(yù)測PM2.5 和其他空氣污染物濃度。這些模型可分為物理模型、統(tǒng)計(jì)模型[4] 和混合模型[5]。物理模型可以通過氣象、排放和化學(xué)模型來模擬污染物的排放、擴(kuò)散和轉(zhuǎn)移過程。統(tǒng)計(jì)模型主要包括自回歸模型(autoregressive model,AR)[6]、自回歸綜合移動模型( autoregressive comprehensive moving,ARIMA) [7] 和多元線性回歸模型( multiple linearregression,MLR)[8]。上述預(yù)測模型原理簡單,預(yù)測速度較快,在短期預(yù)測中可以產(chǎn)生良好的預(yù)測結(jié)果。然而,在實(shí)踐中,大多數(shù)污染物序列是非線性和不規(guī)則的,因此這些線性算法在預(yù)測PM2.5 濃度方面仍然存在問題。
近年來,為了更準(zhǔn)確地預(yù)測空氣質(zhì)量,提出了許多基于集成學(xué)習(xí)范式、數(shù)據(jù)預(yù)處理技術(shù)和元啟發(fā)式算法的混合模型。文獻(xiàn)[9] 開發(fā)了一種基于小波變換( wavelet transform, WT) 、疊加自動編碼器(stacking automatic encoder ,SAE)和長短時記憶的新型混合模型,以模擬中國6 個地點(diǎn)的PM2.5。文獻(xiàn)[10] 開發(fā)了一個基于WT 和神經(jīng)網(wǎng)絡(luò)算法組合的模型,以分解PM2.5 數(shù)據(jù),然后進(jìn)行子序列預(yù)測分析,最后進(jìn)行數(shù)據(jù)重建。文獻(xiàn)[11] 提出了一種新的PM2.5 混合預(yù)測模型, 使用差分進(jìn)化( differentialevolution,DE)算法優(yōu)化的BPNN 預(yù)測每個分解序列。此外,還使用許多啟發(fā)式算法來優(yōu)化集成模型的權(quán)重和閾值。包括粒子群算法(PSO)[12]、麻雀搜索算法(SSA)[13]、烏鴉搜索算法(CSA)[14] 以及白鯨魚算法(BWO)[15]。與其他優(yōu)化相比,BWO 算法具有高性能全局搜索能力、更好的穩(wěn)定性和收斂精度等優(yōu)點(diǎn)。文獻(xiàn)[16] 提出了基于麻雀算法(SSA)優(yōu)化LSTM 模型,以確定變壓器油中溶解氣體濃度預(yù)測的最佳權(quán)重。文獻(xiàn)[17] 采用改進(jìn)烏鴉搜索算法(ICSA)優(yōu)化SVM 模型的權(quán)重系數(shù)。
通常,時間序列數(shù)據(jù)包含大量噪聲且維度較高。但機(jī)器學(xué)習(xí)在利用時間序列挖掘數(shù)據(jù)時無法處理噪聲影響,這會導(dǎo)致預(yù)測結(jié)果出現(xiàn)較大誤差。因此本文采用信號處理方法來降低噪聲維度并消除部分噪聲。Wu[18] 和朱[19] 等分別采用經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)和集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)來分解數(shù)據(jù)。但是EMD 和EEMD 分解數(shù)據(jù)后依然存在較大的誤差。VMD 是一種有效信號分解方法,但在分解信號前需要確定分解模態(tài)數(shù)K 值,無法實(shí)現(xiàn)信號自適應(yīng)分解。文獻(xiàn)[20] 采用VMD 算法對負(fù)荷數(shù)據(jù)進(jìn)行分解,但分解的結(jié)果受K 值大小的影響且無法實(shí)現(xiàn)自適應(yīng)信號分解,存在一定的局限性。文獻(xiàn)[21]采用改進(jìn)粒子群算法選取最優(yōu)K 值,但引入了額外的計(jì)算負(fù)擔(dān),增加了計(jì)算復(fù)雜度。逐次變分模態(tài)分解(SVMD)算法是一種高效、快速的自適應(yīng)信號變分分解方法,這種新的分解方法以連續(xù)的方式提取所有模態(tài)分量(IMF),不需要知道模式的數(shù)量,且計(jì)算復(fù)雜度低。
針對上述問題,本文提出一種基于孤立森林(isolated forests,IF)、逐次變分模態(tài)分解(successive"variational mode decomposition,SVMD)和白鯨魚算法( Beluga whale optimization, BWO)優(yōu)化長短期記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)的組合預(yù)測模型(IF-SVMD-BWO-LSTM)。首先,使用孤立森林算法對原始數(shù)據(jù)進(jìn)行異常值檢測,去除異常值,提高模型預(yù)測精度。其次,利用SVMD算法對去除異常值的原始PM2.5 數(shù)據(jù)進(jìn)行分解,既可以去除數(shù)據(jù)中的噪聲又可以完整保留有效信號。利用白鯨魚算法對于LSTM 模型的權(quán)重和閾值進(jìn)行優(yōu)化更新,提高模型的預(yù)測精度。最后將各個子序列的預(yù)測值進(jìn)行疊加得到最終的預(yù)測值。利用該模型對河北省石家莊市空氣質(zhì)量進(jìn)行預(yù)測和對比分析,以驗(yàn)證本文所提模型的可行性和優(yōu)越性。