趙煜 韓旭昊



收稿日期: 2023-04-06
基金項(xiàng)目:國(guó)家社會(huì)科學(xué)基金項(xiàng)目(21XTJ004).
作者簡(jiǎn)介:通訊作者:趙煜(1972—),女,土族,甘肅臨洮縣人,博士,教授,主要研究方向?yàn)閼?yīng)用數(shù)理統(tǒng)計(jì)、生態(tài)經(jīng)濟(jì)統(tǒng)計(jì).
引用格式:趙煜,韓旭昊.基于CEEMDAN-LSTM組合的蘭州空氣質(zhì)量指數(shù)預(yù)測(cè)[J].安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,46(5):433-439.
DOI:10.14182/J.cnki.1001-2443.2023.05.004
摘要:針對(duì)蘭州空氣質(zhì)量指數(shù)存在波動(dòng)大和數(shù)據(jù)長(zhǎng)期依賴性的問(wèn)題,提出了一種基于CEEMDAN-LSTM組合的預(yù)測(cè)模型,并與EEMD-LSTM和LSTM模型進(jìn)行了比較。首先采用CEEMDAN對(duì)蘭州空氣質(zhì)量指數(shù)序列進(jìn)行分解,然后使用LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)得到各個(gè)分量,最后疊加各分量的預(yù)測(cè)值重構(gòu)空氣質(zhì)量指數(shù)預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,CEEMDAN-LSTM模型相比于LSTM模型和EEMD-LSTM模型,具有更小的預(yù)測(cè)誤差和更高的預(yù)測(cè)精度。這得益于CEEMDAN方法的有效降噪和LSTM模型對(duì)長(zhǎng)期依賴關(guān)系的強(qiáng)大處理能力。因此,該組合模型在蘭州空氣質(zhì)量指數(shù)預(yù)測(cè)方面具有一定的實(shí)用價(jià)值。
關(guān)鍵詞:蘭州;空氣質(zhì)量指數(shù);LSTM神經(jīng)網(wǎng)絡(luò);CEEMDAN模態(tài)分解
中圖分類號(hào):X823 文獻(xiàn)標(biāo)志碼:A 文章編碼:1001-2443(2023)05-0433-07
引言
空氣質(zhì)量指數(shù)(AQI)是反映空氣質(zhì)量狀況的綜合指數(shù),為評(píng)估區(qū)域空氣質(zhì)量及后續(xù)預(yù)防和治理空氣污染提供了重要的量化依據(jù)。由于氣象過(guò)程的多變性和隨機(jī)性,準(zhǔn)確預(yù)測(cè)空氣質(zhì)量指數(shù)相對(duì)困難,不同學(xué)者從不同角度引入多種模型,以期提升AQI預(yù)測(cè)的精度與穩(wěn)定性,在早期的研究中,主要采用各個(gè)不同領(lǐng)域的單一方法。例如:李博群等[1]利用數(shù)學(xué)方法,引入模糊時(shí)間序列理論進(jìn)行預(yù)測(cè);Sigamani等[2]基于統(tǒng)計(jì)思想,建立多元線性回歸模型進(jìn)行預(yù)測(cè);吳慧靜等[3]借助機(jī)器學(xué)習(xí)模式,采用遺傳算法改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。當(dāng)前的研究趨勢(shì)主要是從智能算法、影響因素挖掘和序列屬性分解三個(gè)角度進(jìn)行深入探究。
智能算法角度:許毅蓉等[4]運(yùn)用參數(shù)自動(dòng)化智能算法得到AQI預(yù)測(cè)模型的最優(yōu)參數(shù),避免了傳統(tǒng)機(jī)器學(xué)習(xí)模型中運(yùn)行速度慢的問(wèn)題;龔榮等[5]通過(guò)改進(jìn)海洋捕食者算法增強(qiáng)了該算法的全局搜索能力,提高了空氣質(zhì)量指數(shù)預(yù)測(cè)的精度和可靠性;Zhan等[6]將開(kāi)發(fā)的分解算法與廣義學(xué)習(xí)系統(tǒng)(BLS)相結(jié)合,構(gòu)建了一種更簡(jiǎn)單高效的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)空氣質(zhì)量指數(shù)時(shí)模型訓(xùn)練速度更快;Chhikara等[7]使用聯(lián)邦學(xué)習(xí)(FL)算法收集數(shù)據(jù),創(chuàng)建了一個(gè)全局模型,通過(guò)不斷迭代更新數(shù)據(jù),該模型相比其他時(shí)間序列模型預(yù)測(cè)誤差更小。盡管基于智能算法的空氣質(zhì)量指數(shù)預(yù)測(cè)方法簡(jiǎn)單且快速,但容易出現(xiàn)欠擬合問(wèn)題。
影響因素挖掘角度:劉媛媛等[8]考慮時(shí)空因素的影響,引入注意力機(jī)制以關(guān)注重要特征,從而提升預(yù)測(cè)效果;李志剛等[9]采用交叉遞歸定量分析AQI影響因素間的關(guān)聯(lián)度,篩選影響AQI的重要因素,為后續(xù)預(yù)測(cè)提供優(yōu)質(zhì)的先驗(yàn)數(shù)據(jù);李乾等[10]以主成分分析法篩選影響AQI的關(guān)鍵因子,降低了輸入維度并減少運(yùn)算量,提高了預(yù)測(cè)精度;周凱等[11]分析空氣質(zhì)量指數(shù)的平穩(wěn)性、季節(jié)性,并通過(guò)ARIMA擬合預(yù)測(cè),在48小時(shí)內(nèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果較吻合?;谟绊懸蛩赝诰虻目諝赓|(zhì)量指數(shù)預(yù)測(cè)模型在短期預(yù)測(cè)方面表現(xiàn)較好,但隨著預(yù)測(cè)時(shí)長(zhǎng)的增加,預(yù)測(cè)精度逐漸降低。
序列屬性分解角度:有基于時(shí)域方法的分解,如朱雪妹等[12]基于時(shí)域方法構(gòu)建了SARIMA模型,用于提取AQI的趨勢(shì)和季節(jié)特征,從而揭示空氣質(zhì)量的規(guī)律性變化;有基于頻域方法的分解,如李婷婷等[13]利用經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)算法對(duì)AQI數(shù)據(jù)進(jìn)行分解,使數(shù)據(jù)的波動(dòng)具有規(guī)律性,有助于提高模型的預(yù)測(cè)效果;姚清晨等[14]采用小波去噪建立AQI的四季預(yù)報(bào)方程,小波濾波圖比原時(shí)間序列圖更加平滑,擬合效果更好;徐洪學(xué)等[15]應(yīng)用奇異譜分析方法,得到不同時(shí)間子序列,根據(jù)序列特點(diǎn)對(duì)不同子序列建模,最終結(jié)果明顯優(yōu)于傳統(tǒng)ARIMA模型;Li等[16]基于快速傅立葉變換提取信號(hào)的最高頻率部分和其余部分的頻域邊界,在模態(tài)混疊方面比EMD具有更好的性能,有助于提升序列分解的穩(wěn)定性。
更多學(xué)者在視角重疊與方法組合方面進(jìn)行了嘗試。常恬君等[17]利用隨機(jī)森林組合Prophet模型,彌補(bǔ)了Prophet模型無(wú)法預(yù)測(cè)隨機(jī)非線性部分的缺點(diǎn);Zhao等[18]引入拓?fù)浣Y(jié)構(gòu)的相似性提出了非參數(shù)和數(shù)據(jù)驅(qū)動(dòng)模型,提高了空間模型的準(zhǔn)確性和適應(yīng)性;Zuo等[19]提出了集合經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)和小波包閾值聯(lián)合去噪的方法,解決了小波變換容易丟失高頻細(xì)節(jié)信息的問(wèn)題?;谝暯侵丿B與方法組合的模型彌補(bǔ)了單一模型的缺點(diǎn),提高了預(yù)測(cè)精度。
綜合來(lái)看,基于機(jī)器學(xué)習(xí)與序列屬性分解方法的組合在AQI預(yù)測(cè)中優(yōu)勢(shì)明顯,其中,相較于時(shí)域分解,頻域分解在提取AQI屬性方面更有效。常用的頻域分解方法主要有小波分析、奇異譜分析和經(jīng)驗(yàn)?zāi)B(tài)分解等。而現(xiàn)有研究表明,小波分析對(duì)于基函數(shù)的選擇和分解層數(shù)的確定缺乏自適應(yīng)性,而不同的基函數(shù)和分解層數(shù)會(huì)對(duì)結(jié)果產(chǎn)生顯著影響[20],奇異譜分析在選取滯后窗口時(shí)存在一定的主觀性,不同窗口長(zhǎng)度會(huì)對(duì)信號(hào)提取的效果產(chǎn)生較大影響[21]。相對(duì)而言,EMD方法可以很好地處理非線性和非平穩(wěn)信號(hào),但EMD在實(shí)際應(yīng)用中容易出現(xiàn)端點(diǎn)效應(yīng)和模態(tài)混疊現(xiàn)象[22]?;贓MD優(yōu)化的EEMD通過(guò)引入噪聲克服了模態(tài)混疊問(wèn)題,但仍然存在一些不確定性。進(jìn)一步改進(jìn)的完全自適應(yīng)噪聲集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)具有自適應(yīng)分解特性,能夠根據(jù)非線性序列自身特征進(jìn)行分解,解決了EMD算法的模態(tài)混疊問(wèn)題[23],通過(guò)對(duì)原始信號(hào)進(jìn)行多次添加噪聲并分解的思路,進(jìn)一步提升了穩(wěn)定性,得到更穩(wěn)定可靠的時(shí)間序列分解結(jié)果。
目前對(duì)于空氣質(zhì)量的研究多集中于經(jīng)濟(jì)快速發(fā)展和人類活動(dòng)頻繁的東部地區(qū),這類地區(qū)外部氣候條件類似,內(nèi)陸城市呈現(xiàn)空氣循環(huán)較弱、空氣污染具有長(zhǎng)期性和穩(wěn)定性等特點(diǎn),其研究結(jié)果對(duì)外部氣候條件特殊的西部地區(qū)借鑒意義不強(qiáng)[24]。蘭州作為典型的河谷城市,氣象條件相對(duì)特殊,逆溫現(xiàn)象及低風(fēng)條件等阻礙空氣垂直運(yùn)動(dòng),大氣氣溶膠和一些氣態(tài)污染物難以擴(kuò)散出去[25]。這導(dǎo)致蘭州空氣質(zhì)量指數(shù)序列存在長(zhǎng)期依賴關(guān)系,當(dāng)前空氣質(zhì)量指數(shù)不僅受數(shù)月之前空氣質(zhì)量影響,而且呈現(xiàn)較大的波動(dòng)特征。
論文以蘭州空氣質(zhì)量指數(shù)預(yù)測(cè)為研究?jī)?nèi)容,以有效提取AQI數(shù)據(jù)內(nèi)在特征為切入點(diǎn)探討組合預(yù)測(cè)模型的構(gòu)建。選取LSTM模型以提取空氣質(zhì)量指數(shù)序列中的長(zhǎng)期依賴關(guān)系,LSTM模型的長(zhǎng)短期記憶網(wǎng)絡(luò)通過(guò)引入遺忘門、輸入門和輸出門可捕捉時(shí)間序列中跨度較大的依賴關(guān)系;針對(duì)蘭州空氣質(zhì)量指數(shù)序列波動(dòng)大的特點(diǎn),選取CEEMDAN分解方法,提取空氣質(zhì)量指數(shù)序列中的趨勢(shì)、季節(jié)性和周期性等,使序列的分解更穩(wěn)定可靠。通過(guò)預(yù)測(cè)效果評(píng)價(jià)及與LSTM、EEMD-LSTM模型預(yù)測(cè)結(jié)果的比較可知,本文最終建立的CEEMDAN-LSTM組合模型,預(yù)測(cè)效果良好。
1 基本理論
1.1 LSTM神經(jīng)網(wǎng)絡(luò)
長(zhǎng)短期記憶網(wǎng)絡(luò)是使用反向傳播訓(xùn)練并克服消失梯度問(wèn)題的遞歸神經(jīng)網(wǎng)絡(luò)。針對(duì)時(shí)間序列的無(wú)序性,LSTM提供了有效的解決方案。LSTM網(wǎng)絡(luò)使用循環(huán)結(jié)構(gòu),可以學(xué)習(xí)時(shí)間序列數(shù)據(jù)的依賴關(guān)系,以便預(yù)測(cè)結(jié)果。相比于傳統(tǒng)的神經(jīng)元,LSTM內(nèi)部包含多個(gè)內(nèi)存塊,這些塊之間進(jìn)行層層相連。每個(gè)塊包含管理塊狀態(tài)和輸出的門,這些門使用sigmoid激活單元,可以控制狀態(tài)的變化和信息的添加。
一個(gè)單元內(nèi)有三種類型的門:
遺忘門:有條件地決定從內(nèi)存塊中扔掉一些信息。
對(duì)輸入值進(jìn)行加權(quán)和偏置,并通過(guò)激活函數(shù)[σ]計(jì)算出遺忘系數(shù),遺忘系數(shù)的計(jì)算公式如下:
[ft]=[σWf?ht-1,xt+bf]? ? ? ? ? ? ? ? ? ? (1)
其中:[ht-1]為隱藏層上一時(shí)刻的狀態(tài);[xt]為當(dāng)前時(shí)刻實(shí)際值;[ft]為遺忘系數(shù);[Wf]和[bf]分別表示遺忘門權(quán)重及偏置量。
輸入門:有條件地決定從輸入中更新內(nèi)存狀態(tài)的值。
輸入門通過(guò)tanh層決定保留的信息,并更新數(shù)值。
[it]=[σWi?hi-1,xi+bi]? ? ? ? ? ? ? ? ? ? ?(2)
[ct=tanhWc?ht-1,xt+bc]? ? ? ? ? ? ? ? (3)
[it]為要更新的數(shù)值,[ct]為新的候選數(shù)值,[Wi]、[WC]和[bi、bc]分別表示權(quán)重和偏置量。
輸出門:根據(jù)輸入條件決定輸出結(jié)果。
[Ot=σW0ht-1,xt+b0]? ? ? ? ? ? ? ? ? ? (4)
1.2 CEEMDAN經(jīng)驗(yàn)?zāi)B(tài)分解
集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)算法在EMD算法基礎(chǔ)上改進(jìn)得到,如前文所述,EMD方法在應(yīng)對(duì)端點(diǎn)效應(yīng)和模態(tài)混疊等問(wèn)題上存在一定的局限性,改進(jìn)的EEMD雖然克服了模態(tài)混疊問(wèn)題但容易存在重構(gòu)誤差[26]。為克服這些問(wèn)題,采用CEEMDAN方法,CEEMDAN方法通過(guò)引入隨機(jī)白噪聲,增強(qiáng)了分解的穩(wěn)定性和魯棒性。此外,相比EEMD方法,CEEMDAN在處理波動(dòng)大的序列時(shí)具有抗噪性強(qiáng)、分解精度高等優(yōu)勢(shì),成為空氣質(zhì)量指數(shù)序列分解的優(yōu)良選擇。CEEMDAN的基本邏輯如下:
生成含有白噪聲的序列:
[xit=xt+wit? ? ]? ? ? ? ? ? ? ? ? ? ? ?(5)
對(duì)[xit]進(jìn)行分解,得到各樣本的1階IMF分量,將其均值作為[xt]的1階IMF分量,即:
[IMF1t=1Ii=1IIMFi1]? ? ? ? ? ? ? ? ? ? ? ?(6)
計(jì)算1階殘差量、2階IMF分量。1階殘差量、2階IMF分量的表達(dá)式分別為:
[r1t=xt-IMF1t]? ? ? ? ? ? ? ? ? ? ? (7)
[IMF2t]=[1Ii=1IE1r1t+ε1E1wit]? ? ? ? ?(8)
k階殘差,k+1階IMF分量的表達(dá)式分別為:
[rkt=rk-1t-IMFkt]? ? ? ? ? ? ? ? ? ? (9)
[IMFk+1t]=[1Ii=1IE1rkt+εkEkwit]? ? ? ?(10)
重復(fù)這一步直到殘差不可再分解,其判斷標(biāo)準(zhǔn)為殘差的極值點(diǎn)個(gè)數(shù)至多為2,若殘差滿足:
[Rt=xt-k=2KIMFkt]? ? ? ? ? ? ? ? ? ?(11)
則原始序列[xt]最終被分解為:
[xt=k=2KIMFkt+Rt]? ? ? ? ? ? ? ? ? ? (12)
1.3 模型評(píng)價(jià)指標(biāo)
一般通過(guò)對(duì)比實(shí)際值和預(yù)測(cè)值評(píng)估預(yù)測(cè)效果,單一評(píng)價(jià)標(biāo)準(zhǔn)沒(méi)有說(shuō)服力,因此選取以下指標(biāo)度量模型的預(yù)測(cè)效果。
(1)平均相對(duì)誤差絕對(duì)值
[EMAP=1lt=T+1T+lXt-XtXt]? ? ? ? ? ? ? ? ? ? ? (13)
(2)均方根誤差
[ERMS=1lt=T+1T+l(Xt-Xt)2]? ? ? ? ? ? ? ? ? (14)
式中:[l] 表示預(yù)測(cè)序列的長(zhǎng)度,從時(shí)間[T+1]開(kāi)始預(yù)測(cè),一直到[T+l],[Xt]是實(shí)際值,[Xt]是預(yù)測(cè)值,EMAP、ERMS值越小,代表預(yù)測(cè)誤差越小。
2 數(shù)據(jù)獲取及處理
2.1 研究區(qū)概況
河谷城市指在城市發(fā)展中受到河流以及山谷限制的城市,城市一般會(huì)被迫沿著地形和河流走向而發(fā)展布局,順著河流主干道形成帶狀密集的空間結(jié)構(gòu)。蘭州地區(qū)南北方向被群山環(huán)抱,東西由盆地組成,是典型的河谷城市,其氣候環(huán)境比較特殊,外部氣象條件相對(duì)復(fù)雜。一方面,大氣污染物擴(kuò)散緩慢,不同種類的污染物長(zhǎng)時(shí)間滯留空中并混合在一起,形成更難處理的混合污染物;另一方面,受天氣條件、地形和逆溫現(xiàn)象等因素的影響,蘭州空氣質(zhì)量指數(shù)序列波動(dòng)幅度大、季節(jié)趨勢(shì)強(qiáng)(見(jiàn)圖1),空氣質(zhì)量指數(shù)序列的多因素疊加特征鮮明。
2.2 數(shù)據(jù)來(lái)源及預(yù)處理
考慮到從海量網(wǎng)頁(yè)信息中獲取數(shù)據(jù)時(shí),爬蟲方法具有爬取速度快,可以提取生成特定格式數(shù)據(jù)等優(yōu)點(diǎn),因此,本文選用爬蟲方法,使用開(kāi)源平臺(tái)Python的BeautifulSoup庫(kù)構(gòu)建網(wǎng)絡(luò)爬蟲,爬取“天氣后報(bào)”網(wǎng)站的蘭州市2015年1月1日至2022年3月31日歷史空氣質(zhì)量指數(shù)作為研究數(shù)據(jù),并對(duì)缺失值和異常值進(jìn)行數(shù)據(jù)預(yù)處理。其中,缺失值補(bǔ)全采用均值替代,使用缺失值前后兩天數(shù)據(jù)來(lái)計(jì)算均值并代替缺失值。異常值判定采用三倍標(biāo)準(zhǔn)差方法,通過(guò)對(duì)比歷史上同一季節(jié)的數(shù)據(jù)均值來(lái)判斷是否是異常值。如果當(dāng)前數(shù)據(jù)在平均值的正負(fù)三倍標(biāo)準(zhǔn)差之內(nèi),則判定為正常值,否則視為異常值,剔除后進(jìn)行缺失值插補(bǔ)處理。
爬取的數(shù)據(jù)時(shí)間跨度從2015年1月1日至2022年3月31日,包括質(zhì)量等級(jí)、AQI指數(shù)、AQI排名等,經(jīng)過(guò)剔除異常值和補(bǔ)全缺失值,共計(jì)2514組數(shù)據(jù)。
2.3 CEEMDAN-LSTM模型構(gòu)建
本文構(gòu)建的CEEMDAN-LSTM模型如圖2所示。為有效捕捉AQI序列的細(xì)節(jié)特征,對(duì)其進(jìn)行CEEMDAN分解,得到IMF分量,通過(guò)IMF分量反映AQI數(shù)據(jù)的總體變化趨勢(shì),與原始數(shù)據(jù)相比,分解后的分量波動(dòng)更小,建模難度降低。LSTM為預(yù)測(cè)基礎(chǔ)模型,LSTM是一種遞歸神經(jīng)網(wǎng)絡(luò),通過(guò)自適應(yīng)門控機(jī)制來(lái)記憶和更新序列中的信息,能更好地捕捉到空氣質(zhì)量指數(shù)序列中的長(zhǎng)期依賴性,本文將每個(gè)IMF分量作為L(zhǎng)STM模型的輸入,利用LSTM的記憶性質(zhì)來(lái)建模序列中的長(zhǎng)期依賴性,以提高對(duì)空氣質(zhì)量指數(shù)預(yù)測(cè)的準(zhǔn)確性。
具體建模環(huán)節(jié)中,使用CEEMDAN方法將原始AQI序列分解時(shí),對(duì)原始信號(hào)隨機(jī)添加白噪聲分解得到n個(gè)IMF分量,每個(gè)IMF分量代表不同頻率范圍內(nèi)的振動(dòng)模式,分解方式見(jiàn)圖3。
對(duì)各序列分量進(jìn)行LSTM預(yù)測(cè)時(shí),look_back設(shè)置為1,指用前一天的數(shù)據(jù)預(yù)測(cè)后一天,在模型編譯的過(guò)程中使用adam優(yōu)化器,使用平均絕對(duì)誤差作為網(wǎng)絡(luò)訓(xùn)練的損失函數(shù),單隱層設(shè)置500神經(jīng)元節(jié)點(diǎn),迭代500次,最終得到不同頻率分量的預(yù)測(cè)結(jié)果,以相等的權(quán)重將所有分量的預(yù)測(cè)結(jié)果相加匯總,即為最終預(yù)測(cè)結(jié)果。
3 結(jié)果與討論
3.1 基于CEEMDAN的AQI序列分解結(jié)果
由圖4可知,通過(guò)CEEMDAN將空氣質(zhì)量指數(shù)序列分解成10個(gè)IMF分量和1個(gè)殘差分量,右側(cè)頻譜對(duì)應(yīng)IMF分量在不同頻率范圍內(nèi)的能量分布情況,頻譜用來(lái)描述分量的頻率特征和頻率分布情況。
從原始數(shù)據(jù)的波動(dòng)性可以看出AQI在一年內(nèi)周期性變化,峰值代表每年污染最嚴(yán)重的幾個(gè)月份,峰值的高低與蘭州當(dāng)年的逆溫、風(fēng)速等氣象條件關(guān)系密切,峰值信息可以幫助識(shí)別污染高峰期和低峰期,總結(jié)蘭州市空氣質(zhì)量季節(jié)性變化規(guī)律。
IMF1~I(xiàn)MF4變化幅度較大,表明氣象條件和地形等對(duì)蘭州空氣質(zhì)量指數(shù)產(chǎn)生了一定的影響,如蘭州突發(fā)的沙塵天氣帶來(lái)高濃度的顆粒物,導(dǎo)致空氣質(zhì)量指數(shù)急劇上升。
IMF5~I(xiàn)MF10分量的波動(dòng)呈現(xiàn)出規(guī)律性,逐漸放緩,這可能與一些長(zhǎng)期的、緩慢變化的環(huán)境因素有關(guān),如城市發(fā)展、工業(yè)結(jié)構(gòu)和污染治理等因素,這些因素變化較為緩慢,不會(huì)對(duì)空氣質(zhì)量產(chǎn)生即時(shí)影響,但它們的長(zhǎng)期累積效應(yīng)對(duì)蘭州市空氣質(zhì)量影響深遠(yuǎn)。
3.2 基于CEEMDAN-LSTM模型的AQI預(yù)測(cè)結(jié)果
選取2015年1月1日至2022年2月28日的數(shù)據(jù)作為訓(xùn)練集,2022年3月1日至2022年3月31日的數(shù)據(jù)作為測(cè)試集,分別采用改進(jìn)的CEEMDAN-LSTM模型、EEMD-LSTM模型和LSTM模型對(duì)AQI進(jìn)行預(yù)測(cè)分析,各個(gè)模型的預(yù)測(cè)結(jié)果如圖5所示。
圖5(a)為L(zhǎng)STM模型預(yù)測(cè)結(jié)果,可以看出,在LSTM預(yù)測(cè)圖像的數(shù)據(jù)上升或下降階段出現(xiàn)了預(yù)測(cè)值滯后的現(xiàn)象,原因可能是當(dāng)使用LSTM進(jìn)行預(yù)測(cè)時(shí),該神經(jīng)網(wǎng)絡(luò)會(huì)選擇使用時(shí)間窗口之前的某個(gè)時(shí)間點(diǎn)的值來(lái)作為預(yù)測(cè)值,這樣可以最小化誤差。雖然這種方法可以最小化誤差,但實(shí)際上回歸算法并沒(méi)有學(xué)習(xí)到任何新的知識(shí)或規(guī)律。圖5(b)為EEMD-LSTM組合模型預(yù)測(cè)結(jié)果,相比LSTM模型預(yù)測(cè)精度有所提高,但是滯后性改善并不明顯。綜合來(lái)看,CEEMDAN將時(shí)間序列分解成多個(gè)IMF分量后進(jìn)行LSTM預(yù)測(cè)有效減少了滯后性及不穩(wěn)定屬性,實(shí)驗(yàn)結(jié)果表明,本文所構(gòu)建的CEEMDAN-LSTM組合模型在處理非平穩(wěn)時(shí)間序列時(shí)能夠更好地捕捉變化模式和特征,預(yù)測(cè)效果更好,精度更高。
3.3 結(jié)果分析與討論
為進(jìn)一步研究不同模型對(duì)于模型精度的影響,證明模型優(yōu)劣還需結(jié)合評(píng)價(jià)指標(biāo)分析,于是計(jì)算三個(gè)模型的評(píng)價(jià)指標(biāo)。
如表1所示,基于CEEMDAN-LSTM的均方根誤差和平均絕對(duì)百分比誤差均優(yōu)于其他兩種模型,與單一的LSTM基線模型相比,RMSE下降了56.61%,表明經(jīng)過(guò)CEEMDAN模態(tài)分解后的模型可以更好地挖掘數(shù)據(jù)中的隱藏信息。同時(shí)與EEMD-LSTM模型相比,RMSE下降了42.13%,表明CEEMDAN的數(shù)據(jù)降噪能力相比EEMD更為出色。
由于空氣污染成因復(fù)雜、多源性,加之氣象條件和地形地貌因素的影響,使得蘭州市的空氣質(zhì)量變化非常不穩(wěn)定,很難進(jìn)行準(zhǔn)確預(yù)測(cè)。本文中AQI的預(yù)測(cè)是基于機(jī)器學(xué)習(xí)視角展開(kāi),未將外部影響因素作為顯性因子引入模型,事實(shí)上,蘭州市的空氣質(zhì)量預(yù)測(cè)可綜合考慮多個(gè)因素,后續(xù)可將有效甄別氣象條件、地形等外部因素的影響作用作為切入點(diǎn),構(gòu)建多視角組合模型進(jìn)行預(yù)測(cè)方法的對(duì)比研究,以進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性和可靠性。
4 結(jié)論
本文針對(duì)時(shí)間序列波動(dòng)大的問(wèn)題,采用了CEEMDAN(經(jīng)驗(yàn)?zāi)B(tài)分解方法)進(jìn)行數(shù)據(jù)分解;針對(duì)蘭州空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)呈現(xiàn)出的長(zhǎng)期依賴關(guān)系,選用LSTM(長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò))作為基本模型,構(gòu)建了CEEMDAN-LSTM組合模型。該組合模型通過(guò)LSTM神經(jīng)網(wǎng)絡(luò)對(duì)CEEMDAN得到的各個(gè)分量進(jìn)行預(yù)測(cè),各個(gè)分量預(yù)測(cè)結(jié)果加總得到預(yù)測(cè)結(jié)果。實(shí)驗(yàn)證實(shí),相較于其他模型,該組合模型在蘭州空氣質(zhì)量指數(shù)的預(yù)測(cè)上具有更高的精度和準(zhǔn)確性。因此,該模型對(duì)于空氣污染治理方面具有一定的參考意義,為未來(lái)的研究提供了新的思路和方法。
參考文獻(xiàn)
[1]李博群,賈政權(quán),劉利平.基于模糊時(shí)間序列的空氣質(zhì)量指數(shù)預(yù)測(cè)[J].華北理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,40(3):78-86.
[2]SIGAMANI S,VENKATESAN R. Air quality index prediction with influence of meteorological parameters using machine learning model for IoT application[J]. Arabian Journal of Geosciences, 2022, 15(4): 340.
[3]吳慧靜,赫曉慧.基于GA-BP神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量指數(shù)預(yù)測(cè)研究[J].安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,42(4):360-365.
[4]許毅蓉,連金海,張小蓉,等.運(yùn)用智能型算法預(yù)測(cè)空氣綜合質(zhì)量指數(shù)的研究[J].福建電腦,2022,38(6):17-21.
[5]龔榮,謝寧新,李德倫,等.基于海洋捕食者算法和ELM的空氣質(zhì)量指數(shù)預(yù)測(cè)[J].廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,28(4):68-76.
[6]ZHAN C, JIANG W, LIN F, et al. A decomposition-ensemble broad learning system for AQI forecasting[J]. Neural Computing and Applications, 2022, 34(21): 18461-18472.
[7]CHHIKARA P, TEKCHANDANI R, KUMAR N, et al. Federated learning and autonomous UAVs for hazardous zone detection and AQI prediction in IoT environment[J]. IEEE Internet of Things Journal, 2021, 8(20): 15456-15467.
[8]劉媛媛,曹宇飛.集成CNN-LSTM預(yù)測(cè)模型的空氣質(zhì)量可視化平臺(tái)[J].信息技術(shù)與信息化,2022(4):19-22.
[9]李志剛,秦林林,付多民,等.基于CRQA-DBN-ELM空氣質(zhì)量數(shù)據(jù)預(yù)測(cè)模型[J].電子測(cè)量技術(shù),2022,45(19):76-82.
[10]李乾,喬棟,李博文,等.基于T-S模糊神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量預(yù)測(cè)模型分析研究[J].內(nèi)蒙古煤炭經(jīng)濟(jì),2022, 358(17):142-144.
[11]周凱,劉萍.基于數(shù)據(jù)挖掘的空氣質(zhì)量預(yù)測(cè)模型研究[J].計(jì)算機(jī)與數(shù)字工程,2021,49(8):1631-1636.
[12]朱雪妹,米江晅,鄭冬冬,等.基于SARIMA模型的保定市空氣質(zhì)量指標(biāo)的預(yù)測(cè)[J].綠色科技,2018(14):43-45.
[13]李婷婷,田瑞琦,汪漂.基于經(jīng)驗(yàn)?zāi)B(tài)分解的空氣質(zhì)量指數(shù)組合預(yù)測(cè)方法及應(yīng)用[J].價(jià)值工程,2019,38(16):134-138.
[14]姚清晨,張紅.基于小波分析的太原市空氣質(zhì)量變化特征及預(yù)測(cè)[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,42(1):265-274.
[15]徐洪學(xué),孫萬(wàn)有,杜英魁,等.基于奇異譜分析的多模型融合空氣污染物質(zhì)量濃度預(yù)測(cè)方法[J].沈陽(yáng)大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,33(6):470-479.
[16]LI J, WANG J, ZHANG X, et al. Empirical mode decomposition based on instantaneous frequency boundary[J]. Electronics Letters, 2017, 53(12): 781-783.
[17]常恬君,過(guò)仲陽(yáng),徐麗麗.基于Prophet-隨機(jī)森林優(yōu)化模型的空氣質(zhì)量指數(shù)規(guī)模預(yù)測(cè)[J].環(huán)境污染與防治,2019,41(7):758-761+766.
[18]ZHAO X, SONG M, LIU A, et al. Data-driven temporal-spatial model for the prediction of AQI in Nanjing[J]. Journal of Artificial Intelligence and Soft Computing Research, 2020, 10(4): 255-270.
[19]ZUO L Q, SUN H M, MAO Q C, et al. Noise suppression method of microseismic signal based on complementary ensemble empirical mode decomposition and wavelet packet threshold[J]. IEEE Access, 2019, 7: 176504-176513.
[20]劉濤,杜世昌,黃德林,等.基于改進(jìn)的集合經(jīng)驗(yàn)?zāi)B(tài)方法振動(dòng)信號(hào)分解[J].上海交通大學(xué)學(xué)報(bào),2016,50(9):1452-1459.
[21]戴前偉,丁浩,張華,等.基于變分模態(tài)分解和奇異譜分析的GPR信號(hào)去噪[J].吉林大學(xué)學(xué)報(bào)(地球科學(xué)版),2022,52(3):701-712.
[22]GUPTA A, KUMAR D, VERMA H, et al. Recognition of multi-cognitive tasks from EEG signals using EMD methods[J]. Neural Computing and Applications, 2022: 1-18.
[23]KALA A, VAIDYANATHAN S G, FEMI P S. CEEMDAN hybridized with LSTM model for forecasting monthly rainfall[J]. Journal of Intelligent & Fuzzy Systems, 2022, 43(3):2609-2617.
[24]張人禾,李強(qiáng),張若楠.2013年1月中國(guó)東部持續(xù)性強(qiáng)霧霾天氣產(chǎn)生的氣象條件分析[J].中國(guó)科學(xué):地球科學(xué),2014,44(1):27-36.
[25]陳桃桃,李忠勤,周茜,等.“蘭州藍(lán)”背景下空氣污染特征、來(lái)源解析及成因初探[J].環(huán)境科學(xué)學(xué)報(bào),2020,40(4):1361-1373.
[26]王彤彤,嚴(yán)華.基于EMD和時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)的污染物濃度預(yù)測(cè)研究[J].現(xiàn)代計(jì)算機(jī),2021,27(34):29-35.
Prediction of Lanzhou Air Quality Index Based on CEEMDAN-LSTM Model
ZHAO Yu, HAN Xu-hao
( School of Statistics, Lanzhou University of Finance and Economics, Lanzhou 730020, China)
Abstract: Aiming at the problems of large fluctuation and long-term data dependence of Lanzhou AQI, a prediction model based on CEEMDAN-LSTM is proposed in this paper, and compared with EEMD-LSTM and LSTM models. Firstly, CEEMDAN was used to decompose the AQI sequence of Lanzhou, then LSTM neural network was used to predict each component, and finally the predicted value of each component was added to reconstruct the AQI prediction result. The experimental results show that CEEMDAN-LSTM model has smaller prediction error and higher prediction accuracy than LSTM model and EEMD-LSTM model. This is due to the effective noise reduction of CEEMDAN method and the strong handling ability of LSTM model for long-term dependencies. Therefore, the combined model has certain practical value in Lanzhou AQI prediction.
Key words:Lanzhou;air quality index;LSTM;CEEMDAN
(責(zé)任編輯:王海燕)