冀東 劉祖涵 王莉莉 涂翔



摘要:PM2.5是空氣質量的重要影響因素之一,更加準確地預測PM2.5的含量,對于預報空氣質量變化、空氣治理和促進科學綠色發展都有著重要的作用。本文提出一種基于粒子群算法和注意力機制的長短期記憶網絡(LSTM)模型,該模型既具備了LSTM可以輕松提取數據的時間維度信息的能力,又具備了注意力機制可以完美解決特征權重分配的能力,可以較為準確地對空氣中PM2.5含量進行預測。通過與K近鄰回歸、支持向量回歸、循環神經網絡和未進行尋優處理的基于注意力機制的LSTM等模型進行對比試驗,證明了基于粒子群算法和注意力機制的LSTM在預測空氣中PM2.5含量時具有更佳的性能,且模型的均方誤差(MSE)、平均絕對誤差(MAE)在保證相同相關系數(R2)的情況下,降低了50%以上。
關鍵詞:PM2.5;長短期記憶網絡;注意力機制;粒子群算法;預測
中圖分類號:X513;TP183文獻標志碼:A文章編號:1673-5072(2024)03-0327-08
隨著社會的不斷發展,中國的城市化進程不斷加速,但在此過程中,卻帶來了很嚴重的空氣環境污染[1]??諝猸h境的污染主要以空氣質量來反映,而影響空氣質量主要分為環境氣象因素和空氣成分因素[23]。常見的空氣污染物包括可吸入顆粒、SO2、NO2、CO、O3等,其中可吸入顆粒根據顆粒直徑又可以劃分為PM100、PM10和PM2.5,由于顆粒物直徑的大小不同,這些顆粒物在空氣中的存在時間也不相同,直徑越小的顆粒物在空氣中存在時間越長,因此PM2.5在空氣中懸浮的時間最長。又因為PM2.5不僅體積小,同時又含有大量有毒物質,所以對心肺疾病的致病率也就越高[4]。因此,準確地預測PM2.5對預測空氣質量和人類健康生活都極其重要。
預測PM2.5的方法主要有兩類:第一類是基于數學物理方法的模型,其優點是可以進行小范圍空氣預測,適用于工廠的空氣污染監測,缺點是不適用于城市的預測[5]。第二類是數據驅動的模型,分為機器學習和深度學習。機器學習的模型如K近鄰模型、支持向量機模型、極限學習機模型,這類模型可以根據不同城市中的PM2.5數據先進行學習,再對空氣中的PM2.5進行預測,優點是簡化了特征工程的處理,但是對高非線性問題處理效果不佳[68]。深度學習模型,例如卷積神經網絡、循環神經網絡[9](Recurrent Neural Network,RNN),在預測非線性的時序問題時都有很好的效果,但循環神經網絡以其處理時間序列的優秀能力,在時序預測問題上得到了很廣泛的應用[10]。但是,在實際的神經網絡訓練過程中發現RNN對數據無法做到長期保存,在之后的不斷訓練過程中還發現原始的RNN存在梯度消失和梯度爆炸的問題,這兩種問題的出現限制了循環神經網絡的實際應用[11]。而長短期記憶網絡(Long ShortTerm Memory Network,LSTM)作為RNN的一種改進模型,它通過增加記憶單元方法,使網絡可以保留長期記憶和調節反向傳播中權重參數的更迭,這樣不僅繼承循環神經網絡優秀的時間序列處理能力,還解決了RNN的梯度不穩定的問題。在此基礎上,Pranolo等[12]和Cen等[13]為了避免根據主觀經驗選擇超參數的缺點,都使用不同的粒子群算法(Particle Swarm Optimization,PSO)與LSTM進行結合對空氣質量進行預測,使LSTM模型可以自主調整模型的超參數,減少了人工調試的成本。Dong等[14]使用注意力機制的方法構建了以LSTM為基礎的模型,實現了更加集中地提取PM2.5數據中的有效信息。然而,上述方法都只單一解決了LSTM網絡對信息中某種特征的提取,但實際上,數據信息所包含的特征是復雜的,因此對預測也有著顯著的影響。
為了進一步提高對空氣中PM2.5含量的預測能力,首先,采用LSTM為基礎模型,加入注意力機制,合理分配了神經網絡中的參數權重,在訓練參數時,根據關注度的大小有偏重地對特征進行訓練,使神經網絡在時序預測問題上擁有更高的預測精度;其次,使用PSO對網絡中的超參數進行尋優,進一步優化網絡結構,使網絡模型擁有最佳的網絡超參數;最后,實現對PM2.5的精準預測。
1數據來源和預處理
1.1數據來源
數據集來自加利福尼亞大學爾灣分校的機器學習數據庫時間序列分庫中的空氣污染數據。數據集中以每小時記錄一次的頻率展示了北京昌平地區自2013年3月至2017年2月的空氣質量信息。數據集中包括了PM2.5、PM10、SO2、NO2、CO、O3等污染物信息和溫度、濕度、壓強、降雨和風速等環境信息。
1.2數據的影響關系與預處理數據間的關系:PM2.5的含量在空氣質量監測中受很多因素影響,例如:季節、溫度、濕度等環境因素和氮、碳、硫與氧氣化合形成的各種化學顆粒物。其中,PM10、SO2、NO2、CO、O3濃度與PM2.5濃度存在顯著正相關特性[15]。由此在數據集中選擇PM10、SO2、NO2、CO、O3、PM2.5濃度這6項作為主要參數數據。
試驗數據的預處理:整個數據集有35 063條數據,首先按照測試集為9∶1對數據進行劃分。因為數據進
行格式變換傳入網絡時,需要將網絡中的所有數據改成數值浮點型,所以在數據集中出現了缺失值時,就需要對缺失值進行處理。處理方法有刪除和插補兩種方法,由于缺失值相對于整個數據集來說并不多,所以采取將缺失值所在行進行刪除處理。這個處理方法不僅相對簡單,而且在試驗中,由于刪除缺失值相當于神經網絡中的Dropout操作,使神經網絡可以應對更復雜的變化,減少過擬合現象。其次,在輸入序列時若輸入數據的時間間隔太大則對細節不能很好預測,序列太短又容易出現較多的異常值,因此,以每5 h的時間數據為一個輸入序列的小樣本,作為一個小的時序信號,將6項主要參數數據作為時序數據預測的6項輸入特征,形成一個5×6的時序矩陣(圖1)。最后,對輸出數據而言,為了檢測序列預測的優劣,以下一時間步的PM2.5特征作為預測結果優劣的評定。
2研究方法
2.1長短期記憶網絡LSTM是RNN的改進模型[1618],是深度學習中能夠處理時序問題的重要模型,RNN由輸入層、隱藏層和輸出層3層和1個延遲器組成,RNN的基本組成和沿時間展開如圖2所示。根據圖2可知循環神經網絡的輸出和隱藏層的迭代公式為:
理論上循環神經網絡是適用于長時間間隔的數據之間的依賴關系的,但是在網絡的反向傳導和學習過程中,總會產生梯度爆炸或消失的問題。根據循環神經網絡出現的梯度不穩定問題,LSTM采用記憶單元和門控制機制,對循環神經網絡進行了改進。LSTM由3個主要內部單元組成:遺忘門、輸入門和輸出門(圖3)。
首先計算遺忘門的輸出
式中:ft是遺忘門輸出;σ是激活函數,這個函數可以是Sigmoid函數;Wf是遺忘門輸入量的權值參數;Uf是遺忘門隱藏狀態的權值參數;bf是遺忘門偏置。
再計算輸入門的輸出
式中:it是輸入門輸出;Wi是輸入門輸入量的權值參數;Ui是輸入門隱藏狀態的權值參數;bi是輸入門偏置。
最后計算輸出門的輸出
式中:Ot是輸出門輸出;Wo是輸出門輸入量的權值參數;Uo是輸出門隱藏狀態的權值參數;bo是輸出門偏置。
這里3個門的作用就是將隱含層的信息和t時刻的輸入進行加權求和。
和RNN不同的是LSTM中細胞狀態和3個門的結合和隱藏層的迭代。首先,候選細胞狀態的迭代為
式中:c^t是候選狀態輸出;Wc是輸出門輸出量的權值參數;Uc是記憶單元隱藏狀態的權值參數;bc是偏置。
得到了細胞單元的候選狀態后再進行對細胞狀態的迭代
式中:ftct-1表示上一時刻的細胞狀態ct-1保留到當前時刻ct的數量;itc^t表示了當前時刻網絡的輸入xt保存到細胞狀態ct的數量。
2.2注意力機制在神經網絡處理信息時,根據輸入數據的特征進行處理,而輸入的大量特征中,根據影響程度不同,各個特征的重要程度也不同。注意力機制就是選擇關鍵性數據賦予高比例特征值權重,來提高神經網絡處理信息的效率[19]。在LSTM中,注意力機制根據時序信息中不同特征進行加權,可提高神經網絡預測的相關度。
注意力機制的本質如圖4所示。在神經網絡內部加入一個線性轉換節點,對輸入神經網絡的數據特征進行注意,然后按照注意力的分布不同,給予不同的分配權重,公式解釋為
式中:L為輸入序列,q代表特征,αi是注意力分布,li是序列中的第i個信息。
2.3粒子群算法粒子群算法是一種群智能算法[20],以每個粒子的學習經驗來不斷地搜索最佳的探索方向,進而找出給定范圍的最優解。粒子群算法的運行流程首先是對粒子群進行初始化,從各個粒子的適應值中選擇局部最優(Personal Best,PB)和全局最優(Global Best,GB),再設置最大迭代次數和計算粒子當前位置的誤差函數,進行速度S和位置向量Z的更新,計算出新的局部最優和全局最優,當迭代次數達到最大迭代時輸出全局最優解。粒子群算法的速度和位置的迭代公式為
式中:g1、g2和ω分別是算法中的學習因子和慣性因子,它們影響了算法搜索的收斂速度和魯棒性,并且不同大小的慣性因子也能影響局部與全局優化能力。r1、r2為0到1之間隨機數,它們影響了算法搜索的隨機性。
3試驗
3.1試驗環境試驗使用計算機硬件配置:CPU為i512500;顯卡為RTX3070,顯存8G。計算機軟件配置:Windows11操作系統,TensorFlow為2.3GPU版本;NumPy為1.18.5版本,Pandas為1.3.5版本。軟件平臺為PyCharm64位公開版,神經網絡基于Keras(2.4.3版本)深度學習框架進行搭建。
3.2試驗流程首先創建基于粒子群算法和注意力機制的LSTM神經網絡模型(PSO LSTMATT),在這個神經網絡模型里,將神經網絡中神經元個數、批大小和訓練代數這3個重要的參數以未知的參量進行代替;其次使用PSO對這3個參數在合理的區間內進行尋優,尋優過程以真實值和預測值的均方誤差(MSE)為目標函數,求解當MSE最小的時候,神經網絡中超參數的值;然后以這3個尋優后的參數帶入原網絡中進行訓練,以測試集的獲取得到預測值;最后將測試集中真實值和預測值進行評估,過程如圖5。
3.3試驗結果本次試驗中,以K近鄰算法(KNN)、支持向量機算法(SVR)、RNN、LSTM、基于注意力機制長短期記憶網絡(LSTMATT)和基于粒子群算法的長短期記憶網絡(PSOLSTM)等6種不同的模型和本文模型PSOLSTMATT進行對比試驗。由于樣本量太大,在圖像分辨時真實數據的曲線和預測數據的曲線之間的差距就不太明顯,所以下面試驗用圖(圖6)只記錄100條數據的曲線變化來更加清晰地展示預測和實際之間的差距。由圖6中可知KNN模型和SVR模型可以較好的進行預測,但是離準確預測PM2.5濃度還有差距,而其他5種添加了注意力機制的神經網絡模型能更加準確的預測擬合曲線。另外從LSTM模型和PSO-LSTM模型的預測曲線圖可知,當進行了PSO尋優后模型都具有一定的優化作用的。使用回歸決定系數(R2)、MSE、MAE 3種評估指標對7種模型進行評估,評估結果見表2。
如表2所示,KNN和SVR這2種機器學習方法在所有模型中的表現處于中等,MAE、MSE和R2分別為8.10和12.37、366.04和596.08、0.93和0.89。因為對PM2.5含量預測的時間序列預測問題是一個高度非線性的問題,所以擅長解決非線性問題的深度學習方法就在時間序列預測問題上有了大展身手的機會。但是在試驗中,RNN和LSTM的預測性能并不好,它們的MAE、MSE和R2分別為25.38和24.13、1 605.63和1 39321、0.46和0.63。這是因為在神經網絡模型中,模型的參數量越大,對試驗的影響也就越大。因此在神經網絡中,對于時間序列中的各個特征的權重就更加難以進行訓練。
加入注意力機制可以加速神經網絡中特征權重的訓練。LSTMATT模型的MAE、MSE和R2的分別為110、3.79、0.99。在加入了注意力機制后,對特征權重的注意力分布如圖7所示,根據注意力機制對于不同污染物質的注意程度,提升了神經網絡對空氣環境中各個污染物質的檢測的靈敏度,增強了神經網絡對分析各個污染物質在不同時間段上影響空氣質量的聯系,進一步強化了網絡在大數據統計下的數據關聯,提高了網絡的預測能力。
圖7(a)中神經網絡的神經元個數、批大小、訓練代數都是固定的,在未尋優之前,采用和LSTM相同的網絡超參數進行訓練以達到控制變量。尋優之后,搜索出最佳配比的超參數,進行預測后,得到最佳的注意力分布圖7(b)。根據最新的特征權重進行預測后,它們的MAE、MSE和R2分別0.46、060和0.99。對比發現,在保證了相關系數的情況下降低了MAE和MSE。經過PSO進行尋優后網絡的神經元數、批大小和訓練代數由原來的32、50和72變化為25、49和12。神經元數降低了約25%,大大減少了網絡的訓練參數,加快了網絡訓練進程;而批大小的變小,預測數據的變化會更加平滑,訓練代數降低了60代,模型誤差可以更早的收斂,從而減小了MSE、MAE的值,相比于未進行優化的模型,優化模型的MSE、MAE降低了超過50%。
4結論
精確的PM2.5含量預測結果可以為空氣質量的預測提供數據基礎,以便提前采取不同的措施對空氣質量進行治理,改善城市空氣,促進社會的健康綠色發展,也能給健康出行提供參考。目前在相關的研究中,鮮少對神經網絡進行參數尋優,但是神經網絡的超參數對預測結果準確性和預測平穩性都有著較大的影響。針對這個問題,本文建立了一個基于粒子群算法和注意力機制的LSTM模型來預測空氣中的PM2.5含量,并且對比了SVR、KNN、RNN等不同預測模型。從不同模型來看,基于注意力機制的LSTM擁有更好的預測結果。本文的主要貢獻在于在使用了粒子群算法后,解決了模型中神經元等參數固定的問題,使網絡結構更加穩定,網絡預測更加平緩。進行優化后的模型對原聯合模型擁有更佳的預測能力,在預測空氣中PM2.5含量時有更好的準確率。
在后續的研究中,可以選取雙向網絡來搭建基礎網絡,根據雙向網絡對過去未來雙向時間的特征處理能力,挖掘出數據特征在過去未來時間中的關系,來構建預測模型。例如,前后兩天的天氣之間是相互影響的,PM2.5的含量變化也會根據積累和擴散相應變化。對于數據噪音的不同,本文使用對數據進行刪除方法處理,未來可以考慮使用均值填充等其他方法去噪,使模型擁有更好的預測精度。
參考文獻:
[1]王永紅,邢艷春,郝小嬌.空氣污染與經濟增長的空間效應及其關系檢驗[J].統計與決策,2022,38(15):7781.
[2]HAN X D,LI H J,LIU Q,et al.Analysis of influential factors on air quality from global and local perspectives in China[J].Environmental Pollution,2019,248:965979.
[3]LIU Z H,WANG L L,ZHU H S.A timescaling property of air pollution indices:a case study of Shanghai,China[J].Atmospheric Pollution Research,2015,6(5):457486.
[4]楊慧,黃瑾,羅明良,等.PM2.5和PM10濃度分布的空間插值方法比較:以河南省信陽市為例[J].西華師范大學學報(自然科學版),2023,44(6):16.
[5]ZHENG Y,LIU F,HSIEH H P.Uair:when urban air quality inference meets big data[C]//American Computer Sociely.Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Chicago,2013:14361444.
[6]KARPATNE A,EBERTUPHOFF I,RAVELA S,et al.Machine learning for the geosciences:challenges and opportunities[J].IEEE Transactions on Knowledge and Data Engineering,2019,31(8):15441554.
[7]CHU J,DONG Y,HAN X,et al.Shortterm prediction of urban PM2.5 based on a hybrid modified variational mode decomposition and support vector regression model[J].Environmental Science and Pollution Research,2021,28(1):5672.
[8]李濟瀚,李曉理,王康,等.基于PCAOSELM的大氣PM2.5濃度預測[J].北京理工大學學報,2021,41(12):12621268.
[9]ZHU M,XIE J.Investigation of nearby monitoring station for hourly PM2.5 forecasting using parallel multiinput 1DCNNbiLSTM[J].Expert Systems with Applications,2023,211:118707.
[10]LIU B,YAN S,LI J Q,et al.A spatiotemporal recurrent neural network for prediction of atmospheric PM2.5:a case study of Beijing[J].IEEE Transactions on Computational Social Systems,2021,8(3):578588.
[11]楊麗,吳雨茜,王俊麗,等.循環神經網絡研究綜述[J].計算機應用,2018,38(S2):16.
[12]PRANOLO? A,MAO Y,WIBAWA A P,et al.Optimized three deep learning models BasedPSO hyperparameters for Beijing PM2.5 prediction[J].Knowledge Engineering and Data Science,2022,5(1):5366.
[13]CEN H,YU L,PU Y,et al.A method to predict CO2 mass concentration in sheep barns based on the RFPSOLSTM model[J].Animals,2023,13(8):1322.
[14]DONG L,LIU J,ZHAO Y.Forecasting of PM2.5 concentration in Beijing using hybrid deep learning framework based on attention mechanism[J].Applied Sciences,2022,12(21):11155.
[15]劉嚴萍,王勇,賴迪輝.基于PM10與氣態污染物的北京市PM2.5濃度模型研究[J].災害學,2016,31(2):116118.
[16]ELMAN J L.Finding structure in time[J].Cognitive Science,1990,14(2):179211.
[17]HOCHREITER S,SCHMIDHUBER J.Long shortterm memory[J].Neural Computation,1997,9(8):17351780.
[18]HOCHREITER S.Untersuchungen zu dynamischen neuronalen Netzen[D].Munich:Technische Universitt München,1991.
[19]MNIH V,HEESS N,GRAVES A.Recurrent models of visual attention[J].Computer Science,2014,2:22042212.
[20]KENNEDY J,EBERHART R.Particle swarm optimization[C]//Proceedings of ICNN95International Conference on Neural Networks.IEEE,1995,4:19421948.
PM2.5 Prediction of Long ShortTerm Memory Network(LSTM)Based on Particle Swarm Optimization Algorithmand Attention Mechanism
JI Dong1a,LIU Zuhan1a,WANG Lili1b,TU Xiang2
(1.a.School of Information Engineering,b.College of Science,Nanchang Institute of Technology,Nanchang Jiangxi 330099,China;
2.Jiangxi Academy of EcoEnvironmental Sciences and Planning,Nanchang Jiangxi 330039,China)
Abstract:PM2.5 is one of the important factors affecting air quality.More accurate prediction of the content of PM2.5 plays an important role in forecasting air quality changes,doing air governance and promoting the scientific and green development.This paper proposes a Long ShortTerm Memory Network(LSTM) model based on particle swarm optimization algorithm and attention mechanism.This model has both the ability of LSTM to easily extract the time dimension information of data,and the ability of attention mechanism to perfectly solve the feature weight distribution,which can more accurately predict the content of PM2.5 in the air.Through comparative experiments with K nearest neighbor regression,support vector regression,recurrent neural network and LSTM based on attention mechanism without optimization processing,it is proved that the LSTM based on particle swarm optimization algorithm and attention mechanism has better performance in predicting PM2.5 content in the air,and the Mean Square Error (MSE) and Mean Absolute Error (MAE) of the model are reduced by more than 50% under the same correlation coefficient (R2).
Keywords:PM2.5;Long ShortTerm Memory Network;attention mechanism;particle swarm optimization algorithm;prediction