康俊鋒,譚建林,方 雷,肖亞來
XGBoost-LSTM變權組合模型支持下短期PM2.5濃度預測——以上海為例
康俊鋒1,譚建林1,方 雷2*,肖亞來1
(1.江西理工大學土木與測繪工程學院,江西 贛州 341000;2.復旦大學環境科學與工程系,上海 200433)
為進一步提高PM2.5濃度預測的精度,基于XGBoost和LSTM進行改進得到變權組合模型XGBoost-LSTM(Variable).過對預測因子進行相關性分析,得到其它大氣污染物和氣象因素對PM2.5濃度的影響,確定最優PM2.5濃度預測因子,再將預處理后數據集輸入LSTM模型和XGBoost模型分別進行預測,采用基于殘差改進的自適應變權組合方法得到最終預測結果.結果表明,污染物變量的相對重要性高于氣象因子變量,其中當前PM2.5和CO濃度的相對重要性較高,而平均風速和相對濕度重要性較低.XGBoost-LSTM(Variable)模型的RMSE、MAE和MAPE值為1.75、1.12和6.06,優于LSTM、XGBoost、SVR、XGBoost-LSTM(Equal)和XGBoost-LSTM(Residual)模型.分季節預測結果表明,XGBoost-LSTM(Variable)模型在春季預測精度最好,而夏季預測精度較差.模型預測精度高的原因在于其不僅考慮了數據的時間序列特征,又兼顧了數據的非線性特征.
LSTM;XGBoost;PM2.5預測;變權組合
社會經濟的快速發展導致PM2.5等空氣污染問題日益突出[1-2],對PM2.5等空氣污染物濃度進行精準預測和提前預警具有重要意義.PM2.5濃度預測模型主要包括以CAMQ[3](通用多尺度空氣質量模型)模式、WRF-Chem[4](區域大氣動力-耦合模型)模式和NAQPMS[5](嵌套空氣質量預報模式系統)模式等為代表的機理模型,以多元統計理論、灰色預測模型(G,M)[6-7]、多元線性回歸模型[8]等為代表的統計預報模型,以及以徑向基神經網絡(RBF)、反向傳播神經網絡(BP)、支持向量機(SVM)等神經網絡發展到基于深度學習模型的神經網絡,如:基于深度信念網絡(DBNs)、長短期記憶神經網絡(LSTM)等[9-12].
隨著機器學習技術的發展,有研究采用歷史氣象數據或歷史污染數據,利用支持向量回歸模型[13]、隨機森林[14-16]、BP人工神經網絡[17]以及LSTM網絡[18]等單機器學習模型,預測實時PM2.5濃度[19]、未來短期[20-21]和長期PM2.5濃度[14,22-23]及PM2.5濃度的空間變異[17]等.有研究通過構建多個單機器學習模型進行PM2.5濃度預測比較,LSTM網絡在處理非線性時序數據方面性能高效并且有更好的泛化能力[24],XGBoost模型預測精度優于其他單機器學習模型[25].為進一步提高PM2.5濃度預測精度,有學者開始嘗試組合多個機器學習模型來預測PM2.5濃度.宋國君等[26]和李建更等[27]分別建立了基于時間序列分解的SVR組合預測模型、Liu等[28]構建了DBN、LSTM網絡和多層神經網絡(MLP)的三模型組合模型.雖然組合預測模型相較于單機器學習模型可以提升和改善模型預測精度[29],但已有的組合模型研究都只是簡單的將一個模型預測結果輸入另一模型進行二次預測,或者將多個模型的預測結果進行簡單求和.其特點類似一種“機械組合”,兩種或多種組合模型之間未發生真正的“化學反應”.
此外,由于PM2.5濃度變化既受氣象因素影響,也受空氣污染物影響[30-31],但已有基于機器學習的PM2.5濃度變化預測研究大都只采用氣象數據,或者只采用污染物濃度歷史數據來進行PM2.5濃度預測,預測精度受限.因此,本研究嘗試將氣象數據、空氣污染物數據和PM2.5濃度歷史數據結合,在分析空氣污染物和氣象因素對PM2.5濃度影響基礎上,設計了一種基于殘差賦權[32]改進的自適應賦權方法,構建XGBoost模型和LSTM網絡變權組合模型,對未來1h短期PM2.5濃度進行預測,以期為環境監測部門及社會公眾提供預警及精準預測.
上海市(30°40′~31°53′N,120°52′~122°12′E)位于中國東部沿海的長江三角洲地區,是典型的特大型城市,面積約6340km2,地形起伏小,屬于亞熱帶季風氣候,其空氣質量一直引人關注.本研究選取上海市10個環境監測站點(圖1)2017年1月1日~10月31日逐小時歷史空氣質量濃度數據和氣象數據(共7297組)數據,其統計性描述如表1所示.其中,近地面PM2.5濃度等空氣質量數據來自于生態環境部部空氣質量實時發布系統(http://106.37.208.233: 20035/),氣象數據來自于歐洲中期天氣預報中心3km′3km再分析數據(https://www.ecmwf.int/).

圖1 研究區域

表1 上海市空氣質量數據和氣象數據統計性描述
1.2.1 XGBoost XGBoost(Extreme Gradient Boosting)是一種集成的樹模型,是GBDT(Gradient Boosting Decision Tree)的改進boosting算法,具有訓練速度快、預測精度高等優點[33].XGBoost集成了多棵分類回歸樹(CART)以彌補單棵CART無法滿足預測精度的不足,預測結果等于所有CART的得分總和[34].模型表示為:

XGBoost通過對代價函數進行二階泰勒展開,使用一階和二階導數,在訓練集上可以更快收斂,有效提高訓練速度,并且將正則化項加到損失函數上,可以降低模型的復雜度和過擬合的風險.
1.2.2 LSTM LSTM(Long Short-Term Memory)是RNN(Recurrent Neural Network)的改進模式,由Hpchreiter等[35]在1997年提出,采用LSTM層替換了傳統的隱藏層,通過引入輸入門、輸出門、遺忘門三種“門”結構實現信息的有效篩選和長期記憶.LSTM內部結構如圖2所示:

圖2 LSTM模型結構
計算公式如下:







1.2.3 變權組合預測模型 本文構建三個組合模型:XGBoost和LSTM等值賦權組合模型XGBoost-LSTM(Equal)、XGBoost和LSTM殘差賦權組合模型XGBoost-LSTM(Residual)以及XGBoost和LSTM變權組合模型XGBoost-LSTM (Variable).
(1) 單機器學習模型構建單機器學習模型的優劣決定組合模型的預測精度和性能,設置合理有效的超參數對于提高組合模型的預測性能和收斂速度具有重要意義[36].基于前人研究模型參數設置[37-38]對LSTM網絡超參數進行設置,最終模型網絡層數為2,學習率設置為0.001,激活函數設置為Tanh,優化算法選用Adam算法,迭代訓練次數設置為100次,并設置學習率衰減為50次削弱為10%.
利用Scikit-learn提供的網格搜索(GridSearch)方法[39]對XGBoost模型的超參數尋優,模型參數最終設置為:max_depth=4,learning_rate=0.1,n_ estimators=200,subsample=0.7,colsample_bytree=0.85, silent=True,ganma=0.2.
(2)組合模型賦權組合模型精度與單機器學習模型的賦權有直接關系,賦權方法常見的有固定賦權與自適應賦權,其中固定賦權以等值賦權和殘差賦權法最為常見[40].
等值賦權將單模型賦予相同的權重,而殘差賦權組合模型表達為:




(3)改進的變權組合模型賦權方法本文使用基于殘差賦權改進的自適應賦權方法的變權[41]方法構建了XGBoost-LSTM(Variable)模型.對于單機器學習模型在基于式(9)得到所有時刻殘差賦權的權重基礎上改進,計算最優值,使用前時刻權重平均值對本時刻模型進行初始賦權,即:

對于時刻,假設基于式(9)和式(11)得到各單機器學習模型權重后,計算該時刻組合模型的預測值與真實值的誤差絕對值分別為e,t、e,t,則有:


比較e,t和e,t值的大小,如果e,t<e,t則該組合模型用新的權重()代替原來的權重(),否則模型權重保持不變.
1.2.4 組合預測模型構建流程 組合預測模型構建流程如圖3所示,包括數據預處理、單機器學習模型和變權組合預測模型構建以及模型評價分析.

圖3 XGBoost-LSTM(Variable)模型預測流程
(1)數據預處理得到的原始數據集進行預處理,主要包括數據清洗、缺失值填充和歸一化處理,本研究缺失值采用缺失前后數據均值補充.
(2)單機器學習模型構建數據集按照訓練集:測試集=9:1比例劃分后,在訓練集上分別訓練LSTM網絡和XGBoost模型,確定模型最優超參數,保存訓練模型.將測試集分別輸入模型,得到各單機器學習模型預測結果.
(3)變權組合預測模型構建采用前文所示賦權方法確定各單機器學習模型的權重,計算得到組合模型最終預測結果.
(4)模型評價分析根據模型評價指標比較模型預測能力,分析模型預測效果.
1.2.5 評價指標 本研究采用常見的評價指標均方根誤差(RMSE),平均絕對誤差(MAE),平均絕對百分比誤差(MAPE)以及相關系數(2)進行模型精度比較,指標的計算公式如下所示:





2.1.1 空氣污染物因子對PM2.5濃度的影響 PM2.5與其它空氣污染物之間存在著物理化學層面的相互轉化或者在傳輸過程之間產生相互影響[14],因此,對研究區PM2.5濃度與其它污染物變量之間進行了相關性分析.
如圖4所示,分析PM2.5與其它大氣污染物(CO,NO2,O3,PM10,SO2)之間的相關性,可以發現, PM2.5與各污染物之間均存在一定的相互關系.其中PM10、CO與PM2.5之間的相互關系極強,而O3與PM2.5之間的相關性最低,所以可以忽略O3對于PM2.5的影響,這與前人[14]的研究結果相同.
綜上分析,將SO2、NO2和CO 3個污染物變量作為預測模型的輸入,其中與PM2.5有極強相關性的PM10未加入到輸入變量集中,因為經過實驗分析PM2.5與PM10相關性過高導致產生冗余,從而導致精度降低.

圖4 PM2.5與其他大氣污染物的相關性分析

表2 PM2.5濃度與氣象因素相關系數
2.1.2 氣象因素對PM2.5濃度的影響 氣象因子也是影響PM2.5濃度的一個重要因子,已有大量學者證明PM2.5濃度與風速、風向、濕度、氣壓、氣溫等因素之間具有密切關系[8,42-43].對研究區PM2.5與氣象因素進行皮爾遜相關性分析,結果如表2所示.PM2.5與氣象因子存在一定的相關性,其中PM2.5與氣壓和風向呈正相關關系,與氣溫、風速、邊界層高度、相對濕度和降水量呈負相關關系.
在本研究中,氣象因子作為輔助變量進行PM2.5濃度預測,因此氣象因子所有變量均加入本文實驗中.
利用訓練好的XGBoost模型對輸入變量的重要性進行評價,如圖5所示,對于未來1h PM2.5濃度預測,變量重要性結果為污染物變量大于氣象變量重要性,其順序為當前PM2.5濃度、CO濃度、SO2濃度、NO2濃度、降水量、邊界層高度、風向角度、平均氣溫、平均氣壓、平均風速、相對濕度.污染物變量中當前PM2.5濃度值和和CO濃度值重要性相對較高,而SO2、NO2濃度值重要性相對較低.氣象因子變量中,降水量和邊界層高度較為重要,平均風速和相對濕度的重要性相對較低.

圖5 變量重要性分析
為了驗證改進的組合模型XGBoost-LSTM (Variable)精度,選擇XGBoost、SVR、LSTM、XGBoost-LSTM(Equal)、XGBoost-LSTM(Residual)模型進行對比實驗.不同模型預測值與實際值的對比如圖6~7所示.
由圖6可知,PM2.5濃度值實際值處于15~80ug/ m3時,各模型預測值和實際值的擬合度均較高,而對于實際值小于15ug/m3和大于80ug/m3的擬合效果均較差.單機器學習模型的擬合效果劣于組合模型的擬合效果,組合模型中,改進的變權組合模型與實際值的擬合效果最好,起伏程度更加接近PM2.5濃度變化的實際趨勢,偏差較小.
由圖7可知,組合模型的預測精度優于單機器學習模型和傳統賦權方法組合模型預測精度.其中,改進的組合模型XGBoost-LSTM(Variable)的MAE、MAPE和RMSE值相較于XGBoost-LSTM(Equal)模型分別提升了27.3%、22.9%、32.7%,相較于XGBoost-LSTM(Residual)分別提升了20.6%、19.7%、15.1%,表明改進的變權組合方法具有更高的預測精度.

圖6 各模型預測和實測結果對比

圖7 不同模型實測值與預測值
研究區屬于典型亞熱帶季風性氣候,季節氣候存在明顯差異,并且不同季節具有不同的污染物來源.因此針對不同季節選取典型月份進行預測分析,月份選取分別為春季(4月)、夏季(6月)、秋季(10月)和冬季(1月).
由圖8可知,本研究改進的變權組合模型在春季和秋季的預測結果較好,其中春季即4月份為代表的預測精度最高,RMSE、MAE和MAPE各指標值分別為1.65、1.23和2.81,遠小于其它季節的指標值;而在夏季和冬季的預測結果較差,其中夏季的預測結果最差,指標值分別為7.56、6.04和15.19.對于模型不同季節典型月份預測結果分析來看,造成夏季預測結果較差原因是由于夏季強烈的大氣層活動,降雨頻率高以及風速快,形成了較好的大氣顆粒物擴散和清除的氣象條件[44].而在冬季預測結果較好是由于PM2.5濃度與影響因子的相關性更好[25,45-46].

圖8 組合模型四季典型月份預測結果
使用氣象數據、空氣污染物數據以及PM2.5濃度歷史數據構建了變權組合模型.以上海為研究區域,進行未來1h短期PM2.5濃度預測.采用改進的XGBoost-LSTM(Variable)變權組合模型,RMSE、MAE和MAPE值為1.75、1.12和6.06,遠小于甕克瑞[47]提出的組合模型預測值8.901、6.774和8.862,以及Liu Hui[28]提出的集成模型4.51、2.78和7.79,是由于將時間序列預測模型中性能最好的LSTM網絡和非線性模型中表現較好的XGBoost模型以變權組合的形式進行組合預測,該模型不僅考慮了數據的時間序列特征,又兼顧了數據的非線性特征;對于短時預測分析對比結果,本研究改進的XGBoost- LSTM(Variable)變權組合模型優于XGBoost- LSTM(Equal)組合模型、XGBoost-LSTM(Residual)組合模型,是由于本方法考慮到XGBoost模型和LSTM網絡在不同時刻預測誤差不同,通過對不同時刻采取不同的權重值,充分融合XGBoost模型和LSTM網絡的優勢.
研究區域選擇中,不同地區的污染物組成以及氣象條件具有強烈的地方性特點,因此,本研究只選取上海市作為研究區域探討模型的表現.另外,在PM2.5預測影響因素選擇上,本研究目前只將氣象和空氣質量污染物要素作為預測因子,未來應該考慮土地利用變化因素、經濟、交通、環保政策等更多合適的因素進行預測研究,以進一步提高PM2.5預測精度.
3.1 模型變量重要性分析可知,污染物變量的相對重要性高于氣象因子變量重要性,其中當前PM2.5和CO濃度相對重要性高,而平均風速和相對濕度重要性較低.
3.2 由于組合模型不僅考慮了數據的時間序列特征,又兼顧了數據的非線性特征,因此,與單機器學習模型和其它組合模型結果相比,改進的變權組合模型的預測結果與真實值更加接近,誤差更小,穩定性也更強,可以用于PM2.5濃度短期預警預報.
3.3 由于季節特征等差異,改進的組合模型在季節上的表現有所差異,表現為在春、秋季節預測效果較好,而在夏、冬季節預測結果較差.
[1] Kim Y, Manley J, Radoias V. Medium- and long-term consequences of pollution on labor supply: evidence from Indonesia [J]. IZA Journal of Labor Economics, 2017,6(1):1-15.
[2] 王庚辰,王普才.中國PM2.5污染現狀及其對人體健康的危害[J]. 科技導報, 2014,32(26):72-78.
Wang G C, Wang P C. PM2.5pollution in China and its harmfulness to human health [J].Science & Technology Review, 2014,32(26):72-78.
[3] Dennis R L, Byun D W, Novak J H. The next generation of integrated air quality modeling: EPA's models-3 [J]. Atmospheric Environment, 1996,30(12):1925-1938.
[4] 周廣強,謝 英,吳劍斌,等.基于WRF-Chem模式的華東區域PM2.5預報及偏差原因[J]. 中國環境科學, 2016,36(8):2251-2259.
Zhou G Q, Xie Y, Wu J B, et al.WRF-Chem based PM2.5forecast and bias analysis over the East China Region [J].China Environmental Science, 2016,36(8):2251-2259.
[5] Qingxin W, Qiaolin Z, Jinhua T, et al. Estimating PM2.5concentrations based on MODIS AOD and NAQPMS data over Beijing?Tianjin?Hebei. [J]. Sensors (Basel, Switzerland), 2019,19(5):1207.
[6] Zhang Z, Wu L, Chen Y. Forecasting PM2.5and PM10concentrations using GMCN(1,N) model with the similar meteorological condition: Case of Shijiazhuang in China [J]. Ecological Indicators, 2020,119: 106871.
[7] Pai T, Ho C, Chen S, et al. Using seven types of GM (1, 1) model to forecast hourly particulate matter concentration in Banciao City of Taiwan [J]. Water, Air, & Soil Pollution, 2011,217(1):25-33.
[8] 方曉婷,段華波,胡明偉,等.氣象因素對大氣污染物影響的季節差異分析及預測模型對比——以深圳為例[J]. 環境污染與防治, 2019, 41(5):541-546.
Fang X T, Duan H B, Hu W M,et al. The seasonal differential effects of meteorological parameters on atmospheric pollutants and the prediction model comparison: a case study of Shenzhen [J]. Environmental Pollution & Control, 2019,41(5):541-546.
[9] Liao Q, Zhu M, Wu L, et al. Deep learning for air quality forecasts: a review [J]. Current Pollution Reports, 2020:1-11.
[10] 戴李杰,張長江,馬雷鳴.基于機器學習的PM2.5短期濃度動態預報模型[J]. 計算機應用, 2017,37(11):3057-3063.
Dai L J, Zhang C J, Ma L M,et al. Dynamic forecasting model of short-term PM2.5concentration based on machine learning [J].Journal of Computer Applications, 2017,37(11):3057-3063.
[11] 鄭 毅,朱成璋.基于深度信念網絡的PM2.5預測[J]. 山東大學學報(工學版), 2014,44(6):19-25.
Zheng Y, Zhu C Z. A prediction method of atmospheric PM2.5based on DBNs [J].Journal of Shandong University(Engineering Science), 2014,44(6):19-25.
[12] 朱晏民,徐愛蘭,孫 強.基于深度學習的空氣質量預報方法新進展[J]. 中國環境監測, 2020,36(3):10-18.
Zhu Y M, Xu A L, Sun Q. New progress for air quality forecasting methods based on deep learning [J].Environmental Monitoring in China,2020,36(3):10-18.
[13] 謝永華,張鳴敏,楊 樂,等.基于支持向量機回歸的城市PM2.5濃度預測[J]. 計算機工程與設計, 2015,36(11):3106-3111.
Xie Y H, Zhang M M, Yang L, et al. Predicting urban PM2.5concentration in China using support vector regression [J].Computer Engineering and Design,2015,36(11):3106-3111.
[14] 侯俊雄,李 琦,朱亞杰,等.基于隨機森林的PM2.5實時預報系統[J]. 測繪科學, 2017,42(1):1-6.
Hou J X, Li Q, Zhu Y J, et al. Real-time forecasting system of PM2.5concentration based on spark framework and random forest model [J].Science of Surveying and Mapping, 2017,42(1):1-6.
[15] 任才溶,謝 剛.基于隨機森林和氣象參數的PM2.5濃度等級預測[J]. 計算機工程與應用, 2019,55(2):213-220.
Ren C R, Xie G. Prediction of PM2.5concentration level based on random forest and meteorological parameters [J].Computer Engineering and Applications,2019,55(2):213-220.
[16] 夏曉圣,陳菁菁,王佳佳,等.基于隨機森林模型的中國PM2.5濃度影響因素分析[J]. 環境科學, 2020,41(5):2057-2065.
Xia X S, Chen J J, Wang J J, et al. PM2.5concentration influencing factors in China based on the random forest model [J].Environmental Science,2020,41(5):2057-2065.
[17] 王 敏,鄒 濱,郭 宇,等.基于BP人工神經網絡的城市PM2.5濃度空間預測[J]. 環境污染與防治, 2013,35(9):63-66.
Wang M, Zou B, Guo Y, et al. BP artificial neural network-based analysis of spatial variability of urban PM2.5concentration [J].Environmental Pollution & Control, 2013,35(9):63-66.
[18] 白盛楠,申曉留.基于LSTM循環神經網絡的PM2.5預測[J]. 計算機應用與軟件, 2019,36(1):67-70.
Bai S N, Shen X L. PM2.5Prediction based on LSTM recurrent neural network [J].Computer Applications and Software,2019,36 (1):67-70.
[19] Zhang Y, Bocquet M, Mallet V, et al. Real-time air quality forecasting, part I: History, techniques, and current status [J]. Atmospheric Environment, 2012,60(1):632-655.
[20] 段大高,趙振東,梁少虎,等.基于LSTM的PM2.5濃度預測模型[J]. 計算機測量與控制, 2019,27(3):215-219.
Duan D G, Zhao Z D, Liang S H, et al. Research on PM2.5concentration prediction based on LSTM [J].Computer Measurement & Control, 2019,27(3):215-219.
[21] Liu D, Sun K. Short-term PM2.5forecasting based on CEEMD-RF in five cities of China [J]. Environmental Science and Pollution Research, 2019,26(32):32790-32803.
[22] Huang K, Xiao Q, Meng X, et al. Predicting monthly high-resolution PM2.5concentrations with random forest model in the North China Plain [J]. Environmental Pollution, 2018,242.
[23] Mao X, Shen T, Feng X. Prediction of hourly ground-level PM PM2.5concentrations 3days in advance using neural networks with satellite data in eastern China [J]. Atmospheric Pollution Research, 2017,8(6):1005-1015.
[24] 趙文芳,林潤生,唐 偉,等.基于深度學習的PM2.5短期預測模型[J]. 南京師大學報(自然科學版), 2019,42(3):32-41.
Zhao W F, Lin R S, Tang W, et al. Forecasting model of short-term concentration based on deep learning [J].Journal of Nanjing Normal University (Natural Science Edition),2019,42(3):32-41.
[25] 康俊鋒,黃烈星,張春艷,等.多機器學習模型下逐小時PM2.5預測及對比分析[J]. 中國環境科學, 2020,40(5):1895-1905.
Kang J F, Huang L X, Zhang C Y, et al.Hourly PM2.5prediction and its comparative analysis under multi-machine learning model [J].China Environmental Science, 2020,40(5):1895-1905.
[26] 宋國君,國瀟丹,楊 嘯,等.沈陽市PM2.5濃度ARIMA-SVM組合預測研究[J]. 中國環境科學, 2018,38(11):4031-4039.
Song G J, Guo X D, Yang X, et al.ARIMA-SVM combination prediction of PM2.5concentration in Shenyang [J]. China Environmental Science, 2018,38(11):4031-4039.
[27] 李建更,羅奧榮,李曉理.基于互補集合經驗模態分解與支持向量回歸的PM2.5質量濃度預測[J]. 北京工業大學學報, 2018,44(12): 1494-1502.
Li J G, Luo A R, Li X l.Prediction of PM2.5mass concentration based on complementary ensemble empirical mode decomposition and support vector Regression [J].Journal of Beijing University of Technology, 2018,44(12):1494-1502.
[28] Liu H, Dong S. A novel hybrid ensemble model for hourly PM2.5forecasting using multiple neural networks: a case study in China [J]. Air Quality, Atmosphere & amp; Health, 2020:1-10.
[29] 王學梅,王鳳文,陳 滔,等.基于組合模型的PM2.5濃度預測及其不確定性分析[J]. 環境工程, 2020,38(8):229-235.
Wang X M, Wang F W, Chen T, et al.PM2.5concentration prediction and uncertainly analysis based on a composite model [J].Environmental Engineering,2020,38(8):229-235.
[30] Wang J, Shao W, Kim J. Multifractal detrended cross-correlation analysis between respiratory diseases and haze in South Korea [J]. Chaos, Solitons and Fractals: the Interdisciplinary Journal of Nonlinear Science, and Nonequilibrium and Complex Phenomena, 2020,135:10.1016/j.Chaos.2020.109781.
[31] Chen J, Lu J, Avise J C, et al. Seasonal modeling of PM2.5in California's San Joaquin Valley [J]. Atmospheric Environment, 2014,92:182-190.
[32] 王新民,崔 巍.變權組合預測模型在地下水水位預測中的應用[J]. 吉林大學學報(地球科學版), 2009,39(6):1101-1105.
Wang X M, Cui W. Application of changeable weight combination forecasting model To groundwater level prediction [J]. Journal of Jilin University (Earth Science Edition), 2009,39(6):1101-1105.
[33] Dietterich T G. An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, boosting, and randomization [J]. Machine Learning, 2000,40(2):139-157.
[34] Wu Y, Qi S, Hu F, et al. Recognizing activities of the elderly using wearable sensors: a comparison of ensemble algorithms based on boosting [J]. Sensor Review, 2019,39(6):743-751.
[35] Hochreiter S, Schmidhuber J. Long Short-Term Memory [J]. Neural Computation, 1997,9(8):1735-80.
[36] 郭立力,趙春江.十折交叉檢驗的支持向量機參數優化算法[J]. 計算機工程與應用, 2009,45(8):55-57.
Guo L L, Zhao C J. Optimizing parameters of support vector machine's model based on genetic algorithm [J].Computer Engineering and Applications, 2009,45(8):55-57.
[37] Zhai W, Cheng C. A long short-term memory approach to predicting air quality based on social media data [J]. Atmospheric Environment, 2020,237.
[38] Chang Y, Chiao H, Abimannan S, et al. An LSTM-based aggregated model for air pollution forecasting [J]. Atmospheric Pollution Research, 2020,11(8):1451-1463.
[39] Gang L, Jingying F, Dong J, et al. Spatial variation of the relationship between PM2.5concentrations and meteorological parameters in China [J]. BioMed Research International, 2015,2015,684618.
[40] 劉 明,王紅蕾,索良澤.基于變權組合模型的中長期負荷概率密度預測[J]. 電力系統及其自動化學報, 2019,31(7):88-94.
Liu M, Wang H L, Suo L Z. Medium-and long-term load probability density forecasting based on variable weight combination model [J].Proceedings of the CSU-EPSA, 2019,31(7): 88-94.
[41] 王新民,崔 巍.變權組合預測模型在地下水水位預測中的應用[J]. 吉林大學學報(地球科學版), 2009,39(6):1101-1105.
Wang X M, Cui W. Application of changeable weight combination forecasting model to groundwater level prediction [J].Journal of Jilin University (Earth Science Edition), 2009,39(6):1101-1105.
[42] 曲 悅,錢 旭,宋洪慶,等.基于機器學習的北京市PM2.5濃度預測模型及模擬分析[J]. 工程科學學報, 2019,41(3):401-407.
Qu Y, Qian X, Song H Q, et al. Machine-learning-based model and simulation analysis of PM2.5concentration prediction in Beijing [J].Chinese Journal of Engineering,2019,41(3):401-407.
[43] 謝 超,馬民濤,于肖肖.多種神經網絡在華北西部區域城市空氣質量預測中的應用[J]. 環境工程學報, 2015,9(12):6005-6009.
Xie C, Ma M T, Yu X X. Forecasting model of air pollution index based on multi-artificial neural network in western region of Northern China [J].Chinese Journal of Environmental Engineering,2015,9(12): 6005-6009.
[44] 劉小真,任羽峰,劉忠馬,等.南昌市大氣顆粒物污染特征及PM2.5來源解析[J]. 環境科學研究, 2019,32(9):1546-1555.
Liu X Z, Ren Y F, Liu Z M, et al. Pollution characteristics of atmospheric and source apportionment of PM2.5in Nanchang City [J].Research of Environmental Sciences,2019,32(9):1546-1555.
[45] 張淑平,韓立建,周偉奇,等.冬季PM2.5的氣象影響因素解析[J]. 生態學報, 2016,36(24):7897-7907.
Zhan S P, Han L J, Zhou W Q, et al. Relationships between fine particulate matter(PM2.5) and meteorological factors in winter at typical Chinese cities [J].Acta Ecological Sinical,2016,36(24):7897- 7907.
[46] 朱媛媛,高愈霄,劉 冰,等.京津冀秋冬季PM2.5污染概況和預報結果評估[J]. 環境科學, 2019,40(12):5191-5201.
Zhu Y Y, Gao Y X, Liu B, et al. Concentration characteristics and assessment of model-predicted results of PM2.5in the Beijing- Tianjin-Hebei Region in autumn and winter [J].Environmental Science,2019,40(12):5191-5201.
[47] 翁克瑞,劉 淼,劉 錢. TPE-XGBOOST與LassoLars組合下PM2.5濃度分解集成預測模型研究[J]. 系統工程理論與實踐, 2020, 40(3):748-760.
Weng K R, Liu M, Liu Q. An integrated prediction model of PM2.5concentration based on TPE-XGBOOST and LassoLars [J].Systems Engineering-Theory & Practice,2020,40(3):748-760.
Short-term PM2.5concentration prediction based on XGBoost and LSTM variable weight combination model: a case study of Shanghai.
KANG Jun-feng1, TAN Jian-lin1, FANG Lei2*, XIAO Ya-lai1
(1.School of Civil and Surveying & Mapping Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China;2.Department of Environmental Science and Engineering, Fudan University, Shanghai 200433,China)., 2021,41(9):4016~4025
In order to further improve the accuracy of PM2.5concentration prediction, a variable weight combination short-term 1-hour PM2.5concentration prediction model based on LSTM network and XGBoost model was proposed.First, analyze the predictive factors, explore the influence of air pollutant factors and meteorological factors on the PM2.5concentration, to determine the best PM2.5concentration predictive factors and analysis the variable importance. Then, after data pretreatment the LSTM prediction model and the XGBoost prediction model was built respectively, and adopt the adaptive variable weight combination method based on residual improvement to obtain the final prediction result. The results show that: The relative importance of pollutant variables is higher than the importance of meteorological factors, among which the relative importance of current PM2.5concentration and CO concentration is higher, while the importance of average wind speed and relative humidity is lower. The values of RMSE, MAE and MAPE of the variable weight combined XGBoost-LSTM (Variable) model proposed in this study are 1.75, 1.12 and 6.06, which are better than LSTM, XGBoost, SVR, XGBoost-LSTM (Equal) and XGBoost-LSTM (Residual) model. The combined model predicts performance best in spring but the forecast accuracy is poor in summer. The variable weight method combination model proposed in this study effectively combines the advantages of the two models, not only considers the time series information of the data but also takes into account the nonlinear relationship between the features, and has higher prediction accuracy compared with other models.
long short term memeny (LSTM);XGBoost;PM2.5forecast;variable weight combination model
X831
A
1000-6923(2021)09-4016-10
康俊鋒(1978-),男,江西贛州人,副教授,博士,主要從事高性能GIS算法及其在環境與土地中的應用研究.發表論文10余篇.
2021-01-26
國家重點研發計劃項目(2016YFC08033105);國家留學基金資助項目(201808360065);江西省教育廳科學技術研究項目(GJJ150661);國家自然科學基金青年基金資助項目(41701462)
*責任作者, 博士, fanglei@fudan.edu.cn