鄭鑫楠, 林開顏, 王孜競, 宋遠博,師 洋, 路函悅, 張亞雷 , 3, 沈 崢, *
(1. 同濟大學 電子與信息工程學院, 上海 201804;2. 同濟大學 新農村發展研究院, 上海 201804;3. 同濟大學 環境科學與工程學院, 上海 200092)
大氣環境污染物一般是由二氧化硫(SO2)、氮氧化物(NOx)、臭氧(O3)、一氧化碳(CO)等工業生產廢物,以及PM10、PM2.5等固體粒子組成。這種污染物會引發腫瘤等各種病癥,嚴重危害人們健康。隨著中國經濟社會發展和人民生活水平的提升,大氣環境污染已成為我國目前存在的主要大氣環境問題之一。因此,建立空氣質量模型預測污染物的濃度對人類健康和環境管理具有重要意義。
目前傳統的空氣質量模型以區域多尺度空氣質量模型(CMAQ)為代表,用數學方程模擬污染物傳播時的物理化學反應機制,充分考慮了實際環境中污染物相互之間的變化與影響,因此得到廣泛的應用。例如,ZHENG等[1]用非均相化學更新的CMAQ模型研究中國北方次生無機氣溶膠的形成;ZHE等[2]使用CMAQ模型分析2013年嚴重霧霾期間河北源部地區和其他地區PM2.5的排放量;HU等[3]使用WRF-CMAQ模型,對2013年中國的臭氧和顆粒物進行了模擬;NAPELENOK等[4]使用CMAQ-ISAM模型研究十余種生物質燃燒對美國東南部PM2.5濃度的影響;KOO等[5]使用WRF-CMAQ模型預測了韓國首爾地區的PM10污染事件發生的時間和污染物的傳輸路徑;WANG等[6]利用WRF-CMAQ模型模擬了香港地區O3在不同海拔地區的分布濃度以及其形成、擴散的物理化學過程。
CMAQ模型的預報需要將污染源排放清單作為數據輸入,由于污染源種類繁多、分布面廣和變化復雜,所以排放清單的編制工作需要較長的時間以及較多的人力,其制作過程決定了排放清單無法滿足實時更新的要求;另外,CAMQ模型是基于“一個大氣”的核心概念建立的,而人們對于大氣這個異常復雜的系統的了解十分有限,無法對其中所有的大氣傳輸、污染物擴散和化學反應等過程進行量化處理;污染源位置和高度、大氣穩定度以及人口、燃料構成等對大氣質量的影響和作用往往是非線性的[7],在應用偏微分方程來描述這些非線性作用時,又使用了大量的近似方法來簡化求解過程。這些都是CMAQ模型的預測結果存在偏差的主要原因。為提高CMAQ模型預報能力,利用監測數據對模型預報結果進行統計修正的方法應用也較為普遍。謝敏等[8]嘗試將監測數據直接作為預報初始值,結合CMAQ模型預報的增減量建立修正方法;王茜等[9]利用線性回歸方法建立預測數據與監測數據之間的關系,降低了由于污染源不確定性產生的預報偏差;蘆華等[10]使用多元線性回歸方法對CMAQ模型的預報結果進行滾動訂正,有效提高了模型的預報效果。SAYEED等[11]利用深度卷積神經網絡(DCNN)對CMAQ模型進行修正和擴展,提高了模型在顆粒物濃度預測上的準確性。
近年來,由于人工智能的應用,不少深度學習算法也逐漸發展,如深度信念網絡(DBN)、卷積神經網絡(CNN)和循環神經網絡(RNN)等。相比于傳統的統計方法,深度學習算法能夠處理更多非線性、非結構化的數據,具有更好的性能。一些研究人員已將其應用于空氣質量研究,YI等[12]提出了一種基于深度神經網絡的PM2.5濃度預測模型,使用卷積神經網絡和循環神經網絡進行特征提取和序列建模,并引入了注意力機制和殘差連接以增強模型的表達能力;XAYASOUK等[13]提出了一種基于深度自編碼器(DAE)和長短期記憶網絡(LSTM)的空氣污染物濃度預測方法,使用DAE對輸入特征進行降維和特征提取,然后利用LSTM對時間序列數據進行預測;PAK等[14]提出了一種基于卷積神經網絡和長短期記憶神經網絡的混合模型(CNN-LSTM)用于預測臭氧濃度,并證實具有良好的精度。LI等[15]使用CNN-LSTM模型預測北京未來24小時PM2.5濃度,并通過比較得出CNN-LSTM模型具有誤差小、訓練時間短的優點。DU等[16]提出了由多個一維卷積神經網絡和一個雙向長短期記憶神經網絡組成的混合CNN-BiLSTM模型,多個一維卷積神經網絡用于提取多個監測站的空間相關性特征,雙向長短期記憶神經網絡可以學習時間序列數據過去和未來的特征,從而進行更有效的預測。
上述研究表明,CNN-LSTM模型在大氣污染物濃度預測方面具有較好的性能。在此基礎上,利用哈里斯鷹優化算法(HHO)尋找CNN-LSTM模型的最優超參數,可以使模型擁有更好的預測效果。本文將會在CMAQ模型對上海市污染物濃度進行預測的基礎上,使用深度學習方法構建基于HHO-CNN-LSTM的修正模型。將CMAQ模型的預報數據以及影響污染物濃度的氣象數據和污染物濃度實測數據作為HHO-CNN-LSTM模型的輸入,進行污染物濃度再預測,從而實現對CMAQ模型預報結果的修正。
卷積神經網絡(CNN)是一種包含卷積結構的深度前饋網絡,由于其強大的特征提取能力,卷積神經網絡已被廣泛用于時間序列數據分析[17]。卷積神經網絡可以提取空間結構中多維時間序列數據之間的關系,它由輸入層、卷積層、池化層、全連接層和輸出層組成。其中,卷積層的特征提取主要是通過卷積核進行的,它可以捕捉污染物數據中存在的時間依賴性[18];池化層主要用于特征降維,減少參數的數量,防止過擬合。經過卷積層和池化層作用后的特征進入全連接層后進行再整合,最終轉化成一維向量。在本研究中,可以將模型的輸入數據樣本看作一個二維矩陣,其中橫軸表示時間維度,縱軸表示特征維度。卷積核在時間維度上進行滑動,對每個時間點附近的特征進行卷積操作。通過多層不同大小的卷積核的疊加,卷積神經網絡可以不斷提取時間維度上的更高級別特征,從而獲得更好的預測效果。
長短期記憶神經網絡(LSTM)是一種改進的循環神經網絡。通過引入門結構(Gate),用門結構決定序列上信息的去留,記住需要長時間記憶的信息,過濾不重要的信息,解決了循環神經網絡的長期依賴問題[19]。它被提出后也進行了改良,增加了額外的遺忘門。改良后的長短期記憶神經網絡解決了模型訓練中“梯度消失”的問題,可以學習時間序列長短期依賴信息,是目前最成功的循環神經網絡架構,應用于許多場景中。在本研究中,大氣污染物濃度數據和氣象數據屬于時間序列數據,當前時刻的狀態通常與過去時刻的狀態有關。通過長短期記憶神經網絡的“遺忘門”“輸入門”和“輸出門”等機制,學習并記憶過往時刻的狀態信息,可以有效地對時間序列數據進行預測。
神經網絡模型包含許多超參數,如神經網絡層數、學習率、神經元數量等,選取最優的超參數能顯著提高模型的精度和擬合度。傳統的超參數選取往往依賴于研究者的個人經驗或者每個超參數組合的效果[20],這種做法需要耗費大量的時間。優化算法的應用可以減少超參數搜索的時間,增強模型的預測效果[21]。近年來,基于種群的元啟發式算法——群智能優化算法開始應用于神經網絡的超參數優化[22-24]。
哈里斯鷹優化算法(HHO)是Heidari在2019年提出的一種群智能優化算法,具有參數少、搜索精度高和簡單易行的優點[25]。該算法由哈里斯鷹對獵物的追捕行為演化而來,其具體流程如圖1所示。根據獵物能量E和捕獲概率r的變化,哈里斯鷹會執行不同的追逐策略。其中,哈里斯鷹為候選解,獵物為最優解,哈里斯鷹捕捉獵物的過程即為候選解向最優解迭代的過程。

圖1 哈里斯鷹優化算法流程示意圖Fig. 1 Flowchart of Harris Hawks Optimization algorithm
由于卷積神經網絡具有較好的特征提取能力,長短期記憶神經網絡在處理時間序列問題上有較大的優勢,同時也能避免梯度消失的問題,因此本研究選擇將卷積神經網絡與長短期記憶神經網絡相結合構建模型,具體結構如圖2所示。模型的前半部分是卷積神經網絡,用于特征提取,提取的信息經過最大池化層(Max-Pool)和Dropout層處理后,可有效防止其過擬合;模型的后半部分是長短期記憶神經網絡,用于時間序列數據的預測,LSTM層的輸出結果經過全連接層(FC)的展平操作后,最終變為一維的預測數據進行輸出。
CNN-LSTM混合神經網絡有卷積層卷積核大小、卷積核數量、LSTM層神經元數量、批次大小等超參數,這些超參數的選取會顯著影響模型的性能。因此本文使用哈里斯鷹優化算法對CNN-LSTM模型進行優化,尋找到最優的超參數,提高模型的預測精度。
哈里斯鷹算法優化CNN-LSTM模型的具體步驟如圖3所示。每個哈里斯鷹個體代表一組超參數,通過計算適應度值對個體進行排序,選取表現最好的一部分個體,作為新一輪迭代的種群,重復迭代直到達到最大迭代次數或找到滿意的超參數組合為止。

圖3 HHO優化CNN-LSTM模型流程示意圖Fig. 3 Flowchart of HHO-optimized CNN-LSTM model
本文研究使用2022年12月1日至2022年12月31日上海市徐匯區上海師范大學空氣質量監測站的大氣污染物濃度數據和徐家匯氣象站的氣象數據。大氣污染物數據來自中國環境監測總站,包括二氧化硫(SO2)、二氧化氮(NO2)、可吸入顆粒物(PM10)、細顆粒物(PM2.5)、一氧化碳(CO)和臭氧(O3)的逐小時監測數據。我們將其作為實測數據,后續用于修正模型的訓練和比較。氣象數據來自國家氣象信息中心,包括溫度、濕度、氣壓、風速和風向的逐小時監測數據,后續作為影響污染物濃度的氣象因子用于修正模型的訓練。
CMAQ模型是美國環保署(EPA)開發的第三代空氣質量預報模型。通過輸入氣象數據和排放源清單,CMAQ模型使用數學算法和反應動力學模型對大氣中各種污染物的傳輸、化學反應、擴散等過程進行建模和模擬,從而預測不同時間和空間范圍內污染物的濃度分布情況。化學傳輸模塊是CMAQ模型的核心,包括擴散模塊、平流模塊、氣象化學模塊、氣溶膠模塊等,用于模擬和預測污染物的化學反應、輸送和擴散過程。
本研究使用CMAQ模型對上海市2022年12月1日至2022年12月30日的空氣污染物濃度進行逐時預報。空氣質量預報模型模擬區域采用Lambert投影坐標系,坐標中心點為31°N、121°E,設置兩層嵌套網格,第一層網格水平分辨率為27公里,網格數為100×100;第二層網格水平分辨率為9公里,網格數為103×103。CMAQ模型自2022年12月1日開始,每日0時起報,預報未來72小時的污染物濃度。將相同時間點的預報數據進行均值化處理,得到了上海市2022年12月1日至2022年12月30日的空氣污染物(SO2、NO2、PM10、PM2.5、O3、CO)濃度逐小時預報數據。將其作為CMAQ預報數據后續用于修正模型的訓練和比較。
本研究使用哈里斯鷹算法優化的CNN-LSTM模型作為污染物濃度的修正模型,對CMAQ模型的預報結果進行修正。考慮到污染物濃度與氣象條件緊密相關,同時污染物之間存在復雜的化學反應[26],修正模型的輸入特征包括氣象因子(溫度、濕度、氣壓、風速、風向)和除自身外其他5項污染物濃度的實測數據以及該項污染物的CMAQ預報數據,共計11個特征,輸出數據為該項污染物濃度的實測數據。實驗數據的時間范圍為2022年12月1日0時至2022年12月30日23時,時間步長為1小時,共計720條數據。對實驗數據進行劃分,設置訓練集、驗證集和測試集的比例為7∶2∶1并進行歸一化處理。
將處理好的數據輸入模型后,開始使用哈里斯鷹算法對CNN-LSTM的超參數進行尋優迭代。需要優化的超參數包括卷積核大小、卷積核數量、批次大小、第一層LSTM神經元個數、第二層LSTM神經元個數、最大迭代數和學習率。確定每個超參數的尋優范圍,通過HHO迭代找到最優的超參數。將最優的超參數組合應用于CNN-LSTM模型,當模型完成訓練之后便可得到新的污染物濃度預測值,從而實現對CMAQ模型預報結果的修正。
基于HHO優化的CNN-LSTM大氣污染物濃度修正模型對CMAQ預測數據的修正結果如圖4所示。選擇均方根誤差(RMSE)、平均絕對誤差(MAE)和一致性指數(IOA)作為評價指標來評價模型的預測效果。均方根誤差和平均絕對誤差反映預測值與實測值的數值偏差,一致性指數反映預測值與實測值的一致性。三個評價指標的計算公式如下:

圖4 污染物濃度修正結果Fig. 4 Correction results of pollutant concentration
(1)
(2)

(3)


表1 修正前后的評價指標結果
由圖4可以明顯看出經過深度學習算法修正后的CMAQ預報數據(CMAQ-DL)相比修正前(CMAQ)更貼近實測值。根據表1可知,修正后的模型預測結果在均方根誤差、平均絕對誤差,和一致性指數三項評價指標上均表現得更加優異。六項污染物濃度的預測誤差都大幅降低,RMSE減少了73.11%~91.31%,MAE減少了67.19%~89.25%。各項污染物濃度的預測值與實際值的一致性也都有顯著提升,IOA提升了35.34%~108.29%。相比之前學者采用的線性回歸方法(IOA從0.564提升至0.721)[9],HHO-CNN-LSTM模型對CMAQ預報結果的修正效果更好。這是因為本研究考慮了更多維度的影響因素,且神經網絡方法在處理高維度和非線性數據上具有較大的優勢。
其中CO的IOA雖有很大提升,但相比于其他污染物,CO的IOA仍然較低,一方面可能是因為CMAQ模型對CO的預測精度較低,從而影響了神經網絡的訓練;另一方面可能是因為HHO-CNN-LSTM模型性能上的問題,接下來將對修正模型的性能進行檢驗。
為了檢驗HHO-CNN-LSTM模型的性能,本文將其與CNN-LSTM、LSTM、支持向量機(SVM)三個模型進行比較。選取2022年12月的實測數據與CMAQ預報數據,使用上述四個模型對CMAQ預報結果進行修正,同樣選擇均方根誤差、平均絕對誤差和一致性指數作為評價指標,結果見表2。

表2 模型比較
比較表1和表2可以看出,四個模型修正后的預測值均更加接近實際值。其中,CNN-LSTM模型對六項污染物濃度的預測效果均好于LSTM模型,可見卷積層在特征提取方面的優勢。HHO-CNN-LSTM模型在SO2、NO2、PM10、PM2.5、O3這五種污染物濃度的修正效果上優于其他三個模型,相比于CNN-LSTM模型,HHO-CNN-LSTM模型預測值的RMSE減少了6.30%~18.80%,MAE減少了2.91%~22.82%,IOA提升了1.10%~5.73%,這是因為哈里斯鷹算法在訓練過程中為混合神經網絡找到了最優的超參數,提高了模型的預測性能。然而,在CO濃度的預測中,HHO-CNN-LSTM模型的結果并不理想,在三項評價指標的表現上不如其他三個模型,這可能是因為哈里斯鷹算法在超參數迭代過程中陷入了局部最優[27],本文將針對這個問題對哈里斯鷹算法進行改進。
針對哈里斯鷹算法可能在對模型進行優化的過程中陷入了局部最優而導致對CO濃度預測效果不佳的問題,本文在算法迭代尋優過程中加入了高斯隨機游走策略來對算法進行改進。利用優勢種群的平均值來判斷算法是否陷入停滯,當優勢種群的平均值在連續兩次迭代過程中沒有變化,則認為算法陷入停滯。此時利用高斯隨機游走策略生成新個體進而幫助哈里斯鷹算法跳出局部最優。高斯隨機游走策略的公式如下:
X(t+1)=Gaussian(X(t),σ)
(4)
(5)
式(4~5)中σ為隨機游走的步長,X為從優勢種群中隨機選擇的一個個體,t和T分別為當前迭代次數和最大迭代次數。通過余弦函數在迭代前期施加較大擾動,迭代后期擾動迅速減小,進而平衡了算法的尋優能力。
將使用高斯隨機游走策略改進后的哈里斯鷹算法應用于修正模型進行CO濃度的預測,結果如圖5所示。由圖5可知,基于改進的HHO優化的CNN-LSTM模型(GHHO-CNN-LSTM模型)在CO濃度的預測效果上有了很大提升,預測值比其他模型更接近實際值。此外,將改進前后的修正模型進行比較(見表3),發現兩者在SO2、NO2、PM10、PM2.5、O3五種污染物濃度上的預測效果相差無幾,可見兩個模型都在算法的優化下找到了最優的超參數組合。而在CO濃度的預測上,相比于改進前的HHO-CNN-LSTM模型,GHHO-CNN-LSTM模型在三項指標的表現上均有了顯著提升,RMSE減少了39.55%,MAE減少了45.93%,IOA提高了32.43%。可見加入了高斯隨機游走策略的哈里斯鷹算法有效解決了傳統哈里斯鷹算法在尋優迭代過程中易陷入局部最優的問題,提高了修正模型在CO濃度上的預測精度。

表3 改進前后的模型評價指標結果

圖5 CO濃度預測結果Fig. 5 Prediction results of CO concentration
在日益加劇的空氣污染嚴重影響人們身體健康和社會經濟發展的背景下,建立空氣質量模型預測污染物濃度具有重要意義。然而傳統的空氣質量模型CMAQ對污染物濃度的預報精度并不理想。基于此,本文在使用CMAQ模型對上海市2022年12月六種大氣污染物(SO2、NO2、PM10、PM2.5、O3、CO)濃度進行預測的基礎上,建立HHO-CNN-LSTM模型對預報結果進行修正,顯著提高了預測精度,RMSE減少了73.11%~91.31%,MAE減少了67.19%~89.25%,IOA提升了35.34%~108.29%。并針對HHO算法陷入局部最優而導致對CO濃度修正效果不佳的問題,使用高斯隨機游走策略對算法進行改進,提高了修正模型在CO濃度上的預測精度。與改進前相比,RMSE減少了39.55%,MAE減少了45.93%,IOA提高了32.43%。本文的工作為人工智能技術與傳統空氣質量模型的結合提供了思路,為大氣污染物的防治作出了貢獻。
然而,基于深度學習的預測方法也存在其局限性。例如,在中長期預測中可能會出現顯著誤差以及面臨“缺乏可解釋性”和“對極端天氣條件的不準確預測”等挑戰。因此,在未來的研究中,可以用更大時間尺度上的數據訓練該模型,并將反映基礎物理機制的數學方程式納入神經網絡架構中,以此建立一個具有更強的普適性和可解釋性的空氣質量預測模型。