趙琦琳,邱 飛,楊 健
1.云南省環境監測中心站, 云南 昆明 650034 2.昆明市環境監測中心, 云南 昆明 650000
大氣污染問題是經濟社會粗放無序發展的必然產物,同時也是經濟社會發展的制約因素之一[1-2]。2012以來,全國接連發生大范圍、長時間、高濃度空氣污染,嚴重影響了人們的身體健康以及生產生活,大氣污染問題逐步成為輿論熱點[3-5]。為保護和改善環境空氣質量,保障人民群眾身體健康,國家出臺了《關于推進大氣污染聯防聯控工作改善區域空氣質量指導意見的通知》和《關于印發大氣污染防治行動計劃的通知》,修訂《環境空氣質量標準》,一系列建立在宏觀戰略上為改善空氣質量的頂層設計,彰顯了黨中央在環境保護工作方面的力度和決心。為應對環境空氣質量重污染天氣管控的迫切需求,環境空氣質量預報預警作為一項新的環保業務工作應運而生,在為豐富環境空氣質量監測數據的應用,為公眾提供空氣質量變化趨勢及出行參考信息,為管理部門科學制定大氣污染聯防聯控措施等方面表現出了強大的生命力[6-7]。
我國疆域遼闊,不同地區地形、氣象條件差異明顯,在復雜地形影響下,污染物在大氣中的遷移、擴散和轉化機制不盡相同,平原地區不同地點的研究結果具有較好的可比性,但復雜地形和氣象條件有明顯的個例差異[8-11]。當前已有一些數值模式應用在復雜地形下污染物濃度的預測,但數值模式是人類對客觀規律的部分反映,并未將全部的自然規律囊括并運用公式表達在模式計算的過程中,且數值模式受到計算能力的影響,使其應用受到較多限制,而神經網絡模型是利用數學算法對數據間規律進行表征,已有的觀測或監測數據已經是經歷過各種外界影響下的最終反映,故神經網絡模型計算可略去物理、化學及轉化機制的影響,避免機制的重復計算。
人工神經網絡是一門新興的邊緣學科,可以彌補傳統統計方法的不足,解決一些用傳統統計方法難以解決的問題[12]。NARX(Nonlinear Auto-Regressive with Exogenous Inputs,有外部輸入的非線性自回歸模型)神經網絡具有良好的非線性映射能力,較傳統的靜態神經網絡具有更好的預測精度和自適應能力[13],可以看作有時延輸入的BP(Back Propagation,反向傳播)神經網絡加上輸出到輸入的延時反饋連接[14]。由于NARX神經網絡包含了多步輸入輸出延時,因而它可以反映系統的歷史狀態信息,是一種有記憶功能的神經網絡[15]。與BP神經網絡等簡單的靜態神經網絡相比,NARX神經網絡能夠更好地描述動態時變系統特性,從而更有效地實現復雜動態系統建模。
本文利用NARX神經網絡模型對典型高原山地城市昆明的6個國控環境空氣質量自動監測站環境空氣質量進行模擬,并與LSTM(Long Short-Term Memorg,長短時記憶)模型、CMAQ(Community Multiscale Air Quality Modeling System,社區多尺度空氣質量模型系統)、NAQPMS(Nested Air Quality Prediction Modeling System,嵌套網格空氣質量預報系統)等數值模型模擬結果進行對比,以期驗證神經網絡模型在復雜地形下環境空氣質量預測中的能力,為復雜地形、氣象條件下環境空氣質量預測預報積累更多基礎資料。
昆明市位于云貴高原中部,是珠江、金沙江、紅河3大水系流域分水嶺。東西跨越152 km,南北縱深237.5 km,轄區面積2.11萬 km2,其中丘陵和山地占88%,平地僅占10%,湖泊占2%。昆明市區主城三面環山,南臨滇池,處于群山環繞的盆地中,昆明市平均海拔1 891 m,最大海拔高差達3 501.7 m。昆明屬于北亞熱帶低緯高原山地季風氣候,市區年平均氣溫在15 ℃左右,年平均風速4 m/s,常年主導風向為西南風。城區氣壓僅有0.8 kPa,具有典型的高原特征。
為對比NARX神經網絡模型與用于常規空氣質量預報的CMAQ、NAQPMS數值模型以及LSTM神經網絡模型的性能,采用2015年1月1日—2017年2月8日的城市日均氣象和空氣質量數據作為NARX網絡訓練數據集,模擬預測2017年2月9日—2017年3月11日共30 d的城市日均環境空氣質量6項數據。研究選取的數據為昆明市主城區6個國控環境空氣自動監測站常規空氣質量監測及氣象觀測數據,具體包括SO2、PM10、NO2、PM2.5、CO、O3等6項空氣質量監測數據,氣溫、濕度、風速、風向、氣壓等氣象5參數。監測數據頻次為連續小時監測值。對數據進行歸一化、元胞化處理。CMAQ和NAQPMS 2個數值模式采用統一的WRF(the Weather Reasarch and Forecasting Model,天氣研究預報模型)氣象場的輸入數據,采用統一的云南省2015年基準污染源清單作為污染源濃度初始場。
NARX神經網絡可以定義為
y(t)=f[y(t-1),y(t-2),…,y(t-ny),
x(t-1),x(t-2),…,x(t-nx)]
(1)
式中:f(·)表示用神經網絡實現非線性的過程函數。沿著數據在時間軸方向的拓展。此式表示了神經網絡的時間序列實現函數模擬功能的數據關聯性建模思想。
NARX模型結構詳見圖1。

圖1 NARX神經網絡模型結構圖Fig.1 Architecture diagram of NARX neural network model
根據已有的數據資源,使用NARX神經網絡建立模型,模擬預測城市區域的環境空氣質量6項指標的日均值。將歷史氣象因子、歷史環境空氣質量因子作為輸入,將未來1天的環境空氣質量因子作為輸出,建立輸入-輸出之間的響應模型,模型在一定誤差允許的范圍之內能夠模擬仿真上述3類不同要素之間的響應關系。
通過專家經驗和試湊法對隱層節點數和輸入輸出延遲階數不同的網絡進行訓練。然后通過誤差和網絡性能對比,選定最終的網絡結構,NARX網絡的輸入均為非反饋輸入,而環境空氣質量6項指標,可以認為是大量物理、化學、氣象因素綜合作用后的結果,因此,對灰箱系統而言,氣象參數5項設為非反饋輸入,空氣質量6項設為反饋輸出;而對于灰箱系統內部而言,歷史氣象因子、歷史環境空氣質量因子作為非反饋輸入,未來一天環境空氣質量因子作為反饋輸出。
模式使用的歷史氣象5參數以及歷史空氣6參數并非同步實時作用于預測結果中的空氣6參數,而是在結果一定擴散傳輸、遷移轉化等動力學機制之后的綜合反饋,最終反映在環境空氣自動站監測數據上的,因此輸入-輸出之間存在一定時間的延遲。
設置隱層結構為1~3層,每層3~10個神經元節點,經過大步幅的粗調和小步幅的微調,反復調試求取最優的隱層結構,訓練函數取trainlm;隱層傳遞函數為tansig,輸出層傳遞函數為purelin。分30次,使用開環網絡一步預測法,使用訓練好的模型仿真求解。
如圖2所示,對預測結果進行分析,其中NARX、NAQPMS、LSTM預測結果為2017年2月10日—3月11日,CMAQ預測結果為3月3—11日(由于云南省省級預報預警平臺CMAQ模式部署時間為3月3日,故CMAQ僅對比了3—11日的模擬結果)。模擬結果顯示,NARX神經網絡模型對6項污染物的模擬均具有較好一致性,對模擬結果趨勢存在一定的滯后,總體模擬結果較好,相比其他2個數值模型和LSTM模型而言,NARX神經網絡模型更加穩健,4個模式均存在一定程度的低估。其中對SO2的模擬性能來說,NARX具有較好的一致性,LSTM存在較大程度的高估,NAQPMS和CMAQ存在不同程度的低估;對于NO2來說,NARX具有較好的一致性,數值模式同樣存在不同程度的低估,對于CO來說;NARX一致性較好,LSTM趨勢不盡一致,但數值水平相當,數值模式依然存在低估;對于O3來說,各模式模擬數值水平相當,NARX和NAQPMS的模擬結果與觀測值一致性較好,LSTM表現一般;對于顆粒物(PM10、PM0.5)來說,數值模式依然表現出趨勢上的一致,而數值水平相差較大,NARX具有較好的一致性,且數值水平相當。
根據已有數據,使用NARX神經網絡建立模型,模擬預測昆明市環境空氣質量6參數結果,取預測值與監測結果的最大、最小相對誤差和相對誤差絕對值的均值等來表征模型模擬效果的好壞,結果見表1、表2。

圖2 模式模擬結果與觀測值的比較Fig.2 Comparison of the model simulation results with the observed values

空氣質量6參數最小、最大相對誤差/%net=narxnet(1:7,1:7,[10]) ;氣象取5個參數*net=narxnet(1:7,1:7,[4]);氣象取5個參數*net=narxnet(1:7,1:7,[7]) ;氣象取5個參數*SO2-58.512 375.796 8-16.597 679.012 6-26.814 772.747 1PM10-67.740 068.667 8-54.953 354.177 1-42.911 747.999 8NO2-50.616 218.105 5-31.707 933.148 0-31.379 832.094 3PM2.5-64.073 834.449 1-63.882 329.432 8-36.715 057.988 5CO-40.037740.348 8-13.456 951.182 1-18.294 728.115 2O3-46.118 2278.385 2-55.797 1238.113 6-47.827 2260.062 3空氣質量6參數最小、最大相對誤差/%net=narxnet(1:7,1:7,[7]);氣象取前3個參數*net=narxnet(1:7,1:7,[10]);氣象取前3個參數*net=narxnet(1:7,1:7,[5]);氣象取前3個參數*SO2-28.484 932.843 3-29.306 5117.922 6-31.622 274.004 9PM10-45.463 366.936 9-33.418 446.189 4-35.782 549.817 7NO2-24.643 456.777 6-27.367 126.187 6-22.486 540.507 2PM2.5-40.935 951.258 0-33.673 430.646 5-30.728 135.845 8CO-22.844 640.441 8-24.470 642.297 5-23.371 739.434 8O3-60.595 8255.022 3-48.425 2201.522 7-47.217 5255.276 4
注:“*”指按順序排列的氣象5參數:氣溫、濕度、風速、風向、氣壓。

表2 NARX不同網絡參數、超級參數預測結果相對誤差絕對值均值Table 2 The mean absolute value of relative error of the prediction results of NARX with different network parameters and super parameters
注:“*”按順序排列的氣象5參數:氣溫、濕度、風速、風向、氣壓。
可以看出,使用不同的網絡結構以及超級參數,模擬性能不盡相同,相對誤差范圍為-67.74%~278.39%,其中Google LSTM神經網絡模型、CMAQ、NAQPMS的預測結果相對誤差分別為-65.9%~1080%、-97.12%~42.86%、-94.29%~179.31%,各模式對6項污染物的預測結果性能不盡相同,神經網絡模型模擬結果分布較為均一,而數值模式預測結果普遍都存在低估現象,這可能與數值模式的運算機理有關,目前數值模式所需要的氣象場、大氣排放源清單等基礎資料的時空分辨率均不能真實反映實際狀況,是造成模式誤差的主要原因。使用不同網絡參數和超級參數進行多次預測,經有限次數調試,隱層確定為1,神經元節點個數確定為4~10條件下性能最佳,而延遲在(1:5~1:7)區間較佳,最終確定(1:7,1:7)[5]的參數和輸入僅使用氣溫1項的超級參數的方案上,網絡性能最好,誤差最小,這也說明了污染源的生成與每周的工作周期具有一定的相關性。NARX模型模擬結果雖然具有較好的一致性,但是在模型訓練以及模型參數選定過程需要十分復雜的數學計算,對計算機算力資源有一定要求。
NARX網絡能夠很好地克服預測誤差累積現象,其在隱含層中具備反饋連接到輸入層的承接層,同時在承接層上增加了自反饋連接,這樣能提高網絡存儲和記憶歷史信息的能力。而LSTM網絡在經典時間遞歸網絡的基礎上增加一個遺忘門,功能是將低于一定權值的輸入因子忽略遺忘,網絡結構較NARX稍復雜。
在本文采用的特定研究數據對象條件下,更加復雜結構的LSTM網絡在訓練過程中過擬合,降低了網絡的泛化能力,因此對于特定的樣本數據,復雜網絡并不一定總能占優勢,結構適中的網絡類型反而具有較強的泛化推廣能力;2015年1月1日—2017年2月8日的城市日均氣象及空氣質量樣本數據(共770組)并不大,對這樣的小規模的特定樣本數據,NARX比LSTM具有更好的泛化能力。NARX不同的網絡參數、超級參數預測結果與其他模型預測誤差的比較,見表3、表4。

表3 NARX不同參數預測結果與其他模式預測結果的最小、最大相對誤差Table 3 The minimum and maximum relative errors between the prediction results of different parameters of NARX and those of other models
注:“*”指按順序排列的氣象5參數:氣溫、濕度、風速、風向、氣壓。

表4 NARX不同參數預測結果與其他模式預測結果的相對誤差絕對值均值Table 4 The mean absolute value of relative error of NARX prediction results with different parameters and other model prediction results
注:“*”指按順序排列的氣象5參數:氣溫、濕度、風速、風向、氣壓。
根據對NARX神經網絡的建模和訓練,針對高原山地城市昆明的環境空氣污染物濃度進行預測,對模型結果進行檢驗,并與其他神經網絡模型以及數值模型預測記過進行比較,得到如下結論:
1)受計算資源限制,案例選取了少量的網絡結構、超級參數篩選,在比選方案中選用的超級參數運行多次,能夠得到穩定輸出,預測性能較理想,前5項污染物(NO2、CO、PM10、PM2.5、SO2)濃度能取得16%以內的相對誤差。
2)NARX網絡建立的模型能夠比較準確地模擬預測高原山地城市昆明的空氣質量及變化趨勢,預測結果與一致性較高,模擬結果數值水平與監測結果較為一致。除CO外,NARX對其他污染物存在一定程度的低估,數值模式以及LSTM對污染物濃度預測均存在不同程度的低估。
3)在“net=narxnet(1:7,1:7,[5]);氣象取第1個參數(氣溫)”網絡結構和超級參數條件下,按模擬預測性能排序為NO2、CO、PM10、PM2.5、SO2、O3,與實際監測值的相對誤差絕對值均值分別為11.2%、12.2%、14.6%、15.6%、16.0%、36.3%。
4)使用相同方法計算不同模式預測結果的相對誤差絕對值均值,經過優化參數后的NARX神經網絡的所有6項污染物預測性能顯著優于LSTM、NAQPMS 2個模型,除O3外其他各項污染物預測性能均好于CMAQ。