孫鳳娟 ,田勇,孫開爭,付華軒,張文娟,李敏,呂晨
(山東省濟南生態環境監測中心,山東 濟南 250101)
全球臭氧(O3)污染已經存在較長的歷史,近年來隨著經濟的快速發展,NOx、VOCs排放量持續增加[1],導致二次污染物O3濃度逐年升高[2-3],臭氧污染不僅會造成巨額經濟損失,對人體健康也具有一定危害[4-6]。2013—2020年,全國及重點區域O3污染問題呈加劇態勢,且具有“時間長、范圍大”的污染擴散特點,在PM2.5濃度仍未實現全面達標的背景下,我國大氣污染防治轉向了以PM2.5和O3為主的“二次污染”治理,因此亟需及時、準確的O3預報模型,以應對城市O3預報和污染防治策略的新要求[7-8],減輕O3污染對人民群眾健康的危害。
空氣質量預報方法分為統計模型和數值模式兩類[9],目前數值模式在京津冀及周邊地區、長三角、珠三角等地得到了較好地應用[10],但數值模式方法預報結果的優劣很大程度上依賴于模型輸入的排放源清單的精度[11]。由于建立高精度、高分辨率排放源清單難度大、模式運行復雜且計算量龐大,數值預報方法應用難度較大[12]。統計預報模型以污染物濃度數據及氣象觀測資料為基礎,通過多元線性回歸法、神經網絡法、決策樹法等統計方法建立污染物和氣象因子之間的數值關系模型,具有運算量小、使用方便、不需要污染源排放清單、經濟高效等優點[13-14],已成為許多研究者普遍使用的方法[15-17],在區域、地級市及區縣空氣質量預報中得到廣泛應用[18-19]。但傳統的數值預報和統計預報均是“單一”的決定論的預報,而由于觀測的不準確以及資料分析、同化中引入的誤差,我們所得到的氣象場資料總是含有不確定性,即實際大氣的真正狀態永遠也不可能被完全精確地描述出來,模擬所用的氣象場也僅僅是實際大氣可能出現情況的一個可能的解[20],同時由于排放因子、水平活動等數據存在較大不確定性以及排放清單更新滯后的影響,排放清單存在較大不確定性[21]。集合預報是一種為了體現初值不確定性并將擾動的隨機性系列化的方法,相對于單一預報,集合預報可以得到“一群”預報值,從而可以提供一定事件的發生概率,便于預報員進行決策分析,提高預報正確率。
目前,采用隨機擾動方法進行的集合預報多用于溫度、風、降水等[22-25]氣象模擬預報中,針對空氣質量模擬預報的研究較少。針對這一情況,本研究收集了2013年—2020年5月—9月共40個月濟南市O3日最大8 h滑動平均值與氣象條件,建立了人工神經網絡O3預報模型,并將神經網絡模型與集合預報方法相結合,設計并實現了基于集合預報方法的神經網絡預報模型,改進了單一人工神經網絡模型的固定性,降低了預報結果的隨機性,為O3預報方法研究開拓了新思路,為有效開展O3污染防治工作提供了決策支持。
環境空氣質量監測資料來源于山東省濟南生態環境監測中心發布的2013年—2020年5月—9月11個國控點全市平均O3濃度數據,為保持數據一致性,均采用標況數據;氣象資料來源于美國國家環境預報中心(national centers for environmental prediction,NCEP)提供的FNL(final operational global analysis)再分析資料,時間分辨率4次/d,水平分辨率為1°×1°,垂直分辨率為26層[26],提取北京時間8:00一個時次的氣象數據。
濟南市作為省會城市,位于山東省中西部,南依泰山,北跨黃河,背山面水,地處魯中南低山丘陵與魯西北沖積平原的交接帶上,地勢南高北低,呈淺碟狀,特殊的地形條件導致其空氣質量狀況受氣象條件變化影響顯著。濟南是全國74個重點城市中空氣污染最為嚴重的城市之一,由于經濟高速發展,能源、交通(特別是城市汽車尾氣)規模的擴大、城市人口的膨脹、大型工業開發區的發展等人為活動使污染物排放量不斷增加,污染范圍不斷擴大,城市環境空氣呈現出典型區域性大氣復合污染特征,O3對空氣質量的影響程度逐年增加,已成為夏秋季影響大氣優良率的重要因素。
濟南市2013—2015年O3污染略有減輕(圖1(a)),2016—2019年O3污染呈逐年加重趨勢,2016年O3輕度污染及以上天數為59 d,2019年增至112 d,2020年O3污染天數略有減少,為104 d,但O3重度污染天數近年來明顯增多,2017—2020年O3重度污染分別為2、3、5和7 d。伴隨全球變暖及城市化進程導致的城市熱島效應加劇,濟南市O3污染出現的月份整體出現提前現象(圖1(b)),2018年3月出現O3污染5 d,2019年3月出現O3污染2 d;O3污染過程(持續污染超過2 d)和最長持續時間整體上也呈上升趨勢,O3污染最長持續時間18 d,出現在2019年6月,2020年7月初和8月底出現連續2 d的O3重度污染。

圖1 濟南市2013—2020年O3污染狀況Fig.1 O3 pollution status in Jinan during 2013 to 2020
對于神經網絡模型,原始數據集的好壞直接決定了預測結果的準確性,數據傳輸誤差、設備故障等都會影響原始數據集,必須對原始O3濃度數據及氣象數據集進行刪除空值、異常值等數據清洗工作,才能有效地提升神經網絡模型的預測精度。
將模擬輸出的結果與觀測值采用兩分類法進行統計分析,當事件發生時為“有”,事件未發生時為“無”[27]。模擬結果檢驗方法包括準確率(PC)、TS評分(TS)、空報率(F)、漏報率(PO)、預報偏差(B)及命中率(POD),如式(1)~(6)所示。
(1)
(2)
(3)
(4)
(5)
(6)
式中:NA為擊中天數,表示預報發生O3污染,實況也發生的O3污染的天數;NB為漏報天數,表示預報不發生O3污染,但實況發生O3污染的天數;NC為空報天數,表示預報發生O3污染,但實況未發生O3污染的天數;ND為反擊中天數,表示預報不發生O3污染,實況也未發生O3污染的天數。可以看出,PC數值范圍為0~1,理想值為1,用以表示所有預報正確的比率;TS評分數值范圍為0%~100%,理想值為100%,用以定量評價對O3污染的預報效果;F數值范圍為0%~100%,理想值為0%,用以表征O3污染空報比率;PO數值范圍為0%~100%,理想值為0%,用以表征O3污染漏報比率;B數值范圍為0~+∞,理想值為1,用以反映預報NA事件過多或過少的傾向;POD數值范圍為0~1,理想值為1,用以表征O3污染事件中被正確預報的概率[28]。
2.1.1 氣象因子篩選
氣象條件是決定一次空氣污染能否形成的重要因素[29],本研究提取FNL數據,并計算得到共103組氣象因子數據,分別計算其與O3日最大8 h滑動平均值(簡稱:O3-8 h濃度)相關性,同類氣象因子選取相關性最高的一組,最終選取相關性最高的整層相對濕度(RHclm)、地面溫度(TMPsfc)、 整層可降水(PWATclm)、整層云水(CWATclm)、1 000 hPa垂直速度(VVELprs-1 000)、500 hPa緯向風(UGRDprs-500)、10 m經向風(VGRD10 m)、風向(WD)等8組氣象因子。

圖2 O3-8 h濃度與不同氣象因子關系Fig. 2 Relation between the O3-8 h concentration and different meteorological factors

圖2(續)
分析這8組氣象因子和O3-8 h濃度關系可以看出(圖2),O3-8 h濃度與地面溫度相關性最高,呈明顯正相關關系,其次為整層相對濕度,呈明顯負相關關系,其相關性分別為0.504和-0.463,與風向的相關性最差,為-0.181,且偏北風時O3-8 h濃度水平相對較高,可能是由于夏季偏北風時天況多較好,太陽輻射增強,加之濟南特殊的南高北低的地形,增強了O3的生成及本地累積。
2.1.2 污染物因子篩選
由于前期空氣污染物的累積程度直接影響后期的空氣污染程度[30],同時考慮實際預報制作時間限制,選取前一日14時6種污染物質量濃度。同時,光化學氧化劑Ox(NO2+ O3)是大氣氧化能力的主要指標之一[31],代表著大氣氧化能力的強弱。因此,統計分析前一日14時PM10、PM2.5、SO2、NO2、CO、O3及Ox濃度水平與當日O3-8 h濃度相關性,發現O3-8 h濃度與14時O3及Ox濃度均存在較好的相關性(圖3),相關系數分別達到0.501、0.465。

圖3 O3-8 h濃度與前一日14時 O3、Ox濃度散點圖Fig.3 Scatter diagram of the O3-8 h concentration and O3 and Oxconcentration at 14 o′clock on the previous day
多層感知器(multi-layer perceptron,MLP)也叫人工神經網絡(artificial neural network,ANN),是一種運算模型,旨在模擬神經系統構造與功能進行數據處理,從信息處理角度對人腦神經元網絡進行抽象模擬,由大量的節點(或稱神經元)相互聯接構成,通過不斷調整模擬神經元之間鏈條的權值,使得整個網絡可以較好地擬合訓練數據的關系。
本文構建的人工神經網絡包含2個隱含層,第一個隱含層均包含1 000個神經元,第二個隱藏層包含500個神經元,最優化方案采用擬牛頓法,懲罰系數0.000 1,最大迭代次數1 000次。同時,根據上文分析結果,分別設計三套模擬方案,使用2013—2019年共1 071組樣本進行模擬訓練,對比不同方案的訓練效果,選取相關性最高的一套方案(表1)。方案一選取RHclm、TMPsfc、PWATclm、CWATclm、VVELprs-1 000、UGRDprs-500、VGRD10 m、WD共8類氣象因子,訓練結果與監測結果相關性為0.761,為顯著相關;方案二在方案一基礎上加入前一日14時的光化學氧化劑Ox濃度數據,相關性明顯提高,為0.801;方案三在方案二基礎上加入前一日14時O3小時濃度數據,相關性為0.826,最終選取方案三作為神經網絡訓練最終方案,模型訓練結果較好(圖4)。

表1 三種方案與O3-8 h監測值的相關性Table 1 Correlations between monitoring and simulated values of three schemes

圖4 2013年—2019年5月—9月O3-8 h濃度監測值(實線)及模擬值(虛線)Fig.4 Monitoring values (solid line) and neural network simulation values (dotted line) of O3-8 h during May to September of each year,starting from 2013 and ending with 2019
與單一的確定性預報相比,通過提供定量的概率預報,集合預報可以給出多種可能性及其發生的概率,能為預報員提供包括不確定性在內的更多預報信息[32]。通過集合成員預報結果的分布可以計算出O3-8 h濃度各等級出現的概率,包含了該集合預報系統所能提供的所有信息。
本文集合預報方法采用隨機擾動法,即經典的蒙特卡羅法,對2020年5月—9月153組因子進行隨機擾動,產生15組相互獨立的隨機擾動氣象場,連同原始氣象場,共16組氣象場,人工神經網絡模型方案采用上文選取的方案三,最終得到16組O3-8 h濃度模擬結果。根據《HJ633-2012環境空氣質量指數(AQI)技術規定》[33],將O3-8 h濃度模擬結果換算為對應的空氣質量分指數(IAQIP)及空氣質量指數類別,得到優、良、輕度污染、中度污染、重度污染、嚴重污染6個類別分別對應的概率,選取預測比例最高的兩個類別作為預測類別,與實測O3-8 h分指數類別進行對比,并做準確率(PC)、TS評分(TS)、空報率(F)、漏報率(PO)、預報偏差(B)及命中率(POD)檢驗,對人工神經網絡集合預報(ENF)的預測效果和精度進行評價。
3.1.1 人工神經網絡模型驗證
將2020年5月—9月共153組測試集數據輸入模型進行計算,預測O3-8 h濃度結果與實際監測值之間相關系數達到0.665,為顯著相關。監測值與預測值對比情況如圖5所示,O3-8 h濃度預測值與監測值變化趨勢呈現較好的一致性,但污染較重時段尤其是重污染時預測值較監測值偏低。2020年共出現O3重度污染7 d,分別為6月4日、6月6日、6月10日、7月7日—8日、8月29日—30日,該模型對6月4日—10日、7月7日—8日及8月29日—30日污染過程預測效果較好,能夠明顯地反映出O3污染累積、持續及快速消散的不同階段,但預測濃度均偏低。

圖5 2020年5月—9月O3-8 h濃度監測值及模擬值Fig.5 Monitoring values and neural network simulation values of O3-8 h during May to September 2020
3.1.2 人工神經網絡集合預報模型驗證
圖6給出了16組O3-8 h濃度模擬值箱線圖。可以看到,成員間的離散度很高,集合中位數變化趨勢與監測值趨勢基本一致,且監測值數據56%落入10百分位值至90百分位值區間內。
根據16組O3-8 h濃度模擬結果,對比人工神經網絡集合預報及單一人工神經網絡預報的PC、TS、F、PO、B及POD檢驗結果可以看出(表2),ENF整體準確率較NF明顯提高,O3污染漏報率明顯減少,O3污染命中率明顯提高,O3污染空報率較NF略有增加,B為1.26,大于1,表明ENF對O3污染預報有過多傾向,而NF則有過少傾向。

表2 人工神經網絡集合及單一人工神經網絡預報結果檢驗Table 2 Test results of the ensemble neural network and neural network prediction
2020年7月3日—9日濟南市經歷了一次O3典型污染過程,3日,降水過程,O3濃度最低,之后天況轉好,氣溫升高,O3生成加快,O3污染逐步加重,7日—8日,氣溫達到最高,O3達到重度污染水平,9日,弱降水過程,O3緩解,本次O3污染過程結束。
以2020年7月3日—9日O3重污染過程為例(圖7),可以看出ENF及NF對本次污染過程的預報趨勢均較好,但污染累積階段,相較于NF,ENF能夠更好地反映出污染的迅速累積上升,對于O3污染最重的7日、8日,ENF 預測的O3-8 h濃度中位數更高。7月3日—7日污染累積階段,監測值均落入10百分位值至90百分位值區間內,8日污染持續階段,ENF 預測結果略低,9日污染消散階段ENF預測結果下降趨勢落后于監測值。主要是由于參與模型訓練的2013—2019年共1 071組數據中,O3重度污染天數僅有11 d,訓練樣本數量的不足導致對O3重度污染過程的預報偏差較大,后續伴隨參與訓練的樣本數增多,這種偏差將得以彌補。

注:圖中數值從上到下分別標注10百分位值、中位數、90百分位值,星號表示離散點。圖7 2020 年7月3日—9日各集合成員O3-8 h預測箱線圖分布特征Fig.7 Box plot of O3-8 h simulation values for each member forecast during July 3 to 9, 2020
(1)人工神經網絡方法預測O3-8 h濃度結果與實際監測值之間相關系數達到0.665,為顯著相關,兩者變化趨勢呈現較好的一致性,但污染較重時段尤其是重污染時預測值較監測值偏低。
(2)與單一人工神經網絡預報相比,集合預報準確率明顯提高,O3污染漏報率明顯減少,O3污染命中率明顯提高,O3污染空報率較單一預報略有增加,人工神經網絡集合預報對O3污染預報有過多傾向,而單一人工神經網絡預報則有過少傾向。通過提供定量的概率預報,人工神經網絡集合預報可以給出多種可能性及其發生的概率,能為預報員提供包括不確定性在內的更多預報信息,對于提高O3預報準確率具有較高的參考價值,該模型具有一定的實際應用及推廣價值。
(3)以2020年7月3日—9日一次O3重污染過程為例,與單一人工神經網絡的確定性預報相比,人工神經網絡集合預報能夠更好地反映出污染的迅速累積上升及持續過程,但由于訓練樣本數量的不足,導致對O3重度污染過程的預報偏差仍然較大,后續伴隨參與訓練的樣本數增多,這種偏差將得以彌補。