張容碩,謝沛遠,陳宏飛,楊清榮,關民普,馬 南,尉 鵬,朱仁成*
1. 中國環境科學研究院大氣環境研究所,北京 100012
2. 鄭州大學生態與環境學院,河南 鄭州 450001
3. 河南省生態環境技術中心,河南 鄭州 450046
近年來,化石能源的廣泛使用對我國大氣環境產生了嚴重的影響[1]. 經過數年的大氣污染防控,全國常規大氣污染物濃度已明顯下降,城市空氣質量明顯好轉[2-5]. 2022 年全國339 個地級及以上城市細顆粒物(PM2.5)年均濃度為29 μg/m3,低于《環境空氣質量標準》(GB 3095-2012)二級標準限值(35 μg/m3). 然而,京津冀及周邊等重點區域PM2.5濃度仍未達標,且全國以O3為首要污染物的平均超標天數占總超標天數比例逐年上升[6-8],PM2.5和O3污染協同控制成為我國當前城市大氣污染防治的主要任務.
隨著常規大氣污染物濃度的下降,氣象因子對大氣污染物濃度的影響愈發重要. 研究[9-11]表明,大氣PM2.5和O3與氣象因子及區域傳輸等環境因素密切相關. 如Zhao 等[12]發現,在新型冠狀病毒感染期間的兩個特定時段廣州等城市的PM2.5、SO2和CO 濃度大幅下降,其中氣象條件的影響比人為排放的影響更大. Shu 等[13]認為,海洋空氣團可能是造成長三角地區沿海城市2013-2014 年PM2.5濃度較高的主要原因. Li 等[14]分析了2013-2018 年京津冀地區199次顆粒物污染日成因,發現約2/3 的污染日與冷高壓東移有關.
近年來,多種算法被應用于探究氣象條件與大氣污染物濃度之間的關聯. 例如,侯素霞等[15]利用多元線性回歸模型(MLR)分析了上海市大氣污染物與氣象因子之間的關系. 然而,在MLR 應用時通常假設各變量之間是相互獨立的,而氣象因子之間的自相關性可能會影響分析結果的可靠性[16]. 集成學習是機器學習的一個重要分支,在分析特征間的非線性關系方面具有獨特優勢,已被廣泛應用于復雜的大氣污染與氣象因子分析領域,如隨機森林法(RF) 和梯度提升回歸樹(BRTs)等[17-18]. LightGBM (Light Gradient Boosting Machine)也是集成學習方法,與BRTs 相似,但具備根據特征的梯度信息選擇最佳分裂點的能力,能更高效地構建決策樹來分析大氣污染與氣象因子間的關系[19]. 例如,Yin 等[20]利用LightGBM 模型精確預測了大氣中的甲醛濃度,并確定氣溫是影響預測的最重要特征.
鄭州市是我國中部地區人口過千萬的重要中心城市,本研究以鄭州市2018-2022 年逐時大氣污染物和氣象因子數據為基礎,采用基于統計學的單因素分析和基于LightGBM 的多因素綜合分析方法,為區域PM2.5和O3濃度預測及探究氣象因子對其濃度的影響提供了一種新的分析方式.
大氣污染物監測數據為鄭州市小時濃度數據,共選取了9 個國控站點(煙廠、鄭紡機、銀行學校、供水公司、經開區管委、四十七中、市監測站、河醫大、崗李水庫),時段為2018 年1 月-2022 年12 月,包括SO2、NO2、CO、PM2.5、PM10、O3. 同期的氣象數據來源于中央氣象臺數據共享(www.data.cma.cn),包括氣壓、溫度、降水量和風速. 為更準確地表示空氣中的水汽含量,本研究選用比濕來評價大氣濕度狀況.選取美國國家航天局戈達德地球科學數據和信息服務中心(NASA GESDISC,https://disc.gsfc.nasa.gov),113.35°E、35.0°N 的逐時衛星數據作為鄭州市比濕、太陽輻射和云量的數據補充.
本研究使用python 編程語言中pandas 數據分析庫作為數據處理工具,將9 個站點逐時污染物濃度數據(不含O3-8 h 濃度)中的空值忽略后,計算平均值作為逐時污染物濃度值. 使用同樣的方法計算大氣污染物濃度的逐日、逐月、逐年均值. 使用O3日最大8 h 滑動平均(O3-MDA8) 評價O3的當日濃度水平,并使用O3-MDA8 的90 百分位濃度評價月度及年度O3濃度水平.
將整體數據按照4∶1 的比例劃分為訓練集與測試集,即使用2018-2021 年的數據訓練模型,并利用2022 年數據驗證模型精度. 為提升模型的計算效率并減弱特征自相關性影響,在將數據輸入模型之前,將數據按式(1)進行歸一化預處理.
式中:x′為歸一化之后的污染物濃度數據,取值范圍為0~1;x為原始污染物濃度或氣象因子數據;Xmin和Xmax分別為該種污染物濃度或氣象因子數據的最小值與最大值.
皮爾遜相關系數(r)是一種用于衡量數據間線性關系的方法,可用于分析不同量綱數據間的相關性. 本研究利用r分析兩個單一變量之間的相關性,計算公式:
式中,xti為t時刻第i種大氣污染物濃度值或氣象因子數據,為第i種污染物濃度或氣象因子數據的平均值,而yti和分別為第i種污染物濃度或氣象因子數據的預測值及其平均值.
本研究采用3 種常用的評價指標評估LightGBM模型的預測精度,分別為r、相關系數(R2)和均方誤差(RMSE).R2與RMSE 的計算公式:
此外,模型超參數會極大影響預測效果,本研究使用KFold 和貝葉斯優化兩種策略共同優化模型的超參數組合,所涉及的超參數如表1 所示.

表1 模型超參數Table 1 Model hyperparameters
2.1.1 大氣污染物年分布特征
鄭州市主要大氣污染物濃度的逐年分布特征如圖1 所示. 由圖1 可見:2014-2022 年鄭州市大氣污染物濃度均呈明顯下降趨勢. 其中,SO2年均濃度已連續8 年下降,自2018 年開始,年均濃度已低于《環境空氣質量標準》(GB 3095-2012)一級標準限值(20 μg/m3),2022 年已降至8 μg/m3;自2020 年開始,NO2年均濃度已降至GB 3095-2012 一級標準限值(40 μg/m3)以內,且達標后仍保持每年10%以上的改善幅度;CO 年均濃度同樣呈逐年下降趨勢,近8 年降幅高達58.4%;PM2.5與PM10年均濃度均大幅下降,這主要歸因于中央和地方政府相繼出臺了多項有效的減排措施,工業生產和道路交通等污染物排放量大幅減少,使得近幾年PM2.5與PM10濃度峰值持續降低[21-22]. 但僅2021 年的PM10濃度低于GB 3095-2012 二 級 標 準 限 值(70 μg/m3),其 他 年 份PM2.5與PM10濃度均未達標. 2021 年的PM2.5與PM10濃度較前一年有大幅降低,但2022 年二者濃度均有所升高.2014-2022 年,O3月評價值都處于較高區間,其中2017 年達238 μg/m3. 由此可見,鄭州市對SO2、NO2和CO 防控取得了較好的成效,但目前仍面臨PM2.5與O3復合污染的挑戰,同時也需要進一步加強對PM10污染的防控.

圖1 2014-2022 年鄭州市大氣PM2.5、PM10、SO2、NO2 年均濃度及O3 年評價值Fig.1 The yearly average concentrations of air PM2.5, PM10, SO2, NO2 and O3 yearly assessment value in Zhengzhou City from 2014 to 2022
2.1.2 PM2.5濃度和O3月評價值分布特征
2018-2022 年鄭州市PM2.5濃度和O3月評價值分布特征如圖2 所示. 每年10 月-翌年1 月,PM2.5濃度呈持續上升趨勢,至2 月開始下降. 季節性特征表現為冬季及春季初最高、夏季濃度最低、春秋季居中. 鄭州市PM2.5濃度的季節性特征與京津冀[23]、山東省[5]、浙江省[24]和長三角[25-26]等地區相似. 這可能是由冬季光化學反應相對較弱,采暖季二次轉化強烈,以及頻繁的近地表逆溫等原因綜合導致[27-28].

圖2 鄭州市2018-2022 年PM2.5 濃度和O3 月評價值分布情況Fig.2 The monthly concentrations of PM2.5 and O3 monthly assessment value in Zhengzhou City from 2018 to 2022
由圖2 可見,鄭州市O3月評價值從1 月開始逐步上升,5-9 月是濃度高峰期,10 月后迅速下降. 每年6 月O3月評價值首次達到峰值,7 月O3月評價值有所下降,隨后8 月或9 月O3月評價值再次出現峰值,但二次峰值濃度低于首次峰值濃度,呈現“大小雙峰”分布. O3月評價值也表現出極強的季節性特征,夏季O3月評價值持續較高,而冬季較低,春秋季居中,這樣的季節性特征與長三角[29]、浙江省[30]、山東省[31]等地區相似. 然而,不同地區O3濃度分布特征也存在一定差異,如鄭州市近5 年O3濃度在6 月達到最高值,而南京市則在8 月和9 月濃度達到最高值. 這主要是因為6-7 月為江淮地區梅雨季節,連續的陰雨天氣導致光照強度大幅降低,不利于O3的累積[19].
鄭州市大氣環境各因素的相關性如圖3 所示. 由圖3 可見,與O3-8 h 濃度呈正相關的因子有溫度、比濕和輻射. 其中,溫度和比濕與O3-8 h 濃度的線性關系均較明顯,r值分別達0.43 和0.45. 與O3-8 h 濃度呈負相關的因子有氣壓、NO2濃度、PM2.5濃度、SO2濃度和PM10濃度. 其中,O3-8 h 濃度與氣壓和NO2濃度的線性關系較明顯,r值分別達到-0.54 和-0.41;此外,O3-8 h 濃度與PM2.5、SO2和PM10濃度也均呈一定的負相關,r值分別為-0.35、-0.30 和-0.20. 這主要是因為NO2是O3的重要前體物,而PM2.5、SO2和PM10在大氣中也會與O3發生復雜的光化學反應[32-33].風速、O3-8 h 濃度與降水量和總云量的相關性較弱.

圖3 鄭州市大氣污染物及氣象因子間的相關性Fig.3 Correlation of meteorological factors and atmospheric pollutants of Zhengzhou City
由圖3 可見,PM10、NO2、SO2濃度和溫度均與PM2.5濃度呈較明顯的線性關系,其r值分別為0.69、0.50、0.44 和-0.43. 由于PM10與PM2.5均受到工業生產排放、化石及生物質燃料燃燒等影響,在濃度上呈現明顯的正相關. 而NO2和SO2是二次氣溶膠的重要前體物,能夠形成硫酸鹽與硝酸鹽顆粒物,因此PM2.5濃度與NO2和SO2濃度均呈明顯正相關[34-35].PM2.5濃度與溫度和比濕均呈負相關,r值分別為-0.43 和-0.39. PM2.5濃度與O3-8 h 濃度和輻射均呈一定的負相關性,r值分別為-0.35 和-0.20. PM2.5濃度與云量、風速和降水量的相關性均較小. 降雨的沖刷作用會有效降低大氣中的PM2.5濃度[36],較小的r值是因大部分降水量的逐時數據為0,但較小的r值并不代表降水不會對PM2.5濃度產生影響.
2.3.1 模型訓練
根據數據相關性以及前期文獻調研分析,本研究在訓練LightGBM 模型時選擇了2018-2022 年連續5 年的共12 個特征,其中包括5 種大氣污染物(SO2、NO2、PM10、PM2.5和O3)以及7 種氣象因子(降水量、比濕、總云量、輻射、溫度、風速和氣壓). 在兩輪訓練過程中分別將目標污染物PM2.5或O3-8 h 濃度數據設置為預測標簽. 訓練過程采用KFold 交叉驗證,并將訓練數據集劃分為5 份. 模型訓練5 次,每次使用其中4 份作為訓練集,另外1 份作為驗證集,確保每一份數據都被用作驗證集一次. 同時結合貝葉斯優化策略,找出在訓練數據上性能較好的超參數組合. 最終得到的超參數結果如表2 所示.

表2 模型超參數Table 2 Model hyperparameter
2.3.2 模型預測結果分析
O3-8 h 與PM2.5濃度觀測值與模型預測值的對比如圖4 所示. 由圖4 可見,LightGBM 模型能夠較好地預測PM2.5和O3-8 h 濃度的變化趨勢,但對PM2.5濃度極值的預測表現更好. PM2.5和O3-8 h 濃度預測值與觀測值的RMSE 分別為18.76 和27.16. 其中,PM2.5濃度預測值與觀測值之間的差距更小,具有更高的預測精度. 根據GB 3095-2012,采用逐時濃度標準來界定污染天氣,PM2.5濃度超過75 μg/m3時,被判定為發生PM2.5污染;而當O3-8 h 濃度超過160 μg/m3時,則被判定為發生O3污染. 該模型在預報PM2.5污染事件發生方面表現出較高的準確度,達80.8%. 然而,在預測O3污染事件發生時,準確度為52.5%,對O3污染事件的預報有改進空間.

圖4 2022 年PM2.5 與O3-8 h 逐時濃度觀測值與預測值對比Fig.4 Comparison of the observed values and the predicted hourly concentrations of PM2.5 and O3-8 h in 2022
PM2.5與O3-8 h 濃度預測值與觀測值之間的相關性如圖5 所示. 由圖5 可見:PM2.5濃度預測值與觀測值的r值為0.88,R2值為0.78,擬合直線方程為y=0.89x+7.38;O3-8 h 濃度預測值與觀測值的r值為0.83,R2值為0.68,擬合直線方程為y=0.72x+24.62.PM2.5濃度多集中在0~50 μg/m3之間,而O3-8 h 濃度出現頻次最多的是在30~130 μg/m3范圍. PM2.5濃度預測值與觀測值的相關性更好,兩種相關系數值均較大,且擬合直線更接近于y=x直線. 在實現LightGBM模型對PM2.5和O3-8 h 濃度有效預測的基礎上,可進一步綜合分析各污染物及氣象因子在預測過程中的重要性.

圖5 模型預測值與觀測值的相關性Fig.5 Correlation between the model predicted values and the observed values
2.3.3 影響大氣PM2.5和O3-8 h 濃度的特征重要性分析
大氣污染物與氣象因子對PM2.5和O3-8 h 濃度的綜合影響重要性排序如圖6 所示. 由圖6 可見:PM10因與PM2.5高度同源性而在預測中被認為是最重要的大氣污染物因子;其次,SO2、O3-8 h 和NO2濃度對PM2.5濃度影響也較大,其中SO2和O3-8 h 濃度重要性相近均略高于NO2濃度;氣象因子中比濕的重要性得分最高,其次是氣壓、溫度、輻射和云量,而降水量和風速的重要性得分較低. 根據數據相關性分析和LightGBM 特征重要性分析結果,風速并不是影響鄭州市PM2.5濃度預測的主要因子. 而風速會較明顯地影響大氣擴散能力,且研究[37]表明,風速對PM2.5濃度有較顯著的影響,這與模型分析結果存在差異,其原因可能是因為風速具有較強的不確定性,其數據規律性相比其他因子弱,因此在模型預測中不起主導作用.

圖6 影響大氣PM2.5 和O3-8 h 濃度的特征重要性排序Fig.6 The feature importance rank of affecting the concentrations of PM2.5 and O3-8 h in the atmosphere
研究[38]發現,氣象因子對O3濃度可能會有較大影響. 由圖6 可見:模型分析結果中,影響O3-8 h 濃度的特征重要性排在前3 位的均為氣象因子,分別為比濕、輻射和氣壓;相較于相關性分析結果,輻射的重要程度顯著提高,并高于其他大氣污染物的影響. 大氣污染物對O3-8 h 濃度影響的重要性相近,其中SO2、NO2和PM2.5濃度的重要性得分略高于PM10濃度. 總云量對O3-8 h 濃度也有一定影響,而風速和降水量對O3-8 h 濃度影響的重要性程度較低.
2.4.1 PM2.5濃度氣象因子分析
2020-2022 年PM2.5月 均 濃 度 如 圖7 所 示. 由圖7 可見:除2021 年1 月和2021 年12 月外,PM2.5月均濃度均處在相近區間內;2022 年除1 月和12 月外,僅有7 月和9 月PM2.5濃度略高于2021 年,其他月PM2.5濃度均低于2021 年;2022 年僅3 月和9 月PM2.5濃度略高于2020 年,其他月份均低于2020 年.由此可見,2020-2022 年鄭州市PM2.5月均濃度有下降 的 趨 勢. 然 而,2021 年1 月PM2.5濃 度 為85.02 μg/m3,比2020 年低29.4%,比2022 年低22.1%;12 月PM2.5濃度為51.98 μg/m3,比2020 年低37.9%,比2022年低32.1%. 相比同期,2021 年1 月和12 月PM2.5濃度屬異常低值,也因此2022 年PM2.5濃度相較2021年反彈了8.8%.

圖7 2020-2022 年鄭州市PM2.5 月均濃度Fig.7 The monthly average concentrations of PM2.5 in Zhengzhou City from 2020 to 2022
2020-2022 年1 月和12 月鄭州市主要氣象因子對比如表3 所示. 由表3 可知:2021 年1 月和12 月氣壓均低于同期前后兩年,氣溫高于同期前后兩年;2021 年1 月比濕低于同期前后兩年,而12 月比濕高于同期前后兩年. 結合2.2 節與2.3.3 節的分析可知,較低的氣壓、較高的氣溫和較高的比濕有利于PM2.5濃度朝較小的趨勢發展;此外,2021 年1 月和12 月較同期前后兩年分別有較強的西北風和北風,而較高的風速有利于PM2.5的擴散. 2021 年1 月,受到有利氣象條件(較低的氣壓、較高的溫度和較快的風速)影響,PM2.5月均濃度較同期前后兩年平均降低了25.8%;而2021 年12 月,同樣在有利的氣象條件(較低的氣壓、較高的溫度、較高的比濕和較大的風速)下,PM2.5月均濃度較同期前后兩年平均降低了35.0%. 更有利的氣象條件可能是2021 年12 月PM2.5濃度比1 月降幅更大的原因之一. 荊琦等[39]分析了京津冀周邊城市PM2.5濃度與氣象特征后也得出了相似結論,認為氣象條件可能有利于2021 年PM2.5濃度較低.

表3 2020-2022 年鄭州市1 月與12 月氣象因子對比Table 3 Comparison of meteorological factors in Zhengzhou City between January and December from 2020 to 2022
2.4.2 O3月評價值氣象因子影響分析
2020-2022 年6 月鄭州市O3月評價值與主要氣象因子間的對比如圖8 所示. 由圖8 可見:2020-2022 年6 月與O3月評價值呈正相關的輻射和溫度都逐年升高,而與O3月評價值呈負相關的氣壓則逐年降低;比濕沒有明顯的規律變化,在12 g/kg 附近浮動. 在更高的輻射、更高的溫度以及更低的氣壓的共同影響下可能促使2020-2022 年6 月O3月評價值上升. 因此,不利的氣象背景可能有利于鄭州市從2020 年開始連續兩年6 月O3月評價值上升.

圖8 鄭州市2020-2022 年6 月O3 月評價值及氣象因子Fig.8 O3 monthly assessment value and meteorological factors in Zhengzhou City from June 2020 to 2022
a)鄭州市PM2.5濃度季節性特征表現為冬季及春季初最高、夏季最低、春秋季居中;而O3月評價值呈“大小雙峰”分布,春末至秋初是O3月評價值的高峰期,夏季O3月評價值持續較高、冬季較低.
b) LightGBM 模型對PM2.5污染出現預報的準確度較高,達80.8%;但對O3污染出現預報的準確度略低,只有52.5%,仍需進一步優化提升.
c)對鄭州市PM2.5濃度影響最大的氣象因子分別為比濕、氣壓和溫度,其中,PM2.5濃度與氣壓呈正相關,與溫度和比濕均呈負相關;對O3-8 h 濃度影響最大的氣象因子分別為比濕、輻射和氣壓,其中,比濕和輻射均與O3-8 h 濃度呈正相關,氣壓與O3-8 h濃度呈負相關.
d)有利的氣象條件可能是2021 年PM2.5年均濃度顯著低于同期前后兩年的重要因素;但與2020 年相比,2022 年的PM2.5年均濃度仍有一定程度的下降. 同時,不利的氣象條件也促使2021 年和2022 年6 月O3月評價值有所上升.