張玲玲,張亞一,盛 夏,章許云,吳 劍
(江蘇環保產業技術研究院股份公司,江蘇 南京 210019)
空氣污染對人類健康和社會發展均具有顯著的負面影響[1]。根據2020年環境公報,全國337個城市環境空氣質量超標率達43.3%,累計發生嚴重污染345 d,重度污染1 152 d,其中,以PM2.5,PM10,O3為首要污染物的天數分別占重度及以上污染天數的77.7%,22.0%和1.5%,空氣污染形勢嚴峻。
目前,空氣質量觀測主要以地面監測形式為主[2-3],我國雖已建成覆蓋全國主要城市的監測網,但受監測站地理位置和數量的限制,無法對整體區域的污染程度進行評估。相對而言,衛星遙感技術不受地面監測站點選址的限制,空間覆蓋范圍廣、時空分辨率高,但衛星傳感器受云霧等不利天氣、設備故障等影響大,數據易缺失和出錯,所獲得的數據與近地面實際差異較大,難以真實反映人類活動對環境的影響[4-5]。線性統計模型廣泛應用于近地面NO2,O3和PM2.5等濃度的模擬,但該模型納入的參數較少,精度低,無法捕獲污染物濃度與更多參數之間的復雜關系。
隨著機器學習的快速發展,非線性機器學習模型被廣泛應用,其中,隨機森林作為一種新型的非線性機器學習模型,可高效處理多變量和大數據量的問題,具有運算效率高、數據挖掘能力強及預測精度高等特點,被成功用于反演區域空氣污染物時空分布。游介文等[6]基于隨機森林算法、融合多源地理要素開展了近地面NO2濃度空間分布模擬研究,模型精度高,月均模型整體擬合度R=0.85。MARM等[7]構建了高性能隨機森林模型,以1 km的空間分辨率估算2005年~2017年中國PM2.5日平均濃度和O3日最大值8 h平均濃度,PM2.5的每日、每月和每年平均模型擬合R2值分別為0.85,0.88和0.90,O3~8h擬合R2值分別為0.77,0.77和0.69。目前,非線性機器學習模擬近地面污染物濃度的方式多針對大尺度區域,極少用于城市街道等小尺度的污染過程分析,本研究利用隨機森林模型,耦合氣象變量、地理變量、社會經濟變量等,選擇南京市北部區域進行空氣污染過程研究和實踐,為機器學習模型在城市街道污染防治工作中的應用提供參考。
南京市為重要的工業企業集中區,尤其長江沿岸,環境污染指標濃度較高,以南京北部六合區某區域為觀測區,該區域位于南京、揚州主城區之間,且鄰近多個工業集中區。監測點位見圖1。

圖1 觀測區位置及對比區域空氣監測站點分布
本研究中空氣質量數據包含國控站、省控站、區(縣)站點數據。其中,國控站數據來源于中國環境監測總站的全國城市空氣質量實時發布平臺(https://air.cnemc.cn:18007/),省控站數據來源于江蘇省環境監測中心,區(縣)數據來源于南京大氣自動監測數據業務平臺。
氣象數據來自歐洲中期天氣預報中心(ECMWF)ERA5的0.25°×0.25°逐小時氣象數據,并綜合考慮污染物的產生、擴散、消散機制及以往模擬研究的經驗,在數據可得的前提下,納入2 m露點溫度、2 m溫度、下行短波輻射、低云量、中云量、高云量、地表溫度、地表輻射、降水量、地面氣壓、100 m U風分量、100 m V風分量、10 m U風分量、10 m V風分量。同時,考慮到氣象對污染物濃度影響的滯后性,研究還納入了滯后1 h的氣象變量。
納入模型的地理類參數包括高程、人口、GDP、夜間燈光數據,均來自于中國科學院資源環境科學數據中心(http://www.resdc.cn),使用2013年DMSP/OLS夜間燈光、2019年人口和GDP數據代表2021年情況。
隨機森林算法是由BREIMAN L[8]在2001年提出的基于決策樹的高階機器學習算法,基本思想為構造一定數量的決策樹并按照一定準則對決策樹進行組合生成隨機森林。由于多層隨機過程的存在,使得隨機森林可隨機生成幾百甚至上千棵決策樹,并保證每次構建的決策樹均可能因隨機性而不同,可用于模擬多重非線性關系,構成復雜的隨機森林模型[9]。
本研究對所有參數數據進行預處理后,獲得2021年江蘇省5 km×5 km分辨率下逐小時參數數據集,隨機選擇其中90%的數據作為訓練集,使用Python 2.7的scikit-learn庫基于十折交叉驗證算法建立隨機森林模型,通過網格參數尋優實現最優參數的選擇。最終模型參數設置如下:最大深度(max_depth)設置為55,決策樹個數(n_estimators)設置為250,時間分辨率為每小時,空間分辨率為5 km×5 km。具體流程見圖2。

圖2 污染物時空分布模擬流程
根據模型中的變量重要性排序,挑選重要性排序在前的變量建立最終模型,對未進入模型建立過程10%的數據進行模擬,通過線性擬合模型計算決定系數(R2)驗證模型性能,并進一步計算均方根誤差(RMSE)和平均絕對誤差(MAE)評估模型性能。
隨機森林最終模型對驗證集數據進行模擬結果見圖3。由圖3可知,隨機森林模型估算的PM2.5,PM10,NO2,O3時均濃度與地面實測值吻合度整體較高,R2值分別達到0.82,0.85,0.77和0.89,其中,O3濃度模擬R2最優,PM10濃度次之。


圖3 污染物時均濃度預測的隨機森林模型驗證結果散點
隨機森林模型性能參數RMSE和MAE情況見表1。由表1可知,PM2.5,PM10,NO2,O3的RMSE值分別為10.68,23.01,9.38,14.29μg/m3,MAE值分別為6.25,11.50,6.27,9.95μg/m3。NO2和PM2.5的R2值雖然較PM10和O3低,但RMSE,MAE值偏小,模型的穩定性更高。

表1 不同污染物預測的隨機森林主模型模擬精度
2021年3月29日~31日,南京市發生了連續重污染過程,期間,觀測區的空氣質量指數(AQI)均值為172,共出現2次明顯的污染過程,首要污染物均為PM10,濃度變化情況見圖4。由圖4可知,3月29日6:00起,觀測區PM10質量濃度開始出現波動,濃度數值呈上升趨勢,當日21:00時達到395μg/m3后回落。3月30日3:00,PM10質量濃度降至90μg/m3后隨即上升,期間質量濃度最高達576μg/m3,污染過程持續至31日中午逐漸消退。PM10濃度高值期間,PM2.5濃度雖同步波動,但整體穩定,污染特征以沙塵污染為主。對比各區域的空氣環境監測站點,觀測區與其它區域站點的PM10濃度變化趨勢基本一致。

圖4 觀測區與其它區域PM10濃度變化
基于隨機森林算法模擬南京及周邊區域的PM10濃度時空分布等值線結果見圖5。由圖5可知,2021年3月29日~31日污染整體表現為區域型。污染期間,區域的主導風向為東北風,位于觀測區上風向的六合冶山站率先受到污染氣團的傳輸影響,且PM10濃度在所有站點中最高,位于觀測區下風向的江寧彩虹橋站受到的區域傳輸影響最小,該站點PM10濃度波動相對滯后。潔凈空氣的輸入有利于降低站點的污染指標濃度,30日3:00左右,風向由東北風轉為東風,東側空氣相對潔凈,東風環境下南京市各站點PM10濃度均大幅下降。但隨著污染擴散和風向的進一步轉變,各站點又再次受污染氣團影響,PM10濃度再次上升,且污染過程持續至31日中午,南京東北部站點空氣質量率先轉好。

圖5 2021年3月29日~31日PM10濃度時空分布等值線
2021年1月12日~15日,觀測區的NO2濃度波動明顯,變化情況見圖6。由圖6可知,共出現3次持續的濃度高值(1月12日17:00~13日9:00,1月13日19:00~14日11:00,1月14日18:00~15日9:00),且多集中在夜間。

圖6 2021年1月12日~15日NO2濃度變化
對比觀測區與其它區域站點NO2濃度變化,12日13:00起,觀測區NO2濃度不斷升高,而仙林大學城站同時段的NO2濃度數值波動較弱,污染發生期間的污染物時空分布等值線見圖7。由圖7可知,觀測區NO2濃度主要受上風向的主城區影響,而非大范圍的區域污染傳輸。13日15:00起,南京市多個站點NO2濃度變化趨勢較一致,均出現大幅上升,整體表現為區域型污染。14日12:00,隨著大氣擴散條件好轉,區域NO2濃度下降,18:00左右再次迅速上升。日間,部分NO2參加光化學反應被消耗,而夜間難以被轉化,且濕度增大、氣壓變低、風速減弱等導致空氣擴散條件變差,使得NO2積聚,濃度升高。15日12:00后,隨著污染消散,各站點濃度降至正常水平。

圖7 2021年1月12日~15日NO2濃度時空分布等值線
2021年2月6日~7日,受主城區及附近工業區共同影響,觀測區NO2夜間濃度較高,監測結果見圖8。由圖8可知,6日18:00起,觀測區NO2濃度上升,濃度高值持續至7日12:00。對比觀測區與南京市、揚州市部分站點,除北側的馬鞍街道外,草場門、奧體中心、揚州儀征紅旗閘的NO2濃度數值變化趨勢較一致。

圖8 2021年2月6日~7日NO2濃度變化
2021年2月6日~7日NO2時空分布等值線見圖9。由圖9可知,6日夜間風速較低,積聚的NO2消散慢,7日上午進一步受早高峰、工業企業生產等影響,NO2濃度凌晨回落后有所上升,揚州儀征紅旗閘站NO2質量濃度升高至120μg/m3,遠高于周邊站點,此時風向為東北風,污染可能傳輸至下風向的觀測區及南京部分其它地區。

圖9 2021年2月6日~7日NO2濃度時空分布等值線
SO2濃度變化可側面表征工業生產現狀,揚州儀征紅旗閘站鄰近工業集中區,不同區域的NO2和SO2濃度關系對比見圖10。由圖10可知,對比污染時段觀測區和上風向揚州儀征紅旗閘站SO2濃度變化,2個站點的SO2濃度變化趨勢較一致,且揚州儀征紅旗閘站SO2濃度明顯高于觀測區,可進一步明確7日上午觀測區NO2濃度升高為受工業排放影響。

圖10 不同區域的NO2和SO2濃度變化
(1)基于多變量隨機森林模型的建立可較好地模擬近地面PM2.5,PM10,NO2,O3時均濃度,模型R2值分別達到0.82,0.85,0.77和0.89。NO2和PM2.5的R2值雖然較PM10和O3低,但RMSE,MAE值偏小,模型的穩定性更高。
(2)2021年3月29日~31日,南京市發生了連續的重污染過程,首要污染物為PM10,通過隨機森林模型模擬江蘇省范圍PM10時均濃度時空分布更直觀地展現污染變化過程。污染期間主導風向為東北風,污染整體表現為區域型,觀測區站點PM10濃度隨污染擴散和風向轉變的影響顯著,污染過程持續至31日中午,南京東北部站點空氣質量率先轉好。
(3)2021年1月12日~15日,觀測區的NO2濃度波動明顯,共出現3次持續的濃度高值,且多集中在夜間,結合污染物時空分布模擬圖,觀測區NO2濃度除受夜間擴散條件減弱等因素影響外,主要受上風向主城區的污染傳輸。
(4)2021年2月6日~7日,污染物時空分布模擬圖顯示觀測區NO2濃度高值受主城區及附近工業區共同影響,尤其是7日上午,觀測區上風向的揚州儀征紅旗閘站NO2質量濃度升高至120μg/m3,遠高于周邊站點。當時風向為東北風,污染傳輸至下風向的觀測區,對比觀測區與揚州儀征紅旗閘站SO2濃度波動,進一步確定污染源為工業排放。