基于隨機森林的臭氧濃度精細時空預測研究

2023-04-29 00:44:03孫瑞馮春莉

環境科學與管理 2023年7期

孫瑞　馮春莉

關鍵詞：徐州市；隨機深林；時空序列；臭氧預測

中圖分類號：X511 文獻標志碼：A

前言

近年來，徐州市PM_2.5等污染物濃度呈現顯著下降趨勢。但是，臭氧濃度卻在不斷升高，臭氧成為徐州市春夏季大氣污染控制的重要對象。

目前，大量環境空氣自動站點、氣象和衛星遙感站點均已積累了較長時間序列的觀測數據，為我們提供了非常有價值的、描述當時地表綜合環境特征的變量。如果能基于深度學習算法，學習并建立這些時空影響因素與大氣污染物濃度間的對應關系，則可構建時間序列預測模型，通過對特定時段預測值和實測值的對比，定量評估人為措施的效用，或被用于對未來的預測，以輔助環境管理部門做高精度大氣污染預警。王馨陸等利用多元線性回歸模型和隨機森林模型對成都市臭氧和PM_2.5預測，均表現出相對最佳的預報性能。蔡旺華運用機器學習方法預測臭氧濃度，預報等級準確率達到90%。丁愫等利用決策樹模型對徐州市臭氧進行預報，預報準確率高于75%。

利用大氣、氣象、衛星遙感等數據，建立高精度臭氧時間序列預測模型，對未來臭氧濃度及時空動態變化進行預測，以期基于歷史時間序列數據對未來臭氧濃度進行預報，在空間上鎖定高污染濃度區域及其影響因素，探究污染來源及其形成機制，對大氣污染防治、預警等工作提供數據基礎及技術支持。

1數據來源與方法

1.1數據來源

研究利用徐州市7個國控站點、省控監測站點、網格化站點觀測的六參數（SO₂、NO₂、PM₁₀、CO、O₃、PM_2.5）小時數據，該數據均來自徐州環境監測中心。逐小時地面氣象觀測數據來自氣象站，其中氣象數據主要包括溫度、濕度、風向、風速、氣壓和太陽輻射等。地理類變量包括植被指數、濕度指數、道路密度、到道路的距離、坡度、到市中心的距離、X坐標、Y坐標；其中道路數據來自高德地圖，X坐標和Y坐標分別為所在位置的UTM投影坐標，植被指數和濕度指數均基于美國地質調查局網站下載的Landsat 8遙感影像計算得到，坡度變量基于美國地質調查局的SRTM DEM數據計算得到。人口變量來自美國橡樹嶺國家實驗室，空間分辨率為1千米。站點觀測數據用于模型建立和驗證前首先按照HJ 633-2012及HJ 663-2013進行質量控制，質量控制中剔除明顯異常值同時盡可能保證可用數據量。

1.2預測方法

隨機森林是一種集成學習的方法，集成學習包括bagging算法和boosting算法，是目前使用較為廣泛的一種機器學習方法，該方法在大氣污染物時空預測中的應用也較多。隨機森林是集成學習bagging算法中的一種方法，它的各個弱分類器之間沒有關聯，可以進行并行擬合。國內外大量的理論和應用研究從不同的角度證明了隨機森林模型的準確性，該模型對數據集中的異常值及噪聲具有良好的包容度，是目前公認最好的機器學習模型之一。

研究首先使用隨機森林方法利用2019年一2020年徐州市167個站點的小時臭氧濃度進行建模，去除異常情況后共16000個小時，得到了每個小時對應的隨機森林模型和空間分布圖。隨機森林方法中有許多參數設置，如分類器的個數、最大特征數目、最大深度，在構建模型前需要選擇最優的參數。隨機森林在建立決策樹時對于訓練集進行有放回的抽取，對于每棵樹大約有三分之一的訓練集沒有參與該樹的生成，從而得到袋外誤差，研究利用隨機森林的袋外誤差選取最優參數，即計算袋外誤差最低的參數組合為最優參數。

1.3模型評價

研究針對每個小時建立一個模型，即每小時167個站點的臭氧濃度空間預測結果。為檢驗預測結果，對模型精度進行評價。模型精度評價指標：決定系數（R²）、均方根誤差（RMSE）、平均絕對誤差（MAE），評估模型預測的準確性。以下為各統計量度指標的定義公式如下：

2結果與分析

目前，大氣污染防治工作進入到精細化管理的新階段，需要更加及時、科學、精準的空氣質量預測預報。為提供更好的短期突發污染與長期污染預測分析，分別選取2小時及月度進行預測，研究預測準確性。

2.1預測2小時臭氧濃度效果

研究選取2019年3月1日00時-2019年6月20日23時各監測點臭氧小時濃度數據及2019年3月1日00時-2019年6月20日23時的小時氣象數據使用隨機森林方法利用氣象變量、地理類變量、人口變量和其他相關污染物變量訓練小時臭氧濃度空間預測模型。在建模時計算了每個小時的變量重要性，并利用袋外誤差選取了最優參數。在對臭氧濃度進行時空預測，采用以下建模流程：選取每天最大8小時滑動平均中對應的最大8個小時的臭氧濃度，以七天為周期，學習七天內的徐州市近地面最大8小時臭氧濃度與相應時間、相應位置的氣象數據和N02數據間的非線性關系，從而獲取臭氧的空間預測模型，將第八天的氣象數據N02數據、地形數據、土地利用數據、社會經濟數據、道路數據作為預測因子代人該模型，從而得到第八天內的臭氧濃度空間分布結果。在機器學習后使用該模型對徐州市桃園路站點和農科院站點的未來2小時臭氧濃度進行預測。在具體操作上，使用臭氧監測站點前12小時的臭氧濃度數據和未來2小時的氣象數據，預測未來2小時的臭氧濃度。輸入數據首先按時間順序排序，然后將其等分為10份，每次選取其中1份作為測試集，其余9份作為訓練集和驗證集。使用訓練集和驗證集訓練模型，使用測試集驗證模型精度，共訓練10個模型，分別驗證不同測試集下模型的預測效果。以下為預測結果與觀測結果的對比。（見圖1、圖2）

預測結果表明，系統在對未來2小時進行預測時，展示了優秀的預測能力，預測結果能與實際觀測結果較好地吻合，波動趨勢基本相同，R²可達0.8～0.9。模型預測精度均值約為RMSE=13μg／m³，MAE =12μg／m³。（見表1）

2.2預測月度臭氧濃度效果

在對2小時臭氧預測時，效果較好，為驗證長期預測效果，對徐州市2020年8月的臭氧濃度空間預測結果如圖3和圖4所示（由于8月19日的臭氧監測站點缺失值較多，因此不參與建模）。圖3中ModelR²為建模精度，CV R²為交叉驗證精度，HV R2為獨立驗證精度。徐州市2020年8月份的建模精度在0.7～0.9左右；交叉驗證精度在0.2～0.9左右，且大部分位于0.6以上；獨立驗證精度在-1.2～0.7左右，其中存在兩天是負值的情況，該兩天可能存在較大的異常導致結果較差，大部分結果位于0.4～0.6之間。圖4為建模點30天的RMSE和MAE統計結果，其中同樣存在RMSE和MAE較高的幾天，但大部分RMSE低于6μg／m³，MAE低于4μg／m³。

根據時間序列預測結果，可以利用隨機森林空間插值進行高精度空間制圖，選取2020年8月9日和8月11日的結果進行空間制圖，空間分辨率為30米。分布圖可以精細地展示出徐州市臭氧濃度的空間分布情況。局部存在較高值，可以根據空間分布情況，對于高值區進行污染的過程、成因、影響因素進行重點分析。（見圖5）

3結論

通過融合地面、遙感及氣象等多源數據，以徐州市167個站點為例建立基于隨機森林空間插值的臭氧精細空間預測模型，該模型可以通過變量的重要性來顯示每個預測因子變量的貢獻。研究發現，利用模型對未來2小時臭氧濃度進行預測，模型展示了優秀的預測能力，波動趨勢基本相同，R²可達0.8-0.9，預測精度均值約為RMSE=13μg/m³，MAE=12μg/m³。利用模型對1個月臭氧濃度進行預測，除部分異常值外，趨勢大致相同，大部分RMSE低于6μg／m³，MAE低于4μg／m³。此外，研究得到的是日空間圖的真實預測精度，預測結果較傳統插值方法有很大提高。同時，利用隨機森林空間插值進行高精度空間制圖，可以精細地展示出徐州市臭氧濃度的空間分布情況，從而為臭氧污染防治、預警等工作奠定方法基礎。

環境科學與管理2023年7期

環境科學與管理的其它文章: 科研團隊發現新型鐵電材料（信息）; 英國研究發現石墨烯在環境條件下的高磁阻現象（信息）; 國外研制出新型氧離子電池（信息）; 國外研發出提高儲氫效率的方法（信息）; 2016年-2021年四川省地表水體中137Cs放射性水平及公眾健康風險評估研究; 高原湖泊A水質現狀分析及污染評價研究