












摘要:為了提高大氣重污染潛勢預報的精準性,提出基于敏感因子的大氣重污染潛勢分級預報技術。選取大氣通風量、垂直溫度梯度和風速垂直切變作為大氣重污染敏感因子,采用隨機森林(Random Forest,RF)算法分析大氣重污染的潛在變量。依據大氣重污染的日增量,進行數據預處理,建立最優多元線性回歸(Multiple Linear Regression,MLR)模型,篩選出最佳變量組合對大氣背景場進行聚類處理,通過最優子集回歸法得到重污染潛勢預報模型。試驗結果表明,定量預報大氣重污染潛勢時,所提技術的預報正確率為92.35%;預測大氣重污染潛勢等級時,不同等級下的均方誤差(Mean Squared Error,MSE)均低于0.2,該技術具有較高的應用價值。
關鍵詞:敏感因子;大氣重污染;潛勢定量預報;隨機森林(RF);垂直溫度梯度
中圖分類號:P456 文獻標識碼:A 文章編號:1008-9500(2024)11-0213-05
Research on the Grading and Forecasting Technology of Atmospheric Heavy Pollution Potential Based on Sensitive Factors
ZHANG Xu
(Bayannur Branch of Inner Mongolia Autonomous Region Environmental Monitoring Station, Bayannur 015000, China)
Abstract: In order to improve the accuracy of atmospheric heavy pollution potential forecasting, a classification forecasting technology for atmospheric heavy pollution potential based on sensitive factors is proposed. Selecting atmospheric ventilation rate, vertical temperature gradient and wind speed vertical shear as sensitive factors for heavy air pollution, the Random Forest (RF) algorithm is used to analyze the potential variables of heavy air pollution. Based on the daily increase of heavy air pollution, data preprocessing is carried out to establish the optimal Multiple Linear Regression (MLR) model, and the optimal variable combination is selected for clustering of the atmospheric background field, and the heavy pollution potential prediction model is obtained through the optimal subset regression method. The experimental results show that the accuracy of the proposed technology for quantitatively predicting the potential of heavy air pollution is 92.35%; when predicting the potential level of heavy air pollution, the Mean Squared Error (MSE) at different levels is less than 0.2, indicating that this technology has high application value.
Keywords: sensitive factors; heavy air pollution; potential quantitative forecasting; Random Forest (RF); vertical temperature gradient
大氣重污染會導致區域環境質量下降,嚴重時會危害人體健康。及時地預報大氣重污染潛勢,有利于提早實施大氣污染防治措施,從而有效控制大氣污染,改善空氣質量[1]。目前,大氣重污染潛勢的定量預報有多種研究。喻謙花等[2]提出,建立空氣污染的量化指標,對大氣污染的長期變化進行預測,并按照設定的判別條件,對大氣污染指數進行定義,從而對大氣重污染潛勢進行預測。該方法預報的準確性較高,但需要的數據較多,使用過程較為復雜,因此具有一定的局限性。王馨陸等[3]提出,選取潛勢因子,根據天氣學原理,對污染物遷移擴散進行分析,明確污染物擴散情況,從而對大氣污染潛勢進行預報。該方法對參數的要求較高,預報準確率一般,但預報過程較為簡單,經常被運用于各類大氣污染潛勢預報中。毛卓成等[4]提出,對冬半年的大氣對流擴散情況進行計算,預測大氣邊界層氣流的垂直擴散情況,然后對大氣重污染潛勢進行預報。該方法過程簡單,預報結果較為準確,具有較好的應用性。在大氣污染潛勢預報的研究中,敏感因子是一個關鍵的概念。敏感因子指的是影響大氣污染物生成和傳輸的環境因素,如氣象條件、地形地貌和人口密度等。敏感因子分析可以使人更好地理解大氣污染的形成機理和傳播規律,并據此進行預測。因此,有必要基于敏感因子,探索新型大氣重污染潛勢分級預報技術。
1 大氣重污染潛勢分級預報技術
1.1 大氣重污染敏感因子的確定
大氣重污染敏感因子是影響大氣污染形成和傳輸的關鍵因素,包括氣象因素,如風速、濕度和溫度等。其中,風速和風向決定污染物傳播范圍,而溫度和濕度影響化學反應速率。為預報冬半年大氣重污染,重點關注3個敏感因子,即大氣通風量、垂直溫度梯度和風速垂直切變。其中,大氣通風量反映空氣清潔能力,垂直溫度梯度影響對流運動,風速垂直切變則關聯湍流擴散和污染物輸送。為了提高大氣重污染事件的預測準確度和及時性,對敏感因子的敏感氣象要素進行計算。敏感氣象要素的計算流程如圖1所示。高度層的大氣壓為850~925 hPa,敏感氣象要素詳情如表1所示。對大氣通風量、垂直溫度梯度以及風速垂直切變進行計算,按照3個參數進行大氣的定量預報[5]。大氣通風量為氣壓差,表示大氣流通能力,數值越大表示通風能力越強。垂直溫度梯度表示每升高100 m的氣溫變化量,負值表示氣溫隨高度升高而降低。風速垂直切變表示每升高1 km的風速變化量,正值表示風速隨高度升高而增加。
1.2 重污染潛勢分級預報
1.2.1 重污染潛勢預報模型的建立
根據大氣重污染敏感因子,建立基于隨機森林(Random Forest,RF)的重污染潛勢預報模型。在此基礎上,對敏感氣象要素因子的變量進行初步選定并進行排列,其過程如圖2所示。其間需要建立3種模型,即多元線性回歸(Multiple Linear Regression,MLR)模型、神經網絡(Neural Network,NN)模型和RF模型。在模型建立的過程中,對數據進行預處理,聚焦于大氣重污染的日增量,降低其他因素對數據的噪聲干擾,提高模型對大氣重污染潛勢的預測精確度。在此基礎上,將相關系數大于0.7的數據刪除,進而實現模型訓練。數據預處理流程如圖3所示。
為了進一步提高預測模型的準確性,建立最優MLR模型,對變量進行組合。篩選最佳變量組合,去除無用或冗余的變量,并保留對目標變量有更大解釋能力的變量。因為不同空氣類型的背景環境可能對敏感因子的影響不同,所以在最佳變量組合的基礎上,對大氣背景場進行聚類處理,將大氣溫度分為3種空氣類型,更精確地預測不同空氣類型的重污染潛勢。聚類后,大氣環流氣壓變溫特征如圖4所示。按照聚類結果,合成變溫因子數據,并以大氣中冷空氣為主,選取具有代表性的數據,作為分類指標數據。采用最優子集回歸法,建立最佳模型,從而得到重污染潛勢預報模型。
1.2.2 大氣重污染潛勢等級劃分
根據重污染潛勢預報模型對敏感因子進行定量計算,進而完成大氣重污染潛勢等級劃分。其中,等壓面厚度采用式(1)計算,根據式(2)得到其平流擴散因子。按照平流擴散因子,可以根據式(3)計算因子綜合影響程度。根據因子影響程度,考慮空氣質量指數(Air Quality Index,AQI)的日增量,結合因子的權重將潛勢等級分為5級,具體分類如表2所示。按照大氣重污染潛勢等級進行分級判別,得到大氣重污染潛勢分級預報結果。
(1)
s=m×0.5(u1+u2)(2)
v=s×∑(d1+d2+d3)(3)
式中:m為等壓面厚度;s為平流擴散因子;v為因子綜合影響程度;z為氣體常數;x為邊界層的標準氣壓參數;c1為邊界層的污染氣體擴散速度;c2為等壓面的標準氣體擴散速度;u1為地面的標準氣壓;u2為邊界層沉降速度;d1為大氣通風量因子容差;d2為垂直溫度梯度因子容差;d3為風速垂直切變因子容差。
2 試驗與分析
2.1 試驗設置
選擇某地區的大氣污染源排放清單數據作為試驗數據。根據區域空氣質量監測結果,重污染日占全部污染日的8%。首要污染物占比分布顯示,O3為首要污染物的占比最大,為39.7%,其次是PM2.5,占比為36.3%,以PM10為首的占比是21.5%,NO2和CO為首要污染物的占比分別為2.3%和0.3%。2023年,污染物質量濃度的月度變化如圖5所示。對試驗數據進行歸一化處理,以重污染的氣體濃度為其對數,進行正態分布分析,并對數據進行訓練。
2.2 結果分析
使用所提技術和兩種對比方法,對比方法1是基于機器學習的預報技術,對比方法2是基于Bayes判別分析的預報技術。分別利用3種方法進行預報,得到預報值與實際觀測值,如圖6所示。在PM2.5的預報中,相比其他兩種技術,所提技術的預報值更加接近實際觀測值,預報偏差較小。對不同污染物的預報情況進行統計,按照五分級對其進行預測,可以得到大氣污染潛勢判別函數系數,如表3所示。按照判別函數,對預報正確率進行計算,將其代入預報的函數模型,得到所提技術的預報正確率為92.35%,相對較高,說明預報的準確率較高。
使用對比方法1對大氣重污染潛勢進行預報,可以得到其判別函數系數,如表4所示。將判別系數代入預報函數模型,對其進行計算,可以得到預報的綜合準確率為82.36%,相對較低,說明對比方法1的預報準確率有所下降。使用對比方法2進行預報,可以得到判別函數系數,如表5所示。將判別系數代入函數模型進行計算,可以得到其預報的綜合正確率為67.25%,說明使用對比方法2進行預報,其預報的正確率較低,預報誤差較大。
為了進一步驗證所提技術的實用性,選用均方誤差(Mean Squared Error,MSE)作為評估指標。MSE越小,表明方法的預測能力越強。試驗結果如圖7所示。經分析,3種方法對不同大氣重污染潛勢等級的均方誤差不同。其中,對比方法1在預測2級大氣重污染潛勢時的MSE值較大,表明該方法對2級的預測能力較差;對比方法2在預測3級大氣重污染潛勢時的MSE值較大,表明該方法對3級的預測能力較差。相比兩種對比方法,所提技術在進行大氣重污染潛勢等級預測時,不同等級的MSE均保持在0.2以下,表明所提技術預測能力強,具有較好的實用性。
3 結論
利用某地區大氣污染源排放清單數據作為試驗數據,選取大氣通風量、垂直溫度梯度和風速垂直切變作為大氣重污染敏感因子,建立重污染潛勢預報模型,并結合大氣重污染潛勢劃分等級,完成大氣重污染潛勢分級預報技術設計。試驗結果表明,在PM2.5的預報中,所提技術更加接近實際觀測值,預報偏差較小。所提技術預報正確率為92.35%,相對較高,說明預報的準確性較好。采用所提技術預測大氣重污染潛勢等級時,不同等級下MSE均保持在0.2以下,表明所提技術的預測能力強,具有較好的實用性。
參考文獻
1 周須文,高旭旭,于長文,等.基于Bayes判別分析的大氣污染潛勢定量預報[J].氣象,2022(8):1032-1042.
2 喻謙花,康暑雨,韓 艷.開封市空氣重污染典型天氣背景分析與潛勢預報模型研究[J].氣象與環境科學,2020(3):84-92.
3 王馨陸,黃 冉,張雯嫻,等.基于機器學習方法的臭氧和PM2.5污染潛勢預報模型:以成都市為例[J].北京大學學報(自然科學版),2021(5):938-950.
4 毛卓成,瞿元昊,許建明,等.斜剖面圖的設計及在PM2.5中期潛勢預報中的應用[J].中國環境科學,2020(8):3312-3321.
5 陳澤鑫,古金霞,霍光耀,等.天津市揮發性有機物污染特征與來源及其O3生成潛勢[J].環境污染與防治,2022(2):201-205.