廖云琛,李明聰,吳 洋,張嘉霖,孫樹鵬,尹紫薇
1.天津市津南區氣象局 天津 300350;2.天津市東麗區氣象局 天津 300300
負氧離子(negative oxygen ion, NOI)是指獲得多余電子而帶負電荷的氧氣離子,是由空氣中的自由電子與氧分子相結合而形成的[1-3]。研究表明,除了常見有害氣體成分和大氣能見度等因素外,負氧離子濃度也是衡量區域空氣清潔水平和空氣質量的重要指標之一[4-7]。負氧離子在調節呼吸、清除自由基、促進新陳代謝、維持生命體征等過程中發揮著必要作用,其濃度的高低將直接影響人的舒適程度和健康狀況[8-9]。隨著中國經濟的飛速發展及生態文明建設的深入推進,空氣環境質量和生態氣象服務越來越受到政府機構及社會公眾的關注,負氧離子的研究也逐漸成為熱點之一[10]。
近年來,國內學者廣泛開展負氧離子濃度的監測與分析工作,特別是對不同地區的負氧離子濃度的時間變化特征進行了研究分析。對于負氧離子濃度的日變化,不同地域有不同特點,有單峰型[11]、雙峰型[12]、多峰型[13]。同時,許多研究也發現,不同季節負氧離子濃度的變化也有所不同[14-15]。
前人的研究多指出負氧離子濃度與氣溫、濕度、風速、日照、氣壓、PM2.5等要素之間有顯著關系,受氣象要素、植被類型、水源分布、人類活動、生態環境等多種因素影響,不同區域負氧離子的影響因子也存在差異[16-20]。目前構建負氧離子濃度預測模型以基本的回歸方法居多[21-23],使用BP神經網絡的較少[24]。
本研究利用天津市氣象局在薊州區梁莊子(梁莊子站)和河西區氣象雷達研試中心(市區站)建設的2 套負氧離子生態監測站數據,揭示梁莊子站(森林區)和市區站(居民區)負氧離子濃度時空變化特征,并結合負氧離子濃度監測站點周邊區域自動站氣象要素數據和環境要素數據,了解顯著影響負氧離子濃度的因素。利用2種學習方法,分別篩選并建立2 個區域負氧離子濃度最優預測模型,旨在為天津市不同區域空氣清新度預報提供參考和為天津市生態環境建設提供科技支撐,并將“綠色發展”理念貫徹到底。
負氧離子濃度監測設備采用北京華創維想科技開發有限責任公司的FR500 負氧離子監測儀,其測量范圍為0~50 000 個/cm3,設備分辨率為1 個/cm3,離子遷移率≥0.4 cm2/(V·s)。
本研究使用的逐日負氧離子濃度資料來源為梁莊子負氧離子濃度監測站和市區負氧離子濃度監測站,兩站分別位于天津市薊州區梁莊子鎮和天津市河西區氣象雷達研試中心。研究選取兩站2019年6 月6 日至2022年12 月31 日的逐日負氧離子濃度資料;兩站周邊的同期區域自動站逐日氣象要素資料,包括日平均氣壓、日最高氣壓、日最低氣壓、日平均氣溫、日最高氣溫、日最低氣溫、日平均相對濕度、日最低相對濕度、風速、日照時數、該日是否下雨;監測點所在區域同期的環境監測國控點環境要素逐日資料,包括PM10、PM2.5日平均濃度。由于負氧離子濃度數據易受環境干擾,所以收集到的原始數據存在部分信號噪聲的問題,數據質量參差不齊。本研究利用王云等[25]的方法,對負氧離子濃度數據進行了界限值和小時變率質量控制。
利用算數平均方法來統計月平均、日平均、季節平均數據,利用相關分析方法來分析負氧離子濃度與其他要素的相關關系。利用隨機梯度下降法、隨機森林方法來篩選和建立負氧離子濃度預測模型。隨機梯度下降法是通過隨機取樣和不斷迭代更新各影響因子權重,使模型的損失函數的梯度向量達到最小的機器學習方法。隨機森林方法是由多個決策樹構成的集成學習方法[26]。
2.1.1 平均日變化特征
從梁莊子負氧離子濃度的平均日變化來看(圖1a),梁莊子負氧離子濃度一天內的變化范圍為859~1 014個/cm3,負氧離子測值較高。一天內總體變化呈“一峰一谷”型,一天內的負氧離子濃度峰值出現在09 時,谷值出現在15 時、16 時,總體表現為凌晨上升、上午至午后下降、而后又再次上升。市區站負氧離子濃度(圖1b)一天的變化范圍為615~567 個/cm3,濃度相較于梁莊子站明顯偏低,且一日內的變化幅度較小。市區站負氧離子濃度一天內的總體變化呈凌晨至白天高、中午至夜間低的波動型態。一天內的負氧離子濃度峰值出現在06 時,谷值出現在13 時,表現為凌晨波動上升、上午至午后下降、而后在傍晚至夜間略有波動,基本呈“一峰一谷”型,但存在較多波動,整體特征不明顯,可能是居民區環境和人為干擾導致。總體來看,市區站(居民區)的負氧離子濃度明顯低于梁莊子站(森林區),其日變化峰值提前于梁莊子站,谷值也較梁莊子站提前。

圖1 梁莊子站(a)和市區站(b)負氧離子濃度日變化圖Fig.1 Time series of daily NOI concentration in Liangzhuangzi station (a) and urban station (b)
2.1.2 平均月變化特征
從梁莊子站負氧離子濃度平均月變化來看(圖2a),梁莊子站負氧離子濃度全年月變化呈“兩峰一谷”型,濃度最高月份分別為5 月(1 055 個/cm3)和12 月(1 069 個/cm3),7 月最低(660 個/cm3)。負氧離子濃度在1—5 月為緩慢上升過程,而后迅速下降,在7 月達到最低,之后至12 月持續上升。市區站負氧離子濃度全年月變化總體特征形態并不明顯(圖2b),濃度從1 月開始逐漸上升,5—6 月略微下降,在7 月達到最高(822 個/cm3),之后波動下降至1 月,達到最低(440 個/cm3)。

圖2 梁莊子站(a)和市區站(b)負氧離子濃度月變化圖Fig.2 Time series of monthly NOI concentration in Liangzhuangzi station (a) and urban station (b)
2.1.3 平均季節變化特征
在梁莊子站平均季節變化上(圖3):春、冬季負氧離子濃度最高,達1 025 個/cm3;秋季次之,為926 個/cm3;夏季最低,為750 個/cm3。總體來看,梁莊子站平均季節負氧離子濃度為(春季,冬季)>秋季>夏季。從市區站平均季節變化上來看:天津市站監測站夏季負氧離子濃度最高,達696 個/cm3;春、秋季次之,為600 個/cm3左右;冬季最低,為446 個/cm3。總體來看,市區站平均季節負氧離子濃度為夏季>春季>秋季>冬季,可能與當地對應季節的天氣狀況有關。

圖3 梁莊子站和市區站負氧離子濃度季節變化圖Fig.3 Histograms of seasonal NOI concentration in Liangzhuangzi station and urban station
2.2.1 影響因子篩選
本文計算了2 個監測站逐日負氧離子濃度與多個要素之間的相關系數。梁莊子站負氧離子濃度與前一日濃度、當月常年平均濃度、日平均風速、日最高氣壓呈顯著正相關關系(表1),表明以上負氧離子濃度伴隨以上要素的增大而增大,且與日最低氣溫、日平均氣溫、日最高氣溫、日最低相對濕度、日平均相對濕度、日平均PM10、日平均PM2.5呈顯著負相關關系,表明以上負氧離子濃度伴隨以上要素的增大而減小。市區站負氧離子濃度與其他要素之間的相關關系表現與梁莊子站略有不同,甚至在某些要素上變化相反,其與前一日濃度、當月常年平均濃度、日最低氣溫、日平均氣溫、日最高氣溫、日最低相對濕度、日平均相對濕度、當日是否有雨、日平均風速、日總云量呈顯著正相關,與日平均PM10、日平均PM2.5、日最低氣壓、日平均氣壓、日最高氣壓呈顯著負相關關系。

表1 負氧離子濃度與其他要素的相關系數Tab.1 The correlation coefficients between NOI concentration and other factors
基于上述相關性計算結果,選取與2 個監測站負氧離子濃度數據呈顯著相關性(通過0.05 和0.01 信度檢驗)的要素作為模型輸入要素。
2.2.2 預測模型建立與篩選
利用2種學習方法,訓練2 個監測站點的逐日負氧離子濃度及其對應的輸入要素,之后采用隨機劃分50 次訓練和檢驗樣本的方式,計算不同機器學習方法所得到的均方根誤差(RMSE),并計算平均值,從而獲得不同監測站的2種學習方法的“50 折-交叉均方根誤差檢驗評分”(表2)。對于梁莊子站逐日負氧離子濃度的預測,隨機森林方法的RMSE為279.9,隨機梯度下降法的RMSE 為285.1,隨機森林方法的預測效果略好于隨機梯度下降法。對于市區站逐日負氧離子濃度的預測,隨機森林方法的RMSE 為240.0,而隨機梯度下降法的RMSE 為243.3,隨機梯度下降法的預測效果略好于隨機森林方法。

表2 不同預測模型的50 折-交叉均方根誤差檢驗評分Tab.2 50-k cross validation RMSE scores for different prediction models
從2022年全年梁莊子站負氧離子濃度模型檢驗折線圖(圖4)可以看出,隨機梯度下降法與隨機森林法所預測的逐日負氧離子濃度變化趨勢與實際觀測值基本一致,但在極值的預測方面仍有差距,無法預測出負氧離子濃度極端的情況。使用隨機梯度下降法與隨機森林法預測的市區站逐日負氧離子濃度效果總體相似(圖5),2種方法均有較好的模擬效果,但也存在與梁莊子站相同的問題,即負氧離子濃度極值的預測仍存在較大偏差。但是整體上來看,兩種學習方法均對2 個監測站的負氧離子濃度預測有一定預報能力和參考價值。

圖4 2022年梁莊子站逐日負氧離子濃度觀測值與隨機梯度下降法(a)、隨機森林法(b)預測值對比Fig.4 Time series of NOI concentration observation and prediction from SGD method (a) and random forest method(b) in Liangzhuangzi station

圖5 2022年市區站逐日負氧離子濃度觀測值與(a)隨機梯度下降法、(b)隨機森林法預測值對比Fig.5 Time series of NOI concentration observation and prediction from SGD method (a) and random forest method(b) in urban station
綜上所述,本文選取RMSE最小的機器學習方法作為適用性的預測模型。
第一,天津市森林區(梁莊子站)負氧離子濃度存在明顯的“一峰一谷”型日變化特征及“兩峰一谷”型月變化特征。從季節上來看,負氧離子濃度為春季=冬季>秋季>夏季。
第二,天津市居民區(市區站)負氧離子濃度日變化特征基本呈“一峰一谷”型,且月變化特征不明顯,起伏波動較大。從季節上來看,負氧離子濃度為夏季>春季>秋季>冬季。
第三,天津市居民區(市區站)的負氧離子濃度明顯低于森林區(梁莊子站),其日變化峰值與谷值均提前于森林區。不同區域存在不同的影響要素,部分相同要素對于居民區與森林區逐日負氧離子濃度的影響甚至表現相反。
第四,對于梁莊子站(森林區),構建逐日負氧離子濃度預測模型更適合使用隨機森林法;對于市區站(居民區),構建逐日負氧離子濃度預測模型更適合使用隨機梯度下降法。
第五,由于觀測資料的時間長度問題,所以本文所建立的逐日預測模型在檢驗極值的精準度方面仍存在一定偏差。隨著觀測數據的積累,在數據量提升的基礎上借助更為先進的機器學習方法將會使負氧離子預報準確率進一步提升。