

摘 要:利用2018—2023年江西吉安地區12個國家氣象站地面小時觀測資料,分析了吉安地區大霧天氣的時空分布特征,通過數據處理后形成訓練集和驗證集,代入SVM算法和LSTM網絡建立了大霧天氣預報模型,檢驗評估了模型預報效果,并選取近期典型個例進行驗證。結果表明:大霧主要集中在深秋至次年初春時段,其他時段逐漸減少,7月份最少;起伏山區以及高海拔的山上相比平坦地形出現次數更多;兩種預報模型預測得分接近,總體都較好,TS評分都在50%以上,檢驗準確率可達75%以上,可以用來作為預報參考,有較好的業務應用前景。
關鍵詞:機器學習;大霧;預報
Abstract:Using surface hourly observation data from 12 national meteorological stations in the Ji'an area of Jiangxi Province from 2018 to 2023,the spatiotemporal distribution characteristics of fog weather in the Ji'an area were analyzed.After data processing,training and validation sets were formed.These were then used in Support Vector Machine (SVM) algorithm and Long ShortTerm Memory (LSTM) network to establish fog weather forecast models.The forecast performance of the models was tested and evaluated,and recent typical cases were selected for verification.The results indicate that:Fog occurs mainly from late autumn to early spring of the following year,gradually decreasing during other periods,with the least occurrence in July;Fog occurs more frequently in undulating mountainous areas and at higher altitudes compared to flat terrain;The prediction scores of the two forecast models were close and both performed well overall,with TS scores above 50% and verification accuracy reaching over 75%.These models can be used as a forecasting reference and show good prospects for operational application.
Keywords:Machine learning;Fog;Forecast
" 吉安位于江西省中部,地勢復雜多變,氣候條件獨特,是大霧天氣頻發的區域之一。大霧天氣不僅嚴重影響交通運輸安全,增加交通事故風險,還對農業生產、居民日常生活以及空氣質量監測等多個方面造成不利影響。傳統的大霧預報方法多依賴于預報經驗、統計模型和數值模式[13],這些方法在預報精度和時效性上尚存在一定的局限性,難以滿足現代社會對精準氣象服務的需求。
隨著科技的飛速發展,特別是大數據和人工智能技術的廣泛應用,機器學習作為人工智能的一個重要分支,在氣象預報領域展現出巨大的潛力和優勢。機器學習算法能夠自動從大量歷史氣象數據中學習并提取出復雜的非線性關系,從而實現對未來氣象狀態的準確預測。因此,將機器學習技術應用于吉安地區大霧預報,探索一種更加精準、高效的大霧預報方法,具有重要的現實意義和科研價值。
目前,利用機器學習方法對大霧進行預報已有不少研究和應用。何東坡等[4]利用C5.0、CART決策樹和多層感知器網絡構建了貴陽霧的預報模型;時瑋域[5]結合了支持向量機與特征選擇Wrapper方法實現短鄰霧天氣分類預測模型,并在實際業務系統中進行應用;陳貝等[6]利用指標判斷法和非線性統計支持向量機法,分別對成樂路沿線各站大霧和能見度量級進行預報模型構建,最后通過人為經驗訂正對沿線各站大霧做出精細化客觀預報;此外,苗開超等[7]、王月琴等[8]將神經網絡應用于大霧和團霧的預報。
1 吉安地區大霧天氣特征
吉安地區東、西、南三面環山,中間則是地勢相對平坦的吉泰盆地,形成了顯著的海拔差異,氣候上屬于亞熱帶季風氣候區,四季分明、雨熱同期,地形和氣候共同作用導致吉安成為江西省區域性大霧出現最為集中的地區之一[9],同時也使大霧天氣呈現出明顯的時空分布差異(圖1和圖2):吉安、吉水、萬安等站海拔較低(60~100米),且地勢平坦,大霧天氣相對較少,年平均霧日3~10天,主要以區域性大霧為主。峽江、永豐、廈坪等站位于山區(平均海拔100~300米),受山地地形影響輻射霧多發。井岡山站海拔最高(848米),來往氣流受羅霄山脈阻擋在此強制爬升,山上常年云霧繚繞,平均每6天就有一次大霧;霧日數季節差異性明顯,霧天氣主要出現在深秋至次年初春(11月—次年3月),其中輻射霧占據主導地位,平流霧和平流輻射霧數量相對較少,主要發生于1~2月和冬末初春時節(2~3月)[9]。
圖1 吉安地區2018—2023年各國家站霧出現日數
圖2 吉安地區2018—2023年各月國家站霧出現日數
2 數據處理
為建立吉安地區大霧天氣預報模型,研究數據選取吉安地區12個國家站2018—2023年6年時間的逐小時地面氣象數據,依據影響大霧形成的物理機制和預報方法[910],選取的要素為氣壓、氣溫、相對濕度、風向、風速、降水量、能見度等7類數據。按照現行業務大霧判定標準能見度值低于750米且相對濕度大于85%時判定為有霧出現。
在數據預處理階段,先針對孤立且非風向、風速的氣象要素缺測值,采取了線性插值的方法進行替代,對于較多缺測值的記錄直接刪除,對數據進行了標準化和歸一化處理。
在構建預測模型時,考慮霧天氣出現的時間點(20時至次日12時)和維持的時間長度(不超過12小時),以每天20時為界,將過去12小時內的氣象要素作為預測輸入,將未來12小時內是否出現霧作為預測目標,并標記為0(無霧)或1(有霧)。通過篩選得到了771個霧樣本。然而,與剩余的25291個無霧樣本相比,霧樣本的數量比例過低,約為1∶33。為了保證訓練效果,本文參考了相關文獻[7],將正負樣本的比例調整為1∶2,從無霧樣本的記錄中隨機抽取了5000個樣本,然后使用隨機過采樣方法將有霧樣本擴充到2500個,得到了一個由7500個樣本組成的數據集,按照60%、40%的比例隨機分配了訓練集和驗證集。
3 模型建立和訓練
本文利用過去時間的氣象要素預報未來是否有大霧天氣,其中既涉及時間序列處理又有分類要求,因此采用了兩種不同的機器學習模型:支持向量機(Support Vector Machine,SVM)和長短期記憶網絡(Long ShortTerm Memory,LSTM),分別基于這兩種算法構建了預測模型,通過對比它們在預測準確性、穩定性以及泛化能力等方面的表現,來綜合判斷哪個模型更為優越,從而篩選出效果最佳的預報模型。
SVM是一種二分類模型,其目標是在特征空間中找到一個間隔最大的超平面,以對樣本進行分割,使得離該平面最近的樣本點(稱為支持向量)到平面的距離最大。在實際應用中,SVM可以通過核函數技巧將線性不可分的問題轉化為線性可分的問題,從而實現對復雜數據的分類。
LSTM是一種特殊的循環神經網絡(Recurrent Neural Network,RNN)架構,旨在解決傳統RNN在處理長序列數據時遇到的梯度消失和梯度爆炸問題。LSTM的核心在于其獨特的細胞狀態和三個門控機制,這種設計使其能夠捕獲序列數據中的長期依賴關系,即使在輸入序列非常長的情況下也能有效工作。
模型的實現使用Python語言編寫,采用了PyTorch深度學習框架。對于SVM模型,其輸入數據即7類氣象要素在過去12小時內的觀測值。輸出未來12小時內是否有霧,其中1代表有霧,0代表無霧。選擇了三種常用的核函數進行比較,它們分別是線性核函數(LKF)、多項式核函數(PKF)和徑向基核函數(RBF)。對于LSTM模型,其輸入層尺寸同樣為7類氣象要素,輸入序列長度為12。模型包含兩層隱藏層,每層隱藏層的尺寸都設置為32。在輸出層,設置了一個時間步的預測輸出,如果任何一個時間步的輸出為1(表示有霧),則模型的總體輸出即為1(有霧);否則,輸出為0(無霧)。為了衡量模型預測的準確性,采用了交叉熵損失函數(Cross Entropy Loss)作為模型的損失函數。
4 實驗與結果
為評估訓練模型的性能,本文選用TS評分、準確率A、空報率E、漏報率F以及霧準確率Af作為評價指標,指標公式如下:
TS=TP/(TP+FP+FN)(1)
A=(TP+TN)/(TP+TN+FP+FN)(2)
E=FP/(TP+FP)(3)
F=FN/(TP+FN)(4)
Af=TP/(TP+FN)(5)
其中TP是預測有霧實際有霧的樣本數,TN是預測無霧實際無霧的樣本數,FP是預測有霧實際無霧的樣本數,FN是預測無霧實際有霧的樣本數。
分別計算兩種模型對訓練集和驗證集的預報結果的TS評分、準確率、空報率、漏報率和霧準確率,結果見表1。
從結果來看,兩種機器學習模型均有較為優良的表現,驗證集對霧的預測準確率都在75%以上,其中使用多項式核函數(PKF)的SVM模型TS評分可達57.2%,對霧的預報準確率可達87%,能夠較好地作為預報參考。
但同時注意到,各個模式的空報率都在32%以上,說明有很多沒有霧的樣本預報出霧,分析可能的原因,一是樣本總數偏少,771個正樣本所能涵蓋的霧天氣預測要素搭配還是偏少,模型所能學習的信息不足;二是現在霧天氣觀測只能監測周邊幾百米到幾千米的能見度,有些實際有霧出現的樣本可能因為沒有被觀測到而被錯誤地歸類為無霧樣本,導致模型無法正確地區分和預測,影響了訓練效果。
5 典型個例驗證
利用2024年1月4日、1月9日、1月31日、2月10日、3月3日、3月12日6次大霧天氣實例進行驗證,模型選擇使用了多項式核函數的SVMPKF和LSTM,兩個模型預測結果的各項評分指標見表2。
評分結果與驗證集的驗證結果接近,總體預測結果較好,對霧的預測準確率在80%以上,SVMPKF模型相對LSTM模型效果稍好,基本滿足業務工作的需求。
6 結論
(1)吉安地區大霧天氣的出現有明顯的時空特征,主要集中在深秋至次年初春時段(11月—次年3月),其他時段逐漸減少,7月份最少;起伏山區以及高海拔的山上相比平坦地形出現次數更多。
(2)基于SVM和LSTM建立了吉安地區國家站大霧預報模型,利用過去時間的地面觀測要素來預測未來當地是否會出現大霧,通過檢驗能夠達到較好的預測效果,準確率可達80%以上,通過典型個例驗證,準確率滿足基本工作要求,可以應用于實際業務中。
(3)同時預報模型還存在空報率過高的問題,原因可能是樣本偏少,以及實際業務中由于站點分布稀疏,局地出現了霧而儀器沒有觀測到,導致訓練結果偏差。
參考文獻:
[1]馮蕾,田華.國內外霧預報技術研究進展[J].南京信息工程大學學報:自然科學版,2014,6(1):7481.
[2]周須文,時青格,賈俊妹,等.低能見度霧的分級預報方法研究[J].熱帶氣象學報,2014,30(1):161166.
[3]任照環,許偉,余蜀豫,等.重慶南川區霧氣候特征及天氣成因分析[J].成都信息工程大學學報,2021,36(2):223229.
[4]何東坡,王玥彤,杜小玲,等.基于機器學習方法的貴陽霧預報模型研究[J].高原山地氣象研究,2023,43(04):4247.
[5]時瑋域.基于機器學習方法的霧天氣預測研究[D].沈陽:沈陽工業大學,2020.
[6]陳貝,徐洪剛,王明天,等.成樂高速公路大霧預報方法研究[J].高原山地氣象研究,2012,32(2):7076.
[7]苗開超,韓婷婷,王傳輝,等.基于LSTM網絡的濃霧臨近預報模型及應用[J].計算機系統應用,2019,28(5):215219.
[8]王月琴,張文菊,談玲瓏.基于BP神經網絡的高速公路團霧預測研究[J].佳木斯大學學報(自然科學版),2017,35(3):485487.
[9]陳翔翔,許愛華,肖安,等.江西省三類區域性大霧時空特征和氣象要素對比分析[C]//中國氣象學會.第33屆中國氣象學會年會S1災害天氣監測、分析與預報.西安:第33屆中國氣象學會年會,2016:202204.
[10]許愛華,陳翔翔,肖安,等.江西省區域性平流霧氣象要素特征分析及預報思路[J].氣象,2016,42(3):372381.
作者簡介:彭勃(1984— ),男,漢族,本科,工程師,主要從事氣象防災減災和防雷工作。