黃驕文 蔡榮輝 姚 蓉 王勝春 滕志偉
1 湖南省氣象臺,長沙 410118 2 氣象防災減災湖南省重點實驗室,長沙 410118 3 湖南師范大學信息科學與工程學院,長沙 410081
提 要: 利用1996—2015年中國的高空探測資料和地面觀測數據,挑選發生降水的數十萬個樣本將其分為降雨和降雪兩類事件,抽象為二分類問題,采用深度學習網絡技術構建降水相態判識模型,并用2016—2017年的數據進行測試檢驗,針對2018年1月下旬中國一次大范圍雨雪天氣過程進行個例檢驗,在此基礎上探討了深度學習網絡在降水相態判識和預報中的應用。主要結論如下:基于深度學習網絡判識模型的判識準確率為98.2%,雨、雪的TS評分分別為97.4%和94.4%,相應空報率為1.7% 和2.0%,漏報率為1.0%和3.7%,較傳統指標閾值法的判識準確率有較大提高;個例檢驗顯示,基于實況探空數據的模型判識結果與降水相態實況在全國基本保持一致,歐洲中期數值預報中心(ECMWF)的降水相態預報產品和模型的預報結果對全國的降水相態都表現出較好的預報能力,而對雨雪分界線的預報,模型的預報結果較ECMWF總體上更接近實況。測試結果表明,模型較好地提取了雨、雪降水相態的結構特征,深度學習網絡在降水相態判識和預報中的應用具有可行性和一定的優勢,可為降水相態的客觀判識和預報提供重要技術支撐。
隨著社會的發展,冬季降水對人們的生產生活造成的影響愈發嚴重(馬宗晉,2009)。一次冬季降水過程中可能同時包含多種降水相態或不同降水相態之間的轉換,而不同降水相態的致災性是不一樣的。例如24 h累計降水量達到5 mm時,如果降水相態是雨,則只是小雨天氣,對城市運行和社會生產生活的影響不大;如果降水相態是雪,天氣表現為大雪,致災性會大大提升;而如果降水相態是凍雨或者冰粒時,這種冰凍天氣帶來的影響則可能是致命的。即使是很弱的降雪過程,如果降水相態預報出錯,也會給城市運行帶來嚴重的不利影響(孫繼松等,2003;蔣建瑩等,2005)。因此,冬季降水相態的判識和預報問題非常關鍵,這對滿足精細化天氣預報需求、進一步提升防災減災能力具有重要意義。
我國冬季降水相態主要包括雨、雪、雨夾雪、凍雨、冰粒等。近幾十年來,國內外學者開展了很多關于降水相態方面的研究,得到了不少有益的成果。Lownde et al(1974)提出用1000~850 hPa的位勢厚度值來區分雨雪。Heppner(1992)在此基礎上,增加850~700 hPa的位勢厚度值來識別雨、雪、凍雨和冰粒。Bernstein(2000)、李江波等(2009)、漆梁波和張瑛(2012)、張琳娜等(2013)、孫燕等(2013)和余金龍等(2017)通過個例研究給出了一些降水相態的判識指標和閾值,其中多是包括近地面氣溫、位勢厚度等單個指標或多個指標的組合,較好的指標對降雪的判識準確率在80%左右。但是,在前人的研究中,降水相態判識的指標閾值在不同區域存在差異,不具有普適性。降水相態的形成與整個大氣層結中的溫、濕度及其平流變化等有關(楊舒楠等,2017),簡單的指標閾值法往往表征某些方面的特性,不能很好地體現整層大氣之間復雜的關系,并且不同指標判識結果不一致時,也無法取舍。
近些年來,計算機運算的能力得到不斷提升,人工神經網絡的應用也得到推廣。氣象部門積累了海量實況數據,因而人工神經網絡在氣象上的應用擁有廣泛的發展空間(Ortiz-Garcíaa et al,2014;Young et al,2017;李文娟等,2018)。董全等(2013)通過對比人工神經網絡法和線性回歸法發現,人工神經網絡法對降水相態的預報效果更優。彭霞云等(2018)利用決策樹和隨機森林算法對浙江省冬季降水個例進行研究發現,隨機森林算法可使降雪的判識準確率得到明顯提高。陳雙等(2019)基于云頂溫度、中層融化參數、低層濕球溫度構建的決策樹判別模型,可較好地提升臨界氣溫下雨、雪的判別準確率。隨著深度學習技術的發展,深度學習網絡模型采用分層無監督訓練方法,模型學習能力大大增加,可在大量的數據中自動提取相應的特征(韓豐等,2019;黃小玉等,2019;郭瀚陽等,2019)。相比于傳統的機器學習手動提取特征,深度學習有著更強的特征學習能力,能提取到更加豐富準確的信息,分類和預報效果獲得極大的提升。因此,本文擬采用深度學習網絡,研究其在我國冬季降水相態判識和預報中的應用。
本文采用1996—2018年共23年逐日08時和20時(北京時,下同)的高空探空數據和地面觀測填圖資料,其中1996—2015年共20年的探空數據和地面觀測資料作為模型的訓練集,以此建立基于深度學習網絡的降水相態判識模型,2016—2017年冬季(12月至次年2月)數據作為降水相態判識模型的統計學檢驗樣本集,2018年數據集作為該模型的天氣學個例檢驗樣本集,高空探空數據為中國120個探空站數據,站點分布如圖1所示;2018年逐日08時和20時起報的歐洲中期數值預報中心(ECMWF)的降水相態預報產品,空間分辨率為0.125°×0.125°,用來在天氣學個例預報檢驗中與模型的預報結果進行對比檢驗。文中所涉及的地圖是基于審圖號為GS(2017)3320號的中國地圖制作,底圖無修改。

圖1 中國120個探空站的分布Fig.1 Distribution of 120 sounding stations in China
降水相態的預報包含了晴雨預報和發生降水后的相態預報兩個問題,晴雨預報的偏差會影響降水相態的預報偏差,為了簡化問題,本文降水相態判識模型的構建和檢驗只針對出現降水的站點和地區。
在將數據集輸入到深度學習網絡模型中進行訓練前,需要對數據集進行預處理。首先,挑選出中國探空站和對應地面觀測數據,將同一時間的探空數據與地面填圖資料進行一一匹配。隨后,將高空所有探空特性層的氣象要素自下向上按層編排,與該對應時次站點的地面填圖要素進行合并,最后拼接成一條長序列數據條,作為訓練模型標準的輸入數據條。
由于高空和地面的氣溫和露點溫度是影響降水相態變化的關鍵因子,為了避免選取多個氣象因子帶來的樣本損失,突出關鍵氣象因子的作用,本文模型訓練集采用的氣象要素只包括地面氣溫、露點溫度,以及高空的氣壓、氣溫和露點溫度。根據地面觀測資料中的天氣現象編碼,將降水相態分為雨(包括降雨和凍雨)和雪(包括純雪和雨夾雪)兩類,其中雨、雪降水相態對應的天氣現象編碼如表1所示。

表1 雨、雪降水相態對應的天氣現象編碼Table 1 Weather code corresponding to precipitation type of rain and snow
在模型訓練過程中,每個輸入數據條包含了不同的氣象因子,而這些氣象因子的量綱和數值量級都是不一樣的。如果在模型訓練中直接使用原始的數據值,就會突出數值較高的氣象因子在模型訓練中的作用,相對削弱數值水平較低因子的作用。因此,為了消除不同氣象因子之間的量綱和數量級的影響,本文對所有輸入的氣象因子分別進行標準化處理:采用歸一化處理,對原始數據進行線性變換,將數據統一映射到0~1的區間上,轉換公式為:
式中:X為輸入的氣象因子序列,X*為標準化后的新序列,max(X)和min(X)分別為該因子序列的最大值和最小值。
在樣本數據輸入前,還需對其進行嚴格的質量控制。本文高空探空數據選取的是自下向上依次6個特性層的數據,不同海拔高度的站點選取的特性層也不一樣,例如在低海拔地區的湖南長沙站,6個特性層選取的是1000、925、850、700、500和400 hPa,而在高海拔地區的西藏拉薩站,選取的是500、400、300、250、200和150 hPa。在此過程中,將由站點海拔高度過高等原因導致該探空站數據不足6個特性層的樣本剔除,當選取的數據樣本中的氣象要素存在缺測,也將該條數據樣本進行剔除,同時還將包含奇異值,即超出該氣象因子的正常閾值范圍的數據樣本剔除。最終,得到輸入模型中的雨和雪兩類降水相態的訓練集和測試集,樣本集數量如表2所示。

表2 雨、雪降水相態的樣本數(單位:個)Table 2 Samples corresponding to precipitation type of rain and snow
深度神經網絡(deep neural network,DNN)是一種人工神經網絡(Hinton et al,2006),包含多個隱藏層,根據神經元的特點可分為多層感知機(multi-layer perception,MLP)、卷積神經網絡(convolutional neural networks, CNN)、循環神經網絡(recurrent neural network,RNN)等,不管它是線性還是非線性的關系,DNN能夠在數據之間找到正確的計算關系,通過在各個層之間的計算,得到每個輸出結果的概率。通過訓練識別降水相態的DNN,將遍歷給定的數據集并計算每一種降水相態的概率,用戶查看結果并選擇最好的概率(高于某個閾值),返回對應建議的標簽。這樣每種降水相態的計算操作被認為是一個層,復雜的DNN有許多層,因此被稱為深層神經網絡。
DNN按不同層的位置劃分,其內部的神經網絡層可以分為三類:輸入層、隱藏層和輸出層(圖2),其中第一層是輸入層,最后一層是輸出層,而中間的層數都是隱藏層。DNN通常是前饋網絡,其中數據從輸入層流向輸出層而不會回送。首先,DNN創建虛擬神經元的映射,并將隨機數值或“權重”分配給它們之間的連接,權重和輸入相乘并返回0~1的輸出。如果網絡沒有準確識別特定模式,算法將調整權重,直到它確定了正確的數學運算,以充分處理數據。目前,包括計算機視覺、語音識別和機器人在內的諸多人工智能應用已廣泛使用了深度神經網絡,DNN在很多人工智能任務中表現出了當前最佳的準確度,因此本文采用DNN構建降水相態判識模型。
“微型探究”策略引導:設計“微型探究”問題時必須考慮學生已有的認知,找準探究情境與教學內容之間的有效結合點,設計出合理的、具有思考價值的若干個問題串,通過“微型探究”,讓學生體驗數學家對數學概念的抽象過程,領悟探索知識的思維方法,由“知其然”發展到“知其所以然”,并體會蘊涵其中的數學思想方法,從而實現學習價值的最大化和最優化.

圖2 深度神經網絡結構示意圖(龐勇,2003)Fig.2 Structure diagram of deep neural network (Pang, 2003)
通過大量訓練試驗,本文基于DNN的降水相態判識模型共設置5層神經網絡,其中輸入層主要提取經過預處理和質量控制后的數據。在輸入層中對數據進行歸一化處理,消除不同氣象因子量綱和數量級的影響,在使用梯度下降的方法求解最優問題時,歸一化后還可加快梯度下降的求解速度,即提升模型的收斂速度。經過輸入層后,數據將通過3個隱藏層進行一系列變換,隱藏層節點數分別設置為500、100和20個,最后在到達輸出層,得到模型的分類結果。線性整流函數(rectified linear unit,ReLU),又被稱為修正線性單元,通常指代以斜坡函數及其變種為代表的非線性函數,是人工神經網絡中常用的一種激活函數(Krizhevsky et al,2012)。本文使用ReLU作為激活函數,設置初始為0.001的自適應學習率,得到前向傳播的結果,結合對數損失函數(李航,2012)的方法對比結果與實況的差別,使用自適應矩估計(adaptive moment estimation,Adam)優化算法(Kingma and Ba,2014)進行反向傳播,更新權重,每次訓練選取的樣本數設為200個,共設置2 000次迭代,通過反復訓練,尋找最優的結果,最終得到基于DNN的降水相態判識網絡模型。
本文利用實況資料構建基于深度學習網絡的降水相態判識模型,對該模型的檢驗分為兩個部分,一部分是基于實況數據進行實況判識檢驗,另一部分是基于ECMWF未來24 h預報數據,對模型輸出的預報結果和ECMWF降水相態產品進行預報對比檢驗。模型預報結果和ECMWF降水相態預報產品均采用最近鄰點插值法,將離站點最近的網格點數據賦值給該站點,實現格點數據向站點數據的轉化。檢驗中判識準確率、TS(threat score)評分、空報率和漏報率計算公式如下:




式中:NA為實況出現時的判識正確站(次)數,NB為實況未出現但模型判識出現的站(次)數,NC為實況出現但模型判識不出現的站(次)數,ND為實況未出現時的判識正確站(次)數。
2016—2017年冬季,我國120個探空站08時和20時發生降水的樣本共有3 281個,其中降雨樣本2 222個,降雪樣本1 059個(表2)。通過計算模型的判識準確率以及降雨和降雪的TS評分、漏報率和空報率,對基于深度學習網絡的降水相態判識模型進行檢驗。結果顯示,模型的判識準確率可達98.2%,其中有3 221個樣本判識正確,60個樣本判識錯誤,出錯的樣本主要集中在我國南方地區,模型在湖南郴州站和貴州貴陽站判識出錯的頻次最高,均出現了5次判識錯誤(圖3)。統計學檢驗的結果顯示(圖4),降雨和降雪的TS評分分別達到了97.4% 和94.4%,空報率分別為1.7%和2.0%,漏報率為1.0%和3.7%,在錯判的樣本中,有39個樣本實況為降雪,模型判識為降雨,還有21個樣本實況為降雨,模型判識為降雪。指標閾值法對降雪的判識準確率很少有超過90%的(漆梁波和張瑛,2012;張琳娜等,2013;孫燕等,2013;余金龍等,2017;彭霞云等,2018),相較于傳統指標閾值法,模型的判識準確率有較大提升。可見,基于深度學習網絡的降水相態判識模型對實況數據表現出良好的判識性能。

圖3 基于2016—2017年冬季樣本模型判識出錯的探空站點頻次(單位:次)Fig.3 Frequency of sounding stations with the model giving incorrect identification based on the winter samples during 2016-2017

圖4 基于2016—2017年冬季樣本的雨、雪相態統計學檢驗結果Fig.4 Statistical test results of rain and snow based on the winter samples during 2016-2017
2018年1月下旬,我國各地出現了大范圍的雨雪天氣,其中1月21—22日北方地區出現雨雪天氣過程,接著24—28日我國南方出現了一次大范圍的低溫雨雪天氣過程。此次過程具有雨雪冰凍范圍廣、嚴寒程度重、持續時間長等特點,造成了自2008年以來又一次較大范圍的雨雪冰凍災害。
在北方地區雨雪天氣過程的開始階段(圖5),從降水相態的實況可看出,在內蒙古中部、山西北部、河北中北部、北京和天津都出現了降雪,而長江中下游地區出現大片的降雨區。21日20時我國探空站共有12個站點發生降水,其中10個站為降雨,2個站為降雪,模型基于探空站實況數據的判識結果與降水相態實況全部一致,判識準確率為100%。從ECMWF和模型對21日20時降水相態的預報結果對比可看出(與地面站觀測對比,下文同),二者均在華北地區和長江中下游地區分別預報了降雪和降雨,與降水相態實況較一致,但存在較大范圍的空報。此時ECMWF對降雨和降雪的TS評分分別為36.8%和12.6%,而模型則分別可達43.4%和20.0%,模型預報結果相對較好。

圖5 2018年1月21日20時中國北方地區雨雪天氣過程開始階段(a)降水相態實況(綠點:降雨,藍點:降雪)和模型基于實況的判識結果(數字1:降雨,數字2:降雪),以及(b)ECMWF預報未來24 h的降水相態產品(綠色:降雨,藍色:降雪)和模型基于ECMWF預報數據的未來24 h降水相態預報結果(點號:降雨,星號:降雪)Fig.5 (a) Real precipitation type (points) and model identification results (numbers) (green dot and number 1: rain, blue dot and number 2: snow), and (b) the ECMWF 24 h products (shaded) and model forecast results (marks) of next 24 h during the beginning stage of rain and snow processes over North China at 20:00 BT 21 January 2018(green and red dots: rain, blue and stars: snow)

圖6 同圖5,但為2018年1月22日08時中國北方地區雨雪天氣過程結束階段Fig.6 Same as Fig.5, but for the ending stage of rain and snow processes over North China at 08:00 BT 22 January 2018
在南方地區雨雪天氣過程的開始階段(圖7),從降水相態的實況可看出,我國南方出現大范圍的雨雪天氣,雨雪分界線呈東西向分布,位置分布在四川北部—重慶北部—湖南北部—湖北東北部—安徽南部—浙江北部一線。25日08時我國探空站共有24個站點發生降水,其中8個站為降雨,16個站為降雪,此時模型判識準確率為95.8%,降雨和降雪的TS評分分別為88.9%和93.4%。基于探空站實況數據的模型在上海站判識錯誤,上海站實況為降雪,而模型判識為降雨,其他站點模型均判識正確。

圖7 同圖5,但為2018年1月25日08時中國南方地區雨雪天氣過程開始階段Fig.7 Same as Fig.5, but for the beginning stage of rain and snow processes over South China at 08:00 BT 25 January 2018
從ECMWF和模型對25日08時降水相態的預報結果對比可看出,二者的預報分歧主要位于四川東部和湖南西北部地區。從降水相態實況來看,四川東部主要以降雨為主,只有部分站點轉為降雪,ECMWF預報此時在四川東部全部為降雪,預報與實況存在較大偏差,而模型預報的結果在該地區表現為降雨,只在北部預報了降雪,與實況更為接近。在湖南西北部地區的降水相態實況此時已轉為降雪,ECMWF預報此時在湖南西北部地區主要以降雨為主,模型預報該地區為降雪。此時ECMWF對降雨和降雪的TS評分分別為33.7%和41.3%,而模型則分別可達42.4%和52.8%,模型預報結果相對較好。
在南方地區雨雪天氣過程的持續階段(圖8),從降水相態的實況可看出,此時雨雪分界線呈“V”型分布,位置主要沿四川中部—貴州東部—湖南中部—江西北部—浙江中部地區分布。27日08時我國探空站共有33個站點發生降水,其中10個站為降雨,23個站為降雪,此時模型判識準確率為94.0%,降雨和降雪的TS評分分別為81.8%和91.7%。基于探空站實況數據的模型在江西南昌站和浙江衢州站判識錯誤,南昌站實況為降雨,模型判識為降雪,衢州站實況為降雪,模型判識為雨,其他站點模型均判識正確。判識出錯站點均出現在雨雪邊界線附近,這些地區降雨和降雪的溫濕層結曲線比較近似,這可能是導致模型判識出錯的原因。

圖8 同圖5,但為2018年1月27日08時下旬中國南方地區雨雪天氣過程持續階段Fig.8 Same as Fig.5, but for the continuous stage of rain and snow processes over South China at 08:00 BT 27 January 2018
從ECMWF和模型對27日08時降水相態的預報結果對比可看出,二者的預報分歧主要位于雨雪分界線附近地區。在貴州東部、湖南中部、江西北部和浙江中部地區,降水相態的實況顯示該地區均已轉變為降雪,ECMWF預報仍主要以降雨為主,雨雪分界線的位置預報偏北,與實況存在一定偏差。而模型預報結果顯示在該地區均為降雪,雨雪分界線的預報與實況基本一致,另外針對四川東南部和重慶西部地區的預報來看,模型較ECMWF預報的降水區更大,與實況更吻合。此時ECMWF對降雨和降雪的TS評分均為35.1%,而模型則分別可達40.6%和44.8%,模型預報結果相對較好。
在南方地區雨雪天氣過程的結束階段(圖9),從降水相態的實況可看出,此時雨雪分界線呈東西向分布,位置分布在貴州南部—廣西北部—湖南南部—江西中部—浙江中部一線。28日20時我國探空站共有17個站點發生降水,其中10個站為降雨,7個站為降雪,判識準確率為100%,模型基于探空站實況數據的判識結果與降水相態實況全部一致。

圖9 同圖5,但為2018年1月28日20時中國南方地區雨雪天氣過程結束階段Fig.9 Same as Fig.5, but for the ending stage of rain and snow processes over South China at 20:00 BT 28 January 2018
從ECMWF和模型對28日20時降水相態的預報結果對比可看出,二者的預報分歧主要位于湖南南部和江西中部地區。湖南南部的降水相態實況已轉為降雪,ECMWF預報此時仍為降雨,雨雪分界線較實況偏北,而模型預報的結果在該地區表現為降雪,跟實況基本一致。從江西中部的雨雪分界線對比來看,ECMWF預報產品與實況基本一致,而模型預報的結果略偏南。此時ECMWF對降雨和降雪的TS評分分別為50.8%和13.6%,而模型則分別可達51.9%和22.1%,相較于ECMWF的降水相態預報產品,模型預報結果仍較好。
通過2018年1月下旬中國一次雨雪天氣個例檢驗發現,基于深度學習網絡的降水相態判識模型對實況數據的判識結果與降水相態實況基本一致,判識準確率保持在94%以上。針對整個雨雪天氣過程,ECMWF降水相態預報產品對降雨和降雪的TS評分分別為31.3%和28.6%,而本模型的預報結果則分別可達40.2%和39.8%。ECMWF降水相態預報產品和模型的預報結果對中國的降水相態都有較好的預報能力,但對雨雪分界附近地區,模型的預報結果較ECMWF總體上更接近實況,表明基于深度學習網絡的降水相態判識和預報中的應用是合理可行的,并且具有其獨特的優勢。
本文利用1996—2015年共20年的探空資料和地面觀測資料,應用深度學習網絡技術構建降水相態判識模型,對2016—2017年的數據進行測試檢驗,并用2018年1月下旬中國一次大范圍雨雪天氣過程進行個例檢驗。在此基礎上,對深度學習網絡在降水相態判識和預報中的應用進行有益探討,主要結論如下:
(1)利用2016—2017年冬季3 281個測試樣本,對基于深度學習網絡判識模型進行統計檢驗,該模型的判識準確率為98.2%,判識出錯的樣本主要集中在我國南方地區,降雨和降雪的TS評分分別可達97.4%和94.4%,空報率分別為1.7%和2.0%,漏報率分別為1.0%和3.7%,表明該模型較好地提取了雨、雪降水相態的結構特征,對于降水相態的判識表現出很好的效果。
(2)2018年下旬雨雪天氣個例的檢驗表明,基于實況數據的模型在全國的判識結果與實況基本保持一致,判識準確率保持在94%以上,針對整個雨雪天氣過程,ECMWF預報對降雨和降雪的TS評分分別為31.3%和28.6%,而模型則分別可達40.2%和39.8%,ECMWF降水相態預報產品和模型的預報結果對全國的降水相態都有較好的預報能力,針對雨雪分界線的預報,模型的預報結果較ECMWF總體上更接近實況,表征深度學習網絡在降水相態預報中的應用具有可行性和一定的優勢。
本文構建的模型還存在一些不足,可嘗試結合氣象要素指標,進一步提高模型在雨雪分界附近地區的判識準確率,另外本模型判識和預報的降水相態只有雨和雪兩類,無法識別和預報雨雪分界附近地區出現的雨夾雪、凍雨等降水相態,需要進一步研究細化,改進模型使之具備多種復雜降水相態的判識和預報能力。