蘭宇,羅聰,伍志方,唐思瑜,吳林,程興國,陳蝶聰
(1. 廣東省氣象臺(南海海洋氣象預報中心),廣東 廣州 510641;2. 中國氣象局龍卷風重點開放實驗室,廣東 廣州 510641;3. 華南理工大學,廣東 廣州 510641;4. 廣東省生態(tài)氣象中心,廣東 廣州 510641)
雷暴大風是強烈的大氣對流現(xiàn)象,常造成較大范圍的嚴重影響[1]。廣東一年四季都可發(fā)生雷暴大風。粵北、兩廣交界的山區(qū)及沿海一帶均是雷暴大風多發(fā)區(qū),尤其人口稠密的珠江三角洲地區(qū)是受影響極重的區(qū)域。雷暴大風具有生消快、移速快、易致災等特點,對人類威脅極大。因此深入研究雷暴大風的識別預報和提升短臨預警能力是十分緊要的。
新一代天氣雷達觀測是雷暴大風監(jiān)測和臨近預警的主要手段,對雷暴大風的臨近預報預警主要基于雷達回波特征。俞小鼎等[2-3]指出低層大風區(qū)(≥13 m/s)、弓形回波、近地層輻散、中氣旋對雷暴大風具有較好的指示作用。伍志方等[4]研究發(fā)現(xiàn)80%的雷暴大風包括下?lián)舯┝髟诙嗥绽账俣葓D上表現(xiàn)為大風區(qū)型和近地層輻散型,還有較少比例的中氣旋型大風。此外,雷暴大風在反射率因子強度及高度、回波移速、垂直累積液態(tài)水含量等特征與強降水的雷達特征差異明顯[5-6]。
近年來,機器學習方法在分類識別、雷達回波外推等氣象領域取得了很好的應用效果,其中傳統(tǒng)機器學習方法在人工選取特征的基礎上,能在數(shù)據(jù)量較小的場景下建立模型。早在2014 年,李國翠等[7]通過統(tǒng)計多個雷達特征指標,利用模糊邏輯算法建立了基于多因子的雷暴大風自動識別算法,周康輝等[8]在此基礎上通過增加閃電、衛(wèi)星資料來有效識別雷暴大風。此外,國內外學者也相繼使用決策樹、支持向量機等傳統(tǒng)機器學習方法開展冰雹和雷暴大風的自動識別研究[9-11]。
隨著觀測資料不斷豐富、計算機性能持續(xù)優(yōu)化,以深度學習為代表的人工智能方法在氣象上應用逐漸增多。深度學習省略了傳統(tǒng)機器學習方法中人為選取特征的過程,基于海量數(shù)據(jù)基礎上,通過多隱層的層次結構式神經(jīng)網(wǎng)絡進行訓練,深度挖掘特征,從而構建出性能好的學習模型。香港科技大學的學者率先提出卷積長短期記憶單元網(wǎng)絡算法(ConvLSTM)優(yōu)于普通的光流法外推預報[12],Wang 等[13-15]先 后 提 出 PredRNN、PredRNN++、MIM 等算法用于臨近預報均有較好效果。陳元昭等[16]研究發(fā)現(xiàn)基于生成對抗網(wǎng)絡的臨近預報方法對于中等強度回波預報效果較好,顧建峰等[17]運用Traj-GRU建立強對流雷達回波預報模型,并利用U-net建立了雷暴大風和冰雹的智能識別模型。由此看來,目前在氣象領域中,深度學習方法多應用于短臨外推預報,雷暴大風智能識別方面研究尚較少,華南地區(qū)相應研究有待進一步深入開展。
因此,本文分別選取傳統(tǒng)機器學習方法(決策樹)和深度學習方法(CNN 和YOLO)等3 種方法,利用廣東省地面自動站所觀測的雷暴大風記錄及相對應的雷達拼圖數(shù)據(jù),分別建立3種雷暴大風自動識別模型,并針對3 種模型開展檢驗評估,以對比傳統(tǒng)機器學習和深度學習方法在廣東雷暴大風識別上的應用效果,確立最優(yōu)識別模型并最終實現(xiàn)識別算法的業(yè)務化運行,為建設廣東雷暴大風實時監(jiān)測體系、提高預警預報的準確率、提升預警提前量提供技術和產(chǎn)品支撐。
選取廣東省2012—2020年全年雷暴大風天氣過程中自動氣象站5 min加密瞬時風觀測數(shù)據(jù),及對應的廣東省反射率因子、組合反射率因子、回波頂高、垂直累積液態(tài)水含量等雷達拼圖數(shù)據(jù),拼圖數(shù)據(jù)為廣東省氣象局業(yè)務化應用拼圖,已經(jīng)過雜波抑制、孤立噪聲過濾、中值濾波和雙線性插值填補等數(shù)據(jù)質量控制,數(shù)據(jù)來源于廣東省11 部S 波段天氣雷達數(shù)據(jù)。拼圖數(shù)據(jù)空間分辨率為1 km×1 km,格點數(shù)為1 050×880,時間分辨率6 min,垂直方向共21層。
雷暴大風自動站觀測實況的篩選條件為:自動站觀測瞬時風速≥17.2 m/s(下文中大風均代表風力達到8 級以上),同時周圍10 km 范圍內存在雷電活動及反射率因子大于30 dBZ,并剔除了站點海拔高于200 m、海上浮標站及強冷空氣過程、臺風直接影響等引起的大風記錄。由于相比一般性天氣而言,雷暴大風觀測記錄較少,在廣東全省范圍內屬小概率事件,雷暴大風正、負樣本比例需適宜,以避免出現(xiàn)樣本失衡和數(shù)據(jù)偏差,兼顧模型運行所耗計算資源、訓練效率和識別效果,最終挑選了17 470個大風正樣本和34 950個無大風負樣本,正、負樣本比例為1∶2。(注:一次雷暴大風觀測記錄(即符合雷暴大風判定條件的觀測數(shù)據(jù))記為一個正樣本,反之則作為負樣本。)
讀取雷暴大風觀測數(shù)據(jù)中的經(jīng)緯度,將其轉換成以拼圖左上角為起始點,右下角為結束點的圖像坐標系(圖1)中的坐標,考慮到自動站觀測范圍代表性,制作標簽時設定雷暴大風影響范圍為16 km,在此條件下,獲得如(Xt,Yt,16,16)的標簽,其中(Xt,Yt)為該雷暴大風記錄點在新坐標系中的橫縱坐標,(16,16)為雷暴大風的矩形影響范圍;將與出現(xiàn)雷暴大風對應時刻(或相鄰最近時刻)的各類拼圖數(shù)據(jù)轉換為圖像產(chǎn)品并標記為class,最終得到用于機器學習模型的標簽集(class,Xt,Yt,16,16),按照一定比例隨機選取將標簽集分為訓練集、驗證集和測試集。

圖1 用于機器學習的雷暴大風標簽集制作
本文共采用2012—2019 年共52 420 個數(shù)據(jù)集,并按照7∶2∶1 比例劃分為訓練集、驗證集和測試集用于算法建模,其中訓練集用于訓練模型,驗證集用于模型參數(shù)調整和優(yōu)化,測試集不參與特征選取、參數(shù)調整等訓練,只用于測試模型對雷暴大風的識別能力。通過訓練、驗證和調參不斷循環(huán)使識別模型達到最優(yōu)識別效果后,模型參數(shù)方案即最終確立不再更改,后續(xù)的檢驗評估均沿用此方案。鑒于雷暴大風的小概率事件特性,而日常預報預警業(yè)務中針對其高致災性常采用寧空勿漏的防御策略,因此在本文中訓練和評價模型能力同時采用了命中率POD、虛警率FAR 以及臨界成功指數(shù)CSI 作為訓練和評價指標進行定量檢驗[18],旨在避免漏報的情形下盡量減少空報,提高命中。
本文中,命中并非時間和空間嚴格點對點,而是根據(jù)自動站觀測間隔,T時刻算法識別到大風落在[T-5 min,T+5 min]時間窗內、真實實況大風標簽16 km×16 km 范圍內即記為命中,算法識別到大風但未落在相應范圍內或無大風實況則記為空報,存在大風實況而無識別結果相對應則記為大風漏報。命中率POD、虛警率FAR、臨界成功指數(shù)CSI的計算公式如下:
說明:NA 為命中數(shù),NB 為空報數(shù),NC 為漏報數(shù)。
3.1.1 決策樹模型結構
決策樹(Decision Tree)是一種基本的分類與回歸方法,決策樹模型呈樹形結構,在分類中表示基于特征對實例進行分類的過程[19]。其主要優(yōu)點是:模型具有可讀性,分類速度快。學習時利用訓練數(shù)據(jù),根據(jù)損失函數(shù)最小化原則建立決策樹模型。決策樹學習通常包括三個步驟:特征選擇、決策樹的生成、決策樹的修剪(圖2)。

圖2 決策樹模型結構示意圖
決策樹由結點和有向邊組成,決策樹模型構建過程:先構建根結點,將所有訓練數(shù)據(jù)都放在根結點。選擇一個最優(yōu)特征,按照這一特征將訓練數(shù)據(jù)集分割成子集,使得各個子集有一個在當前條件下最好的分類。如果這些子集已經(jīng)能夠被基本正確分類,那么構建葉結點,并將這些子集分配到對應的葉結點中去;如果還有子集不能夠被基本正確分類,那么對這些子集選擇最優(yōu)特征,繼續(xù)對其進行分割,構建相應的結點。如此遞歸下去,直至所有訓練數(shù)據(jù)子集被基本正確分類或者沒有合適的特征為止。最后每個子集都被分到葉結點上,即都有了明確的類,從而生成了一棵決策樹。
3.1.2 特征因子選取
通過結合以往的雷暴大風特征研究以及預報員日常值班中經(jīng)驗總結,歸納總結了以下對雷暴大風識別預警具有指示意義的特征因子,用于建立決策樹模型。
(1) 組合反射率因子強度。該因子是雷達一個體掃中不同高度反射率因子的最大值。有研究發(fā)現(xiàn)回波中心強度低于55 dBZ 時,出現(xiàn)大風的概率很小[20];周康輝等[8]通過統(tǒng)計也發(fā)現(xiàn),雷暴大風的反射率因子強度主要分布均超過30 dBZ,峰值分布于53 dBZ。因此,反射率因子強度對于雷暴大風具有很高指示意義。
(2) 反射率因子強度梯度。通常雷暴大風出現(xiàn)在雷達回波強且伴有強梯度的區(qū)域,尤其當回波形態(tài)上具有典型帶狀、弓狀或者鉤狀特征時,地面大風多出現(xiàn)在強度梯度大值區(qū)域[21-22]。
(3) 垂直累積液態(tài)水含量(后文統(tǒng)稱VIL)。該因子表示的是將反射率因子數(shù)據(jù)轉換成等價的液態(tài)水值,并且假定反射率因子是完全由液態(tài)水反射得到的。有研究對雷暴大風出現(xiàn)前的VIL 進行統(tǒng)計發(fā)現(xiàn),VIL值達到30 kg/m2是地面災害大風出現(xiàn)的閾值,VIL值達到或超過40 kg/m2可以作為地面災害大風的一個預報指標;且VIL 值快速下降也常表征雷暴大風的出現(xiàn)[23]。
(4) 回波頂高。已有學者在多個雷暴大風個例的回波特征研究中發(fā)現(xiàn)雷暴大風通常與較高回波頂高相對應[24]。李國翠等[7]統(tǒng)計結果表明雷暴大風與回波頂高具有較好的正相關關系,可以用作雷暴大風識別的一個特征因子。
(5) 50 dBZ 高度。華南短時強降水多暖云降水,其回波中心高度常常位于0 ℃層高度附近或以下,而產(chǎn)生雷暴大風的雷暴體對流往往發(fā)展更為旺盛,強回波垂直伸展高度可達-20 ℃層以上,在華南地區(qū)-20 ℃層常高于7 km[25]。與此同時,當反射率因子強度低于50 dBZ 時雷暴大風出現(xiàn)概率較低,因此,可選取50 dBZ 回波出現(xiàn)的高度作為雷暴大風的特征因子用于識別[26]。
考慮到雷達特征因子與地面雷暴大風的出現(xiàn)時刻并非完全嚴格對應,且部分雷達特征隨時間推移的強度、位置變化更能表征雷暴大風,因此除提取上述因子T時刻特征值外,還提取了ΔT(T-6 min,T+6 min)在12 min 內的變化值共10 個因子用于模型建立。
卷積神經(jīng)網(wǎng)絡(CNN),是一種包含卷積計算且具有深度結構的神經(jīng)網(wǎng)絡,是深度學習的代表算法之一,可以進行監(jiān)督學習和非監(jiān)督學習,是分類識別主流模型之一[27],在本文中應用此模型進行監(jiān)督學習。CNN的原理為通過一個特定的濾波器,不斷與圖片做卷積來提取特征,從局部特征到總體特征,從而實現(xiàn)圖像識別的功能。其整體結構包含3 種層(layer)。第一層為卷積層(CONV),由濾波器和激活函數(shù)構成,涉及到濾波器數(shù)量、大小、補償?shù)瘸瑓?shù)。第二層為池化層(POOL),亦稱下采樣或欠采樣,其功能為特征降維,壓縮數(shù)據(jù)和參數(shù)數(shù)量,減少過擬合同時提高模型的容錯率。第三層為全連接層(FC),亦稱輸出層,全連接層為多個神經(jīng)元單元排列連接組成,其功能為觀察上一層的輸出并確定所提取的特征與目標分類的吻合度,并得到模型識別輸出[28],模型結構如圖3所示。

圖3 CNN卷積神經(jīng)網(wǎng)絡層級結構示意圖
YOLO(You only look once)是一種目標檢測模型,用來在一張圖片中尋找某些特定目標物體,不需要預先提取候選區(qū)域,通過一個網(wǎng)絡就可以輸出目標類別、置信度和坐標位置[29]。YOLOv3是YOLO 算法中的第三版,相比于之前的算法,識別精度有所提升[30]。YOLOv3 是一個龐大且豐富的深度卷積神經(jīng)網(wǎng)絡模型,一共有53 個全連接卷積層,因此又稱為Darknet-53[31](圖4)。

圖4 YOLOv3網(wǎng)絡結構圖
模型首先將輸入圖片統(tǒng)一縮放至416×416 像素,將照片分割為N個大小相等的網(wǎng)格,并對每個網(wǎng)格中的物體進行識別。包括識別物的中心位置(x,y)、識別的置信度及識別物的類別。置信度即為模型識別物體為目標物的自信程度,置信度越高,意味著模型檢測越嚴格,對于識別結果也越自信。YOLO 模型可以輸出不同置信度下目標識別結果,本文中所有YOLO 模型的輸出結果均是置信度為0.7時的識別結果。
相較于YOLO的v1、v2版本,YOLOv3版擁有3 個特征尺度,即可以同時使用3 個特征層分別進行卷積和預測識別,這意味著模型可以允許同時輸入3 張不同高度的雷達回波進行識別。為了使YOLOv3 更好描述雷暴大風的空間結構特征,本文在實際模型訓練時,對原版YOLOv3(后文統(tǒng)一簡稱YOLO)的網(wǎng)絡進行改進,將其特征尺度層擴展到11 層,即允許同時將11 層不同高度的雷達拼圖作為輸入層,從而可以更詳細地反演雷暴大風的空間結構特征供模型提取和學習。本文即將1~9 km 高度(高度分別分為1、2、3、4、5、6、7、7.5、8、8.5、9 km)共11 層的雷達拼圖作為輸入層,用于模型檢測識別對YOLOv3 進行訓練優(yōu)化,形成YOLOv3版雷暴大風識別模型。
4.1.1 批量檢驗分析
為驗證三種模型算法的識別效果,利用測試集(共5 242 個樣本)分別對3 個模型進行批量識別測試,測試結果如表1 所示。結果表明:決策樹模型的命中率高于CNN,略低于YOLO,但虛警率偏高,為3個模型中最高達到0.57,即空報偏多,導致CSI低于CNN 和YOLO;3 個模型中YOLO 的表現(xiàn)最為優(yōu)異,POD 和CSI分別為0.994、0.685,均為最高,且CSI 明顯高于其他兩個模型,表明YOLO 模型相較于另外兩種模型有更好的識別能力。

表1 三種模型識別效果批量測試對比
4.1.2 颮線個例檢驗分析
2016年4月12日夜間受高空槽配合低渦切變線、低空西南急流影響,華南地區(qū)出現(xiàn)了一次大范圍颮線過程,伴隨著雷暴大風、短時強降水等強對流天氣,對流回波于12日20時(北京時間,下同)開始自廣西境內逐漸東移南壓,東移過程中回波逐漸高度組織化,13 日03 時左右東移至兩廣交界時發(fā)展為東北西南走向的颮線,進入廣東境內后回波發(fā)展旺盛,移速加快達到100 km/h以上,并逐漸形成弓狀,弓形回波主要影響肇慶、佛山、廣州、東莞一帶,造成上述地區(qū)10級以上雷暴大風天氣,大風主要出現(xiàn)在弓形回波附近,弓狀回波凸起經(jīng)過的區(qū)域多個站次監(jiān)測到12 級以上大風,經(jīng)篩選4月13 日04—06 時共取得符合標準的大風觀測記錄214個。
將4月13日04—06時相應的雷達回波作為輸入層同時運行3個模型進行識別,并對識別結果進行檢驗評估(表2)。整體來看個例檢驗結果與批量測試結果類似,3個模型中YOLO對于此次颮線過程大風的識別效果最好,POD 和CSI 均最高,F(xiàn)AR 最低,分別為0.981、0.667 和0.325,且YOLO模型的CSI 較其他兩個模型提升較明顯;決策樹的POD 略高于CNN,但CSI 更低,這主要因為決策樹模型的識別偏差來源于更多的空報。

表2 2016年4月13日颮線型雷暴大風天氣過程識別評估結果
4.1.3 混合對流個例檢驗分析
2019年3月2—3日,華南地區(qū)有高空槽過境,配合低層850 hPa的切變線和西南急流,廣東自北向南自西向東出現(xiàn)了一次雷暴大風、伴隨著短時強降水等強對流的天氣過程。2 日夜間(2 日23 時—3 日02 時)系統(tǒng)主要影響廣東北部的韶關、清遠等地區(qū),對流回波在移動過程逐漸密實呈現(xiàn)塊狀,反射率因子最強達60 dBZ,移入韶關中部后組織為線狀對流并呈弓形,移速加快,引起韶關地區(qū)降水有所減弱但雷暴大風明顯增強,整個過程中韶關、清遠出現(xiàn)了8~9級雷暴大風,其中韶關乳源國家氣象站觀測到27.2 m/s(10 級)的大風,經(jīng)篩選3月2 日23 時—3 日02 時共取得大風觀測記錄28個。
將3 個模型對此次過程的識別結果進行檢驗評估(表3)。對比來看,3 個模型在本次過程中的表現(xiàn)與4.1.2 節(jié)的個例(簡稱個例一)類似,YOLO模型識別效果最好,POD 和CSI 均最高,且其漏報數(shù)為0;決策樹同樣表現(xiàn)出比CNN 模型更高的POD 和更低的CSI。值得注意的是,相較于個例一的颮線過程,此次過程中3個模型均表現(xiàn)出更高的空報,造成空報增加的原因主要有兩個:一方面相比于本次由多單體風暴引起的大風和強降水混合過程,個例一為典型弓形颮線過程,具有更鮮明的雷暴大風特征,更易于捕捉識別;另一方面,個例一發(fā)生在全廣東氣象自動站分布最密集的珠三角,而本次過程發(fā)生在北部高海拔山區(qū),氣象自動站分布相對稀疏,且部分氣象站觀測記錄因海拔高達300~400 m 以上而被剔除,使得實際出現(xiàn)了大風但未被觀測到或因海拔太高不符合標準被剔除的情況出現(xiàn)。

表3 2019年3月2日雷暴大風、強降水混合天氣過程識別評估結果
通過對3 個模型識別能力測試對比發(fā)現(xiàn),YOLO 模型識別能力最好,確立為最優(yōu)模型。進而選取廣東省2020 年3—8 月的雷暴大風過程,依據(jù)天氣形勢劃分為局地性雷暴大風過程、系統(tǒng)性雷暴大風過程兩類分別對該最優(yōu)模型進行檢驗評估,本文定義局地性雷暴大風為無明顯天氣系統(tǒng)存在的弱天氣尺度強迫條件下產(chǎn)生的天氣過程,如副高邊緣不穩(wěn)定區(qū)、夏季午后中尺度輻合線觸發(fā)熱對流等。系統(tǒng)性過程則為高低空有天氣系統(tǒng)配合、存在較強天氣尺度強迫的強垂直不穩(wěn)定條件下產(chǎn)生的天氣過程,如高空槽、切變線過境影響等。
檢驗同樣采用POD、FAR和CSI等3個指標進行評估,其中用于檢驗的自動站實況觀測記錄采用前文2.1 節(jié)所述的篩選條件得到。基于后續(xù)將算法投入業(yè)務化使用的需求,本文增加了最長達30 天連續(xù)時間段內任意天氣的識別檢驗,以測試該模型算法業(yè)務化識別能力。
4.2.1 分類個例分析
4.2.1.1 局地性雷暴大風過程識別分析
2020年7月14日菲律賓以東洋面有熱帶擾動發(fā)展并西移進入南海,此時500 hPa副熱帶高壓偏強偏北,廣東東部位于副熱帶高壓南部邊緣不穩(wěn)定區(qū)內,午后熱力作用和地面輻合線觸發(fā)引起了局地強雷暴發(fā)展,多個雷暴單體于福建南部生成并逐漸向西南移動,初始回波較松散,移動過程中逐漸加強合并為多單體風暴,回波漸呈現(xiàn)為密實塊狀,反射率因子最強達60 dBZ。受此影響,粵東地區(qū)夜間20—21 時出現(xiàn)了8~9 級雷暴大風,最大達10 級(26.7 m/s),此次過程自動站共錄得大風20站次。
對于此次局地性過程YOLO 算法識別效果較好(圖5),過程出現(xiàn)的所有8級以上大風均能識別,無一漏報;但同時存在2 站次空報,其中有一個站次識別結果對應了瞬時風6 級風實況,其POD、FAR和CSI分別為1.000、0.091和0.909。

圖5 2020年7月14日20—21時實況大風與算法識別結果分布情況
4.2.1.2 系統(tǒng)性雷暴大風過程識別分析
受高空槽、低空切變線和低空急流共同影響,2020年6月5—9日華南地區(qū)出現(xiàn)了一次“龍舟水”過程,雨勢強烈并伴隨8~9 級雷暴大風。9 日13時前后強對流回波主體位于廣東西北部一帶,南部有零散對流單體發(fā)展,反射率因子強度40~50 dBZ,隨著東北移,其南部回波明顯加強并逐漸組織為短弓形線狀強回波,反射率因子最強達60 dBZ,弓形回波主要影響珠三角的西部和北部。受此影響,15—17 時珠三角多個市縣錄得8~9 級瞬時大風,此次過程經(jīng)篩選共取得大風17 站次。YOLO 模型算法對于此次過程出現(xiàn)的所有大風均成功識別,無漏報情況(圖6),但相比于7 月14 日過程的識別結果,本次過程的虛警站次有所增加,共有7 站次的虛警,究其原因主要為兩方面:一方面本過程發(fā)生在華南“龍舟水”期間,伴隨著局地小時雨量50~60 mm 的短時強降水,雷達特征更加復雜,識別難度相對更高;另一方面,虛警識別主要出現(xiàn)在清遠和廣州交界的山區(qū),自動站分布相對稀疏,海拔也較高,部分觀測站點海拔達800 m以上。

圖6 2020年6月9日15—17時實況大風與算法識別結果分布情況
4.2.2 分類批量檢驗
4.2.2.1 局地性過程批量檢驗
選取廣東省2020 年7 月5 次局地性雷暴大風過程共71 個大風樣本進行識別檢驗,5 次天氣過程均由于處在副熱帶高壓邊緣不穩(wěn)定區(qū),配合低層南風和充足的不穩(wěn)定能量而引起。將上述過程相應高度的雷達回波拼圖輸入識別模型,得到相應的識別結果并對其進行檢驗評估,結果表明:YOLO 算法對于局地性雷暴大風過程的大風識別命中率為0.958,相較于測試集結果略有下降(表4)。

表4 基于YOLO的識別模型對于局地性天氣過程識別能力的評估
4.2.2.2 系統(tǒng)性過程批量檢驗
選取廣東省2020 年3 月和6 月共5 次系統(tǒng)性天氣過程,其中包含2 次颮線過程,共148 個大風樣本進行識別檢驗。5 次天氣過程主要由高空槽過境配合低層切變線影響廣東地區(qū)而出現(xiàn)了雷暴大風天氣。檢驗評估表明:相比局地性過程,識別算法對于系統(tǒng)性雷暴大風過程的識別效果略有提升,命中率達0.986,虛警率亦有下降,CSI 較局地性過程提高了0.06(表4);對比測試集的檢驗結果,該模型算法的識別能力略有下降,說明本算法模型仍存在一定過擬合現(xiàn)象。
4.2.3 YOLO模型算法的業(yè)務應用評估
基于識別算法業(yè)務化的需要,選取2020 年5月全月(廣東前汛期)和8月全月(廣東后汛期)兩個長連續(xù)時間段進行自動識別檢驗,兩個時間段涵蓋了前汛期和后汛期兩類環(huán)流形勢下、不同環(huán)境條件引起的弱降水過程、強降水、雷暴大風和冰雹等強對流天氣過程,共1 520個大風樣本。
檢驗結果表明:基于YOLO 模型的識別算法在長達30天連續(xù)時段內任意天氣條件下的雷暴大風識別能力仍較高,其POD 和CSI分別為0.939 和0.601,尤其漏報比率低,具備投入業(yè)務化使用的條件(表5)。

表5 基于YOLO的識別模型在連續(xù)時段內識別能力的評估
基于YOLO 模型的識別算法已于2021 年1 月接入實時雷達數(shù)據(jù),并投入業(yè)務化試運行,可根據(jù)實時拼圖每6 min 穩(wěn)定更新識別結果。經(jīng)收集篩選2021年全年符合條件的雷暴大風觀測記錄共有1 603 個,其中8~9 級有1 558 個,10 級及以上有45個。結合算法運行全年的識別結果進行評估分析(表6),在全年實時運行條件下,識別算法對于任意天氣形勢下產(chǎn)生的雷暴大風識別命中率仍超過90%,CSI 為0.629,與2020 年5 月和8 月全月運行的結果相比,識別效果略有波動,但波動較小,其中命中率略有下降,同時虛警率也下降,而CSI有所提升。

表6 2021年全年雷暴大風過程識別效果評估結果
本文基于2012—2019年廣東省的雷達拼圖和加密自動氣象站極大風觀測數(shù)據(jù),分別利用決策樹、CNN 和YOLO 三種模型建立了雷暴大風自動識別算法,并利用相應測試集對三者的識別能力進行測試對比。測試結果表明:深度學習方法CNN 和YOLO 的POD、CSI 等指標均高于傳統(tǒng)機器學習方法決策樹模型,決策樹模型存在空報較多情況。其中YOLO 識別能力最佳,其POD、FAR和CSI分別為0.994、0.308和0.685,為最優(yōu)模型。
同時,針對YOLO 對不同天氣類型下的雷暴大風識別能力測試及業(yè)務化的需求,分別選取了2020 年3—8 月不同類型天氣過程以及連續(xù)時段任意天氣進行識別檢驗分析,得到以下結論。
(1) 基于YOLO 模型的識別算法無論對局地性還是系統(tǒng)性雷暴大風過程的POD 均高于0.95,CSI 達到0.6 以上,F(xiàn)AR 低于0.4,表明該識別算法對于不同類型的雷暴大風均有較高的捕捉識別能力,且對于系統(tǒng)性雷暴大風的識別效果略優(yōu)于局地性過程的。
(2) 基于YOLO 模型的識別算法在廣東前汛期、后汛期形勢連續(xù)30 天時間段內任意天氣條件下,對雷暴大風的識別POD、FAR 和CSI 分別為0.939、0.374、0.601,表明該識別算法具備業(yè)務化條件。廣東省氣象臺于2021 年1 月部署將該識別算法接入實時雷達數(shù)據(jù),每6 min穩(wěn)定生成廣東省全省范圍、1 km×1 km分辨率的識別產(chǎn)品。
(3) 需要注意的是,該算法雖命中率高,但仍存在一定的空報。這與廣東省自動站分布不均勻有一定關系,粵北和粵西的山區(qū)自動站分布相對稀疏,卻是雷暴大風的頻發(fā)區(qū),存在由于雷暴單體尺度小處于觀測空白區(qū)而未被監(jiān)測到的情況;同時檢驗中發(fā)現(xiàn)部分空報與6 級、7 級風觀測實況對應,回看實況回波亦可見強反射率因子、強回波伸展高、高VIL等雷暴大風指示性特征。
(4) 相較于深度學習模型方法,本文中基于人為選取雷達特征的傳統(tǒng)機器學習方法-決策樹模型的識別算法表現(xiàn)出更多的漏報和明顯的空報。這是因為傳統(tǒng)機器學習方法非常依賴于人為選取的特征因子,需要通過更深入研究獲取到更全面的雷暴大風雷達特征,從而對算法進行補漏消空。
此外,近地層輻散、大風速核、中層徑向輻合等徑向速度特征與雷暴大風密切相關,對于雷暴大風的監(jiān)測識別具有明顯優(yōu)勢,但利用單站雷達的徑向速度產(chǎn)品來實現(xiàn)廣東全省范圍內上述速度特征的自動識別難度較大,有待于在后續(xù)的工作中進一步深入研究。