吳安坤,郭軍成,黃天福
(1.貴州省氣象災害防御技術中心,貴州 貴陽 550081;2.貴州省安順市氣象局,貴州 安順 561000;3.貴州省六盤水市氣象局,貴州 六盤水 553000)
雷暴活動作為常見的強對流天氣過程,造成的災害是聯合國公布的十大最嚴重的自然災害之一。隨著社會經濟不斷發展,每年因強對流天氣過程造成的損失越加嚴重。因此,加強雷暴活動的預測預報,對防災減災有十分重要的指導意義。雷暴云的發生發展伴隨著不穩定環境中氣團的抬升,探空資料觀測大氣中的溫濕壓、水汽和抬升等物理量參數,對研究局地雷電潛勢預報具有很好的指示作用[1-4]。目前采用探空對流參數開展的雷暴預報研究,大多直接采用多元統計線性回歸方法,需解決雷暴發生與否的非線性與探空資料之間的線性回歸問題。線性回歸模型要求因變量是連續的正態分布變量,且自變量和因變量之間呈現線性關系。當因變量為分類型變量,且自變量與因變量沒有線性關系時,線性回歸模型的假設條件就會遭到破壞。而采用Logistic回歸分析模型可以很好地解決此類問題,它對因變量的分布沒有要求,巧妙地避開了分類型變量的分布問題。Logistic回歸作為一種非線性概率性預測模型,可實現對研究觀察結果進行分類、處理協變量之間的多變量分類分析[5],被廣泛用于流行病學的病因研究中,分析疾病與危險因素間聯系,所觀測的因素常以二分變量取值,如生存與死亡、是否發病等,即因變量為0或者1。如羅蒙等[6]將具有統計學意義的檢查指標納入多因素Logistic 回歸分析,預測新型冠狀病毒肺炎患者發生危重癥的風險。而ROC曲線是目前學術界公認的診斷價值最佳的方法,其操作簡便,且具有通過圖形就能夠判斷分析的診斷性能[7-9]。宗迎迎等[10]應用Logistic 回歸和ROC曲線研討血清Dickkopf、高爾基體糖蛋白73和甲胎蛋白對原發性肝癌的診斷價值。張宇等[11]應用Logistic 模型聯合ROC 曲線法對新型冠狀病毒肺炎嚴重程度進行判別,具有較高的正確率。引入Logistic回歸聯合ROC曲線模型采用探空物理量資料開展雷電潛勢預報研究,分析雷電活動有、無問題,目前未見相關技術研究。因此,本文選取閃電監測資料和探空觀測參數,篩選數據樣本納入單因素邏輯回歸模型,選取有統計學意義的參數納入多因素邏輯回歸模型,采用ROC曲線聯合二分類Logistic回歸模型開展雷暴活動潛勢預報研究。
探空資料來源于Micaps系統提供的T-lnp探空數據,提取貴陽站2020年1—10月逐日08時和20時的修正總指數、K指數、沙氏指數、Faust指數、最大抬升指數、對流穩定度指數等72種物理參數。為保證數據的可靠性,采用四分位檢測異常值,剔除上四分位+1.5 IQR距離、下四分位-1.5 IQR距離以外時刻的數據。閃電資料來源于貴州省閃電監測網,考慮實際業務中T-lnp探空數據每天主要包括08時和20時2個時次,以及探空站之間的距離。規定該站當日08時或20時以后12 h內、100 km范圍內若發生50次以上的閃電,則將當日08時或者20時對應的物理參量作為1個雷暴天氣樣本,反之為非雷暴天氣。本文通過篩選得到294個雷暴、238非雷暴天氣樣本以及對應的72個物理參數值、閃電活動次數。
以篩選的樣本中72個對流參數為因變量,納入單因素邏輯回歸模型,篩選變量,將有顯著性統計學意義(P<0.001) 的變量納入多因素邏輯回歸模型,選取滿足一定檢驗條件的參數代入模型計算概率預測值。以此概率預測值為檢驗變量,樣本雷暴活動情況為狀態變量,繪制ROC曲線,以敏感度與特異性之和最大所對應的概率值作為截斷值,納入氣象預報質量評分檢驗。
假設雷暴發生情況y,發生為1,未發生為0。影響雷暴發生情況y的m個對流參數分別為x1,x2,…,xm。雷暴活動發生的概率記為P(y=1|xi)=Pi,發生與否的2個概率分別為:
(1)
(2)
其中Pi代表在第i個觀測中雷暴發生的概率,1-Pi對應雷暴未發生的概率,均為對流參數xi構成的非線性函數。雷暴發生與不發生的概率之比Pi/(1-Pi),稱為事件的發生比(Odds),對Odds取對數變換,得到邏輯回歸模型的線性模式如下:
(3)
得到雷暴活動發生概率P如下所示:
(4)
ROC 曲線(receiver operating characteristic curve)分析被認為是一種診斷試驗評價中理想和經典的方法。其思路是以邏輯回歸模型所得的預測概率為基礎,選取不同截斷值按照表2描述的雷暴預報混淆矩陣進行統計,計算不同截斷值下的敏感度與特異度。

表2 探空物理量參數為因變量構建單因素、多因素邏輯回歸模型Tab.2 Single factor and multi factor Logistic regression models with sounding physical parameters as dependent variables

對于雷電等強對流天氣的小概率時間檢驗采用Donaldson[13]提出的方法,計算命中率(POD)、虛警率(FAR)、臨界成功指數(CSI)、失誤率(FOM)衡量預報方程的準確率和進行預報質量評分。在表1混淆矩陣的基礎上,計算POD、FAR、CSI、FOM如下所示:

表1 混淆矩陣Tab.1 Confusion matrix
(5)
(6)
(7)
(8)
通過單因素分析顯示瑞士第二雷暴指數(SWISS12)、瑞士第一雷暴指數(SWISS00)、抬升指數(LI)、最大抬升指數(BLI)、條件對流穩定度指數(IL)、沙氏指數(SI)、通氣管指數(TQG)、修正杰弗遜指數(TMJ)、Faust指數(Faust)、修正對流指數(DCI)、修正K指數(mK)、抬升凝結處溫度(TCL_T)、對流凝結高度處溫度(CCL_T)、整層比濕積分(IntegralQ)14個對流參數,有統計學意義(均有P<0.001),即以上14個參數對雷暴活動趨勢有指示作用,涉及大氣熱力因子、動力條件及綜合指數等,可綜合反映中低層熱動力穩定度特性。其中SWISS12、SWISS00、LI、BLI、IL、SI6個參數OR<1,表征參數越小,發生雷暴活動的可能性越大;反之其他8個參數值越大,發生雷暴活動的可能性越大。進一步對有統計學意義的14個參數采用多因素分析,結果顯示SWISS00(OR=0.74,95%CI:0.58~0.94,P<0.05)、LI(OR=0.65,95%CI:0.45~0.96,P<0.05)、BLI(OR=0.81,95%CI:0.71~0.92,P<0.05)、IntegralQ(OR=1.00,95%CI:0.90~1.20,P<0.05)4個參數為雷電潛勢預報多參數邏輯回歸指標,即ln(p/(1-p))=0.306×SWISS00+0.424×LI+0.214×BLI-0.001×IntegralQ。
在概率截斷值為0.5水平下,如表3所示,單因素構建邏輯回歸模型預準確度介于68.2%~75.4%,ROC曲線的曲線下面積介于0.751~0.793,以整層比濕積分相對最好、沙氏指數相對最差。若以整層比濕積分(IntegralQ)作為單因素指標開展雷電潛勢預報,準確度為75.4%。

表3 單因素指標ROC曲線下的面積Tab.3 Area under ROC curve of single factor index
采用多因素邏輯回歸模型,ROC曲線的曲線下面積為0.839(0.804~0.875),P<0.001,預測能力較單因素模型有所提高,具有較好的預測價值(圖1)。當Logistic回歸分析模型得到的預測值為0.611時,其敏感度為0.789,特異度為0.799,二者之和最大,因此將該值作為最佳臨界點將研究對象分為2組,即Logistic回歸分析模型預測概率值≥0.611認為有雷電天氣過程,在此條件下,準確度由單因素的75.4%提高到79.5%。

圖1 多因素邏輯回歸ROC曲線Fig.1 Multivariate Logistic regression ROC curve
根據確定的概率截斷值0.611,在混淆矩陣的基礎上統計TP為247、FP為47、FN為62、TN為176,采用氣象預報評分計算命中率(POD)為84.01%、虛警率(FAR)為26.05%、臨界成功指數(CSI)69.38%、失誤率(FOM)為20.06%。
本文選取72個探空物理量參數作為自變量,閃電監測系統探測是否發生閃電作為因變量,將單因素指標逐一納入邏輯回歸模型,篩選具有顯著性統計學意義(P<0.001)的指標進入多因素回歸模型,選取滿足檢驗條件P<0.05的參數得到雷電潛勢預報模型ln(p/(1-p))=0.306×SWISS00+0.424×LI+0.214×BLI-0.001×IntegralQ。得到結論如下:
①多因素邏輯回歸模型預警效果優于單因素模型,預警準確度從75.4%提高到79.5%。
②聯合ROC曲線確定預報模型的概率閾值為0.611,雷電潛勢預報的命中率POD為84.01%,虛假警報率FAR為26.05%,臨界成功指數CSI為69.38%。準確率較高,雷電潛勢預報具有較好的預報能力。
Logistic回歸模型處理“二分類”問題,旨在擬合結果的“有”“無”問題,有效彌補了線性回歸的缺陷;同時結合ROC曲線對模型進行檢驗,確定合適的預測概率值,可進一步提高預警準確率。Logistic回歸模型聯合ROC曲線法在氣象預測預報,特別是非線性預測中有一定的應用價值。