劉學謙,劉 娟
(武漢大學 計算機學院,湖北 武漢430072)
目前對雷暴[1-3]的預測方法多集中于尋找相關氣象因素(如可沉降水蒸氣等)與雷電發生之間的關系,并利用這個關系對雷暴的發生進行預測[4]。然而值得注意的是,在對雷電的預測活動中,雷電數據本身就是一個有價值的參考因素,因此本文試圖從云地閃發生數據入手,構建一個對雷暴發展與移動進行實時評估的模型,通過以實時的動態的方法對地閃數據進行分析,為今后的雷暴預警工作增加了新的參考因素。
為了更好的研究雷電的發生原因,雷電發生密度等,一些國家陸續建立了自己的雷電監測系統,如美國國家雷電監測網[5]。近些年,中國也發展起來了自己的雷電監測網絡[6],可以實時提供云地閃發生的時間、經緯度、雷擊電流幅值等信息。目前對這些雷電發生數據的運用多用于對各種雷電預測模型的驗證:即使用其它氣象觀測數據構建雷電預測模型,然后用雷電的發生數據去驗證模型的合理性[7,8];對雷電監測系統雷擊定位準確率的討論[5];以及對其它災害性強對流天氣的研究[9]。
本文所使用的數據為中國雷電監測網提供的中國境內地區云地閃發生數據,數據包括了云地閃的發生時間,發生地點的經緯度,以及放電強度等信息。本文所提出的方法主要使用了云地閃發生數據的時間信息和發生地點經緯度信息。
雷電的發生具有很大的隨機性,云地閃發生的具體位置也具有不可預測性的特點,所以以區域為單位去研究一個地區受雷擊影響的程度以及可能遭遇雷擊天氣的可能性更具有實際意義。因此,本文對云地閃數據的討論也是以區域為單位的,具體方法如下:首先把一個時間段內所發生的所有雷電的位置在地圖上進行標記,然后使用若干個一定大小的正方形網格將所有發生雷電的區域用網格覆蓋,如圖1所示,實心點表示表示在某個時間段內 (如十分鐘)內在某個區域所監測到的云地閃,之后本文使用同樣大小的正方形網格無重疊地覆蓋所有雷電發生區域。

圖1 網格覆蓋云地閃發生區域
因此對于每個時間段內監測到的云地閃數據,都可以得到一個由小方格描繪的雷暴發生區域的分布情況。顯然,通過對每個小方格中的雷電進行計數,也可獲知該時間段內不同區域雷暴的云地閃密度。為了對雷暴進行識別,本文對一個時間段內云地閃數據所形成的網格進行聚類,即將所有毗連在一起的網格識別為同一雷暴。在聚類過程中,本文采用了廣度優先遍歷算法,網格聚類的具體算法描述如下:
(1)用網格覆蓋所有在本時間片內發生了雷電的區域。
(2)將所有網格標簽為 “unclustered”。
(3)對所有網格按照雷電計數值從大到小進行排序,形成一個網格列表。
(4)對列表中每一個標簽為 “unclustered”且雷電計數值最大的網格Ct進行如下循環操作:

注:一個網格G 的 “鄰居”的定義為:所有與G 有共同頂點的網格。即每個網格最多有8個 “鄰居”網格。
在上述算法中,首先按照每個網格中發生的雷電數目從大到小對網格進行排序,然后將未被聚類且含有云地閃數目最多的網格作為一個雷暴的中心點網格,由于這里雷暴的中心點是基于密度產生的,所以也即雷暴的密度中心點。
本文對云地閃監測數據采用這種先繪制網格再對網格進行聚類的處理方法實際上是利用了層次聚類的思想,這比直接對云地閃進行聚類的方法 (如文獻 [10])節省了大量的計算時間[11]。需要注意的是,在本文的算法中,一些靠近雷暴但是與雷暴聚類沒有毗連的離散網格沒有被識別為該雷暴的一部分,這樣做首先是為了減少計算代價,顯然,識別網格是否毗連的實現更為簡便,其次這樣的離散網格并不影響本研究的主要目的:對雷暴進行識別和追蹤。因為雷暴中心區域的云地閃發生密度相對較大,而雷暴邊緣區域云地閃的發生密度則相對較小,這樣本文基于云地閃所畫出的網格在雷暴中心區域一般會毗連較為緊密,而雷暴邊緣區域的網格則相對離散,所以這些離散的網格對本文識別雷暴中心以及評估雷暴的發生強度的影響相對較小。
對一個時間段內發生的云地閃數據使用上述聚類算法后可以得到若干被識別的聚類,在本節中將要討論如何對這些雷暴進行追蹤。文獻 [12]描述了一種基于面積和云間距離的云的追蹤方法,該文獻的方法是基于如下假設:同一朵云在兩個時間片較短的兩幅云圖中的面積和位置不應有過大的變化。在本文論述的問題中,某個聚類所覆蓋面積的大小是基于該時間片內云地閃的地理分布的,而雷暴天氣是一種發展相對較快的氣象現象,不同時間的云地閃的發生區域和發生密度可能會發生較大變化,因此所提出的方法在本文討論的問題中并不完全適用。為了解決這一問題,在這里本文提出了一種數據重疊的方法,具體做法如下:例如當讓時間段的長度為10分鐘且讓兩個相鄰的時間段有50%的重疊時,本文可以得到如下形式的相鄰時間段:第 一 個 時 間 段 為 從 “2012-06-07 17:00:00”到“2012-06-07 17:10:00”,第二個時間段為從 “2012-06-07 17:15:00”到 “2012-06-07 17:25:00”,這樣兩個時間段中時間重疊部分的云地閃數據是相同的,即數據重疊。使用第2部分所討論的網格聚類算法對這兩個時間段內的云地閃數據進行聚類,由于網格的分布是由一個時間片中的云地閃發生位置決定的,若前后兩個時間段有一部分時間重疊,那么在這段重疊的時間內發生的云地閃便成為了在這兩個相鄰時間片上繪制網格的共同依據,所以同一個雷暴在兩個相鄰時間片上的網格必然有一部分是相同的,這也就為雷電發生區域的追蹤提供了依據。因此可以推定在兩個相鄰時間段上,具有共同網格數最多的兩個聚類應該是同一雷暴。
圖2 (a)和圖2 (b)描繪了同一雷暴在兩個相鄰時間片上的云地閃發生情況以及根據云地閃位置所繪制出的網格。圖3將圖2 (a)和圖2 (b)兩幅圖描繪在了同一坐標系上,本文可以看出由于圖2 (a)和圖2 (b)所在的時間片有重疊,所以一些云地閃同時出現了對該雷暴的兩次聚類之中,即圖3 中的菱形實心點所表示的云地閃。這樣,對云地閃的兩次網格聚類便有了相同的網格,所以可以以此為依據推斷它們是同一雷暴。

圖2 同一雷暴在相鄰時間片上的云地閃與網格分布
綜上所述,本文提出了如下的雷暴追蹤算法:
(1)對兩個相鄰的時間片的云地閃數據進行聚類,得到聚類集合Set0和Set1。
(2)對Set0中聚類按網格數從多到少進行排序。
(3)對Set0中所有聚類進行如下循環:{

圖3 雷暴追蹤
從Set0中取出一個未被比較過且網格數最多的聚類ClusterMax 與Set1中所有未被匹配的聚類進行對比,選出Set1中與ClusterMax 具有最多重疊網格數的聚類Cluster-Match,將ClusterMatch 的類別號改為與ClusterMatch 相同 (即認為ClusterMatch與ClusterMatch 是同一類);
將ClusterMatch標記為已匹配。}
(4)Set1中剩余的未被匹配的聚類則認為是新生聚類。
由于發生強度大且覆蓋面積廣的雷暴應該是我們首先關注的,所以在上述算法中,本文是先對Set0中的類別從大到小的排序后才進行匹配,這實際上是給予網格數較多(即雷暴發生區域面積較大)的聚類以優先匹配權,讓雷電區域面積較大的聚類去匹配與其重疊區域最多的聚類,這也防止了在相鄰時間片上一個面積很小的聚類匹配上一個面積很大的聚類的情況。同時本述算法的一個設定是:認為一個雷暴只與下一個時間片中與其重疊區域最多的雷暴進行匹配,對于與其有重疊區域,但重疊區域相對較小的雷暴則認為是新生雷暴聚類。
為了完成對云地閃數據的網格聚類,本文首先需要對網格做出一些設定。在同一時間片內,若網格越大,則覆蓋某一雷暴發生區域所使用的網格就越少,一個網格內的雷電數目越多,對云地閃進行網格聚類的計算量越小。反之,若網格越小,則對雷暴內部不同區域中云地閃發生情況的描述越精確,對雷暴中心點的確定也相對較為精確。所以在本實驗中本文需要對網格的尺寸做一個折中,在這里,本文選擇了中尺度氣象學中較常用的一個尺度:邊長為0.05度的正方形網格 (這里的度表示經緯度,0.05度約相當于5公里),需要注意的是,在本實驗中對云地閃的聚類和追蹤中所使用的網格時相同尺寸的。同時,為了網格聚類的運算方便,網格每個頂點的經緯度坐標都以0.05度為最小單位。
時間片的與時間片重疊長度的選擇:由于雷暴從形成到消亡的時間相對較短,從這一點出發,選擇較短的時間片更為合適,如果時間片選的過長,那么在一個時間片中雷暴已經經過了較長時間的發展,隨著雷暴結束時間的臨近,識別與追蹤的意義便被減小了。然而如果時間片的時間較短,一個雷暴在該時間片內該網格中發生的雷電數就會很少甚至沒有,這樣就不利用對雷暴的統計和聚類。因此通過實驗經驗,本文選擇了10分鐘作為時間片的長度。為了保證兩個相鄰時間片上有足夠多的相同云地閃數據并且兩個相鄰時間片應有足夠的時間差,本文將相鄰時間片的重疊度設置為50%,即在本實驗中兩個相鄰時間片具有5分鐘的重疊時間。
本文選取了中國版圖范圍內在2012年8月間的若干天的云地閃監測數據作為實驗數據,期間共監測到386187次云地閃,這些云地閃數據包含了云地閃的發生時間,經緯度等信息。然后對這些數據使用本文提出的聚類與追蹤算法,之后我們計算了被匹配成功的聚類在前后兩個相鄰時間片上中心點的平均距離,該平均距離為0.0581度 (經緯度),該平均距離表示的是一個雷暴聚類在前后兩個時間上的平均移動距離。這個距離說明雷暴的追蹤沒有發生較大的偏差,達到了預期的效果,因為如果本文提出的聚類與追蹤算法不合理的話,被本模型識別的聚類在相鄰時間片上的位置應該有大于合理范圍的差異。之后我們試圖通過一個簡單的預測來檢驗本文所提出模型的效用。預測方法如下:對每一個由聚類得到的雷暴,使用其前3個時間片中心點的位置去預測該雷暴在下一時刻中心點的位置。我們計算了預測得到的中心位置與實際的中心位置之間的平均距離,其結果為0.0403度。這個值小于了之前得到了平均移動距離,說明本文所提出的模型具有進一步對雷暴進行預測的潛質,更加完備的的預測工作將在今后的實驗中進一步實現。
本文通過對云地閃數據進行聚類以及對聚類的追蹤,達到了預期的效果,實現了對雷暴數據的追蹤。其創新點在于提出了一種利用云地閃監測數據來監測雷暴發展和運動趨勢的方法,并且利用數據重疊法實現了對雷暴的追蹤,為今后雷暴活動監測系統的實施提供了參考案例。通過實驗不難發現,本文提出的方法對于雷暴運動趨勢的預測同樣具有實際價值,為今后進一步利用云地閃數據進行雷暴預警打下了基礎。
[1]Ashley WS,Gilson CW.A reassessment of US lightning mortality [J].Bulletin of the American Meteorological Society,2009,90 (10):1501-1518.
[2]Krawchuk MA,Cumming SG,Flannigan MD.Predicted changes in fire weather suggest increases in lightning fire initiation and future area burned in the mixedwood boreal forest[J].Climatic Change,2009,92 (1-2):83-97.
[3]HE Jl,ZENG R,CHEN SM.Lightning protection study of transmission line,part Ⅲ:Protection measures [J].High Voltage Engineering,2009,35 (12):2903-2909.
[4]McCaul Jr EW,Goodman SJ,LaCasse KM,et al.Forecasting lightning threat using cloud-resolving model simulations[J].Weather &Forecasting,2009,24 (3):709-729.
[5]Biagi CJ,Cummins KL,Kehoe KE,et al.National lightning detection network(NLDN)performance in southern Arizona,Texas,and Oklahoma in 2003-2004 [J].Journal of Geophysical Research: Atmospheres (1984-2012 ), 2007, 112(d5):D05208.
[6]CHEN JH,Zhang Q,FENG WX,et al.Lightning location system and lightning detection network of China power grid[J].High Voltage Engineering,2008,34 (3):425-431.
[7]Lynn B,Yair Y.Prediction of lightning flash density with the WRF model[J].Advances in Geosciences,2010(23):11-16.
[8]Tang X,Zhuang L,Gao Y.Support vector machine based on chaos particle swarm optimization for lightning prediction[C]//Advances in Computer Science,Intelligent System and Environment,2011:727-733.
[9]Price C,Yair Y,Mugnai A,et al.Using lightning data to better understand and predict flash floods in the mediterranean[J].Surveys in geophysics,2011,32 (6):733-751.
[10]Juntian G,ShanQiang G,Wanxing F.A lightning motion prediction technology based on spatial clustering method[C]//7th Asia-Pacific International Conference on Lightning,2011:788-793.
[11]SUN Jigui,LIU Jie,ZHAO Lianyu.Clustering algorithms research [J].Journal of Software,2008,19 (1):48-61(in Chinese).[孫吉貴,劉杰,趙連宇.聚類算法研究 [J].軟件學報,2008,19 (1):48-61.]
[12]Kober K,Tafferner A.Tracking and nowcasting of convective cells using remote sensing data from radar and satellite[J].Meteorologische Zeitschrift,2009,18 (1):75-84.