蔡益智,曾慶昌
(珠海市斗門區公共氣象服務中心,廣東 珠海 519000)
閃電是造成人身傷亡、牲畜死亡、房屋和森林火災的主要原因,也是電磁干擾的主要來源,會對電子電路、建筑物和其他暴露的人造結構(如輸電線路、風力渦輪機和光伏)造成損害。根據1946—2015年期間1 023起與自然災害過程相關的死亡報告分析,超過16%的案例是由雷電引起的,雷電是瑞士自然災害中第二常見的死亡原因。此外,據報道,由于對飛機加油、行李處理、食品服務和拖輪作業等室外坡道作業的危害,閃電對航空業造成了不利影響。在航天中心,閃電對燃料人員、地面操作和火箭發射操作也是一種危險。閃電也是損壞風力渦輪機的一個主要原因,風力渦輪機是可再生能源生產中增長最快的部門之一,在電網中造成瞬變電涌和過電壓,對各個系統造成干擾,最重要的是,對葉片和其他風力渦輪機部件造成重大損壞[1]。這些事件的后果可能是巨大的,會造成能源生產損失、額外維護成本,甚至運行設備的損失。
考慮到其顯著的社會經濟影響,準確的閃電預報受到了人們高度的重視。
在雷暴的生成機制中,當冰晶和霰粒子在過冷液態水的存在下碰撞時,會發生電荷分離。電荷在不同類型的粒子之間傳遞,然后在重力和對流運動的影響下,粒子按質量分離。在雷電災害研究報告中發現,正、負風暴與中尺度環境有關,例如分析了9個不同的中尺度強風暴區,發現正風暴和負風暴的中尺度環境存在顯著的系統性差異。他們假設中尺度環境通過直接控制風暴結構、動力學和微物理間接影響CG閃電極性,進而控制風暴起電和地閃極性。由于光照涉及許多大氣過程和云中過程之間的復雜相互作用,因此對這一現象的研究繼續產生廣泛的預測方法也就不足為奇了。許多研究在云解析數值模型中實現了復雜的電化物理。例如,在Weather Researchand Forecasting(WRF)模型中實現了一個顯式的電化和閃電預測模塊,其中包括云內、非感應和感應碰撞充電,環境電場三維分量的顯式橢圓解,以及2個放電參數化。另一方面,一些研究采用了簡單實用的參數化方法,以實現有用的閃電預測,而無需向云解析模型中添加帶電子程序。
除了產生大量閃電指標的閃電診斷方案(如平均閃電活動)以及長達數天的有效預測外,一些研究還側重于在不久的將來對閃電威脅進行評估,并通過對單個閃電和/或風暴內閃電的開始進行現報來提供早期預警。公園、體育中心、學校、地方政府大樓、機場、航天中心等的雷電預警系統受益于此類雷電臨近預報方案的輸出,使決策者有足夠的時間對工作人員和游客采取必要的安全預防措施,停止對雷電敏感的操作,并保護設備。最近,將雷達、衛星、雷電探測系統、地面電儀和探空儀的觀測數據與天氣型預報產品相結合,開發了雷電預警系統,并對通電和放電模型進行了數值模擬,該系統能夠提供即將到來的0~1 h雷電活動電位和預警產品。使用雷達導出的參數,即等溫線反射率和垂直積分lce(VII),作為肯尼迪航天中心上空近場照明。盡管有幾種不同的方法應用于解決閃電臨近預報和預警生成這一重要問題,但該問題所涉及的復雜過程和大量參數使得多元氣象資料分析方法仍具有潛在的應用前景。
在大氣科學中,來自遙感平臺和全球尺度地球系統模型的大量數據庫提供了大量的數據流。大量此類數據的可用性為大氣科學的大數據革命提供了巨大的機會。根據計算機提供的多元氣象資料存檔數據,對雷電災害進行預測,傳統的算法依賴于大量的規則和原則,多位預報員和研究人員將多元氣象資料與大氣科學相結合,旨在提高不同條件下對多種與天氣有關的現象的預測能力[2]。例如,意大利東北部冰雹的神經網絡集成預報。使用多元氣象資料模型來預測風暴產生冰雹的概率和雷達估計的每個預報風暴的冰雹大小分布參數。雖然選定的氣象參數不一定代表雷暴充電區內的高層氣象,但它們是雷暴中包含的低層因子的指標,也可以比許多高層大氣參數實現更可靠、連續的測量,而高層大氣參數可能與光的產生有更密切的聯系。
許多科學家利用云圖多元數據分析了閃電,并獲得了一些有意義的結果。國外學者根據中尺度對流復合系統(MCC)中的閃電活動,指出閃電頻率是多單體對流云厚度和數量的函數。MCC是一個非常有組織的中尺度對流系統,由許多積雨云單體組成,MCC可在平均1 h內產生54 min-1的最大閃光頻率,或在平均連續9 h內產生17 min-1以上的閃電頻率。由于MCC的雷電頻率較高,單個MCC通過a位置產生的雷電可達到該位置年平均雷電密度的25%。與一般雷暴之比為4∶1,某些高原強風暴為20∶1;MCC的峰值閃電速度發生在云頂溫度最低(冷)、MCC降雨量最大、對流單體最活躍時;雷暴云的結構與閃電密切相關。地面閃光通常發生在風切變的情況下。在衛星云圖上可以識別雷暴云團頂部的強風切變,如果云頂的卷云僅向一個方向延伸,而另一側的云邊界非常低且平滑,說明高空存在強風速垂直切變,卷云的延伸方向為下風側,則卷云邊界的平滑側為迎風側。地面負閃主要集中在雷暴云的迎風面,尤其是云向東南突出的地方,正地閃出現在雷暴云頂部卷云的迎風面。
中國學者利用熱帶降水測量計劃(TRMM)衛星上的閃電探測系統獲得的閃電位置數據,對一些典型地區的閃電活動進行了比較和分析。研究發現,不同地區的閃電活動在閃電頻率和放電強度方面有很大差異,海上閃電活動的頻率是陸地上的幾十倍:不同地區閃電活動的數量不僅取決于雷暴天數,還取決于每個雷暴過程中閃電頻率的數量;不同區域的雷電放電強度隨雷電頻率的增加而減小。進一步的研究還表明,不同地區閃電輻射能量的差異可以用對流最大不穩定能量(Ecape)來解釋,閃電放電強度與Ecape之間存在很好的線性正相關關系;閃電活動頻率對Ecape的響應不同于閃電輻射能量的響應,兩者之間沒有明顯的相關性。
考慮到地面氣象觀測站的密度和空間分布,本文選擇了中國氣象局的雷電監測網,采用BTD雷電探測系統。BTD系統是一種基于嵌入式微處理器的電磁波檢測和數據采集系統,它由電場天線、磁場天線、電子電路、GPS接收機和電源組成,主要功能是檢測雷電回擊發生時輻射的電磁波,測量回擊電磁波的準確到達時間,將數據發送給雷電中央定位處理站,并接收雷電中央定位處理站的遙控命令。探測到的落地點參數為:測量地面雷電每次回擊時接收點的時間、位置、極性、峰值強度、波形特征參數和陡度值(陡度、峰值和波形半周期過零)。放電電荷、峰值輻射功率和雷電回擊次數也可通過麥克斯韋方程推導。單站探測范圍約為150 km,雷電數據提供的探測范圍為28.5°N—38°N,113°E—122°E。在所有觀測數據的13個參數中,有4種定位模式,即“兩站振幅”“兩站混合”“三站混合”和“四站算法”。利用磁定向法和雙曲線時差法對監測地區及其周邊的閃電進行定位。通過在多個站點同時測量雷擊回波輻射的電磁場,確定了雷擊源的多變量數據參數。在SPSS軟件中對數據進行時間自相關和相關分析,以確定多變量數據集[3]。
本研究收集的所有數據子集均為高維多變量數據集。數據子集的平行坐標如圖1所示,在圖1中,使用平行坐標圖的數據可視化。該圖將每行數據映射為一條線。淺灰色線對應照明活動類,深灰色線對應照明非活動類的數據。查看這2個類在每個坐標中的分布,圖中顯示,這2個類在所有坐標中高度混合,沒有明顯的區別。更為復雜的是,在數據收集部分使用上述程序標記每個數據段后,2類數據在所有臺站都高度不平衡。這種不平衡是意料之中的,因為全年的閃電活躍期與沒有閃電的時期相比是罕見的。由于數據中的這種高度不平衡,進行了廣泛的模型搜索過程,以根據每個站點的數據選擇最合適的多元氣象資料。

圖1 數據子集的平行坐標圖
每個預測值的平均值設置為零,預測值按其標準差進行縮放。每條線表示10 min間隔開始時記錄的觀測結果,并根據該間隔內的閃電活動標記為淺灰色(無任何遠程閃電活動)或深灰色(至少記錄了1個遠程閃電活動)。
為了進行分類,XGBoost算法使用可伸縮的樹推進系統從單個分類樹中生成集成學習器。集成學習者使用多種學習算法來獲得更好的預測性能,比單獨使用任何一種組成學習算法都要好。根據每個內部節點的情況,在每個節點上拆分數據點流,每個數據點流到每個節點上的一片葉子上,葉子沿著每個節點的方向。當一個數據點到達一片葉子時,會給它分配一個權重作為預測分數。然后,預測算法會將每個數據點從集合成員那里獲得的預測分數結合起來,最終決定該數據點所屬的類,無論是激活的還是非激活的,樹的最大深度限制為3。然而,在實際訓練中,參數是使用超參數調整技巧來調整的。
為了進行最終評估,根據數據對預測模型進行了測試。為此,在每個站點,將數據分成不同的組,每個組包含1年的數據。對于每個獨特的組,從數據集中取出該組作為測試集,并使用其余組作為訓練集進行訓練。XGBoost模型的超參數已根據數據進行了優化,然后在訓練集上進行擬合,并在測試集上進行評估[4]。使用評估指標對測試集上的預測結果進行評估。這個過程一直持續到每一組被作為測試集。將評價結果進行多輪組合,總結模型預測技巧,這種驗證方法類似于折疊交叉驗證,而折疊只能是個別年份的數據,而不是隨機從隨機數據中選取。為了給預警提供依據,利用給定10 min時間間隔的氣象參數觀測資料對以下時間間隔進行預報。為了實現這一點,應該使用以下間隔的標簽,而不是為模型提供相同間隔的標簽。鑒于氣象和照明數據都以10 min的粒度導入數據庫,提前期也將在10 min的范圍內進行量化。例如,如果向模型提供與氣象數據間隔相同的閃電標簽,則預警的提前期將為0~10 min,這與即將到來的預警相對應。然而,如果使用下一個間隔的閃電標簽,那么預測的提前期將是10~20 min。
作為雷電臨近預報和預警系統的一個應用,本文介紹了如何利用基本大氣數據集的挖掘來探索閃電入射和大氣數據之間的相關模式,從而對閃電活動進行即時預報,在給定與雷暴中電荷產生機制相關的4個氣象參數的實時測量值(1045)的情況下,預測某一特定區域內是否會有閃電發生,即站級氣壓(QFE)、地面2 m以上氣溫、相對濕度和風速。此外,該方法還可以在沒有雷達、天氣預報員資源有限或沒有進行即時預報的地區提供信息,例如在亞洲、南美和非洲低收入國家的孤立地區,該方法可應用于任何氣象站(具有擴展的數據記錄,以確保適當的訓練樣本),以提供本地化的預測,與其他資源的可用性無關。輸入數據不受典型掃描周期、有限的預測步驟或處理和后處理延遲的影響。實際上,所使用的預測器通常是實時可用的,并且具有很高的時間分辨率。鑒于此,提出的MLM模型能夠提供提前期短(0~30 min)的早期雷電預警,這與以小時為單位測量預報周期的方法相反。這樣的警告可能有助于減少機場的空中交通擁堵,減少風力發電廠的發電中斷。