任 雍,梁 鶯,劉光普,周亭亭
(1.福建省氣象科學研究所,福建 福州350001;2.福建省大氣探測技術保障中心,福建 福州350008;3.北京無線電測量研究所,北京100854)
云內部微物理特征的演變過程是影響各類天氣過程產生、發展、消亡的核心因素,云內水凝物熱力學相態是主要的云微觀物理參數之一[1]。作為重要的云微物理參數,云中粒子相態的分布和演化對人工影響天氣、飛機積冰等方面研究有十分重要的影響[2-3],是云微觀探測的重點關注領域。
目前對云的遙感探測手段主要包括氣象衛星、激光云高儀、天氣雷達、毫米波測云雷達等。前3 種裝備觀測的主要是云的宏觀特征,而毫米波測云雷達則可同時兼顧云體宏觀特征和云粒子的半徑、數量、分布等微觀特征。毫米波測云雷達波長與云粒子尺度最為接近,具有高靈敏度和高時空分辨率,是目前對云粒子最敏感的探測設備[4],雙極化毫米波雷達通過接收水平和垂直方向的電磁波,能夠得到回波的強度、速度、譜寬、線性退極化比信息,從而揭示云內粒子的形狀、相態、空間分布,為氣象研究和氣象保障提供準確的數據支持[5]。目前對于云粒子相態和過冷水的研究均基于厘米波天氣雷達,其主要用于探測大范圍降水天氣,對云內微觀狀態不敏感,且云內部探測結果會受到強降水過程的干擾影響[6-7]。
Shupe[8]提出了聯合激光雷達、8 mm 云雷達以及微波輻射計等判斷云水凝物相態的算法,可得到云水凝物相態的垂直分布,其中考慮利用激光雷達退偏振比以及毫米波雷達的反射率因子、Doppler 平均速度和譜寬、溫度等閾值判斷粒子相態及形狀。國內外也有相關研究利用微波雷達退偏振因子分析降水云粒子的相態及形狀[9-10],認為在零度層以上降水粒子的空間取向和介電特性很復雜,退偏振因子信息較差分反射率信息更有意義,但退偏振因子的利用要求雷達系統具備較高的靈敏度。為改進閾值法過于剛性的分類方法,許多研究采用模糊邏輯法[11-14],充分利用雙偏振天氣雷達的各種參量對降水系統中的粒子進行分類。彭亮等[15]利用2008 年壽縣站點大氣輻射測量項目(ARM)3 mm 云雷達的觀測資料以及探空資料,根據前人觀測試驗總結的不同種類粒子的閾值,建立隸屬度函數,然后利用模糊邏輯法進行水凝物相態垂直分布反演試驗。
本研究中首次采用了工作于Ka 波段的毫米波測云雷達回波數據,能夠識別非降水云和弱降水云內粒子相態和過冷水分布特征,從而為天氣過程演變研究、民航保障和人工影響天氣研究提供決策依據。
Ka 波段毫米波測云雷達的波長介于厘米波和激光之間,使其兼具兩者的特點:毫米波波長短的特點,使其比厘米波雷達對云粒子更敏感;而與激光雷達相比,毫米波又具有更好的穿透能力。
毫米波雷達技術優勢主要體現在以下幾點:雷達后向散射截面σ 與λ-4成正比[16],毫米波雷達工作在Rayleigh 散射區[17],對小粒子敏感性強,具有很高的靈敏度,Ka 波段與S 波段天氣雷達相比,具有40 dB以上的增益;雷達體積小、重量輕、功耗低,適合配置在移動平臺上;多普勒效應明顯,速度分辨率高,測速精度高;可基于較小的天線口徑得到窄波束,方向性好,空間分辨率高。
本文應用設備為北京無線電測量研究所研制的HMB-KST 型全固態毫米波測云雷達,試驗期間雷達系統架設于北京南郊,其主要技術參數如表1 所述。

表1 HMB-KST 毫米波測云雷達主要技術參數
云粒子相態識別主要依據不同類型粒子反映的雷達探測參數值不同。根據試驗需要,本文對云粒子相態分類如下:干冰晶、濕冰相和融化層、混合相與降水、過冷水滴、暖云滴。各類粒子特征如下:
(1)干冰晶,主要集中在冷云中上部至云頂,是云內主要凝結核。干冰晶的平均半徑較小;作為單一粒子層,具有較小的速度譜寬;線性退極化比較小。冰晶向下運動遇到過冷水時形成雪和霾,雪和霾經過融化層形成降雨。
(2)濕冰相和融化層,相態最為多變,包括冰晶和過冷水碰并后的雪和霰,以及冰相粒子經過零度等溫線后的融化相。其含水量遠高于冰晶,雪的含水量高于霰。雪和霰生成于冰晶與過冷水混合層,向下運動延伸至融化層。在雷達探測參數表征方面,雪和霰有較大的速度譜寬和線性退極化比,而融化層具有最大的線性退極化比。
(3)混合相與降水,混合相意味著在一個距離庫內同時存在著冰相和液相粒子,降水粒子有明顯的下落速度,二者都具有最大的速度譜寬。
(4)過冷水滴,主要集中在冷云中下層,溫度在-20~0 ℃,是影響降水豐沛程度的主要云粒子。過冷水滴由強上升氣流將暖云滴抬升而產生,在遇到更高處的冰晶時迅速消耗[9]。過冷水滴平均直徑小,運動速度統一,在冷云層中有最小的反射率因子、線性退極化比和速度譜寬。
(5)暖云滴,溫度高于零度的暖云的主要粒子形態,主要集中于云體下部,對于非降水云,暖云滴具有最小的反射率因子、譜寬和線性退極化比;對于降水云,暖云滴直徑大,反射率因子多大于過冷水滴[18]。
根據上述分析,雖然各類型粒子有其自有特征,但這些特征不具備排它式的門限值特征,而是互有耦合的綜合反映結果。這種情況下,選用決策樹算法可以得到較好的識別效果。算法選擇的直接探測參量包括:雷達得到的反射率因子、速度譜寬、線性退極化比,以及同期探空資料插值得到的溫度信息。
基于決策樹的云粒子相態識別算法根據半物理規律的統計特征,應用機器學習的思想進行算法設計,為各雷達探測要素分配不同層級的決策函數,構成決策空間的多個緯度,完成相態判別。
決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。
在機器學習中,決策樹是一個預測模型,其代表的是對象屬性與對象值之間的一種映射關系。相比近些年應用日趨廣泛的支持向量機算法,決策樹是相對簡單的機器學習算法,但是在面對輸入數據維度較少的情況時,具有很高的效率。并且,在面對某些復雜決策問題時,基于單決策樹算法可以構建隨機森林,可以大幅拓展其應用領域[19-20]。
本應用的算法包括決策因子分析、規則推導、決策空間建立、邏輯判別等幾部分。
反射率因子的公式為:

式(1)中D 為粒子直徑,反射率因子Z 與粒子的直徑密切相關,故不同相態的粒子大小的差異會呈現不同的反射率因子值;速度譜寬SW 是下落過程中不同相態粒子大小、形狀、密度等差異使粒子的下落速度不同導致速度譜寬的不同;退偏振因子LDR 與粒子的非圓形程度和介電常數有關,不同的粒子的非圓形程度和介電常數不同,因此會呈現不同的LDR 值,故反射率因子Z、速度譜寬SW、退偏振因子LDR 作為粒子相態的識別參數,探空數據溫度T的相關變化也能夠反映粒子相態的變化。不同相態粒子的反射率因子Z、速度譜寬SW、退偏振因子LDR 的特征在第三部分云粒子相態識別原理中有具體說明。因此選擇反射率因子Z、速度譜寬SW、退偏振因子LDR、探空數據溫度T 4 個參量作為決策樹算法的決策因子。
在確定好決策因子后,將其作為決策樹學習算法的屬性,根據這些屬性進行云粒子相態分類和識別。算法利用訓練數據集合B(包含各訓練數據的云粒子相態) 和對應的樣本屬性集合A ={a1,a2,…,ad}(包含對應的4 種決策因子的值)來進行訓練。該部分主要是確定好各屬性的結點位置及該屬性判別時的閾值。劃分屬性主要是依據信息增益和增益率的大小來進行。由于訓練樣本中的屬性大多為連續值,因此先將屬性的樣本集合進行分段,即對四類屬性分別進行合適的分段,則有集合:

式(2)中i=1,2,3,4 表示4 類屬性,j 表示在第i 類屬性中根據該類值的大小劃分的第j 段,該段內的值所在區間為,共分為ni段。
劃分好分段后,則可按照離散屬性值來進行劃分:

式(3)中Ent 表示信息熵,Pk表示屬于該相態的概率,式(4)中Gain 表示屬性在當前層級的信息增益,式(5)Gain_ratio表示相應的信息增益率,式(6)中IV表示該類屬性的固有值。
由式(3)~式(6)可得到各個屬性的增益率,然后從中找出信息增益率高于平均水平的增益,再從中選擇增益率最高的作為決策樹當前層級的結點,同時選取增益率最高時的閾值。確定好當前層級的結點后,可再下一層級將繼續利用公式(3)~式(6)來求取,此時公式中的屬性計算不包含上一層級的屬性。以此類推,直到屬性的全部劃分完畢。
決策樹屬性及相關閾值劃分好之后,基于訓練數據的決策空間初步建立。在決策樹學習中,為了盡可能正確分類訓練樣本,結點劃分過程不斷重復,有時會造成決策樹分支過多,此時容易把訓練集自身的一些特點當作所有數據都具有的一般性質而導致過擬合。此時需要進行“后剪枝”處理,即在訓練集生成一個完整的決策樹后,自底向上地對非枝葉結點進行考察,若將該結點對應的子樹(置信度不高的情況)替換為葉結點能帶來決策樹泛化性能提升,則將該子樹替換為葉結點,降低過擬合的風險。
經過訓練數據生成的決策樹空間包含相應的屬性層級分類和相關的閾值判斷標準,則在新數據(實測數據和對應的決策因子)輸入的情況下,可以按照決策樹模型等邏輯判別來進行云粒子相態的分類和識別。
在經過大量的訓練數據訓練后,決策樹的模型及相關參量已構建完成。在本應用中,輸入數據僅包含了反射率因子Z、速度譜寬SW、退偏振因子LDR和溫度T 4 種參量,應用決策樹算法具有較高的效費比。
根據云相態識別應用的特點,設計決策樹模型。算法輸入決策域包含:回波強度、速度譜寬、線性退極化比、大氣溫度4 類數據。輸出域為5 種云粒子相態:干冰相、濕冰相、混合相和降水、過冷水、暖云滴。算法的輸入的溫度數據經過三階樣條插值處理與測云雷達的距離庫相匹配。
本文選擇試驗期間的3 次典型天氣過程分別為:2017 年1 月19 日、2017 年2 月7 日、2017 年3 月20 日。對雷達觀測的回波進行分析,雷達數據選用RHI 掃描模式的數據,雷達數據和相態識別結果的橫縱坐標均表示探測范圍,探空數據的橫坐標是溫度,縱坐標為高度。云體反射率因子、探空數據、相識別結果如圖(2~4)所示。
2017 年1 月19 日小雪天氣過程觀測產品如圖2 所示,探空溫度顯示地表以上各層溫度均低于零度。雷達掃描仰角范圍為20°~90°。相態識別結果表明:此次小雪過程中云頂表現主要為一薄層干冰晶相,過冷水主要分布在3000~5000 m 高度處,二者交匯處多表現為濕冰相和混合相。近地面處識別為干冰晶,表明當天降雪中的液態水含量較低。

圖2 1 月19 日反射率因子(a)、相態識別結果(b)和探空數據(c)
2017 年2 月7 日北京入冬以來出現的明顯降雪天氣,圖3 為該時間段觀測產品。雷達掃描仰角范圍為20°~90°。根據識別結果可知:5000 m 以上高空云體主要由冰晶構成;過冷水主要分布在1500~5000 m 高度間,分布范圍較廣,與探空資料中的逆溫層強相關;過冷水與冰晶交匯處出現混合層和帶狀濕冰相。本次過冷水區回波強度較大,判斷本次降雪形成機制為冰晶與過冷水碰并生長的貝吉隆過程,豐富的過冷水是本次降雪形成的關鍵。探空溫度數據的逆溫層表明可能存在上升氣流,上升氣流促進了下部過冷水與上部冰晶的碰并凝結,而凝結過程中釋放的熱量也導致逆溫現象更加明顯。近地面處識別為降水態和冰晶態,表明當天的降雪濕度比2017 年1 月19 日明顯偏大。

圖3 2 月7 日反射率因子(a)、相態識別結果(b)和探空數據(c)

圖4 3 月20 日反射率因子(a)、相態識別結果(b)和探空數據(c)
圖4 展示了2017 年3 月20 日的試驗數據,當天天氣情況為陰天、層云,伴有間歇性小雨和毛毛雨。雷達掃描仰角范圍為5°~90°。相態識別結果為:云頂5000 m 以上有一薄層的干冰晶,云體中下部存在少量過冷水,云體大部分區域為混合相。云底在1100 m 附近識別為帶狀融化層、濕冰,其下為降水。根據相關文獻的歷史統計結果,典型的融化層亮帶多發生于降水過程即將結束時,而過冷水層耗盡是層狀云降水結束的主要原因,因此強亮帶上方過冷水含量應該較少,本識別結果中,左側近區典型強亮帶上方基本無過冷水,而右側遠區弱亮帶上方則含有過冷水,與統計結論吻合較好。根據歷史統計,華北地區層狀云降水強度與過冷水豐度高度相關,本次識別結果中,過冷水分布區域相對較小且所在區域回波強度較低,表明過冷水豐度不高;本次降水過程表現為小雨和毛毛雨,雨強與過冷水識別結果相吻合。
上述3 次天氣過程的分析表明,利用毫米波測云雷達回波數據分析得到的粒子相態結果與實測天氣狀況吻合較好,也符合天氣學微物理過程原理。
毫米波測云雷達作為一種新型氣象遙感裝備,綜合利用了毫米波波長短、穿透力強的特征,彌補了厘米波雷達和激光雷達的不足,表現出對云粒子微觀特征高度敏感的優勢。
本文基于毫米波測云雷達的探測數據和探空儀獲取的溫度數據,設計了云粒子相態識別的決策樹算法。該算法以反射率因子Z、速度譜寬SW、退偏振因子LDR 和溫度T 等4 種參量作為輸入,具有較高的效費比。
采用該算法,本文對2017 年1 月19 日、2 月7日、3 月20 日的毫米波測云雷達探測數據,進行云粒子相態識別和過冷水等數據產品的反演和分析。分析結果表明:
(1)逆溫層與過冷水層高度正相關,過冷水層通常伴隨著逆溫層一同出現;
(2)過冷水和冰晶交匯區附近通常會出現濕冰相和混合相;
(3)過冷水含量與融化層亮帶會呈現出一定的負相關關系。
整體上來講,采用本文提出的決策樹算法得到的相態識別結果,與實際物理機制相吻合,驗證了該識別算法的有效性。空中水凝物的相態識別,尤其是過冷水相態的辨識,對采用遙感手段分析降水特征、估計降水參量具有重要意義,后續將進一步開展深入研究。