






摘 要:
針對數據不平衡情況下的降水粒子分類問題,提出了一種基于糾錯輸出碼(error correcting output code, ECOC)平衡隨機森林的雙偏振氣象雷達降水粒子分類方法。首先,將多類別降水粒子數據集編碼為多個二分類數據集;然后,對二分類數據集進行有放回的平衡重采樣,構建多棵分類回歸樹;最后,利用所有的分類回歸樹聯合進行降水粒子分類。對實測數據的處理結果表明,所提方法能夠在保證總體準確率較高的情況下,大幅提高少數類的分類效果。
關鍵詞:
雙偏振氣象雷達; 降水粒子分類; 數據不平衡; 糾錯輸出碼; 平衡隨機森林
中圖分類號:
959.4
文獻標志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.05.14
Hydrometeor classification for radar based on ECOC-balanced random forest
LI Hai1,*, TIAN Zhong1, QIAN Jun2
(1. Tianjin Key Lab for Advanced Signal Processing, Civil Aviation University of China, Tianjin 300300, China;
2. Leihua Electronic Technology Research Institute, Aviation Industry Corporation of China, Wuxi 214063, China)
Abstract:
To address the problem of hydrometeor classification with data imbalance condition, this paper proposes a hydrometeor classification method based on error correcting output code (ECOC) balanced random forest for dual-polarization weather radar. Firstly, the multiclass hydrometeor dataset is coded into multiple binary datasets, and then the binary datasets are balanced resampling with replacement to construct multiple classification and regression trees. Finally, all the classification and regression trees are used to jointly classify hydrometeors. The processing results of the measured data indicate that the proposed method can significantly improve the classification effect of minority classes while ensuring a high overall accuracy.
Keywords:
dual-polarization weather radar; hydrometeor classification; data imbalance; error correcting output code (ECOC); balanced random forest
0 引 言
通過對降水粒子進行精確分類,能夠識別出多種災害天氣。單偏振氣象雷達只能獲取雷達反射率因子、徑向速度和速度譜寬3個基本信息,無法將其應用于降水粒子分類。雙偏振氣象雷達通過同時發射水平和垂直兩種極化方式的電磁波[1-2],不僅能夠獲得雷達反射率因子等基本信息,而且能夠反演出差分反射率因子、差分傳播相移、相關系數等偏振參量[3-6],從而識別出不同降水粒子的相態,完成降水粒子分類,對于災害天氣的識別、預警[7]、數值預報以及航跡規劃等都具有重要意義。近些年,隨著全球氣候變暖,水凝物的形成過程愈發復雜,導致冰雹等災害天氣頻發。然而冰雹、冰晶等高危險系數氣象通常范圍較小[8-9],在大量的降水粒子數據中只占較小的部分,這使得降水粒子數據存在不平衡的情況。當降水粒子數據存在不平衡現象時,傳統分類方法對少數類降水粒子的分類性能下降,因此開展針對不平衡降水粒子分類的研究具有十分重要的意義。
降水粒子分類方法大致可分為兩大類,基于模糊邏輯[10-16]的降水粒子分類方法和基于機器學習[17-22]的降水粒子分類方法。文獻[10]首次將模糊邏輯算法應用于降水粒子分類,根據不同類型的降水粒子的偏振參量具有不同的取值范圍而確定相應的隸屬度函數,之后的研究傾向于改進隸屬度函數以提升分類效果。文獻[13] 將模糊邏輯降水粒子分類從S波段擴展到C波段。文獻[14]中,中國科學院大氣物理研究所肖輝等利用模糊邏輯算法對2015年8月7日北京一次較大范圍的降雹進行水凝物粒子分類,分類結果與真實情況一致。模糊邏輯是雙偏振氣象雷達進行降水粒子分類的主要分類方法,模糊邏輯算法雖然效果優異,但是其過度依賴人工經驗,主觀性較強。為了克服模糊邏輯極度依賴專家經驗的問題,相關學者陸續提出了多種基于機器學習的降水粒子分類方法,包括文獻[17]提出的基于聚類的降水粒子分類方法、文獻[18]提出的基于支持向量機的降水粒子分類方法、文獻[19-21]應用的基于貝葉斯的降水粒子分類方法等。但當降水粒子分類數據不平衡時,上述方法在少數類上的分類效果較差。為了使整體正確率最大化,機器學習算法會傾向于保證多數類的預測精度,這也導致了少數類(亦即高危險系數氣象)的分類效果較差。
當數據不平衡時,傳統的處理方法大致可分為3種,欠采樣方法、過采樣方法和數據合成方法[23-28]。欠采樣方法丟棄了大量多數類樣本,模型只學到了一部分信息,造成數據浪費;過采樣方法導致數據集過于龐大而且增加了過擬合的風險;數據合成方法容易引入噪聲樣本,增加了類之間重疊的可能性。后續相關學者將欠采樣方法和集成學習相結合,提出了平衡bagging、平衡隨機森林[29-30]等針對不平衡數據集的機器學習算法,克服了數據浪費的缺點,但多數類的準確率大幅降低,整個模型的性能大幅下降。綜上所述,傳統數據不平衡算法雖然能夠解決數據集不平衡的問題,但會導致模型整體正確率大幅下降,模型可信度不高。
目前,針對降水粒子數據不平衡情況下進行分類的研究尚為空白。本文針對這一問題,提出了一種基于糾錯輸出碼(error correcting output code, ECOC)平衡隨機森林的降水粒子分類方法。ECOC平衡隨機森林分類器是一個決策樹集成模型,其通過結合多棵分類回歸樹(classification and regression tree,CART)獲得比單一CART樹更加優越的泛化性能。首先,利用網格搜索法設定多個超參數,并對所有超參數組合進行分層交叉驗證,選取其中最優的超參數;其次,依賴最優的超參數進行ECOC平衡隨機森林的訓練,得到多棵CART樹;最后,由訓練好的CART樹聯合進行判別,完成降水粒子分類。
1 ECOC平衡隨機森林示意圖
ECOC平衡隨機森林是一個集成模型,該模型是多個不同的平衡隨機森林的結合體,每個平衡隨機森林又是多棵不同的CART樹的結合體,其示意圖如圖1所示。
如圖1所示,ECOC平衡隨機森林由M個平衡隨機森林集成而來,每個平衡隨機森林由L棵CART樹集成而來。故而ECOC平衡隨機森林可以等效為M×L棵不同的CART樹,ECOC平衡隨機森林的訓練過程就是訓練M×L棵不同的CART樹的過程,ECOC平衡隨機森林的分類過程就是這M×L棵CART樹分別給出結果并進行集成的過程。
2 ECOC平衡隨機森林降水粒子分類原理
ECOC平衡隨機森林降水粒子分類算法可以分為4個模塊:超參數確定模塊、訓練集處理模塊、模型訓練模塊和模型分類模塊。首先,超參數模塊利用網格搜索和五折分層交叉驗證選取模型的3個超參數;其次,訓練集處理模塊利用選取的超參數構建降水粒子編碼矩陣,并進行有放回的平衡重采樣,得到多個二分類訓練集;再次,模型訓練模塊利用選取的超參數和采樣出的二分類訓練集,訓練出M×L棵有差異的CART樹,每棵樹利用訓練集將雷達偏振參量構成的特征空間切分為多個子空間,并給每個子空間進行類別標注;最后,模型分類模塊依據每棵CART樹標注好的子空間進行待分類雷達數據的分類,并對CART樹的分類結果進行投票和編碼兩次集成,給出ECOC平衡隨機森林的分類結果。
ECOC平衡隨機森林的原理框圖如圖2所示。
模塊1為超參數確定模塊,對應圖中紅色虛線框;模塊2為訓練集處理模塊,對應圖中藍色虛線框;模塊3為模型訓練模塊,對應圖中紫色虛線框;模塊4為模型分類模塊,對應圖中棕色虛線框。
2.1 超參數確定模塊
在訓練ECOC平衡隨機森林之前需要指定3個超參數,這3個超參數分別是平衡隨機森林的數量M、每個平衡隨機森林包含的CART樹數量L和CART樹每次分裂抽取的特征數量P。首先利用網格搜索法給定超參數初值,之后利用分層交叉驗證來進行超參數確定。
本文設置超參數初值如表1所示。
網格搜索法將3種超參數排列組合為(M,L,P)格式的超參數組合,然后對所有超參數組合利用五折分層交叉驗證進行網格搜索,下面給出網格搜索的步驟和如圖3所示的原理框圖。
步驟 1
把降水粒子訓練集均勻分為5份數據集,每份數據集都保持著原始數據中各個類別的比例關系,依次把其中4份作為訓練集,另一份作為驗證集,共得到5份訓練集和5份驗證集;
步驟 2
從所有超參數組合中不放回地取出一個組合;
步驟 3
利用步驟1的5份訓練集和步驟2的超參數組合,調用訓練集處理模塊和模型訓練模塊,分別訓練出5個模型;
步驟 4
利用步驟1的5份驗證集和步驟3訓練好的模型,調用模型分類模塊,分別測試上述5個模型的F1度量,然后對5個模型的F1度量取均值,求得該超參數組合的綜合性能;
步驟 5
重復步驟2、步驟3、步驟4,選取F1度量均值最大的超參數。
通過以上5個步驟遍歷所有預先設定的超參數組合,將F1度量最大的超參數用于后續的模型訓練,本文降水粒子訓練集對應的超參數組合為M=30,L=200,P=2。
2.2 訓練集處理模塊
首先,利用降水粒子編碼矩陣將降水粒子訓練集編碼為M個二分類訓練集,其次,利用有放回的平衡重采樣對每個二分類訓練集進行L次采樣。其中,降水粒子編碼矩陣構造和有放回的平衡重采樣是重要步驟,下文將進行詳細的介紹。
2.2.1 降水粒子訓練集
本文從多個雷達偏振參量中選取4個偏振參量作為特征組成降水粒子訓練集,分別是雷達反射率因子ZH、差分反射率因子ZDR、差分相移率KDP和互相關系數ρHV,并依照降水粒子訓練集標簽類別的數量確定降水粒子的分類個數N。本文對5種降水粒子進行分類,故N=5,5種目標分別為冰晶、雪、雨、霰、冰雹,它們的標簽如表2所示。
2.2.2 降水粒子編碼矩陣
假定降水粒子類別數為N (由降水粒子訓練集的標簽決定),平衡隨機森林數量為M(M>N) (本文由超參數確定模塊確定M為30),構造一個(N,M)格式的空矩陣。矩陣只用0和1兩個數字進行填充,并且兩個數字隨機等概率出現,填充后的矩陣就是降水粒子編碼矩陣。本文選擇的降水粒子類別數為5,平衡隨機森林數量為30,故N=5,M=30,編碼矩陣的維度是(5,30),編碼矩陣如表3所示。
矩陣中的每一個數字代表一種降水粒子在一個數據集中的標簽,每一行將一種降水粒子編碼為一組由0和1組成的數列,每一列對應編碼后的一個二分類數據集。
降水粒子編碼矩陣的輸入是降水粒子訓練集,輸出為二分類訓練集1、二分類訓練集2、…、二分類訓練集M (如圖2所示)。
2.2.3 有放回的平衡重采樣
有放回的平衡重采樣對上文構建的每個二分類訓練集進行L次采樣(本文由超參數確定模塊確定L為200)。該過程分為兩個步驟,首先是隨機欠采樣步驟,其次是bootstrap步驟。
步驟 1
隨機欠采樣步驟將不平衡的數據集變為平衡數據集,獲取數據集中少數類的個數n,從多數類中隨機選取n個樣本,保留這2n個樣本。
步驟 2
Bootstrap步驟對隨機欠采樣步驟輸出的2n個樣本進行2n次有放回的采樣,采樣后的數據集是原數據集的一個子集,其目的是增加每個平衡隨機森林中CART樹之間的差異性,集成后提升模型的泛化效果。由式(1)可知,在每一個Bootstrap步驟中,約有63.2%的原數據集樣本出現在重采樣數據集中。
1-lim2n→∞1-12n2n=1-1e≈0.632(1)
有放回的平衡重采樣的輸入是二分類訓練集1、二分類訓練集2、…、二分類訓練集M,輸出為訓練集1.1、訓練集1.2、…、訓練集M.L (如圖2所示)。
2.3 模型訓練模塊
ECOC平衡隨機森林的訓練過程就是利用訓練集1.1、訓練集1.2、…、訓練集M.L分別訓練CART樹。每棵CART樹以基尼指數(Gini)為準則,將訓練集包含的4個雷達偏振參量構成的四維特征空間切分為多個特征子空間,并對這些特征子空間進行分類。其分類過程采用二分遞歸分割技術,每個結點只有兩個分支,利用布爾邏輯劃分樣本集合,故無法處理連續數據,在訓練前需要進行數據離散化處理。下文首先給出數據離散化方法,之后詳細介紹如何利用基尼指數切分雷達偏振參量構成的四維空間。
2.3.1 數據離散化
為了遵從結點拆分的布爾邏輯,本文采取的離散化方法是構建二元分類點。二元分類點將其兩側的樣本分為兩個集合,其構建方法如下:分別將4個偏振參量特征按取值從小到大進行排列,然后在每兩個連續數值的中點進行切分。下面以反射率因子ZH為例:設ZH的取值序列從小到大排列為ZH1,ZH2,…,ZHj,取該特征兩個連續取值的中點進行切分,共有j-1個切分點,每個分類點將數據集切分成為兩個集合,以用于二叉樹分割。其中第i個分類點的表達式如下所示:
Ti=ZHi+ZH(i+1)2|1≤i≤j-1(2)
數據離散化之后,數據本身依然是連續的,但對于利用布爾邏輯的CART樹而言是離散的。
2.3.2 Gini
Gini反映的是直接從降水粒子訓練集中隨機抽取兩個樣本,這兩個降水粒子樣本屬于不同類別的概率。Gini越小,表示降水粒子數據集的純度越高。對于給定的某一降水粒子數據集D,其Gini計算方法如下:
Gini(D)=1-∑Kk=1|Ck||D|2(3)
式中:Ck是降水粒子數據集D中屬于第k類的樣本子集,K是降水粒子類別數。
2.3.3 CART樹訓練
步驟 1
建立根節點。
將訓練集m.l(1≤m≤M,1≤l≤L)作為根節點的訓練數據集,記為訓練集S。從訓練集S中包含的4個偏振參量中隨機挑選出P個偏振參量(本文由超參數確定模塊確定P為2),得到所選特征的所有二元分類點,每個二元分類點分別將訓練集S劃分為兩份,計算每個二元分類點的Gini。
假設特征A是P個隨機特征中的一個,根據特征A的第i個二元分類點,將降水粒子數據集S劃分成兩個樣本集S1和S2,則該分類點的Gini為
GiniA,i(S)=S1SGini(S1)+S2SGini(S2)(4)
遍歷該特征所有的分類點,選擇Gini最小的分類點作為該特征的最優劃分:
mini∈A(GiniA,i(S))(5)
分別計算出P個特征各自的最優劃分,比較它們的Gini,選出Gini最小的特征作為最優特征。最優特征的最優劃分點,將根節點包含的訓練數據集拆分為兩個訓練數據子集,并分配給兩個子節點,每個子節點對應四維特征空間的一個子空間。
minA∈P(mini∈A(GiniA,i(S)))(6)
步驟 2
建立子結點。
該過程利用二元分類點不斷拆分數據集,在拆分的過程中,整個CART樹的總Gini不斷下降。每個子節點各包含一份訓練數據子集,其拆分的規則與根節點相同,選取最優特征的最優拆分,拆分出兩個訓練數據子集,并分配給兩個子節點。之后進行遞歸操作,不斷對CART樹進行拆分,并且不限制拆分次數,直到達到規定的停止條件。
步驟 3
CART樹拆分停止
本文中的CART樹停止拆分的條件只有一個,子節點達到完全純度(即子節點中只有一類樣本)。此時,這些完全純度的子節點稱為葉節點,其Gini為0。每個葉子節點對應一個無法拆分的特征子空間,并且所有葉子節點的集合是整個四維特征空間。落在無法拆分的特征子空間內的樣本的標簽,就是這個特征子空間的標簽。
CART樹示意圖如圖4所示。
2.4 模型分類模塊
首先,由模型訓練階段訓練出的CART樹給出分類結果,之后,通過投票集成和編碼集成給出最后的降水粒子分類結果。下面對CART樹如何進行分類以及分類結果如何進行集成展開詳細介紹。
2.4.1 CART樹分類
向模塊3訓練好的M×L棵CART樹分別輸入待測雷達數據,CART樹將待測雷達數據分配到訓練階段切分好的各個特征子空間中,利用特征子空間的標簽給出分類結果。M×L棵CART樹共給出M×L個分類結果。
2.4.2 投票集成
對圖2中同一列CART樹的分類結果進行投票,取得票數最多的分類結果作為這列CART樹的分類結果。該過程可以有效降低CART樹的方差,改善泛化誤差,使降水粒子二分類結果更加準確,投票集成后得到M個分類結果。
2.4.3 編碼集成
將投票集成后的M個分類結果進行編碼集成,得到最終的分類結果,編碼集成方法如下。
首先,將上述M個分類結果組合成向量ypred:
ypred=[ypred1,ypred2,…,ypredM](7)
然后,將模塊2中降水粒子編碼矩陣的每一行記為yn,一共N行,則降水粒子編碼矩陣可以表示為
將該行對應的降水粒子類別作為分類結果。
3 實驗結果及分析
數據來源于某國國家海洋和大氣管理局的官方網站,選取雷達網中的一部雙偏振氣象雷達在2021年10月11日1點05分的一次雷達回波數據,進行降水粒子分類。
該場景各粒子數及其占比如表4所示。
由表4可知,雨、雪2類為多數類,冰晶、霰和冰雹3類為少數類。
本文對支持向量機(support vector machine, SVM)、欠采樣SVM、ECOC平衡隨機森林3種算法進行比較,首先給出3種算法的歸一化混淆矩陣,如圖5所示。
歸一化混淆矩陣的橫坐標代表預測標簽,縱坐標代表真實標簽,對角線代表每種粒子的召回率。
其次,給出3種算法的準確率(Accuracy)、F1度量和平均召回率這3種衡量指標。下面對各個指標進行簡要的介紹,假設分類結果的混淆矩陣如表5所示。
準確率表示分類正確數據占總數據的比例,定義如下:
Accuracy=TP+TNTP+TN+FP+FN(11)
F1是精確率(Precision, P)和召回率(Recall, R)的調和平均數,用以比較模型的綜合性能[31]。
精確率的定義如下:
P=TPTP+FP(12)
召回率的定義如下:
R=TPTP+FN(13)
F1度量的定義如下:
F1=2×P×RP+R(14)
平均召回率體現針對不平衡數據的模型性能,該指標為各種降水粒子召回率的平均數。
表6給出了3種算法的準確率、F1度量和平均召回率。
結合圖5的歸一化混淆矩陣和表6的3個指標可以發現,SVM算法整體正確率達到了79.29%,但該算法對于3種少數類粒子的召回率很低,而且幾乎沒有找出冰晶粒子,絕大多數粒子被劃分成多數類的雨雪以保證整體正確率,其平均召回率更是只有46.56%;欠采樣SVM算法對于3種少數類的召回率較高,但多數類的分類性能較差。相應的代價是模型的準確率極低,較SVM下降了25.54%, F1也相較于SVM低10.31%,模型可信度較低;本文提出的ECOC平衡隨機森林算法,讓冰晶、雪、雨、霰、冰雹5類樣本的召回率都保持在了一個較高范圍,該算法準確率較高,并且該算法的F1度量和平均召回率都較其他2個算法有著明顯的提升,模型綜合性能有著較大的提高,在找出高危險系數粒子的同時,將模型的虛警概率也維持在了一個較低水平,證明了ECOC平衡隨機森林算法在不平衡情況下降水粒子分類中的有效性。
4 結束語
針對降水粒子數據集不平衡的情況,本文提出了基于ECOC平衡隨機森林的雙偏振氣象雷達降水粒子分類算法。多次實驗結果表明,將該算法應用在不平衡數據集上,能夠在保證總體準確率較高的情況下,大幅提高少數類的分類效果。該算法具有較高的實用性,對識別危險氣象、進行航跡規劃等具有重要意義。
參考文獻
[1] LISCHI S, LUPIDI A, BERIZZI F, et al. X-band full polarized Doppler weather radar return simulation by using propagation-modified ensemble-averaged covariance matrix[C]∥Proc.of the International Radar Symposium. Dresden IEEE Press, 2013.
[2] LISCHI S, LUPIDI A, MARTORELLA M, et al. Advanced polarimetric Doppler weather radar simulator[C]∥Proc.of the 15th International IEEE Radar Symposium, 2014.
[3] ZHANG G. Weather radar polarimetry[M]. Oxford: CRC Press, Inc., 2016.
[4] LI Z, ZHANG Y, ZHANG G F, et al. A microphysics-based si-mulator for advanced airborne weather radar development[J]. IEEE Trans.on Geoscience and Remote Sensing, 2011, 49(4): 1356-1373.
[5] LI Z, PERERA S, ZHANG Y, et al. Phased-array radar system simulator (PASIM): development and simulation result assessment[J]. Remote Sensing, 2019, 11(4): 422.
[6] BRINGI V N, CHANDRASEKAR V. Polarimetric Doppler weather radar: principles and applications[M]. Carnbridge: Cambridge University Press, 2001.
[7] 李海, 白錦, 孫研, 等. 基于修正小波變換插值-TAN的雷達降水粒子分類[J]. 系統工程與電子技術, 2022, 44(5): 1527-1535.
LI H, BAI J, SUN Y, et al. Radar hydrometeor classification based on modified wavelet transform interpolation-TAN[J]. Systems Engineering and Electronics, 2022, 44(5): 1527-1535.
[8] 覃文娜. 江蘇省冰雹發生規律及數值模擬技術研究[D]. 南京: 南京信息工程大學, 2012.
TAN W N. Hail occurrence regularity and numerical simulation technology in Jiangsu province[D]. Nanjing: Nanjing University of Information Science and Technology, 2012.
[9] LI H, FENG K H, GUO M H. Echo simulation of non-spherical ice crystal particles for airborne weather radar[J]. IET Radar, Sonar Navigation, 2022, 17(2): 277-294.
[10] STRAKA J M. Hydrometeor fields in a supercell storm as deduced from dual-polarization radar[C]∥Proc.of the 18th Conference on Severe Local Storms, 1996: 551-554.
[11] HYANGSUK P, RYZHKOV A V, ZRNI D S, et al. The hydrometeor classification algorithm for the polarimetric WSR-88D: description and application to an MCS[J]. Weather and Forecasting, 2009, 24(3): 730-748.
[12] HASSAN A S, BOUMAHMOUD A A, BEATRICE F, et al. A new fuzzy logic hydrometeor classification scheme applied to the french X-band, C-band, and S-band polarimetric radars[J]. Journal of Applied Meteorology and Climatology, 2013, 52(10): 2328-2344.
[13] MARZANO F S, SCARANARI D, CELANO M, et al. Hydrometeor classification from dual-polarized weather radar: extending fuzzy logic from S-band to C-band data[J]. Advances in Geosciences, 2006, 7(6): 109-114.
[14] 馮亮, 肖輝, 孫躍. X波段雙偏振雷達水凝物粒子相態識別應用研究[J]. 氣候與環境研究, 2018, 23(3): 366-386.
FENG L, XIAO H, SUN Y. A study on hydrometeor classification and application based on X-band dual-polarization radar measurements[J]. Climatic and Environmental Research, 2018, 23(3): 366-386.
[15] RAUT B A, KONWAR M, MURUGAVEL P, et al. Microphysical origin of raindrop size distributions during the Indian monsoon[J]. Geophysical Research Letters, 2021, 48(16). DOI:10.1029/2021GL093581.
[16] CHEN Y C, LIU X E, BI K, et al. Hydrometeor classification of winter precipitation in northern china based on multiplatform radar observation system[J]. Remote Sensing, 2021, 13(24): 5070-5078.
[17] GRAZIOLI J, TUIA D, BERNE A. Hydrometeor classification from polarimetric radar measurements: a clustering approach[J]. Atmospheric Measurement Techniques, 2015, 8(1): 149-170.
[18] 楊淑群, 芮景析, 馮漢中. 支持向量機(SVM)方法在降水分類預測中的應用[J]. 西南農業大學學報(自然科學版), 2006, 28(2): 252-257.
YANG S Q, RUI J X, FENG H Z. Application of support vector machine (SVM) in rainfall categorical forecast[J]. Journal of Southwest Agricultural University(Natural Science), 2006, 28(2): 252-257.
[19] 李海, 尚金雷, 孫婷逸, 等. 一種基于離散屬性BNT的雙偏振氣象雷達降水粒子分類方法[J]. 電子學報, 2021, 49(3): 619-624.
LI H, SHANG J L, SUN T Y, et al. A BNT hydrometeor classification algorithm for dual-polarization radar[J]. Acta Electronica Sinica, 2021, 49(3): 619-624.
[20] MARZANO F S, SCARANARI D, MONTOPOLI M, et al. Model-oriented hydrometeor classification and water content estimate using dual-polarized weather radars[C]∥Proc.of the Radar Conference, 2008.
[21] YANG J, KUN Z, ZHANG G, et al. A Bayesian hydrometeor classification algorithm for C-band polarimetric radar[J]. Remote Sensing, 2019, 11(16): 1884-1894.
[22] BECHINI R, CHANDRASEKAR V. A semisupervised robust hydrometeor classification method for dual-polarization radar applications[J]. Journal of Atmospheric and Oceanic Technology, 2015, 32(1): 22-47.
[23] HAIBO H, YANG B, EDWARDO A G, et al. Adasyn: adaptive synthetic sampling approach for imbalanced learning[C]∥Proc.of the IEEE International Joint Conference on Neural Networks, 2008: 1322-1328.
[24] LIU X Y, WU J X, ZHOU Z H. Exploratory undersampling for class-imbalance learning.[J]. IEEE Trans.on Systems, Man, and Cybernetics. Part B, Cybernetics: a publication of the IEEE Systems, Man, and Cybernetics Society, 2009, 39(2): 539-550.
[25] ELREEDY D, ATIYA A F. A comprehensive analysis of synthetic minority oversampling technique (SMOTE) for handling class imbalance[J]. Information Sciences, 2019, 505: 32-64.
[26] HIEN M N, ERIC W C, KATSUARI K. Borderline over-sampling for imbalanced data classification[J]. International Journal of Knowledge Engineering and Soft Data Paradigms, 2011, 3(1): 4-21.
[27] PRINCE M, PRATHAP J M P. An imbalanced dataset and class overlapping classification model for big data[J].Computer Systems Science and Engineering, 2023, 44(2): 1009-1024.
[28] GARCIA V, SANCHEZ J S, MOLLINEDA R A. On the effectiveness of preprocessing methods when dealing with differ-ent levels of class imbalance[J]. Knowledge-Based Systems, 2012, 25(1): 13-21.
[29] PRASETIYOWATI M I, MAULIDEVI N U, SURENDRO K. The accuracy of random forest performance can be improved by conducting a feature selection with a balancing strategy[J]. PeerJ. Computer science, 2022, 8: e1041.
[30] ASIM Y, MALIK A K, RAZA B, et al. Predicting influential blogger’s by a novel, hybrid and optimized case based reasoning approach with balanced random forest using imbalanced data[J]. IEEE Access, 2021, 9: 6836-6854.
[31] GUPTA S C, GOEL N. Predictive modeling and analytics for diabetes using hyperparameter tuned machine learning techniques[J]. Procedia Computer Science, 2023, 218: 1257-1269.
作者簡介
李 海(1976—),男,教授,博士,博士研究生導師,主要研究方向為機載氣象雷達信號處理及機器學習在氣象雷達中的應用、分布式目標檢測與參數估計、自適應信號處理。
田 眾(1997—),男,碩士研究生,主要研究方向為機載氣象雷達信號處理、機器學習在氣象雷達中的應用。
錢 君(1985—),男,高級工程師,學士,主要研究方向為機載氣象雷達系統。