999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DRO框架下不平衡分類損失函數重加權優化

2025-09-02 00:00:00李佳靜林耿
計算機應用研究 2025年8期

關鍵詞:不平衡分類;數據標簽不確定性;加權標簽分布穩健損失

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)08-024-2428-09

doi:10.19734/j. issn.1001-3695.2024.10.0480

Optimization of re-weighted loss function for imbalanced classification under DRO framework

Li Jiajing’,Lin Geng2+(1.Schooloftticsamp;istcs,jnalUiersitzo57in;2holopuergt;Uversity,Fuzhou ,China)

Abstract:The skewed distributionofclassesoftenleads clasification models toneglecttheimportanceof minorityclasses,favoringthe majorityones,whichcanrender models incapableof accurate classification in multi-classimbalancedtasks.Existingresearch focusesonthe studyof data balancing strategies andloss function tuning,ignoring the problemofuncertaintyin labelinginformation,werelabelsmaybewongornoisyTheuncertaintymakesclasifiercorrectclasificationmorechallenging.Thispaperproposedanewlossfunction,calledweightedlabeldistributionallyrobustKullback-Leibler,whichoptimisedthepredictivedistributionundertheworst-casescenario,toaddressthechangesanduncertaintiesindatadistributionfor theimbalanced clasification task.Basedonadistributionallyrobust framework,thisapproach merged prior informationand label weights tofocus onminorityclasss andadapt to labeluncertainty.Inaddition,this paper proposedasimulation method forimbalanceddatasets thatused MonteCarlosimulations toprovideamorecomprehensiveevaluationof theperformanceof eachlossfunctionunderdiferent classesandatdifferent levelsofquantitativevariance.Experimentalresultsonsimulated, UCI and Kagledatasetsshowthatthe proposed method performs wellwith imbalanced dataandachievesamoderate improvement in top-k accuracy, F1 -scores,precision and recall.

Key words:multi-classimbalanced task;data label uncertainty;weighted labeled distribution robust loss

0 引言

在現實中,數據集往往呈現出一種傾斜的不平衡狀態,即某些類別的樣本數量會遠遠多于其他類別。由于類別之間的數量分布并不一致,當局部或是全局范圍內的少數類別樣本量非常有限時(如圖1所示)[1],少數類別的樣本可用性將極大減少。由于傳統交叉熵損失函數過多關注樣本量多的多數類,使得分類器的決策邊界被拉向多數類(如圖2所示)。在損失優化過程中,分類器也會更傾向于減少多數類樣本的分類錯誤,并且容易將少數類樣本視為噪聲或異常值。此外,隨著不平衡率(imbalancefactor,IF)的上升,分類任務的難度也會隨之上升。此外,不平衡數據也可能存在小間斷、噪聲、類重疊問題[2],不平衡分類問題是機器學習研究領域中一項極具挑戰性的任務。

相較二元分類問題,多元分類在類別的定義和區分上更復雜、更多樣化,在現實應用中也更為普遍,少數類樣本的識別與分類往往更為重要。比如,機械設備的故障原因包含多種不同類型[3],其中普通故障的頻率遠高于特殊故障,迅速識別特殊故障的類型能夠有效提高故障檢修的效率;在醫學領域,疾病根據患者臨床表現可劃分為不同程度[4],精確識別疾病的不同階段有助于醫生制定針對性的治療政策;在網絡安全中,流量異常的不同等級需要采取不同的處理措施[5],有效識別異常等級可以幫助其及時應對,避免事態進一步擴大等。如果只是簡單地將多元分類問題轉換為多組的二元分類問題,這可能會加劇數據的不平衡程度并引起潛在的分類錯誤[6]。在數據集拆分過程,某些類別的樣本數量會變得更少,導致分類難度增大。同時,二元分類器無法捕獲類別之間的相互關系及數據的整體分布,進一步增加了錯誤分類的風險。

圖1不平衡數據的可能形式

Fig.1Formsof imbalancedata

圖2分類器在不同不平衡率下的決策邊界

Fig.2Decision bounds for classifierswithdifferent imbalance ratic

現有的不平衡數據分類方法可大致分為以下兩類:數據層面和算法層面的方法。數據層面是利用采樣技術調整數據集結構,通過增加少數類樣本的過采樣方法,或減少多數類樣本的欠采樣方法來減小類別之間的樣本量差異,重新平衡數據分布[7]。但欠采樣方法會丟棄大部分多數類數據,容易導致有價值信息的樣本丟失,這在數據極度不平衡時是不可行的;過采樣方法是在原有少數類樣本周圍的空間內合成新的數據點,在實際應用中分類器可以利用兩者之間的固有關聯性推測出原始樣本的信息分布,從而產生數據泄露的風險。最新研究中,生成對抗網絡、Mixup數據增強技術[8等方法被用來增強少數類別數據的多樣性,盡可能避免數據泄露。

算法層面則是通過改變學習過程中的優化目標來解決不平衡問題,例如使用成本敏感學習等方法增大少數類別樣本的誤分類懲罰。也有研究通過調整損失函數結構來解決不平衡問題,例如:Ghosh等人[9在CE損失的基礎上引人對稱性提出了RCE損失;Patel等人[10]結合有界性和對稱性,優化了損失函數的穩定性。但上述損失函數十分依賴于數據的質量,而在真實世界中數據往往是具有不確定性的。數據的不確定性可能來自于數據采集過程中的噪聲,也可能來自于數據本身的復雜性和不完整性[1]。此時,對于分類問題來說,一旦給定標簽存在標注錯誤或噪聲,此時損失函數可能會放大標簽信息不確定性的影響,導致分類產生錯誤[12]。即使重新進行人工標注標簽,仍有可能存在標注錯誤,且需耗費較大的時間成本和人力成本。特別地,標簽的不確定性進一步加劇了不平衡分類的挑戰,使得少數類別的樣本數據量進一步銳減,增加正確分類的難度。為解決錯誤標簽的影響,Zhou等人[13]引入了非對稱性,提出AGCE損失和AUL損失,允許通過調節參數靈活地適應不同類別分布。但該損失未能增加少數類樣本的權重,在提升少數類樣本的分類效果上比較有限。因此,本文關注到數據標簽不確定性會進一步加劇類別不平衡的程度以及少數類別樣本的加權策略的不足,提出了一種新的方法來改善分類性能。

本文從類標簽的先驗信息和類別加權的角度出發,在分布穩健優化(distributionallyrobust optimization,DRO)框架下,提出了一種基于類標簽先驗信息的加權標簽分布穩健損失函數(weighted label distributionally robust Kullback-Leiblerloss,WLDR-KLloss),能夠最小化在數據標簽可能存在錯誤、類別極端不平衡的最不利情況下的期望損失,降低兩者對模型性能的負面影響,較好地處理了標簽不確定性下的類別不平衡問題。該損失函數根據數據集先驗分布信息,結合重加權方法調整正則化項的分布權重。當少數類樣本被誤分類時,損失函數會對分類錯誤施加更為嚴厲的懲罰,以提高分類器對少數類別的識別和分類能力。本文貢獻如下:

a)為解決標簽不確定性下的類別不平衡問題,提出了WLDR-KL損失函數,該函數引入基于DRO的機制,通過最小化最不利情況下的預測分布,有效地處理了數據標簽不確定性,提高模型在不確定性數據上的表現。還對正則項進行了加權處理,賦予少數類樣本更高的權重,減緩類別不平衡帶來的影響,引導模型更好地擬合各類別樣本的分布。

b)理論上證明了WLDR-KL損失可以通過閉式表達式來求解,并且在方法實現中應用該表達式進行計算,提高了計算效率和整體穩定性。

c)通過蒙特卡羅方法提出了一種不平衡數據的仿真方法,驗證了所提出損失函數的有效性。

1相關工作

1.1 分布穩健優化

設 x∈X?Rd 為決策變量,目標函數定義為 f(x) : ;函數向量定義為 ,其中 gi(x) (2 :X?R,i=1, …,r。一般優化問題的形式為

infx∈XR{f(x)∣g(x)?0}

當涉及到一個不確定參數 ξ∈Rs 時,式(1)變成了一個不確定優化問題, ξ 表示在優化過程中可能會影響目標函數或約束條件的參數,維度為 s, 。如果 ξ 是一個遵循已知分布的隨機向量,則通常使用隨機優化(stochasticoptimization,SO)來解決這個不確定優化問題。如果 ξ 是在一個不確定集合 U?Rs 中的取值,則問題變成了一個穩健優化(robustoptimization,RO)問題,u定義了不確定參數 ξ 所有可能的取值范圍。此外,如果不知道 ξ 的確切分布但知道它的可能分布集合,則DRO是一種在SO 和RO之間找到一個折中點的方法。

在實際應用中只能獲取有限數量的數據樣本,這些樣本可能無法全面代表所有可能的情況,甚至存在獲取困難的難題。此外,由于政策變動、測量誤差、數據丟失等因素可能對數據分布產生影響,無法人為預見或量化這些因素,所以,真實的數據分布常常是未知的。SO和RO可以幫助決策過程中處理前面提到的不確定性問題。SO假設對數據集的不確定性有充分的了解,比如通過已知的概率分布(從先驗信息、專家意見、歷史數據等因素中推斷得到)進行決策,從而最小化損失函數。而RO則假設對不確定性幾乎不了解,只知道它可能發生的范圍,并最小化在這個不確定范圍內可能出現的最壞情況的成本[13]

1.1.1 SO問題

給定一個結果空間 (Ξ) 及其 σ 代數 F?2(Ξ) ,函數 P:F R是一個概率測度,滿足以下條件:a)概率和為 1:P(Ξ)=1 :b)非負性:對于所有 c)補集 P(Ac)=1-P(A) :d)可列可加性:對于所有可數個不交集的集合 {Ai}i∈I (其中對所有 i∈I,Ai∈FΦ 。

為Borel σ -代數。定義一個 F/B(R) -可測函數 ξ:Ξ Rs 為在概率空間 (Ξ,F,P) 上的隨機向量。SO假設隨機變量的概率分布是已知,可以通過概率分布函數、累積分布函數或其他概率測度 P 計算得到[14]。設 HP εR 為與 P 相關的實值泛函,用于描述隨機優化中的不確定性, HP 可以根據實際應用進行選擇。其中 ε 是在 (Ξ,F) 上的可測函數的線性空間。一般形式的隨機優化可以表示為

當 HP 定義為期望函數形式,即 HP(?)=EP(?) 時,這變成了經典的SO,表示為

infx∈X{|EP[f(x,ξ)]|}

或者:

infx∈X{f(x)∣EP[g(x,ξ)]?0}

1.1.2 RO問題

假設不確定參數 ξ∈Rs 在不確定性集合 U?Rs 上取任意值,RO的目標是計算在所有 ξ∈l 1下的所有可行解中最小的成本解 x* ,優化問題表達為

infx∈X{f(x)∣g(x,ξ)?0,?ξ∈U}

RO在尋找一個即使在最壞情況下也能最小化成本的最優解,即一個最穩健的最優解。可以得到RO的基本形式如下:

infx∈Xsupξ∈U|f(x,ξ)|supξ∈Ug(x,ξ)?0|

1.1.3 DRO問題

DRO被認為是介于RO和SO之間的綜合方法,它結合了RO中的最壞情況方法和SO中的概率信息。在面對數據分布的不確定性時,DRO旨在找到一個即使在最壞情況下也能表現良好的最優解,進一步利用未知潛在分布的一些基本統計特征和結構信息優化決策結果。

設 P?M(Ξ,F) 為包含所有可能的隨機向量 ξ∈Ξ 分布的不確定集合。給定目標函數 f(x,ξ) 和約束函數 g(x,ξ) ,DRO的一般形式可以表示為[15]

類似地,當 HP 取期望函數 EP 時,DRO可以表述為

上述三種優化方法在回歸和分類模型、仿真優化、隨機最優控制、馬爾可夫決策過程均有著廣泛的應用?,F有研究中,Wu 等人[利用DRO解決了訓練集和測試集為不同數據分布的對比學習問題。此外,也有使用DRO處理訓練數據和測試數據之間的分布變化,通過為每個樣本分配一個分布權重,并在最壞情況下優化一個聚合目標來應對數據分布的不確定性[7],而 Zhu 等人[18]利用DRO來捕獲每個樣本對應的標簽信息的不確定,預測類別分布與真實類別分布之間的分布偏移,為每個類標簽分配一個分布權重。這對不平衡問題更為適用。在不平衡問題中,類別分布存在顯著差異,多數類樣本由于數據量較大,模型仍然能夠獲取充足的信息來建立相對穩健的決策邊界。但對于少數類樣本,數據標簽的不確定性會顯著增加分類的困難,進一步削弱了模型在少數類樣本上的穩健性和預測準確度。

因此,本文使用DRO框架處理不平衡狀態下的分類問題,旨在解決兩個主要挑戰。首先,DRO框架能有效處理由于標簽未知或錯誤引起的數據不確定性,其次,有助于提升模型在極端的不平衡情況下對各類別樣本的分類能力。模型通過優化在最不利分布下的性能,減少對特定分布的過擬合風險,改善分類的穩健性,并降低整體錯誤率。

1.2Kullback-Leibler散度

在概率論中,概率質量函數(probabilitymassfunction,PMF)是離散隨機變量在各特定取值上的概率(即分布律)。假設 p 和 q 是定義在狀態空間 上的兩個概率質量函數, X 表示為隨機變量。若 使得 q(x)=0 ,為了確保Kullback-Leibler(KL)散度的定義是有效的,必須有 p(x)=0 成立[19],此時, p 和 q 之間的 KL散度 定義為

其中: p(x) 和 q(x) 分別是離散隨機變量 X 在狀態 x 取值下的PMF值。

KL散度是一種基于信息的概率分布差異度量,度量了概率分布 p 相對于概率分布 q 的信息損失;并且, KL 散度滿足Gibb's不等式,即 (當且僅當 p=q 時等號成立)。在分類任務中,非負特性確保損失函數能夠有效地懲罰預測分布與真實分布之間的偏差,Liang等人[20]將理想核權重引入KL散度以衡量不確定性。本文將KL散度引入損失函數的正則項,衡量預測分布 p 和理想權重 q 之間的信息損失,在訓練過程中,通過損失反饋機制,期望達到預測分布與理想分布完全一致,即 的最優分類狀態。

1.3 重加權方法

重加權方法可以根據不同的策略分為以下三部分:基于先驗信息的權重分配、基于成本指標的權重調整,以及通過設計正則化項減輕不平衡問題。其中,重加權方法的一種經典思路是利用數據的先驗分布信息為不同類別分配權重[21]。常見策略是設計樣本權重與類別頻率成反比,以及通過計算類別的有效樣本數量來決定權重[22]。另一類方法是根據某種成本指標為每個樣本動態分配權重。例如,Lin等人[23使用預測模型的輸出作為權重,對于那些容易分類的樣本賦予較小的權重,而對難以分類的樣本賦予更大的權重。

除了直接調整損失函數的權重分配,另一種方法是引入正則化項,以進一步減輕類別不平衡帶來的影響。比如:Cao等人[24]引入了一個基于類別頻率的邊際項,通過動態調整邊際值來提高模型對少數類別分類錯誤的懲罰程度;Fernando等人[25]則是結合類別頻率和預測類別概率,動態分配樣本權重;Wu 等人[26]不僅使用類別頻率進行重新加權,還添加了正則化項來修改損失梯度,實現了更好的優化。

2加權標簽分布穩健損失函數

面對多分類任務中數據不平衡的復雜性及數據標簽不確定性,本文結合使用了兩種策略設計了WLDR-KL損失:首先,將權重分布引入正則項,調整每個類別在損失函數中的權重,提升損失函數對少數類別樣本的關注度;其次,利用DRO框架來處理數據標簽存在不確定性的問題,即尋找最不利的分布情況下的最優解,減少對特定分布的過擬合風險,改善分類的穩健性。通過權重分布的引入和DRO框架的應用,不僅會最小化模型在最壞情況下的損失,還會控制優化分布與理想權重分布的距離,防止模型過度擬合的極端情況,有效應對標簽不確定性下的類別不平衡問題,從而提升整體分類性能。

利用類標簽的先驗信息計算不平衡數據集的理想權重分布 qν=(q1,…,qK) ,滿足 ,并將 qw 作為KL散度的近似分布,利用KL 散度來衡量概率分布 p 和權重分布概率 qw 之間的信息損失。當分類器對少數類別分類錯誤時,由于賦予少數類別更高的權重,相應的正則項的數值也會增大,從而為這些類別施加更大的懲罰,確保其分類準確性。這里KL散度項定義為

其中: pi 是預測概率集合中類別 i 上的概率值; qwi 是理想權重集合類別 i 上的概率值。

對于任意一個遵循底層真實分布P的數據集 其中 x∈X?Rd 。在DRO框架下,充分考慮了給定的數據標簽可能存在的標注錯誤或噪聲,使得模型在應對極端或不尋常的數據分布時仍能保持一定的穩健性。通過計算預測類別概率分布與真實類別概率分布之間的分布偏差 δk,y(f(x)) ),定義為δk,y(f(x))=fk(x)-fy(x) ,表示預測函數 f 對 x 的第 k 個類別的預測分數與真實分數的差異值。并且,當預測標簽不為真實標簽時,對損失函數施加一個額外的邊緣參數值 ck,y=cyI(y≠ k) 且 cy?0 ,表示為真實標簽的補集的差異邊際值。本文所提出的WLDR-KL損失定義為

其中:集合 :∑p =1,Pk≥0丨定義了一個標準的概率分布形式;正則化參數 λ(λgt;0) 用于控制正則化項對損失函數的影響。本文所提出的WLDR-KL損失函數符合文獻[18]的理論驗證,接下來,通過引理1得到該損失的閉式表達式(封閉解)。

引理1對于任意實值函數向量 f∈RK ,表示為模型對所有類別的預測分數,目標向量 fy 表示為真實類別 y 的概率分布。定義權重向量 q?w=f-fy+cy ,在滿足條件 和 pi?0 的前提下,最優概率分布 p* 可由下式確定:

證明 原始優化問題為

首先利用拉格朗日對偶性理論處理約束條件 ,將問題轉換為

其中: Δ 表示概率向量空間,即所有 pi 值都非負且和為 1 。

構造拉格朗日函數 L(p,η) :

對 L 關于 pi 求偏導并設為零得

解此方程得

為滿足約束條件 ,求解拉格朗日乘子 η 以確定最優解 pi*

將 η 代回 pi ,滿足 Karush-Kuhn-Tucker(KKT)條件 得到

此時 ,pi* 是既滿足非負性也滿足歸一性條件的有效解。

將最優解 pi* 代回初始損失表達式,得到WLDR-KL損失函數的閉式解:

通過最大化分類損失項maxp 找到一種在所有可能的預測分布中最不利的預測概率分布,利用優化模型對潛在“最壞\"情況的反應來提高其對不確定性的適應能力和穩健性。DRO框架可以使得損失函數在實際應用中面對極端情況下的數據分布的偏差或變化時更為穩健。同時,結合數據集的先驗信息設計了KL散度項 KL(p,qw) ,通過最小化KL散度項調整模型在不同類別上的預測概率分布,降低模型的復雜度且避免其對多數類過度擬合而忽略少數類,從而優化整體性能。分布穩健優化的風險最小化問題可以表述為

3不平衡數據數值模擬方法

現有的關于不平衡數據的數值模擬實驗設計往往是為每個類別單獨設置一個均值項不同的正態分布 N(μ,σ2) ,這種方法假設不同類別的數據生成過程是相互獨立的,忽視了類別之間可能存在的相關性和相互影響,并且僅通過均值差異來區分類別,無法反映實際數據中可能的多樣性和復雜性,例如某些類別可能在某些特征上有明顯的重疊或相關性。受文獻[27]啟發,使用MonteCarlo方法隨機模擬生成不平衡數據集,取多組結果平均值來評估所提出損失函數的分類性能。假設 X z , 分別代表原始特征矩陣、不平衡特征矩陣以及類別標簽,其中 X∈Rn×m Z∈Rn×k,y∈[K]:={1,…,K},r n 表示樣本數,m 表示特征數, k 表示類別數。

首先,生成服從多維正態分布 N(0,I) 的矩陣 X ,矩陣中的每一個元素 xi,j 獨立地服從標準正態分布 N(0,1) ,其中 i 表示樣本索引 Δ,j 表示特征索引。利用系數矩陣 β 以及截距項 對X 進行調整,計算得到不平衡特征矩陣 z .

Z=Xβ+1nb

其中:系數矩陣 β∈Rm×k ,截距項 b∈Rk,1n∈Rn 表示全為1的向量。

接下來,將 z 輸入softmax激活函數,將預測映射到概率分布pk:

其中 Φ:pk=(p1,…,pK)∈RK,i=1,…,K

根據條件概率 P(Y=k∣Z=z)=pk ,類別標簽 y 服從多項式分布,即y~Multinomial (p1,p2,…,pK) 。

通過上述模擬方式(模擬示意圖見圖3),得到了不平衡的數據集 {(zi,yi)}i=1n ,對類標簽 y 進行one-hot編碼處理,表示為y∈RK 。在本實驗中,類別數(class)設定為5、10、20,不平衡率分別設定為 5、10、20、50、100 。每次隨機模擬生成1000組數據,每組數據包括5000個樣本,生成的數據集需要滿足以下條件:

a)考慮到真實數據集類別分布的多樣性,這里允許模擬生成的數據集類別分布情況在基本符合預先設定的不平衡率的情況下存在一定數量誤差。設定參數toleranceratio,用于指定在模擬數據集中類別分布可以偏離預設不平衡率的允許范圍。

b)生成的數量誤差的允許范圍應保持在單個數據集數量的 0.8%~4% 。隨著類別數的增加,數據生成的不確定性也隨之增加,toleranceratio設定存在一定的波動。

圖3數值模擬示意圖

Fig.3Illustration of datasimulation

4實驗驗證與結果分析

實驗中分別使用模擬數據和真實數據評估所提出的損失函數性能。實驗環境為Windows系統,內存為32GB,GPU為NVIDIAGeForce3070,CPU為i7-13700F,深度學習框架為PyTorch2.3.1,編程語言為Python3.12.4。

4.1評估指標

為了驗證所提出損失函數在反向傳播機制下,是否能有效減少預測值與真實值存在的偏差,使用meanabsoluteerror(平均絕對誤差,MAE)、meansquare error(均方誤差,MSE)進行評估。MAE、MSE的計算表達式分別為

其中: yi 是真實標簽; 是對應的預測標簽。

top ?k accuary(top ?k 準確率)考慮了模型預測的不確定性,衡量模型在前 k 個最高概率的預測結果中是否包含真實類別,可以更加全面地評估損失函數的性能[28]。在現有的多類別的不平衡問題研究中,往往都使用top-k準確率評估分類性能[29]。因此,本文選擇 k∈{1,2,3} 的top ?k 準確率作為主要評估指標,分析損失函數在不同預測級別的有效性。對于樣本xi 以及對應的真實標簽 yi ,假設模型預測的前 k 個類別為 ,對應的概率值為 pi(1),pi(2),…,pi(k) 。若真實標簽 yi 在模型預測的前 k 個類別中,則該樣本被視為預測正確,否則錯誤。top ??k 準確率可表示為

其中: I(?) 為指示函數,條件成立則取值為1,否則為 0 。

除此之外,宏平均作為一種評估策略,它不受類別樣本數量的影響,能夠確保每個類別都被平等對待,能夠緩解不平衡學習問題導致的性能偏差[30]。使用宏平均下的 precision(精確率)、recall(召回率) F1 -score( F1 值)作為真實數據集的評估指標,相應的計算公式如下:

其中: TPi 和 TNi 分別表示正確分類為 i 類和非 i 類的樣本數;FPi 和 FNi 分別表示錯誤分類為 i 類和非 i 類的樣本數。

4.2 模擬結果

在本實驗中,根據前文提出的不平衡數據模擬方法以及參數設定,模擬生成了類別數為5、10、20,不平衡率分別為5、10、20、50、100共計15個不平衡數據集,每個類別的數據分布均符合指定的不平衡率要求。從每個類別中隨機抽取 80% 的樣本作為訓練集,剩余的 20% 樣本作為測試集。

為驗證所提出的損失函數的有效性,實驗以SimpleNet為分類器,SimpleNet是一種結構簡單、計算效率高的神經網絡架構,適合用于分類任務。優化過程中使用了適應性矩估計(adaptivemomentestimation,Adam)優化,通過計算梯度的一階矩估計(表示為梯度均值)和二階矩估計(表示為方差)來控制模型更新的方向和步長(即學習率)。通過實驗驗證,初始學習速率設置為0.001,學習速率衰減設置為0.1,每50次epoch更新一次,此時模型能更為平穩地收斂到最優解。將WLDR-KL 損失與已有的 CSLosS[31],RLLLoss[10],MAELoss、MSELoss、RCELoss[9],AGCELoss、AULLossS[13],LDR-KL Loss[18]共8種損失函數的分類結果進行比較,分別設置兩種權重:

其中: ni 是類別 i 的樣本數,超參數 β 接近1。

表1展示了不平衡數據集在類別數為5,不平衡率分別為5、10、20、50、100 下的損失函數分類性能。當類別數較少時,各個損失函數的MSE和MAE差異保持在0.3內,DRO框架下的LDR-KL、WLDR-KL損失的MSE、MSE數值保持較低水平,所提出的WLDR-KL損失在所有不平衡情況下能達到最優分類效果。以top-1準確率為主要評估指標,可視化了不同損失函數的實驗結果(圖4)。整體而言,所提出的WLDR-KL損失在考慮最壞情況下的概率分布仍能使得損失誤差值保持較優水平,并結合類別加權效果,top-k準確率提升顯著。

表15類別數據的5種不平衡率分類性能評估

Tab.1Performance metrics of 5-class classification under variousimbalanceratios

圖4所提損失及對比方法在5類別不同不平衡率下的實驗結果Fig.4Experimental results ofWLDR-KL lossand comparisonmethodsatdifferentimbalanceratesfor5-class

當類別數為10時,不平衡數據集在5、10、20、50、100這5種不平衡率下的損失函數分類性能如表2所示。隨著類別數的增多,損失函數之間的評估指標誤差增加,WLDR-KL方法仍能保持較低的預測誤差,且在top-k準確率上均能達到最優狀態。整體而言,在類別數增多的情境下,WLDR-KL損失的誤差值始終保持良好水平,類別加權顯著提高了top-k準確率。由圖5所示,分類性能有了顯著的改善,這充分反映了本文方法的有效性。

表210類別數據的5種不平衡率分類性能評估

Tab.2Performance metrics of 1O-class classification under variousimbalanceratios

續表2

當處于類別數為20的較為極端的情況下,由表3和圖6可以看出,top-k準確率提升效果更明顯,隨著不平衡率的增加,WLDR-KL損失的MSE、MAE達到了最優狀態。這說明DRO框架能夠很好地應對數據可能存在的不確定性,通過優化最壞集合下的預測分布概率及先驗信息的加權處理,所提出的損失函數能夠較好地處理極端情況下的數據不平衡問題。

表320類別數據的5種不平衡率分類性能評估

Tab.3Performance metrics of 2O-class classification under

續表3

imbalance factor:50

imbalancefactor:100

圖5所提損失及對比方法在10類別不同不平衡率下的實驗結果

圖6所提損失及對比方法在20類別不同不平衡率下的實驗結果Fig.6Experimental results ofWLDR-KL loss and comparisonmethodsatdifferentimbalanceratesfor2O-class

由表1~3的實驗結果可知,在不同不平衡率和類別數量組合下的WLDR-KL損失函數表現相對穩定,在多數場景下的表現都能優于其他損失函數,特別在top-k準確率指標上表現突出,即使在多類別和極端不平衡的情況下,模型依然能夠保持較高的準確性。盡管在部分實驗設置下的MSE和MAE指標上未能超越其他方法,但與最優結果差距相對較小,而在關鍵的分類準確性指標top-k準確率上,所提出的損失函數具有明顯優勢,這說明與其他損失函數相比,WLDR-KL更適用于處理不平衡數據集。

綜合來看,在WLDR-KL損失函數中,標簽分布穩健的設計能夠很好地應對數據集存在的標簽不確定性,類標簽加權的設計能夠很好地應對不平衡數據中類別分布的極端情況,在類別數量增多和高不平衡率的情況下,能夠有效適應不平衡數據的特性,更靈活地調整預測分布,從而顯著提升分類準確性,展現了WLDR-KL損失函數在實際應用中的潛力和價值。

4.3數據集及數據預處理

為進一步評估提出方法的性能,選擇4個公開的類別不平衡數據集進行實驗,數據來源于Kaggle、UCIMachineLearningRepository,分別為

a)cropdamages:該數據集包含有關全國不同作物的作物損害信息,包括4個連續變量和4個分類變量,損害類型分為輕微損害、部分損害、重大損害3個類別。

b) machine predictive maintenance:該數據集是由 Matzka[32]發布的反映行業中遇到的真實預測性的維護數據,包括5個連續變量和2個分類變量,分類目標包括5種機器故障類型以及未發生故障。

c)heartdisease:該數據集由Detrano等人[33]收集、開源,包括5個連續變量和9個分類變量,用數字0表示沒有患病,用1、2、3和4分別表示不同程度的疾病。

d)CDCdiabeteshealthindicators:該數據集是由Burrows等人[34]發布的人群體醫療保健統計數據、生活方式調查信息以及糖尿病診斷情況,包括6個連續變量和15個分類變量,用數字0表示沒有患病,用1、2分別表示疾病的不同程度。

數據集的詳細信息如表4所示,預處理工作包括以下步驟:

a)缺失值、重復值和異常值處理:各實驗數據均為實際操作數據,不存在重復值,存在部分異常值也是實際行為產生的,同樣具有代表性,這里認為所有數據均有其表征意義,不予以刪除。由于數據集heartdisease中存在缺失值,使用多重插補法(multipleimputation)中的迭代插補(iterativeimputation),通過構建貝葉斯模型,對數據集中存在的缺失值進行插補。

b)特征篩選:通過計算相關系數矩陣,觀察變量之間是否存在兩兩高度相關的特征,如有則選擇刪除。

c)one-hot編碼:在學習過程,算法容易將分類變量錯誤地解釋為具有自然順序的連續變量,需要將分類變量進行one-hot編碼,將每個類別轉換為一個新的二元變量,保留分類變量的信息。

d)數據拆分:為保證分類器性能評估更具合理性,同樣從每個類別中隨機抽取 80% 的樣本作為訓練集,剩余的 20% 樣本作為測試集。這樣的數據集劃分方法保證了訓練集包含足夠的少數類樣本以完成模型參數的優化訓練。

表4數據集信息

Tab.4Dataset information

4.4真實結果

將訓練集的各類別樣本均勻地分為五等分,利用交叉驗證方法,以top-1準確率為評估標準確定最佳模型參數,利用訓練得到的最優模型參數對測試集進行評估。由于少數類別的樣本數較少,簡單的網絡很難識別出少數類別的特征,導致損失函數的性能評估完全相同,構建了一個具有殘差塊和通道注意力機制的神經網絡,網絡結構如圖7所示。

該網絡先是利用全連接層進行特征維度變換,并在每個卷積層后面加上batchnormalization,穩定訓練過程,加速收斂。接著,殘差塊的設計結合了殘差連接和通道注意力機制,其中,殘差連接通過直接將輸入繞過某些層加入到輸出中,形成“跳躍連接”,保留原始輸入的特征信息;通道注意力機制則是用來增強模型的特征提取和表達能力,能夠更有效地捕捉輸入中的少數類別樣本特征信息,提升模型的整體性能。最后,利用全連接層將特征維度轉換為類別數量,從而得到模型關于每個類別的預測輸出。在優化過程同樣使用了Adam算法,初始學習速率設置為0.001,學習速率衰減設置為0.1,每50次epoch更新一次。

為了綜合評估不同損失函數在模型訓練中的表現,以top-k準確率 值、精確率、召回率作為真實數據集的評估指標。由于沒有使用綜合策略解決數據不平衡問題,所以 F1 值、精確率、召回率可能會受到一定影響,表現較差。在這種情況下,這3個指標更多用于不同損失函數的性能比較。

表5列舉了損失函數在4個數據集上的分類性能,在cropdamages數據集、CDCdiabeteshealth indicators數據集中,WLDR-KL損失在 F1 值和召回率上表現出色;在machine predictivemaintenance數據集中,WLDR-KL損失在top-1Acc上表現最好,達到了 96.6767% ,且在 F1 值和精度上也超過了其他損失函數;在heartdisease數據集中,WLDR-KL損失在 F1 值、精度、召回率上表現最好。本文所提出的WLDR-KL損失在不同數據集上表現出較為均衡的性能,尤其是在 F1 值、精度和召回率上有著較為顯著的優勢,可視化了不同損失在相關評估指標上的性能對比,如圖8所示。綜上所述,WLDR-KL損失結合DRO框架和加權方法的協同作用,能夠在數據不平衡的情況下更準確地進行預測,從而提升了分類效果。

Tab.5Compare classification performance of different datasets

5結束語

在不平衡分類問題中,由于數據標簽可能存在因標注錯誤或噪聲導致的標簽信息不確定性,這會加大模型正確分類不平衡數據的難度。因此,本文在DRO框架下,將先驗信息引入損失函數,提出了一個新的基于類標簽先驗信息的類別加權損失函數,通過最小化KL散度調整模型對每個類別的關注程度,優化最不利集合下的輸出概率分布,使其更接近于真實分布,從而提高對少數類別的識別和分類能力。實驗證明了提出的WLDR-KL損失的有效性,各個評估指標得到了不同程度的提升。但靜態的加權策略無法實時調整在訓練過程中樣本分布和模型預測的不確定性變化,未來的工作可考慮探索“動態 + 自適應”的加權策略,更好地捕捉數據中的復雜特征和變化。

參考文獻:

[1]Sáez JA,Krawczyk B,Woiniak M. Analyzing the oversampling of different classes and types of examples in multi-class imbalanced datasets[J]. Pattern Recognition,2016,57:164-178.

[2]蘇逸,李曉軍,姚俊萍,等.不平衡數據分類數據層面方法:現 狀及研究進展[J].計算機應用研究,2023,40(1):11-19.(Su Yi,Li Xiaojun,Yao Junping,etal.Data-level methods of imbalanced data classification:status and research development [J].Application Research of Computers,2023,40(1):11-19.)

[3]Xu Haifeng,Pan Haiyang,Zheng Jinde,et al.Intellgent fault identification in sample imbalance scenarios using robust low-rank matrix clasifier with fuzzy weighting factor[J].Applied Soft Computing, 2024,152:111229.

[4]Li Dengao,Zheng Chao,Zhao Jumin,etal.Diagnosis of heart failure from imbalance datasets using multi-level classification [J].Biomedical Signal Processing and Control,2023,81:104538.

[5]Sun Peishuai,Si Chengxiang,Li Shuhao,et al.A targeted adversarial attack method for multi-classification malicious traffic detection C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2024:4765-4769.

[6]Wang Shuo,Yao Xin. Multiclass imbalance problems:analysis and potential solutions[J]. IEEE Trans on Systems,Man,and CyberneticsPartB,Cybernetics,2012,42(4):1119-1130.

[7]王佳琦,袁野,朱永同,等.基于自適應重加權和正則化的集成 元學習算法[J].計算機應用研究,2024,41(6):1749-1755. (Wang Jiaqi,Yuan Ye,Zhu Yongtong,et al.Ensemble meta net based on adaptive reweight and regularization [J]. Application Research of Computers,2024,41(6):1749-1755.)

[8]閆婧,趙迪,孟佳娜,等.基于數據增強和擴張卷積的ICD 編碼 分類[J].計算機應用研究,2024,41(11):3329-3336.(Yan Jing,Zhao Di,Meng Jiana,et al.ICD coding classification based on data augmentation and dilated convolution [J].Application Research of Computers,2024,41(11):3329-3336.)

[9]Ghosh A,Kumar H,Sastry PS.Robust loss functions under label noise for deep neural networks [C]// Proc of the 31st AAAI Conference on Artificial Intellgence.Palo Alto,CA:AAAI Press,2017: 1919-1925.

[10]Patel D,Sastry P S. Memorization in deep neural networks: does the loss function matter?[C]//Proc of the 25th Pacific-Asia Conference on Knowledge Discovery and Data Mining.Berlin:Springer,2021: 131-142.

[11] KendallA,Gal Y. What uncertainties do we need in Bayesian deep learning for computer vision?[C]//Proc of the 31st International Conference on Neural Information Processing Systems.New York: Curran Associates Inc.,2017:5580-5590.

[12] Huang Yingsong,Bai Bing, Zhao Shengwei,et al. Uncertainty-aware learning against label noise on imbalanced datasets [C]//Proc of the 36th AAAI Conference on Artificial Intelligenc.Palo Alto,CA:AAAI Press,2022:6960-6969.

[13]Zhou Xiong,Liu Xianming,Jiang Junjun,et al.Asymmetric loss functions for learning with noisy labels[C]//Proc of the 38th International Conference on Machine Learning. 2O21:12846-12856.

[14]Birge JR,Louveaux F.Introduction to stochastic programming[M]. 2nd ed.Berlin:Springer,2011.

[15]Lin Fengming,Fang Xiaolei,Gao Zheming.Distributionally robust optimization:a review on theory and applications[J].Numerical Algebra,Control amp; Optimization,2022,12(1):159.

[16]Wu Junkang,Chen Jiawei,Wu Jiancan,et al.Understanding contrastivelearning via distributionally robust optimization[C]//Proc of the 37th International Conference on Neural Information Processing Svsteme New Ynrk.Curran Aceociatee Inc2023.23297-23320

[17]Duchi JC,Namkoong H. Learning Models with uniform performance via distributionally robust optimization[J].The Annals of Statistics,2021,49(3) : 1378-1406.

[18]Zhu Dixian,Ying Yiming,Yang Tianbao.Label distributionally robustlosses for multi-class classification:consistency,robustness and adaptivity[C]//Proc of the 4Oth International Conference on Machine Learning. 2023:43289-43325.

[19]Shenoy PP. Mutual information and Kullback-Leibler divergence in the Dempster-Shafer theory [M]//Belief Functions: Theory and Applications.Cham:Springer,2024:225-233.

[20]Liang Zhizheng,ZhangLei,LiuJin.Anovel multiple kernellearning method based on the Kullback-Leibler divergence [J]. Neural Processing Letters,2015,42(3):745-762.

[21]Li Yanting,Jin Junwei,Tao Hongwei,et al. Complemented subspacebased weighted collaborative representation model for imbalanced learning[J].Applied Soft Computing,2024,153:111319.

[22]Cui Yin,Jia Menglin,Lin TY,et al. Class-balanced loss basedon effctive number of samples [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9268-9277.

[23]LinTY,GoyalP,GirshickR,etal.Focal loss fordenseobject detection[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2017: 2999-3007.

[24]Cao Kaidi,Wei C,GaidonA,etal.Learningimbalanced datasets with label-distribution-aware margin loss[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. New York: Curran Assciates Inc.,2019:1567-1578.

[25]Fernando K R M,Tsokos C P. Dynamically weighted balanced loss: class imbalanced learning and confidence calibration of deep neural networks[J]. IEEE Trans on Neural Networks and Learning Systems,2021,33(7):2940-2951.

[26]Wu Tong,Huang Qingqiu,Liu Ziwei,etal.Distribution-balanced lossfor multi-label classification in long-tailed datasets[C]//Procof the 16th European Conference on Computer Vision. Cham: Springer, 2020: 162-178.

[27] Zhang Chihao,Chen Yilingelaine,Zhang Shihua,etal. Informationtheoretic classification accuracy:a criterion that guides data-driven combination of ambiguous outcome labels in multi-class classification [J].Journal of Machine Learning Research,2022,23(341): 1-65.

[28]Lapin M,Hein M,Schiele B.Loss functions for top ??k error:analysis and insights [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1468-1477.

[29]Garcin C, Servajean M,Joly A,et al.Stochastic smoothing of the top-h calibrated hinge loss for deep imbalanced clasification [C]// Procof the 39th International Conference on Machine Learning. 2022: 7208-7222.

[30]KimY,KimJH,KimYM,et al.Predicting medical specialtyfrom text based on a domain-specific pre-trained BERT[J]. International Journal of Medical Informatics,2023,170:104956.

[31]CrammerK,SingerY.Onthealgorithmic implementation of multiclasskernel-based vector machines[J].Journal of Machine LearningResearch,2001,2:265-292.

[32]Matzka S.Explainableartificial intelligence for predictive maintenance applications [C]//Proc of the 3rd International Conference on Artificial Intelligence for Industries.Piscataway,NJ: IEEE Press, 2020:69-74.

[33]Detrano R,Janosi A,Steinbrunn W,et al.International application of a new probability algorithm for the diagnosis of coronary artery disease[J].The American Journal of Cardiology,1989,64(5): 304-310.

[34]Burrows NR,HoraI,GeissL S,et al.Incidence of end-stage renal disease atributed to diabetes among persons with diagnosed diabetes - United States and Puerto Rico,2000—2014[J].Morbidity and Mortality Weekly Report,2017.66(43):1165-1170.

主站蜘蛛池模板: 欧美日韩一区二区三区在线视频| 国产成年无码AⅤ片在线| 日本免费a视频| 日韩免费毛片| 亚洲69视频| 在线日韩一区二区| 国产精品久久久久久久伊一| 日本黄色不卡视频| 日韩欧美中文| 无码啪啪精品天堂浪潮av| 人妻精品久久无码区| 国产产在线精品亚洲aavv| 亚洲中文字幕av无码区| aⅴ免费在线观看| 国产91特黄特色A级毛片| 伊人色婷婷| 国产精品观看视频免费完整版| 国产微拍一区二区三区四区| 在线播放真实国产乱子伦| 亚洲一区二区三区在线视频| 国产精品漂亮美女在线观看| 亚洲精品图区| 国产69囗曝护士吞精在线视频| 国产精品视频猛进猛出| 国产伦片中文免费观看| 波多野一区| 无码高潮喷水专区久久| 亚洲成人在线网| 在线播放国产一区| 粉嫩国产白浆在线观看| 99热精品久久| 成人国产免费| 午夜久久影院| 国产新AV天堂| www.99精品视频在线播放| 第九色区aⅴ天堂久久香| 亚洲精品成人片在线观看| av一区二区三区高清久久| 亚洲婷婷丁香| 视频在线观看一区二区| 91po国产在线精品免费观看| 国产成人精品第一区二区| 中文字幕免费视频| 精品视频福利| 亚洲精品男人天堂| 992Tv视频国产精品| 2020国产精品视频| 国产在线拍偷自揄拍精品| 国产在线专区| 内射人妻无码色AV天堂| 久久9966精品国产免费| 欧美三級片黃色三級片黃色1| 国产日本视频91| 亚洲中文字幕国产av| 亚洲精品欧美日本中文字幕| 黄色免费在线网址| 国产精品三区四区| 国产簧片免费在线播放| 免费中文字幕在在线不卡| 欧美中文字幕一区| 免费久久一级欧美特大黄| 毛片网站在线看| 久久人搡人人玩人妻精品一| 久久精品欧美一区二区| 精品无码一区二区三区电影| 日韩小视频在线播放| 91美女视频在线| 手机精品福利在线观看| 成人福利在线观看| 超碰免费91| 97色婷婷成人综合在线观看| 在线看国产精品| 婷婷成人综合| 亚洲日韩精品伊甸| 久久精品人人做人人综合试看| 婷婷色中文网| 国产特一级毛片| 五月激情综合网| 四虎影院国产| 视频一本大道香蕉久在线播放| 首页亚洲国产丝袜长腿综合| 国产一区二区人大臿蕉香蕉|