




















摘 要:在訓練集存在噪聲標簽或類別不平衡分布的情況下,深度神經網絡具有過度擬合這種有偏差的訓練數據的不良趨勢。通過設計適當的樣本權重,使用重加權策略是解決此問題的常用方法,但不適當的重加權方案會給網絡學習引入額外的開銷和偏差,僅使用重加權方法很難解決有偏差分布下網絡的過擬合問題。為此,建議將標簽平滑正則化和類裕度正則化與重加權結合使用,并提出了一種基于自適應重加權和正則化的元學習方法(ensemble meta net,EMN),模型框架包括用于分類的基本網絡和用于超參數估計的集成元網。該方法首先通過基本網絡獲得樣本損失;然后使用三個元學習器基于損失值以集成的方式估計自適應重加權和正則化的超參數;最終利用三個超參數計算最終的集成元損失更新基本網絡,進而提高基本網絡在有偏分布數據集上的性能。實驗結果表明,EMN在CIFAR和OCTMNIST數據集上的準確率高于其他方法,并通過策略關聯性分析證明了不同策略的有效性。
關鍵詞:噪聲標簽; 不平衡; 元學習; 重加權; 正則化
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2024)06-021-1749-07
doi:10.19734/j.issn.1001-3695.2023.09.0501
Ensemble meta net based on adaptive reweight and regularization
Abstract:Deep neural networks tend to overfit to biased training data when there are noisy labels or imbalanced class distributions in the training set. Using reweighting strategies with appropriate sample weighting is a common method to address this issue. However, improper reweighting schemes will introduce additional overhead and bias to the network’s learning process, it is difficult to solve overfitting problems in biased distribution networks using only reweighting methods. To address this problem, this paper proposed a method that combined label smoothing regularization, class margin regularization, and reweighting, and presented an EMN method based on adaptive reweighting and regularization, which consisted of a base network for classification and an ensemble meta-net for hyperparameter estimation. The method first obtained the sample loss through the base network, then used three meta-learners to estimate the hyperparameters of adaptive reweighting and regularization in an integrated manner based on the loss, and finally used the three hyperparameters to calculate the final ensemble meta-loss and update the base network, thereby improving its performance on biased distribution datasets. Experimental results demonstrate that EMN achieves higher accuracy on CIFAR and OCTMNIST datasets compared to other methods, and the effectiveness of diffe-rent strategies are demonstrated through policy correlation analysis.
Key words:noise label; imbalance; meta learning; reweight; regularization
0 引言
深度神經網絡由于其強大的表示能力,在各種現實世界的應用中大多數情況下都取得了顯著的性能[1]。現在的絕大多數研究已經表明,這種成功主要依靠來自真實世界所收集的具有高質量和專業性標注的大規模數據集[2]。然而,當數據集存在較大偏差分布時,深度神經網絡在訓練過程中很容易出現過度擬合,進而導致網絡在測試階段使用測試集進行評估時性能較差,因此在具有偏差分布的訓練集上訓練一個魯棒性和泛化性較強的模型是非常困難的。
對于訓練集來說,偏差分布現象主要包括噪聲標簽和類別不平衡兩種常見類型。具有噪聲標簽分布的數據通常來說是不可靠的,因為這些數據的標簽會被誤標注為錯誤的標簽,給模型訓練帶來了很大的負面影響。據相關報道,來自真實世界的數據集大多都存在一定程度的噪聲標簽,例如,JFT200M數據集中約有20%左右的噪聲標簽[3]。蘇逸等人[4]指出偏離期望值的數據會對數據分析帶來較大的干擾。另一個經常遇到的偏差分布為不平衡分布,主要表現為多數類的樣本數量大于少數類的樣本數量。這會導致模型參數在學習的過程中具有向多數類數據分布過擬合的趨勢,最終導致所學習到的深度神經網絡模型在少數類數據上表現不佳。例如,Chest X-Ray數據集中的不平衡比例達到了38.3%[5],在這種數據集上進行常規訓練會影響模型的泛化能力[6]。因此,針對偏差分布的數據集設計合理的算法進而得到一個魯棒性較強的深度學習網絡模型具有至關重要的意義。
最近的研究者提出了許多方法嘗試改善這一問題,最直觀的想法是通過數據重采樣方法對少數類進行過采樣或對頭類進行欠采樣并選擇標價良好的訓練數據來嘗試糾正網絡參數的學習過程[7]。李昂等人[8]從特征選擇角度對數據重采樣方法進行了總結和和分析,不適當的過采樣和欠采樣的數據重采樣方法將會損害模型的表征學習能力,影響最終模型在測試集上的性能。對于過采樣方法來說,對少數類的過采樣會導致模型在多數類上的性能下降,對多數類的欠采樣會影響模型在少數類上的性能下降。一種更加通用的方法是重加權方法,通過降低噪聲標簽的權重或者為少數類分配較大的權重是重加權方法的主要思想[9]。基本的重加權思想,例如基于類頻率的重加權方法,通過先驗統計信息在計算損失函數的過程中為不同類數據分配不同的權重,基于樣本置信度的重加權方法(focal loss)在計算損失函數的過程中基于損失值的動態變化來調整當前樣本的權重[10]。顧永根等人[11]提出了一種聯邦學習機制,通過估計一個預估函數來緩解不平衡數據造成的聯邦模型精度下降的問題。Zheng等人[12]利用主動學習(active learning)專注挑選數據集中損失值較低的樣本以嘗試解決噪聲標簽問題。樊東醒等人[13]利用挑選重點缺失特征添補少數類樣本提高了不平衡分類的效果。自步學習(self-placed lear-ning)基于樣本的輸出置信度按照一定的順序引導網絡學習[14]。
基于上述分析,對于類別不平衡問題來說,具有較高損失值的樣本更有可能是少數類數據,對于噪聲標簽問題來說,具有較小損失值的樣本更有可能是標簽正確的樣本,為這些樣本分配較大的權重可以為深度神經網絡的訓練提供更好的梯度信息。然而事實上,在沒有無偏差分布的數據分布的前提下,針對偏差分布的數據集的處理在本質上存在模糊性和不確定性。為了緩解這一現象,基于元權重網絡學習的方法(meta weight net,MWN)提出了一種自適應重加權的方法,通過引入一個小的元數據集數據作為無偏差分布的數據代理,并設計了一種可學習的元權重網絡來模擬重加權函數,該網絡在訓練過程中可以根據元數據在基本網絡上的損失大小動態更新該重加權網絡參數,從而模擬一個匹配訓練數據的加權函數[15]。
雖然MWN可以緩解上述問題,但常受限制于元數據的規模,當元數據的規模較小時,MWN經常訓練失敗。本文將兩種正則化方法標簽平滑和類裕度引入基于元權重的重加權網絡中,并進一步擴展了這兩種方法的可學習性,提出了自適應標簽平滑和自適應類裕度方法,并將其與自適應重加權結合形成一個可以進行集成學習的框架。該方法通過以集成的方式同時估計重加權和正則化的超參數,通過在更大的超參數范圍空間中搜索可靠的超參數,可以獲取魯棒性和泛化性較強的用于估計重加權和正則化的顯式函數。
綜上所述,本文的主要貢獻如下:a)提出了一種新的集成學習方法,將正則化納入重加權策略,形成一種新的結合元學習的集成學習框架,通過元學習的方法在較大的超參數空間中搜索合適的超參數;b)實驗表明,將自適應正則化和自適應重加權進行結合的策略在有偏差分布的訓練數據上表現良好,這表明本文集成元學習具有較好的泛化能力,這為有偏差分布的數據訓練提供了啟發式的解決方案;c)通過實驗找到了不同策略組成的集成元網與性能之間的關系,自適應類裕度方法對解決不平衡問題效果較好,標簽平滑對解決噪聲標簽問題效果較好。
1 相關工作
1.1 重加權方法
重加權的基本思想是為每一類或者每個樣本計算損失的過程中分配合適的權重,這可以促進分類器向著更好的分類邊界的方向進行建模[16]。重新加權策略旨在根據一些先驗知識為訓練期間的每個訓練樣本分配一個公平的權重以調整網絡參數的學習過程。目前的重加權函數的表現形式主要可以分為基于損失值的單調遞增的加權函數和基于損失值單調遞減的加權函數兩大類。第一種形式主要關注在類別不平衡分布問題中損失值較大的樣本。例如,Wang等人[17]使用類頻率的倒數作為加權函數的參考,Lin等人[10]使用基于樣本損失值作為加權函數的參考。第二種形式更多關注噪聲標簽任務的損失值較小樣本。例如,Zheng等人[12]基于主動學習的思想在模型訓練的過程中挑選損失值較小的樣本;姚佳奇等人[18]提出了一種加權的成對損失函數WPLoss調整正負樣本的權重大小。雖然重加權方法可以在一定程度上緩解偏差分布帶來的網絡學習偏差,但加權函數復雜的判斷規則和針對不同數據集的繁瑣的超參數的調整過程讓這一方法缺乏靈活性。
1.2 正則化方法
標簽平滑正則化方法的目的是提高分類問題的泛化能力,使用原本的硬標簽訓練可能會讓模型在學習的過程中過度自信。近年來,研究人員提出了許多不同的標簽平滑方法來解決這一問題,Zhang等人[19]提出了一種在線標簽平滑的方法,為真實標簽和非真實標簽提供了更好的建模方式。另一種常見的正則化方法是類裕度,通過調整不同類分類邊界的裕度來增加類間方差,使得分類器在類邊界上更加傾向于將少數類分類正確。 文獻[20]的學習目標是具有更加緊密的類內間距和更大以及更加靈活的類間可分性的特征空間。受此啟發,本文將兩種正則化方法與重加權進行結合使用。
1.3 元學習方法
元學習的基本思想是通過一個元學習器利用有限的元數據基于主任務的學習經驗通過有限的迭代次數為具體的機器學習算法計算最合適的超參數,以快速適應新的任務。元學習機制可用于估計樣本的權重因子,例如使用貝葉斯函數近似器的MentorNet[21]、使用多層近似器的元權重網和使用影響函數作為近似器的L2RW[9]。FSR提出了一種基于元學習的快速樣本重加權方法,該方法可以從歷史中學習來構建代理獎勵數據和通過特征共享來降低優化成本[22]。盡管這些現有方法可以較為靈活地為有偏差的訓練數據分配樣本權重,但當元數據的數據規模較小時,從元數據中傳輸的元信息規模受到限制,元學習訓練過程經常失敗,通過元學習訓練的模型泛化能力仍然很弱。
2 理論分析
2.1 問題假設
對于圖像多分類問題來說,本文假設存在一個具有c類的多類分類任務,假設訓練數據是從未知分布Ptrain中采樣的,測試數據是從未知分布Ptest中采樣的。訓練集可以使用D={(xi,yi)}Ni=1來表示,其中i∈[1,N],xi表示第i個樣本實例,yi表示該樣本的真實標簽。多分類任務的學習目標是學習一個由θ進行參數化的網絡模型f(·,θ),該模型可以最小化分類誤差,即最小化yi≠arg max f(xi,θ)。為了最小化這一項,使用交叉熵損失來計算每個樣本的損失,該損失表示為
其中:L(·)為似然函數,代表單個樣本的損失函數;n為小批量數據大小,在深度學習訓練過程中通常使用小批量梯度下降法代替整體梯度下降法來優化迭代過程。一般來說,測試集數據是分布均衡且不存在噪聲標簽分布的,當訓練集存在類不平衡分布和噪聲標簽分布時,由于訓練集和測試集之間的分布不匹配,在訓練集上訓練的模型通常在測試集上表現不佳。當訓練集存在類不平衡和噪聲標簽時,交叉熵會使模型產生錯誤的分類決策,使得模型在學習的過程中過擬合到錯誤的類別上,從而導致模型在測試集上的準確性顯著下降。為了解決這一問題,有必要重新制定無偏訓練的訓練策略。
2.2 重加權方法
重加權的思想是基于樣本重新加權,源于重要性抽樣,其目的是為訓練樣本分配不同的權重,以糾正有偏差的分布帶來的過擬合的問題。在類不平衡問題中,期望通過分配更大的權重來優先考慮少數樣本。在噪聲的標簽問題中,期望分配較小的權重來抑制有噪聲的樣本。樣本重加權可以表述為
其中:wi表示訓練集中第i個樣本的重加權因子。雖然重加權可以在一定程度上緩解由于訓練集和測試集分布不匹配帶來的偏差問題。然而,由于加權函數通常與每類樣本數量相關,如CB Loss需要提前知道數據集中每一類數據的具體數量才能確定其具體公式的超參數,在不參考無偏分布的情況下推導顯式的重加權函數較為困難。因此,當數據集存在噪聲標簽或類別不平衡分布的情況時,單純使用重加權方法很難解決對應的問題。為此,可以利用其他正則化方法的特性來輔助解決。
2.3 正則化方法
2.3.1 標簽平滑正則化
標簽平滑正則化的主要作用是提高模型的泛化能力,為了防止模型對原始數據的標簽過于依賴,在訓練過程中將原始的硬標簽轉換為軟標簽,從而讓網絡在學習過程中提高網絡特征提取層的表達能力。
其中:yi是一個c維向量,每個維度的元素值(0或1)表示當前樣本是否屬于該類數據;k表示yi的真實類別;σi是樣本xi的標簽平滑超參數,經驗上σi的取值為[0,1];LS-CE表示經過標簽平滑后的CE損失。從式(4)可以看出經過標簽平滑后,來自于真實標簽的損失值的貢獻會減少,從而可以避免因過度相信當前樣本而導致出現網絡過擬合的現象。因此,這可以改善因噪聲標簽導致網絡學習到錯誤的特征提取過程,從一定程度上提高網絡的泛化能力。
2.3.2 類裕度正則化
類裕度正則化是一種對模型輸出進行二次處理的正則化手段,可以從一定程度上鼓勵模型的分類器產生較大的類間距離和較小的類內距離。這會促進模型學習到更加清晰的邊界,從而緩解因訓練集數據分布不均衡導致的模型參數過擬合到多數類的現象。通過修正模型輸出可以改善網絡的過擬合現象。
經過類裕度正則化后,模型輸出的logit會降低,從而在后續分類器階段計算softmax的過程中減少其屬于類別k的概率,這會促使模型分類器的學習從而輸出更加合適的f(xi,θ)i,以便在測試階段提高對少數類別分類的準確性。
為解決噪聲標簽和類別不平衡問題,重加權方法在訓練過程中通過設計合適的樣本權重改善模型的學習,但由于其較難的調參規則以及較弱的任務適應性,重加權方法往往很難應用于實際過程。受到元學習和集成學習的啟發[23],本文將正則化引入重加權方法中,設計了一種自適應重加權和正則化的集成元學習算法,以解決噪聲標簽和類別不平衡問題。
3 基于自適應重加權和正則化的集成元學習算法
本文提出的EMN集成元學習算法的總體框架如圖1所示,由用于分類任務的基本網絡和用于超參數估計的集成元網兩部分組成。其中基本網絡包括特征提取器和分類器,特征提取器用于抽取視覺圖像特征,分類器輸入所抽取的視覺圖像特征用于后續分類器完成多分類任務以及為后續集成元網估計超參數提供損失值。集成元網由重加權網絡、標簽平滑網絡和類裕度網絡三部分組成,用于計算自適應重加權損失因子、自適應標簽平滑損失因子和自適應類裕度因子,然后使用集成元損失用于后續模型訓練。
3.1 元學習器模塊
傳統元學習的任務目標是讓模型能夠利用已有模型的知識和經驗快速適應新的數據集,相比于使用新數據集直接微調原模型的訓練效率要提高很多。文獻[9]提出可以利用元學習器配合基本網絡學習來快速地搜尋合適的超參數以加快網絡學習的進度,但其消耗較大。本文使用了一種基于損失的元學習器模塊,只需要花費兩個線性層的存儲成本就可以讓網絡獲得快速學習新任務的能力。
基于損失的元學習器如圖2所示,其目的是為了擬合一個輸入損失輸出超參數的非線性函數,理論上兩個線性層構建的網絡即可模擬任意一個非線性函數。為了讓擬合的非線性函數能夠擬合得更好并限制其輸出范圍,在兩個線性層中間插入ReLU激活函數以及在輸出前使用sigmoid激活函數,通過使用元學習器即可在網絡中實現學習子任務的目的。樣本xi首先輸入到基本網絡中得到基本損失,然后經過第一個線性層得到初步的特征表示H1。
H1=T1(L(f(xi),yi))(7)
進一步使用ReLU激活函數對輸入進行截斷,得到階段后的初步特征S1。
S1=ReLU(H1)(8)
然后經過第二個線性層得到進一步的特征表示H2。
H2=T2(S1)(9)
最后將輸出經過sigmoid激活函數得到輸出ε,將輸出限制在[0,1],以適應超參數的正常取值范圍。
ε=sigmoid(H2)(10)
為方便表示整個過程,記元學習器為一個可學習的函數M(·,θ),該函數表示為當基本網絡參數θ固定時,樣本xi的當前輸出超參數為ε=M(xi,θ),集成元網可以通過構造多個元學習器同時完成多個子任務超參數的學習目標。
3.2 集成元網模塊
為解決重加權超參數調節較為復雜造成的訓練成本較高的問題,本文使用標簽平滑和類裕度兩種正則化方法與重加權進行結合形成一種可學習的集成元網以緩解這一現象。如圖3所示,本文使用了三個元學習器分別學習不同任務的超參數以省去針對不同數據集大量的調參過程,并為基本網絡更新階段提供更加合適的梯度信息來更新基本網絡。
3.2.1 自適應重加權損失
重加權的主要作用是對小批量訓練數據中的每一個樣本施加一個合適的權重以重新調整每個樣本損失對網絡參數更新的貢獻。重加權元學習器基于基本分類網絡的損失計算當前樣本xi的自適應重加權因子來自適應調整每個樣本的當前重加權因子wi,進而得到自適應重加權后的損失值Lw,形式如下:
3.2.2 自適應標簽平滑損失
標簽平滑通過減少當前樣本標簽的置信度,在訓練過程中將原始的硬標簽轉換成軟標簽,使得網絡可以在學習真實類別的特征時也學習到其他類的特征。自適應標簽平滑基于基本網絡的一次損失值大小來自適應更新每個樣本當前標簽平滑因子σi,進而得到自適應標簽平滑后的損失值Lσ,形式如下:
3.2.3 自適應類裕度損失
類裕度基于先驗知識通過調整不同類的分類邊界的偏好以促進更完善的判別特征學習,促進較大的類間距離和較小的類內距離。 自適應類裕度基于基本網絡的一次損失值大小來自適應更新每個樣本當前類裕度因子μi,進而得到自適應類裕度后的損失值Lμ,形式如下:
為促使類裕度學習因子μi能夠沿著更好的方向進行學習,使用γi計算同一類的訓練集和測試集之間的標簽分布差異,將其作用于類裕度因子。
3.2.4 集成元損失
集成元損失將重加權和正則化結合形成一個可以聯合更新的集成損失,省去了單獨優化單個超參數的過程,大大節省了估計超參數所耗費的時間。集成元損失主要包括重加權損失、標簽平滑損失和類裕度損失三個損失函數,根據式(11)~(13),經過聚合后的單樣本集成元損失LEMN表示為三個損失函數的加權求和形式。
LEMN=t1Lw+t2Lμ+t3Lσ(15)
其中:t1~t3是三個損失權重調節因子,用于控制三個損失對最終損失的貢獻程度。本文對于類別不平衡實驗設置權重調節因子t1、t2和t3分別為0.25、0.5和0.25;對于噪聲標簽實驗設置為0.25、0.25和0.5。由于本文算法包含對基本網絡和集成元網的迭代更新,更新過程較為困難,所以提出了一種三階段訓練法來加速基本網絡和集成元網的參數更新速度。
3.3 三階段集成元學習訓練方法
傳統的元學習算法的流程一般分為兩個嵌套循環來訓練基本網絡和元學習器。本文提出了一種三階段訓練法來加速集成元網的訓練,具體流程如圖4所示。總體框架主要包括兩個模塊的訓練:由θ參數化用于多分類任務的基本網絡訓練和包含三個元學習器由Φ參數化的集成元網的訓練,具體表現為以下三個階段的訓練。
a)第一階段:對基本網絡的偽更新。在第一階段的訓練過程中,基于小批量采樣的數據訓練法來搜索更好的網絡參數,在每一次迭代過程中,從訓練集中采樣一小批量數據用來評估所學習到的基本網絡參數的好壞。當集成元網參數固定時,通過在基本網絡上執行梯度下降算法可以學習到此時在三個超參數固定的情況下基本網絡的最優參數,為了加速訓練過程,使用一次梯度下降來代替整體最優解:
θt(Φ)=θ1-ξ1θLEMN(16)
其中:ξ1是基本網絡的學習率;θLEMN表示損失LEMN沿著基本網絡計算的梯度信息,通過執行單步的梯度下降模擬基本網絡在t時刻的最優解θt。
b)第二階段:對集成元網的更新。在第二階段的訓練過程中,將在第一階段訓練得到的最佳基本網絡參數θt用于集成元網訓練。集成元網可以通過元數據對基本網絡上計算的損失LEMN進行更新。
其中:x(m)i和y(m)i表示從元數據集中采樣的第i個樣本的實例和對應的標簽值。元數據集樣本是由人工劃分的不存在噪聲標簽和不平衡分布的一個小規模數據集,每一類數據的數量相等。類似于第一階段訓練,采用一次梯度下降的過程來模擬當基本網絡參數固定時集成元網所學習到的最優參數。
c)第三階段:對基本網絡的實際更新。集成元網從元數據中獲取對應的元知識更新自身三個用于模擬超參數的集成元網的網絡參數后,固定當前集成元網的參數可以指導基本網絡的無偏訓練:
θt+1=θt-ξ1θL′EMN(19)
其中:L′EMN表示當集成元網更新后使用第一階段輸入的訓練樣本數據重新進行計算得到的集成元損失,該損失用于第三階段對基本網絡的實際更新過程。
4 實驗與分析
4.1 數據集說明
為了驗證本文集成學習在針對不平衡分類任務和噪聲標簽任務的有效性,本文使用了高質量人工標注的CIFAR數據集以及OCTMNIST數據集進行算法評估,如表1所示。
a)CIFAR數據集包括CIFAR10和CIFAR100,是圖像分類領域經常使用的最具有廣泛意義的代表性數據集,來自于真實世界的圖像經過壓縮,每個樣本為具有32×32×3像素分布的RGB圖像,所有樣本的標簽均標注準確無誤,訓練集和測試集數據分布均衡[24]。
b)OCTMNIST數據集是近年由上海交通大學最新收集的數據集,通過將以往收集的視網膜OCT圖像分類數據集進行分辨率壓縮建立的醫學圖像數據集,訓練集分布不均衡,測試集分布均衡[25]。
4.2 數據集預處理
本文主要針對類別不平衡和噪聲標簽情況下的偏差分布進行實驗,并針對不同的任務進行了對應的數據預處理。對于不平衡實驗,本文使用所有類中樣本數量最大的類所包含的樣本數量與樣本數量最小的類所包含的樣本數量的比值作為平衡程度的定義IF=Nmax/Nmin。為確保不平衡實驗符合絕大多數可能出現的場景,本文選取了范圍為IF=[10,50,100,200]進行實驗,在該范圍下可以很好地評估不平衡實驗方法的有效性。對于噪聲標簽實驗,本文參考大多數實驗設置選擇了兩種可能出現的噪聲標簽的基本類型:a)均勻噪聲,該噪聲標簽表現為將每個訓練樣本的真實標簽均勻地轉換到其他所有類上,其他類的標簽數值總和為p,該樣本的標簽數值為1-p;b)翻轉噪聲,該噪聲表現為將訓練樣本獨立地轉換到另一個相似的類別,該類別的標簽數值為p,真實標簽的數值為1-p。
4.3 實驗設置
本文所有實驗均在具有單張RTX-3090顯卡的服務器上進行。對于類別不平衡實驗,本文使用ResNet-20和ResNet-32進行實驗。對于噪聲標簽實驗,本文使用WideResNet-28進行實驗。使用具有動量優化因子0.9的SGD優化器來訓練基本網絡和EMN。所有實驗的重量衰減值都設置為0.000 5,基本網絡的初始學習率設置為0.1。類別不平衡實驗訓練了120輪,噪聲標簽實驗中均勻噪聲實驗訓練40輪,翻轉噪聲實驗訓練了50輪。為讓模型有較好的收斂性,本文使用線性退火策略來對學習率進行動態調整,在距離訓練完全的前20和10輪降低10倍學習率。基本網絡和集成元網的初始訓練學習率設置為0.1和0.001。訓練過程中從訓練集單次采樣的小批量數據的大小設置為128。在進行元學習訓練過程中,訓練開始前從驗證集中針對每類數據選取10張圖片組成元數據集。
4.4 對比方法
對于類別不平衡實驗,本文對比了近年來最具有代表性的方法RS[26]、RW[27]、CB Loss[28]、Focal Loss[10]、LDAM[29]和對網絡的微調方法Finetuning,以及基于元學習的方法L2RW[9]、Meta Weight Net[15]和FSR[22]。對于噪聲標簽實驗,本文對比了常用于解決噪聲標簽的方法Focal Loss[10]、D2L[30],基于元學習的方法L2RW[9]、GLC[31]和Meta Weight Net[15]。本文所有實驗均使用相同的實驗設置并自行訓練,與對比方法進行了大量的對比實驗并就實驗結果進行了合理的分析和說明。
4.5 實驗結果
表2、3展示了本文在CIFAR數據集上進行的類別不平衡實驗得到的結果,與大多數現有的經典算法的實驗結果相比,EMN都取得了穩定的提高并表現出較為優異的性能。并且,不管使用ResNet-20還是ResNet-32作為基準網絡,EMN在不同的骨干網絡和不同的IF上都可帶來穩定的性能提高,這說明將重加權和正則化結合形成的集成元學習框架可以顯著提高網絡的泛化能力,進而提高模型在測試集上的表現。
一些經驗上被認為可以緩解不平衡分布問題的方法并不奏效。例如,在IF較大的情況下,RW的性能不如CE,這從一定程度上證實了筆者之前的猜想,即重加權因子是模糊而且較難被定義的。當類別數量較少時,RW可以有效緩解分布不平衡的負面影響,促進決策邊界向少數類別邊界移動[32]。因此,即使當IF達到200時,RW依然保持一定的效果,如圖5所示。然而,當類別的總數目較大時,為大量的少數類分配高權重將損害網絡特征提取層中的表示學習。這會嚴重影響網絡的泛化性能,最終導致整體模型性能急劇下降。
表4展示了本文方法在兩種噪聲標簽任務下的實驗結果,與其他方法相比,不管是在均勻噪聲情況下還是在翻轉噪聲情況下,本文方法都取得了較好的效果,這表明集成元網對偏差分布學習具有重要作用。EMN的集成元學習中包括自適應標簽平滑學習,這可以讓網絡在學習的過程中不僅可以關注自身類特征的學習還可以借鑒其他類的特征。
在OCTMNST數據集的實驗中,本文向原本帶有不平衡分布的數據集加入不同比例的噪聲標簽可以評估不同算法的魯棒性,如表5所示。隨著噪聲率的增加,幾乎所有方法的精度都有不同程度的下降,這表明噪聲標簽會顯著降低網絡的泛化能力。盡管如此,EMN仍然表現出良好的性能,這說明EMN對未知偏差分布的數據訓練具有很強的自適應性。
EMN和MWN針對不平衡和噪聲標簽實驗所學習到的自適應重加權函數的權重大小隨著損失值增大的變化曲線,如圖5所示。從圖中可以看出當損失值較小時,重加權函數呈現出單調遞增的趨勢,這與傳統用于解決不平衡任務的加權函數趨勢是一致的,也就是損失值大小和權重大小的變化趨勢應該是正相關的。相比于MWN方法,EMN可以更精細地為樣本提供合適的權重,從而提高分類性能。
4.6 實例可視化分析
從CIFAR10數據集中飛機(多數類)和輪船(少數類)中選取兩張圖片,經過網絡分類預測后的概率分布結果如圖6所示。從圖中可以看出,少數類數據在訓練過程中會受到多數類影響,輪船被識別成飛機和汽車的可能性比較大。相比于MWN,EMN能夠將預測概率從其他不相關的鳥和貓等多數類集中到輪船上,這表明EMN能夠有效地抑制多數類對少數類造成的影響。
4.7 集成元網的策略關聯性分析
為進一步探索使用不同策略組合形成的EMN和最終網絡性能之間的關聯性,本文在IF=100的CIFAR10和翻轉噪聲比例為40%的CIFAR100數據集上進行了關聯性分析實驗,結果如表6所示。
研究發現,對于不平衡任務,類裕度的積極影響要大于重加權和標簽平滑的作用。對于噪聲標簽任務,標簽平滑的積極影響要大于重加權和類裕度的作用。這表明重加權和標簽平滑結合的策略對于解決噪聲標簽問題的關聯性很強,重加權和類裕度結合的策略對于解決類別不平衡問題的關聯性很強。因此,針對不同的任務設計不同的集成元網至關重要,對特定任務設計合適的集成策略可以加速網絡的學習過程和增強其對特定任務的適應能力。
5 結束語
為解決噪聲標簽和類別不平衡問題,本文提出了一種新的元學習方法EMN。該方法的核心思想是將正則化納入重加權策略中以形成一種可以進行集成學習的框架。本文方法旨在解決當從真實世界收集的數據存在數據分布偏差時,如何高效合理地利用小部分無偏數據集快速讓網絡學習修正偏差。EMN通過在一個小的無偏元數據集的指導下可以獲取較好的超參數,這使得基本網絡可以基于有偏數據在更好的特征空間和更廣泛的參數空間中搜索合適的網絡參數以適應噪聲標簽和類別不平衡分布。與當前基于重加權的方法相比,本文方法可以從元數據中學習更有效的知識而無須繁瑣和復雜的手動調節超參數的過程。本文實驗結果表明,EMN在訓練集存在類別不平衡分布和噪聲標簽的偏差分布的情況下依然表現良好,關聯性分析的實驗結果表明所提集成元網中正則化技術對不同任務具有不同的關聯性。這為不同正則化技術在現實世界中的合理運用提供了見解,表明將正則化與重加權結合進行聯合學習的思想可以應用于其他領域任務中。
下一步本文會將提出的自適應重加權與正則化算法和多個子分類模型進行融合,形成一個更加全面的集成學習框架,進一步增強網絡的泛化能力,從而提高網絡在有偏分布下的精度。
參考文獻:
[1]Karimi D, Dou H, Warfield S K, et al. Deep learning with noisy labels: exploring techniques and remedies in medical image analysis[J]. Medical Image Analysis, 2020,65: 101759.
[2]Liu Lei, Lei Wentao, Wan Xiang, et al. Semi-supervised active lear-ning for COVID-19 lung ultrasound multi-symptom classification[C]//Proc of the 32nd International Conference on Tools with Artificial Intelligence. Piscataway, NJ: IEEE Press, 2020: 1268-1273.
[3]Xu Xin, Liu Lei, Zhang Xiaolong, et al. Rethinking data collection for person re-identification: active redundancy reduction[J]. Pattern Recognition, 2021,113: 107827.
[4]蘇逸, 李曉軍, 姚俊萍, 等. 不平衡數據分類數據層面方法:現狀及研究進展[J]. 計算機應用研究, 2023,40(1): 11-19. (Su Yi, Li Xiaojun, Yao Junping, et al. Data-level methods of imba-lanced data classification:status and research development[J]. Application Research of Computers, 2023,40(1): 11-19.)
[5]Wang Xiaosong, Peng Yifan, Lu Le, et al. Chestx-Ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 3462-3471.
[6]Vapnik V. Principles of risk minimization for learning theory[C]//Proc of the 4th International Conference on Neural Information Processing Systems. San Francisco, CA: Morgan Kaufmann Publishers Inc., 1991: 831-838.
[7]Li Yi, Vasconcelos N. REPAIR: removing representation bias by dataset resampling[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 9564-9573.
[8]李昂, 韓萌, 穆棟梁, 等. 多類不平衡數據分類方法綜述[J]. 計算機應用研究, 2022,39(12): 3534-3545. (Li Ang, Han Meng, Mu Dongliang, et al. Survey of multi-class imbalanced data classification methods[J]. Application Research of Computers, 2022,39(12): 3534-3545.)
[9]Ren Mengye, Zeng Wenyuan, Yang Bin, et al. Learning to reweight examples for robust deep learning[C]//Proc of the 35th International Conference on Machine Learning.[S.l.]: PMLR, 2018: 4334-4343.
[10]Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 2980-2988.
[11]顧永跟, 鐘浩天, 吳小紅, 等. 不平衡數據下預算限制的聯邦學習激勵機制[J]. 計算機應用研究, 2022,39(11): 3385-3389. (Gu Yonggen, Zhong Haotian, Wu Xiaohong, et al. Incentive mechanism for federated learning with budget constraints under unba-lanced data[J]. Application Research of Computers, 2022,39(11): 3385-3389.)
[12]Zheng Yaling, Scott S, Deng K. Active learning from multiple noisy labelers with varied costs[C]//Proc of IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2010: 639-648.
[13]樊東醒, 葉春明. 一種面向高維缺失不平衡數據的信用評估方法 [J]. 計算機應用研究, 2021,38(9): 2667-2672. (Fan Dong-xing, Ye Chunming. Credit evaluation method for high dimensional missing unbalanced data[J]. Application Research of Compu-ters, 2021,38(9):2667-2673.)
[14]Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002,16(1): 321-357.
[15]Shu Jun, Xie Qi, Yi Lixuan, et al. Meta-weight-net: learning an explicit mapping for sample weighting[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 1919-1930.
[16]Csáji B C. Approximation with artificial neural networks[D]. Budapest: Etvs Loránd University, 2001.
[17]Wang Yuxiong, Ramanan D, Hebert M. Learning to model the tail[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 7032-7042.
[18]姚佳奇, 徐正國, 燕繼坤, 等. WPLoss:面向類別不平衡數據的加權成對損失[J]. 計算機應用研究, 2021,38(3):702-704,709. (Yao Jiaqi, Xu Zhengguo, Yan Jikun, et al. WPLoss:weighted pairwise loss for class-imbalanced datasets[J]. Application Research of Computers, 2021,38(3):702-704,709.)
[19]Zhang Changbin, Jiang Pengtao, Hou Qibin, et al. Delving deep into label smoothing[J]. IEEE Trans on Image Processing, 2021,30: 5984-5996.
[20]Wang Feng, Cheng Jian, Liu Weiyang, et al. Additive margin softmax for face verification[J]. IEEE Signal Processing Letters, 2018,25(7): 926-930.
[21]Jiang Lu, Zhou Zhengyuan, Leung T, et al. MentorNet: learning data-driven curriculum for very deep neural networks on corrupted labels[C]//Proc of the 35th International Conference on Machine Learning.[S.l.]: PMLR, 2018: 2304-2313.
[22]Zhang Zizhao, Pfister T. Learning fast sample re-weighting without reward data[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 705-714.
[23]Wang Xudong, Lian Long, Miao Zhongqi, et al. Long-tailed recognition by routing diverse distribution-aware experts[EB/OL]. (2020-10-05). https://arxiv.org/abs/2010.01809.
[24]Krizhevsky A. Learning multiple layers of features from tiny images[D]. Toronto : University of Tront, 2009.
[25]Yang Jiancheng, Shi Rui, Ni Bingbing. MedMNIST classification decathlon: a lightweight autoML benchmark for medical image analysis[C]//Proc of the 18th International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE Press, 2021: 191-195.
[26]Buda M, Maki A, Mazurowski M A. A systematic study of the class imbalance problem in convolutional neural networks[J]. Neural Networks, 2018,106: 249-259.
/iAG7e5gtfxEucQkWm+8Eg==[27]Huang Chen, Li Yining, Loy C C, et al. Learning deep representation for imbalanced classification [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 5375-5384.
[28]Cui Yin, Jia Menglin, Lin T Y, et al. Class-balanced loss based on effective number of samples[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 9260-9269.
[29]Hong Y, Han S, Choi K, et al. Disentangling label distribution for long-tailed visual recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 6622-6632.
[30]Ma Xingjun, Wang Yisen, Houle M E, et al. Dimensionality-driven learning with noisy labels[C]//Proc of the 35th International Confe-rence on Machine Learning.[S.l.]: PMLR, 2018: 3355-3364.
[31]Hendrycks D, Mazeika M, Wilson D, et al. Using trusted data to train deep networks on labels corrupted by severe noise[C]//Proc of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 10477-10486.
[32]El Hanchi A, Stephens D, Maddison C. Stochastic reweighted gradient descent[C]//Proc of the 39th International Conference on Machine Learning.[S.l.]: PMLR, 2022: 8359-8374.
[33]Cai Jiarui, Wang Yizhou, Hwang J N. ACE: ally complementary experts for solving long-tailed recognition in one-shot[C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 112-121.