

中圖分類號:TP183文獻標志碼:A
Abstract: Datasets collected and annotated manually are inevitably contaminated with label noise, which negatively affects the generalization ability of image classification models. Therefore, designing robust classification algorithms for datasets with label noise has become a hot research topic.The main issue with existing methods is that self-supervised learning pre-training is timeconsuming and still includes a large number of noisy samples after sample selection. This paper introduces the AllMix model, which reduces the time required for pre-training. Based on the DivideMix model, the AllMatch training strategy replaces the original MixMatch training strategy. The AllMatch training strategy uses focal loss and generalized cross-entropy loss to optimize the loss calculation for labeled samples. Additionally, it introduces a high-confidence sample semisupervised learning module and a contrastive learning module to fully learn from unlabeled samples.Experimental results show that on the CIFAR1O dataset, the existing pre-trained label noise classification algorithms are 0.7%,0.7% ,and 5.0% higher in performance than those without pre-training for 50% , 80% ,and 90% symmetric noise ratios, respectively. On the CIFAR100 dataset with 80% and 90% symmetric noise ratios, the model performance is 2.8% and 10.1% (204號 higher, respectively.
Keywords: label noise learning; image classification; semi-supervised learning; contrastive learning
引言
卷積神經網絡(convolutionalneuralnetwork,CNN)等深度學習技術已廣泛應用于圖像分類領域[1-3]。CNN 所取得的顯著成功主要得益于大規模數據集的人工準確標注。然而,獲取大量高質量的標注數據既昂貴又耗時。在實際應用中,收集到的數據集往往含有標簽噪聲:一方面,這種噪聲可能來自人工標注的過程,因為人工標注通常需要專業知識,而即使是專家的手動標注結果也會受到經驗、精力等因素的影響;另一方面,在數據集的收集和制作過程中,部分大規模的數據集是從網站上收集的,它們往往包含不準確的標簽,還有部分大規模數據集是通過一些替代且廉價的方法使用標簽挖掘出來的[4。這些替代方法也不可避免地會引入帶有標簽噪聲的樣本。
越來越多的研究致力于減輕帶有標簽噪聲的樣本訓練的負面影響。早期的研究側重于探索能夠抵御標簽噪聲影響的魯棒損失函數。文獻[5]嘗試用估計噪聲轉移矩陣來應對標簽噪聲,但發現在實際應用中準確估計該矩陣既困難又不實用。文獻[6]旨在開發耐噪聲損失函數,研究人員采用平均絕對誤差損失進行模型訓練,發現與交叉熵損失相比,其具有更好的泛化能力。然而,當面對復雜的數據集時,模型的收斂會變得困難。一種解決帶有標簽噪聲的樣本學習挑戰的方法是采用交替訓練,該方法包括樣本選擇和半監督學習兩個階段。樣本選擇階段的目的是將干凈樣本從噪聲數據集中分離出來并作為有標簽樣本集進行監督學習。文獻[7-8]采用深度神經網絡(deepneuralnetworks,DNN)分類器的自生損失和預測值來將干凈樣本從噪聲數據集中分離出來。例如,Co-teaching[方法通過設計雙網絡協作學習框架,使用小損失來識別干凈樣本以更新另一個網絡的參數。Unicon框架使用 Jensen-Shannon散度損失統一選擇干凈集。文獻[9]使用分類器提取的特征表示分離干凈樣本。半監督學習階段的目的是對樣本選擇階段分離出來的噪聲樣本進行標簽猜測,在產生偽標簽后進行訓練,從而盡可能脫離原有噪聲標簽的影響。然而,在樣本選擇階段,特別是當標簽噪聲水平非常高時,DNN分類器總是會過度擬合有噪聲的標記樣本,從而導致模型自生成的信息,如損失、預測概率或特征表示等始終無法準確識別干凈的樣本,因此即使在樣本選擇后,有標簽樣本集中依舊包含大量噪聲樣本,最終導致分類器性能的惡化。為了解決交替學習過程中模型對有噪聲標記樣本的過擬合問題,最近的研究引入了帶有對比損失的自監督學習對網絡進行預訓練,并取得了較好的效果[8]
上述最新研究方法存在兩個問題:1自監督學習的預訓練往往會耗費較長的時間;2)在樣本選擇階段,篩選出的有標簽樣本集中仍然存在大量帶噪聲標簽樣本,這會降低模型的訓練效果。本文提出了一種新的標簽噪聲學習魯棒性算法AIIMix。該算法針對分離出的有標簽樣本集,對低噪聲水平的樣本集采用焦損(focalloss)[10]使模型聚焦于困難樣本,以加快收斂速度并提高分類性能;對高噪聲水平的樣本集采用廣義交叉熵損失(GCEloss)[11]來對抗噪聲的影響。與帶有預訓練的方法不同的是,本文算法在訓練過程中加入了高置信度樣本半監督學習模塊(半監督學習)和對比學習模塊(自監督學習)來進一步利用噪聲樣本優化模型,并且節省了預訓練的時間,同時在CIFAR1O和CIFAR10O數據集上的分類性能也得到了提升。
1方法
1.1 AIIMix模型結構
DivideMix是一個利用半監督學習技術進行帶噪聲標簽學習的新框架[12],本文設計了
AllMix網絡模型結構,該模型在DivideMix模型的基礎上,使用提出的AIIMatch訓練策略替換原有的 MixMatch 訓練策略[13]。AlIMix 模型總框架如圖1所示。其中,A和B代表兩個模型網絡,GMM為高斯混合模型,D表示數據集,X 和 U 分別表示模型A或B在特定訓練輪次下經過GMM劃分后得到的有標簽和無標簽樣本集。 X 代表有標簽的樣本集, U 代表無標簽的樣本集。

AllMix使用高斯混合模型(Gaussianmixturemodel,GMM)對每一個樣本的損失分布進行建模,將訓練數據在每一個訓練輪次中動態劃分為帶有干凈樣本的有標簽樣本集 X 和帶有噪聲樣本的無標簽樣本集 U ,并以半監督和自監督的方式對有標簽和無標簽樣本集進行模型訓練。為了避免確認偏差,AIIMix同時訓練兩個發散網絡,其中每個網絡使用來自另一個網絡通過GMM劃分出來的有標簽樣本集 X 和無標簽樣本集 U 進行訓練。在AlMatch訓練策略中,保留了DivideMix中對有標簽和無標簽的樣本集執行標簽優化(labelco-refinement)和標簽猜測(labelco-guessing)的步驟。此外,AllMatch改進了對有標簽樣本的損失計算,引入了高置信度樣本半監督學習模塊和對比學習模塊對網絡進行訓練優化。
1.2 AllMatch訓練策略
圖2展示了AlIMatch的具體訓練策略,其中 Augw 代表弱增強操作, Augsl(?) 和 Augs2(?) 代表兩種不同的強增強操作,
代表經過標簽優化后的標簽,
代表經過標簽猜測后的標簽,
代表樣本在經過Mixup操作后的后一半數據經過模型分類頭輸出的結果中高于閾值 t 的偽標簽。首先,對于由GMM判定的有標簽樣本,AlIMatch針對不同的噪聲情況分別使用了強調學習困難樣本的焦損和兼具收斂速度以及抗噪性能的廣義交叉熵損失。其次,對于GMM判定的無標簽樣本,AlMatch引入高置信度樣本半監督學習模塊,通過篩選出高置信度的樣本來生成偽標簽,將它們視為有標簽數據進行訓練。最后,AlMatch引人對比學習模塊,通過計算樣本在特征表示上的對比損失來進一步增強模型的分類能力。

在AllMatch訓練策略中,設
為一批次的有標簽樣本,其中 xi 是第i 張有標簽圖像, yi 是其對應的獨特標簽, U=
為一批次的無標簽樣本,其中 ui 是第 i 張無標簽圖像。對于有標簽樣本集 X ,模型會對其進行弱增強 Augw(?) 得到 Xw 。弱增強處理包括隨機裁剪、隨機水平翻轉以及歸一化。對于無標簽樣本集 U ,模型除了弱增強還進行了強增強 Augs1(?) 和 Augs2(?) 來得到 Uw 、 Usl 和 Us2 ,強增強處理 Augs1(?) 在弱增強的基礎上增加了RandAugment[14], Augs2(?) 在弱增強的基礎上隨機調整圖像的亮度、對比度、飽和度和色調。
首先,分別初始化兩個相同結構的網絡,例如ResNet18。模型在提取特征后設置一個分類頭 Pcls(?) 得到預測概率,一個投影層 Pproj(?) 得到特征向量。
然后,使用弱增強后的樣本集 Xw 和 Uw 進行標簽優化和標簽猜測。在進行網絡A的訓練時,網絡B利用樣本的損失值通過GMM得到該樣本的干凈概率 wi ,網絡A將當前樣本的真值標簽 yi 和通過分類頭得到的預測概率 piwi 進行線性組合,從而得到標簽優化后的標簽
為

接著使用來自兩個網絡的預測概率來“共同猜測”未標記樣本的標簽
,這可以產生更可靠的猜測標簽
為

式中: M 表示弱增強的次數; ?m 表示第 m 次增強; ui 表示未標記數據集; θ(1) 和 θ(2) 分別表示模型A和模型B的權重。
至此得到了標簽優化后的樣本集 X′=
和標簽猜測后的樣本集
,其中, b 代表原始樣本集的數量, Mb 代表對原始樣本集中的每個樣本進行 M 次增強后的樣本數量。拼接 X′ 和 U′ 得到樣本集
,對 N 的樣本和標簽進行Mixup操作[15],具體表達式為


式中, λ∈[0,1] ,且服從Beta分布。
針對有標簽樣本,當處理低噪聲情況時,對標簽優化后的樣本計算焦損 LX 為

式中: i∈(1,…,Mb) ;y代表傾向困難樣本的程度,y越大,模型對困難樣本的關注度越高。
當處理高噪聲情況時,計算廣義交叉熵損失(GCEloss),如式(6)所示:

式中, i∈(1,…,Mb) 。GCEloss融合了平均絕對誤差損失(MAEloss)和交叉熵損失(CEloss)。當 α=1 時,其等價為MAEloss;當 α 趨向于0時,其等價為CEloss。
針對無標簽樣本,樣本損失
為

式中, i∈(Mb+1,…,2Mb). 。
除了通過Mixup計算得到的 LX 和
外,為了充分利用無標簽樣本集對網絡進行訓練,AlIMatch對無標簽樣本增加了高置信度樣本半監督學習模塊和對比學習模塊。
在高置信度樣本半監督學習模塊中,將
(2
輸入模型后由分類頭 Pcls(?) 得到其每一類的預測概率,若最高那一類的置信度大于閾值 t ,這一類就作為偽標簽
,再將強增強后的樣本
輸入模型,得到的預測輸出與
計算交叉熵損失 H(?) 得到
LU2 ,表達式為

受到文獻[16]的啟發,AllMatch在已有模塊的基礎上對無標簽樣本集 U 加入了對比學習模塊,將 Us1 和 Us2 在模型投影層 Pproj(?) 輸出的特征進行無監督的對比學習,從而達到進一步優化訓練目標的目的。對于大小為 b 的一個批次的樣本,通過兩種不同的圖像強增強方法得到的Us1 和 Us2 ,共得到2b個圖像樣本,經過投影層Pproj(?) 后分別得到 zs1 和 zs2 兩個圖像的特征向量,具體的對比學習損失函數 Lcontrast 為
式中: zisl 和 zis2 表示來自第 i 個樣本分別經過Augs1(?) 和
后在投影層的特征表示輸出;A(i) 為除了第 i 個樣本以外的其他與 i 的偽標簽
類別不同的樣本索引; τ 為溫度系數,用來控制困難負樣本的懲罰強度。對比學習損失的目的是在特征空間上使得不同類別的圖像相互遠離,并拉進同一類別的圖像。
最終的損失計算公式為
LT=LX+α?LU1+LU2+Lcontrast
式中, α 代表學習標簽猜測后的樣本的損失權重。
2 實驗結果和分析
為驗證提出的方法在帶有標簽噪聲的數據集的圖像分類任務中的有效性,進行了相關實驗。首先,介紹了實驗使用到的實驗平臺、數據集和參數設置。然后,評估了提出的方法在噪聲數據集上的性能,并與其他類似的方法進行了比較。最后,采用了消融實驗,系統地移除模型的某些組成部分。本文旨在探討各個模塊對模型整體性能的貢獻,從而深入理解所設計方法的關鍵因素。
2.1 實驗平臺
實驗使用的服務器GPU型號為英偉達RTX4080,顯存為 16GB ,Python版本為3.11.7,深度學習框架為PyTorch,版本為2.1.2。
2.2 數據集
實驗在CIFAR10數據集和CIFAR100數據集上進行,它們各自由60000張大小為 32× 32的彩色圖像組成,其中CIFAR10分為10個類,每個類有6000張圖像,CIFAR100分為100個類,每個類有600張圖像。由于這兩個數據集是無噪聲的數據集,根據文獻[7]的方法,通過隨機替換樣本的標簽對兩個數據集分別生成 20% 、 50% 、 80% 、 90% 的對稱噪聲。
2.3 參數設置
在模型訓練過程中,為了與其他方法作比較,將常規參數設置與已有方法的保持一致。主干網絡選擇ResNet18,批量大小設置為128,訓練迭代次數為300次,采用隨機梯度下降(SGD)來更新參數和優化模型,學習率設置為0.02,沖量設置為0.9,權重衰減為0.0005。弱增強的次數 M 設置為2,對于CIFAR10數據集,熱身的迭代次數設置為10,對于CIFAR100數據集,熱身的迭代次數設置為30。在熱身輪次中使用交叉熵損失訓練,結束熱身后,對于20% 和 50% 的數據集, LX 用于計算焦損;對于80% 和 90% 的數據集, LX 用于計算廣義交叉熵損失。 α 的設置參考文獻[12]、[16]和[17]的最優結果,將溫度系數 τ 設置為0.07,將
的閾值 t 設置為 0.95 。
2.4實驗結果與分析
為了評估模型的性能,采用了準確率(accuracy)作為模型的評價指標。表1為模型在CIFAR10和CIFAR100數據集上的實驗結果,實驗中分別測試了其在 20% 、 50% 、 80% 和 90% 的對稱噪聲下的性能。表1中給出了不同方法的最佳準確率以及最后10個迭代輪次的平均準確率。其中,CSS雖然整體性能有了較大的領先,但是其使用自監督進行了800個輪次的預訓練,這一過程是非常耗時的。同時,CSS需要結合CLIP的輔助信息來消除噪聲樣本,而CLIP在模型參數量和復雜度上遠遠超過了ResNet18,對設備的算力要求更高。將本文提出的方法與使用相同網絡架構且不使用預訓練的其他方法進行比較,結果表明,以上方法在兩個數據集低噪聲( 20% 和 50% )的情況下效果持平,而在高噪聲( 80% 和 90% )的情況下本文方法的性能有較大幅度的提升。對于含有更多類別、挑戰難度更高的CIFAR100數據集,在80% 和 90% 的對稱噪聲下,本文方法的最佳準確率和平均準確率分別提升了 2.8% 和 10.1% 。

如表2所示,為了研究不同模塊的有效性,深入探究了提升模型性能的因素,通過刪除不同的模塊來進行消融實驗,

為了研究高置信度樣本半監督學習模塊,刪除 LU2 并保持其他損失不變來進行模型訓練,此時模型的最佳性能在 50% 、 80% 和 90% 的對稱噪聲下分別下降了 2.1% 、 5% 和 8.1% 。為了研究對比學習模塊,刪除 Lcontrast 并保持其他損失不變來進行模型訓練,此時模型的最佳性能在20% 、 50% 、 80% 和 90% 的對稱噪聲下分別下降了 0.3% 、 0.6% 、 3.7% 和 3.5% 。
表1和表2的實驗結果顯示兩個數據集在80% 和 90% 對稱噪聲條件下,采用高置信度樣本的半監督學習和對比學習模塊對模型性能的提升更為顯著。這是由于在高噪聲環境下,模型對無標簽樣本的依賴增加。對此,本文進一步分析兩個方面的作用機制和相互影響。
首先,高置信度樣本半監督學習模塊通過挑選出置信度高的無標簽樣本,減少了標簽噪聲對模型學習的干擾,特別是在噪聲水平較高時。這些高置信度樣本成為了模型學習的關鍵,因為它們提供了相對準確的信息來引導模型學習。其次,對比學習模塊通過強化樣本間的區分性,進一步增強了模型對特征的辨識能力。在高噪聲條件下,傳統的學習機制容易受到噪聲的干擾,而對比學習通過優化樣本間的相對關系,為模型提供了一種魯棒的學習路徑,使得模型能夠在復雜的噪聲環境中更好地提取有用信息。
由表2可知,在去掉
后,模型在 50% 的對稱噪聲下的訓練后期性能起伏明顯,這也表明高置信度樣本半監督學習模塊可以促進模型收斂的穩定性。
結合這兩個模塊,模型能夠在高噪聲水平下有效地利用無標簽樣本,不僅提高了模型對噪聲的魯棒性,也穩定了學習過程和模型的收斂性。這一發現強調了在設計面向標簽噪聲數據集的模型時,重視無標簽樣本的處理機制是提高模型性能的關鍵。
3結論
基于深度學習的圖像分類性能依賴于數據集的質量,而在很多場景下,數據集中的標簽噪聲不可避免。本文提出了AIIMix網絡模型,該網絡采用AllMatch訓練策略,針對在不同噪聲情況下的有標簽樣本集采用不同的損失計算方式,引入高置信度樣本半監督學習模塊和對比學習模塊來充分利用無標簽樣本集對模型進行訓練。實驗結果表明,模型在沒有經過預訓練的情況下,在不同噪聲水平的CIFAR10和CIFAR100數據集上性能得到了提升。在CIFAR10數據集上,針對 50% 、 80% 和 90% 的對稱噪聲,模型性能比現有的無預訓練的標簽噪聲分類算法分別高出了 0.7% , 0.7% 和 5.0% 。對含有 80% 和 90% 對稱噪聲的CIFAR100數據集,模型性能分別提高了 2.8% 和 10.1% 。本文提出的標簽噪聲學習魯棒性算法可以進一步拓展到圖像分割、目標檢測、自然語言處理等任務上。
參考文獻:
[1]KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc., 2012.
[2]HE K M, ZHANG XY,REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas: IEEE,2016: 770-778.
[3]張杰,夏春蕾,張榮福,等.基于注意力機制的水果損 傷檢測及分類[J].光學儀器,2023,45(2):26-35.
[4]LIW,WANGLM,LIW,etal.WebVision database: visual learning and understanding from web data[J]. arXiv preprint,arXiv:1708.02862,2017.
[5]SUKHBAATAR S,BRUNAJ,PALURI M,et al. Training convolutional networks with noisy labels[J]. arXiv preprint,arXiv:1406.2080,2014.
[6]GHOSHA,KUMARH,SASTRYPS.Robustloss functionsunderlabelnoisefordeepneural networks[C]//Proceedingsofthe31st AAAI Conference on Artificial Intelligence. San Francisco: AAAI,2017: 1919-1925.
[7]HAN B, YAO QM, YU XR, et al. Co-teaching: robust training of deep neural networks with extremely noisy labels[C]//Proceedingsofthe32nd International Conference on Neural Information Processing Systems. Montreal: Curran Associates Inc., 2018.
[8]KARIMN,RIZVE MN,RAHNAVARD N, et al. UNICON: combating label noise through uniform selection and contrastive learning[C]//Proceedingsof 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 9676- 9686.
[9]SHARMA K,DONMEZ P, LUO E M,et al. NoiseRank: unsupervised label noise reduction with dependencemodels[C]//Proceedingsofthe16th European Conference on Computer Vision. Glasgow: Springer,2020: 737-753.
[10]LIN TY,GOYAL P, GIRSHICKR, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice: IEEE,2017: 2980-2988.
[11]ZHANG ZL,SABUNCU MR.Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal: Curran Associates Inc., 2018.
[12] LI J N, SOCHER R, HOI S C H. DivideMix: learming withnoisy labels as semi-supervised learning[C]// Proceedings of the 8th International Conference on Learning Representations. Addis Ababa: OpenReview, 2020.
[13]BERTHELOT D, CARLINI N, GOODFELLOW I, et al.MixMatch: a holistic approach to semi-supervised learning[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver:Curran Associates Inc., 2019.
[14]CUBUK E D,ZOPH B,SHLENS J,etal. Randaugment:practical automated data augmentation with a reduced search space[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Visionand Pattern Recognition.Seattle: IEEE,2020:702-703.
[15]ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization[C]//Proceedings of the6thInternationalConferenceon Learning Representations. Vancouver: OpenReview, 2018.
[16]YANG F, WU K, ZHANG S Y, et al. Class-aware contrastive semi-supervised learning[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans:IEEE,2022: 14421-14430.
[17]SOHNK,BERTHELOTD,LICL,etal.FixMatch: simplifying semi-supervised learning with consistency and confidence[C]//Proceedingsofthe34th International Conference onNeural Information Processing Systems. Vancouver: Curran Associates Inc.,2020:596-608.
[18]YU X R,HAN B,YAO J C, et al. How does disagreementhelpgeneralizationagainstlabel corruption?[C]//Proceedings of the 36th International Conference on Machine Learning.Long Beach: PMLR, 2019:7164-7173.
[19]YI K,WU J X. Probabilistic end-to-end noise correctionforlearningwithnoisylabels[C]// Proceedingsof 2019 IEEE/CVFConferenceon Computer Vision and Pattern Recognition.Long Beach:IEEE,2019:7017-7025.
[20]LI J N, WONG Y, ZHAO Q, et al. Learning to learn from noisy labeled data[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Visionand Pattern Recognition. Long Beach: IEEE, 2019: 5051 - 5059.
[21]ARAZO E,ORTEGO D, ALBERT P,etal. Unsupervisedlabelnoisemodelingandloss correction[C]//Proceedings of the 36th International Conference on Machine Learning. Long Beach: PMLR, 2019:312-321.
[22]MIAO Q, WU X H, XU C, et al. Learming with noisy labelsusing collaborative sample selectionand contrastive semi-supervised learning[J]. KnowledgeBased Systems,2024,296:111860.
(編輯:張磊)