摘 要:近年來,卷積神經網絡已經廣泛應用于計算機視覺各個領域中并取得了顯著的效果。正則化方法是卷積神經網絡的重要組成部分,它能避免卷積神經網絡在模型訓練的過程中出現過擬合現象。目前關于卷積神經網絡正則化方法的綜述較少,且大多缺乏對新提出的正則化方法的總結。首先對卷積神經網絡中的正則化方法相關文獻進行詳細的總結和梳理,將正則化方法分為參數正則化、數據正則化、標簽正則化和組合正則化;然后在ImageNet等公開數據集上,基于top-1 accuracy、top-5 accuracy等評價指標,對不同正則化方法的優缺點進行對比分析;最后討論了卷積神經網絡的正則化方法未來的研究趨勢和工作方向。
關鍵詞:卷積神經網絡; 正則化方法; 過擬合; 泛化
中圖分類號:TP391.41文獻標志碼: A文章編號:1001-3695(2024)04-001-0961-09
doi:10.19734/j.issn.1001-3695.2023.06.0347
Survey on regularization methods for convolutional neural network
Chen Kun, Wang Anzhi
(School of Big Data amp; Computer Science, Guizhou Normal University, Guiyang 550025,China)
Abstract:In recent years,convolutional neural networks have been widely used in various fields of computer vision andachieved remarkable results.Regularization method is an important part of convolutional neural network,which helps to avoid the overfitting phenomenon of convolutional neural network in the process of model training.There are fewer reviews on regularization methods for convolutional neural networks,and most of them lack a summary of the newly proposed regularization methods.Firstly,this paper conducted a detailed summary of the literature on regularization methods in convolutional neural networks,and classified the regularization methods into parameter regularization,data regularization,label regularization and combinatorial regularization.After that, on the public datasets such as ImageNet,it compared and analyzed the advantages and disadvantages of different regularization methods based on evaluation indexes such as top-1 accuracy and top-5 accuracy.Finally,it discussed the future research trends and work directions of regularization methods for convolutional neural network.
Key words:convolutional neural network; regularization method; overfitting; generalization
0 引言
2012年Krizhevsky等人[1]提出的AlexNet引入了卷積神經網絡(convolutional neural network,CNN),在ImageNet大賽上以遠超第二名的成績奪得冠軍,至此CNN其強大的建模能力引起廣泛關注。與傳統方法相比,CNN的引入為計算機視覺領域帶來了很大的提升,如圖像分類[2]、目標檢測[3]、語義分割[4]、實例分割[5]等。在CNN訓練過程中,應該減少模型泛化誤差,從而讓模型在測試階段能夠保持優秀的性能。正則化方法是CNN的重要組成部分,是減少泛化誤差的重要步驟。
正則化(regularization)是一種避免模型過擬合、減少泛化誤差的方法。隨著神經網絡深度不斷增加,模型復雜度和未訓練的參數會不斷擴大,這時模型極易出現過擬合現象,具體表現如圖1所示,模型在訓練數據上損失較小且預測準確率較高,但在測試集上模型的損失會很大而準確率較低。而使用正則化方法就是通過稀疏化網絡參數或增強輔助數據以達到增強模型泛化能力的目的,進而防止模型過擬合。通過對正則化方法相關文獻的廣泛調研,本文制作了CNN中的正則化方法的研究熱度柱形圖,如圖2所示,很明顯能夠看到CNN的正則化方法的研究熱度正在日益上漲。
本文將不同的正則化方法分為參數正則化、數據正則化和標簽正則化三類。
a)參數正則化。隨著對神經網絡的深入研究,涌現了很多減小或者稀疏參數的正則化方法。比如,2012年Hinton等人[6]提出dropout,該方法的工作原理是神經網絡在前向傳播的時候讓某個神經元以一定概率p處于未激活狀態,從而減弱模型對某些局部特征的依賴而增強其泛化性。
b)數據正則化。用足量的訓練樣本,同樣能夠讓模型避免過擬合現象,但是單純使用人工標注數據集的方式通常會消耗大量的人力、物力,甚至花費的成本會遠遠大于模型本身能帶來的價值。針對上述問題,數據正則化對神經網絡訓練數據進行優化調整是非常有效的低成本避免模型過擬合的方法。比如,Sangdoo等人[7]提出的CutMix方法,將訓練樣本隨機進行兩兩配對,隨機將其中一張圖的一部分進行裁剪并疊加到另一張圖的相同位置,標簽信息也進行相應的疊加,從而實現訓練樣本的擴增。
c)標簽正則化。標簽正則化是通過對標簽信息進行優化,讓模型能夠提升泛化能力。在CNN中的多分類任務上,數據標簽通常是以one-hot的形式進行編碼,這類型的編碼方式鼓勵模型預測目標類別的概率趨近于1,這樣會讓模型在對多目標進行分類時缺乏適應性,使得模型對自身預測過于自信從而導致過擬合。為解決此類問題,Christian等人[8]提出標簽平滑,通過在標簽的分布信息中加入噪聲,使得模型對正負樣本的預測值差別縮小,以此達到避免模型過擬合的問題。
本文通過對CNN中的正則化方法相關文獻的調研,還發現在實際應用過程中,將不同的正則化方法進行組合使用,效果往往能夠優于單一使用一種正則化方法。
1 參數正則化
在大型的神經網絡中對目標函數添加適應的正則化項或對網絡中的參數進行一定的控制,是現在非常普遍的預防過擬合的措施。近年來對于該類型的研究依然有很多成果,本章將對于參數正則化進行詳細分析。
1.1 dropout正則化處理
在大型的卷積神經網絡中,dropout處理[6]是一種能夠有效避免網絡中參數量過大的方法。dropout作用于神經網絡的效果可視化如圖3所示,該方法的思想上類似于Breiman[9]研究的套袋模型,dropout以一定概率p隨機地使隱藏層中的特征節點處于未激活的狀態,讓其不參與到模型的訓練過程中,從而讓網絡的復雜度與模型的參數量得到有效的控制。dropout在卷積神經網絡第n~n+1層的第i個神經元的前向傳播過程如式(1)(2)所示。
其中: r (n)是與第n層神經元個數相同的向量,每個元素取值為1、0,并且符合伯努利分布,即每一個元素被保留的概率為p, w (n+1)i是第n~n+1層的權重矩陣, b (n+1)i是第n層到第n+1層的偏置。
Srivastava等人[10]發現當神經網絡中的層數固定時,p的數值過大或過小都可能造成模型過擬合或欠擬合,0.4≤p≤0.8時模型的測試誤差會比較平緩。為了提升dropout效果,Ian等人[11]定義了一個新的激活函數maxout,它的輸出是一組輸入特征值中的最大值并且能夠促進dropout的優化。Jumsuk等人[12]通過使用自注意力機制與dropout進行結合提出了一個基于注意力的dropout層,能夠誘導CNN分類器去學習全局特征信息。Zhu等人[13]的TargetDrop同樣結合了注意力機制對dropout進行改進,該方法能夠精準地屏蔽掉檢測對象的部分有效特征,促使模型學習到更多的判別信息。Wan等人[14]提出的DropConnect,通過隨機丟棄權重來對dropout進行改進,使用了DropConnect的全連接層會變成稀疏連接層。Mojtaba等人[15]提出的patchup能丟棄任意形狀的特征,而不是只有矩形,提高模型泛化能力的同時也提升了模型對對抗攻擊的魯棒性。Hojjat等人[16]提出skipout將網絡劃分為訓練層和魯棒層,模型在訓練時跳過魯棒層保證了網絡反向傳播的有效性,提升了模型泛化能力。Lu等人[17]結合拉德馬赫復雜度提出了LocalDrop,增加一定的網絡反向傳播優化時間,提升dropout性能。RandomDrop[18]是為殘差網絡進行設計的,以線性衰減概率丟棄殘差層。Yoshihito等人[19]受shake-shake[20]的啟發,結合RandomDrop提出了shake-drop,通過對殘差網絡的特征映射乘上正則化權重,改善模型泛化能力的同時提升了殘差網絡的性能。類似地,Lu等人[21]的MSC(multiscale conditional)正則化將特征劃分為三個不同尺度的特征映射,分別乘上不同的正則化權重,有效地提升了正則化過程的靈活性和適應性。Zhao等人[22]提出的frequency regularization直接通過截斷大量的攜帶高頻信息的參數張量,使得網絡的參數量得到有效降低,從而預防出現過擬合的現象。
由于dropout處理進行丟棄的特征節點是獨立的隨機單元,無法有效地降低卷積層中特征節點之間的相關性,所以dropout通常無法應用于卷積層。Ghiasi等人[23]提出一個結構化的dropout,即DropBlock,它從特征圖中丟棄連續的區域,而不是僅僅丟棄獨立的隨機單元,大量的實驗表明,DropBlock在ImageNet圖像分類任務中是一種很有效的正則化器。Brahim等人[24]將dropout與混合池化模塊進行結合,有效地避免了模型通過參數之間的相互聯系來記憶樣本。Jonathan等人[25]提出的spatial-dropout通過從卷積層刪除整個特征映射來解決節點之間的相關性問題。
由于dropout及其改進在使用中對特征節點采取的方式大多是隨機處理, 所以可能會導致上下文信息或目標完全丟失。Ba等人[26]用一個與深度網絡共享參數的網絡來對dropout的超參數p進行計算,該方法能夠適用于深度網絡中的無監督學習和有監督學習。Gong等人[27]通過dromask引入額外的超參數對丟棄特征和保留特征數量比例進行權衡,以避免有效目標的信息過度丟失。Pham等人[28]提出了AutoDropout,它實現了dropout模式的過程自動化,在該方法中控制器學會在卷積神經網絡中的每個層生成dropout,并將其驗證結果作為控制器學習的信號,AutoDropout提高了卷積神經網絡的圖像分類性能,并且也能提高比較主流的Transformer[29~31]模型的性能。
1.2 范數正則化
范數正則化是一種常見的預防過擬合的方法,在卷積神經網絡的訓練中,它通常用于損失函數,即在損失函數后添加一個正則化項,目的是對損失函數中的某一些函數做一定的限制,使得這些參數能夠在訓練的過程中避免過分擬合噪聲數據。對標準損失函數添加正則化項可表示為
其中:R(ω)為正則化項;λ為正則化項的權重。
1.2.1L1正則化(L1-norm)
輸入網絡中的特征中有很大一部分是不提供有用信息的,這些特征信息稱為噪聲,在網絡訓練中模型有可能將這些噪聲進行擬合,使得模型測試誤差增大。為解決上述問題,L1正則化將參數進行稀疏從而更有利于特征選擇。在損失函數中應用L1正則化項,如式(4)所示。
其中:Q為特征的維數; W 為權值向量。為了避免L1正則化的公式在零處不可微,故在實際應用中會增加了一個接近零的超參數ε。對于L1正則化的研究,Hong等人[32]提出了一個新的算法L1-POFR(penalized orthogonal forward regression),該算法以正向回歸的方式同時進行正則化優化、模型項選擇和參數估計,通過對訓練模型的回歸矩陣進行正交分解,使得原始的L1算法的效率得到了有效提高。Lu等人[33]提出的L1-SSL(semi-supervised learning)有效利用了L1正則化稀疏性的良好特性,從而很好地抑制了噪聲標簽的消極影響。Enzo等人[34]提出的SeReNe利用特征節點的靈敏度作為正則化器來讓模型訓練獲得稀疏的模型結構。讓網絡更加稀疏的方法還有Hu等人[35]對CNN前饋網絡的輸入節點或冗余權值進行剪枝讓網絡更加稀疏。
在卷積層中BN(batch normalization)的使用通常會給網絡訓練帶來額外的計算量從而消耗更多的內存,導致訓練速度大大減慢并加重訓練工作量。Wu等人[36]提出了一種使用L1算法的BN,該方法的關鍵是去除傳統L2-BN層中復雜的平方根運算,在Fashion-MNIST[37]、ILSVRC12[38]數據集上的卷積神經網絡和在CIFAR和LSUN-Bedroom[39]上生成的對抗網絡中進行測試,L1-BN算法在精準度和計算量之間得到了有效的權衡。
1.2.2L2正則化(L2-norm)
L2正則化也稱為“嶺回歸”,在深度網絡中L2正則化使用率極高。L2正則化是將各元素的平方和求平方根,讓所有的參數都接近于0而不是變為0,不產生稀疏的模型。L2正則化可以讓網絡中的所有的參數比較均衡,使模型不會對某個特征節點特別敏感,當訓練好的模型在測試集上運行時,即使測試集中圖像的某個噪聲點異常突出,但對于整體模型的最終輸出而言,并不會因為這個噪聲而使得預測與真實值偏差太多。
L2正則化損失函數可表示如式(6)所示。
其中:Q為特征的維數; W 為權值向量。
Corinna等人[40]發現L1正則化可以導致內核(即CNN用于提取特征的filter)的性能適度改進,但在大規模使用的情況下會導致性能下降,而L2正則化可以有效避免這類問題。通過實驗數據對比,L2正則化的性能明顯優于L1正則化。
1.3 權重衰減(weight decay)
權重衰減[41]是一種在權重的梯度下降更新式中,通過減少當前梯度值對梯度更新的影響,以此對模型的擬合過程進行干擾,防止模型過擬合的參數正則化方法。權重衰減在梯度下降更新中的應用如式(7)所示。
其中:E為權重參數;λ為權重衰減系數;α為學習率。
在網絡訓練中,L2正則化也能使得權重衰減到一個更小的值,所以有很多人將L2正則化與權重衰減畫等號,但這個認知是有誤的。Ilya等人[42]對這個問題的解釋作出了系統的闡述和實驗。在標準的隨機梯度下降(stochastic gradient descent,SGD)中,可以發現L2正則化和權值衰減正則化對于預防模型過擬合的效果是等效的,但是當采用了自適應梯度算法(adaptive moment estimation,Adam)[43]時,L2正則化的效果會低于權重衰減,這是因為Adam每個參數的學習率會隨著時間變化而SGD學習率不受時間影響,從表達式來看,L2正則化項會隨著學習率的改變而變化;而如果使用權值衰減,因為權重衰減系數與學習率無關,即每次衰減的比例是固定的,所以在使用Adam時會導致L2正則化的效果低于權重衰減。
2 數據正則化
上一章介紹了對深度網絡進行參數正則化的主流方式,對網絡中的參數進行正則化可以達到預防模型過擬合的效果,而對訓練數據以及模型訓練方式進行對應正則化操作也能達到降低模型過擬合的目的。比如數據增廣[44]、早期停止[45]都是目前數據正則化中主流的方法。
2.1 數據增廣(data augmentation)
目前數據增廣的相關研究已經形成一個體系,本節會選出近年來常見的方法對該方向進行闡述,若想對該方向進行更進一步的了解,可以參考文獻[46~48]。
解決過擬合最直接的方式是給予充足的有效訓練樣本,但從時間和經濟成本的角度來看,這種方式在現實中是不可取的,對于有上千萬甚至上億的參數量的大型神經網絡而言,需要標注的有效訓練樣本是不可估量的,而標注有效的訓練樣本需要花費大量的人力與時間,可能光是標注數據投入的成本就已經遠遠超出訓練網絡所能產生的價值。為了有效地解決小樣本模型訓練中樣本量不足的問題,數據增廣是一種有效的正則化方法,以一定的規則去修改訓練樣本,同時平衡各類別中樣本的比例,使得模型能夠增強學習從而達到減少過擬合的目的。如今數據增廣流行的方法包括隨機裁剪、圖像翻轉和隨機擦除[49]等。
CNN從VGG[2]發展到ResNet[50],數據增廣正則化方法得到了廣泛的應用。Krishna等人[44]提出的“ 捉迷藏(hide-and-seek)”能夠生成多個不連續的隱藏補丁,使得在訓練圖像中形成多種遮擋組合,讓模型在測試階段遇到可識別目標被隱藏時迫使模型尋找其他相關內容,提高模型對遮擋情況的魯棒性。Sangdoo等人[7]提出的CutMix在訓練圖像之間隨機剪切并粘貼,標簽數據也進行相應處理。Yan等人[51]提出的LMix使用隨機掩模來保持訓練樣本的數據分布,并使用高頻濾波來銳化樣本以突出識別區域。Terrance等人[52]提出的cutout是在訓練過程中隨機地屏蔽輸入圖像中的一個固定大小的矩形區域,它可以與其他技術結合使用,如批量歸一化(batch normalization)[53],但它對訓練樣本處理的隨機性可能會將有效特征區域完全屏蔽。對于上述問題,Gong等人[54]提出了一種自適應的數據增強方法KeepAugment,該方法能夠通過顯著圖來衡量圖像中矩形區域的重要性,始終保持重要區域不受影響。在對抗訓練方向上,Zhang等人[55]提出的mixup被廣泛關注,從本質上來說,mixup是成對樣本及其標簽的混合,mixup能夠減少模型對錯誤標簽的記憶,增加對對抗實例的魯棒性,在對mixup的實際使用中,它可以通過幾行代碼實現。
現實場景中圖像在記錄或者傳播的過程中,可能出現圖像失真,導致圖像邊界難以區分,Jiang等人[56]提出的“特征弱化(feature weaken)能夠使特征更加緊湊,由于特征弱化調整了樣本邊界從而使得反向傳播中梯度優化值得到降低,所以該方法能提高模型的分類性能和泛化能力并穩定模型訓練、加快模型收斂速度。Google團隊為了能夠更好地讓模型挑選出適合當前網絡的增廣方式,設計了一個自動數據增廣方法AutoAugment[57],通過使用搜索算法來找到最佳數據增廣策略,讓模型在使用目標數據集訓練后能夠獲得更好的測試精度。
Liang等人[58]對不同數據增廣的樣本進行傅里葉頻譜對比,從圖4可知小物體通常表現為高頻信息,而大物體則是低頻信息。簡單的圖像翻轉數據增廣方法并不會改變圖像的任何像素值,在傅里葉頻譜上和原始圖像差別不大,使用圖像裁剪的方法相對于原始圖像高頻分量更向中心集中,同時低頻分量占比更多,對抗性圖像在整體上提高了圖像高頻信息。通過實驗表明,對抗性樣本可以顯著提高小目標的檢測精度,精度可以從22.5%提高到23.6%;自適應裁剪數據增廣能提高中等目標和大目標的性能,使中等目標檢測精度增益為0.7%、大目標檢測精度增益為0.3%。為了促進對數據增廣方法的理解,本文對常用的數據增廣方法進行了可視化,效果如圖5所示。
人工智能進行人機交互時不僅有圖像信息的交互還有文本信息的交互,文本信息的訓練數據增廣也必不可少。Jason等人[59]提出的EDA(easy data augmentation)被稱為最簡單的自然語言處理數據增廣方法,是由四種功能強大的操作組成,即同義詞替換[60]、隨機插入、隨機交換和隨機擦除。
2.2 提前停止(early stopping)
訓練過程中常用的策略還有提前停止,首先將數據集劃分為訓練集、驗證集和測試集三部分,在訓練過程中每隔一定迭代(iteration)次數便使用測試集對模型進行預測,當模型在測試集上的誤差不再降低時,便可以提前停止對模型的訓練。
Bai等人[61]利用提前停止的思想,在原有的基礎上提出了漸進早期停止(progressive early stopping,PES)方法,使用該方法可以讓模型抵御樣本中噪聲標簽的影響,作者建議將CNN分離為不同部分,初始化階段使用相對大量的epoch來預訓練模型,得到預訓練模型后再進行少量epoch的訓練,如今的模型訓練大多都是在預訓練模型上進行優化調整。
3 標簽正則化
在CNN中常用的標簽正則化,如標簽平滑(label smoo-thing)[8]、知識蒸餾(knowledge distillation)[62]等,都是通過對目標標簽分布進行修正以達到優化模型的目的,知識蒸餾方法如今體系較為完善,具體的細節內容可查看Gou 等人[62]和Tian等人[63]相關綜述,本章著重對標簽正則化中的標簽平滑進行詳細闡述。
機器學習中,多分類數據標簽通常都是以one-hot形式進行編碼,這樣會使得向量元素的值只有0和1,模型對多目標進行分類時,可能會導致物體之間的關聯信息丟失,而從丁家滿等人[64]和羅俊等人[65]的研究來看,標簽之間的關聯信息有助于提升模型性能。為提升模型多分類任務性能,Christian 等人[8]提出了標簽平滑(label smoothing),通過向真實標簽中加入噪聲來進行正則化,從而抑制模型過擬合。以交叉熵損失函數為例,損失函數及其標簽分布如式(8)(9)所示。
其中:p(k)為模型計算的每個標簽的概率;q(k)為標簽的真實分布。
對上述損失函數及其標簽分布進行標簽平滑后,不再使用原始的標簽概率分布p(k),而考慮標簽的真實分布μ(k)與平滑指數ε來對q(k)進行修正,修正后新的標簽概率分布式為
經過標簽平滑操作,錯誤標簽的概率不再絕對為0,使得物體之間的聯系得到保留,緩解了模型對于預測結果過于自信導致過擬合的問題。但標簽平滑也存在著一些問題,比如Hinton等人[66]發現,盡管標簽平滑會引發正則化效應,但由于平滑概率分布不太可能完全匹配真實的概率,所以標簽平滑很可能會引入損害泛化性能的偏差。對于這類問題,文獻[67]提出了一種稱為標簽松弛的技術,其關鍵核心是使用一組更大的候選分布去替換類標簽相關的概率分布,從而降低了在學習過程中消極信息的影響。
4 組合正則化
前三章描述了不同類型的正則化方法,它們都在模型的訓練過程中發揮著重要的作用。在實際的模型訓練中,通常會使用不同的正則化方法進行組合使用,本章將對主流的正則化組合方法進行詳細闡述。
通過實驗發現,在模型訓練預處理階段對導入的訓練數據進行cutout數據增廣后,模型對于識別被遮擋物體的能力得到了提升,但是模型對錯誤標簽信息依舊敏感,當使用cutout與mixup相結合后,訓練出來的模型的性能有了較為顯著的提升,將訓練樣本在預訓練階段進行多種數據增廣是如今較為常見的處理手段。對訓練樣本進行預處理本質上是讓模型能夠得到更好的學習,無法影響模型網絡與訓練過程。所以,在對訓練樣本進行預處理后,還可以繼續考慮對模型網絡與訓練過程進行正則化處理。以ResNet-18為例,單一使用TargetDrop時,該模型在目標檢測中精準度能達到95.59,而僅僅使用cutout與TargetDrop相結合就能夠讓模型在目標檢測任務上的精準度達到96.23。同樣地,對網絡PyramidNet-200使用數據正則化cutout與標簽正則化label smoothing,在CIFAR-100數據集上同樣能夠讓模型性能在使用單一正則化方法的基礎上得到提升。這些實驗更進一步地驗證了使用多種正則化組合提升模型訓練效果的有效性。
但并不是任意組合的正則化方法都有助于提升訓練效果,Müller等人[68]發現當標簽平滑與知識蒸餾一同使用時,教師模型的準確性能得到提高,但學生模型的性能會降低,在數據集MNIST[69]上進行實驗會發現學生模型的訓練誤差會比基線學生網絡高。同樣地,將TargetDrop與dropout進行組合使用,網絡的參數量能夠更顯著地降低,但由于特征信息的大量丟失使得模型無法有效地學習到目標對象的有效特征,模型的性能依然無法提升甚至會降低。所以在使用組合正則化方法時,必須了解每一個正則化的優點與局限性,才能保證使用正則化組合時能夠讓其局限性得到互補,更好地促進模型訓練。
5 數據集、評估指標和性能分析
大量可靠的帶標注數據集是深度學習成功的前提之一。在CNN中常用的公開數據集有CIFAR[70]、ImagNet[71],本章將基于上述兩種數據集對卷積神經網絡中的正則化方法進行實驗分析。實驗所用數據集的概況如表1所示。
5.1 實驗公開數據集介紹
a)CIFAR數據集。CIFAR-10和CIFAR-100都是從一個有8 000萬個已標注的微小圖像數據集中分離出來的子集。正則化方法對比實驗使用的CIFAR-10數據集是由60 000個尺寸大小為32×32彩色圖像組成,其中50 000張圖片作為訓練集,10 000張圖像作為測試集。CIFAR-10數據集有10個類別,每一個類別有6 000張圖像。在實驗過程中將數據集化分為5個訓練批次和1個測試批次,每一個批次有10 000張圖片, 測試批次所選用的圖片恰好包含每一個類隨機選擇的1 000張圖片。CIFAR-100同樣是由60 000個尺寸大小為32×32彩色圖像組成,一共有100個類別,每個類別下有600張圖片。與CIFAR-10不同的是,CIFAR-100還將100個類別化為了20個超類,即類別為“床”“椅子”此類的圖像化為超類(superclass)“家用家具”。所以每一個圖像的標簽都帶有一個“精細”標簽(它所屬的類)和一個“粗糙”標簽(它所屬的超類)。 在訓練過程中將每一個類別中隨機抽取500張圖像作為訓練集,另外的100張圖像作為測試集。雖然CIFAR數據集尺寸較小,但是數據規模相對較大,所以非常適合復雜模型特別是深度學習模型訓練,因而成為深度學習領域主流的物體識別數據集。
b)ImagNet數據集。ImageNet是根據WordNet構建的一個大規模圖像數據庫,其中包含了1 500多萬幅圖片并涵蓋2萬多個類別,平均每個類別都包含1 000張圖片,如今關于圖像分類、檢測等研究工作大多基于此數據集展開。實驗選用ImageNet-1K進行評估,該數據集一共包含1 000個類別,將其中120萬張圖片作為訓練集,15萬張圖片作為測試集使用。
5.2 實驗神經網絡模型介紹
a)ResNet。ResNet于2015年提出,并在ImageNet大賽中取得了分類任務的第一名,ResNet與普通的卷積模塊不同的是增加了一條Identify連接,也稱為跳躍連接。該網絡主要解決了CNN中梯度消失和梯度爆炸的問題,避免了模型在CNN深度加深的過程中出現模型退化,即網絡疊加更多的卷積層后,性能出現快速下降的情況。實驗使用了疊加不同ResNet模塊層數的ResNet網絡模型,分別是ResNet-18、ResNet-50、ResNet-56、ResNet-101、ResNet-110。同時還使用了一些ResNet的變體,如PyramidNet-200 、EfficientNet-B0、WRN-28-10。
b)InceptionNet。InceptionNet是Google團隊在2014年提出的,該網絡模型獲得了2014年ImageNet大賽的分類任務第一名。InceptionNet的提出是為了解決CNN中的網絡中參數增多使得計算復雜度變大,同時網絡深度越深越容易出現梯度消失的問題,所以InceptionNet是以降低參數量為目的,它是一個稀疏網絡結構,能夠增加神經網絡的效果,又能保證計算資源使用效率。在本文中使用Inception-V4為主干網絡進行了相應實驗。
c)DenseNet。DenseNet于2017年提出,與ResNet相比,DenseNet提出了一個更密集的跳躍連接機制,即連接所有的層,讓每一個層都會接受到前面所有層作為額外的輸入。該網絡模型通過使用密集的跳躍連接機制使得模型梯度的反向傳播效果得到了提升,并且每一層接收的額外輸入使用的是concat進行特征拼接,從而實現了特征重用。雖然密集連接看似會增加很多額外的計算量,但由于每一層的特征輸出通道數的增長率都會控制得較小,所以在實際的應用中,使用DenseNet反而會讓參數量更小、計算更高效。本文使用的是DenseNet-BC-190作為主干網絡進行相應的實驗。
5.3 評估指標
在CNN中常用的評估指標有平均準確率(average precision,AP)、top-1準確率和top-5準確率。AP表示檢測所得正樣本數占所有檢測樣本的比例,其表達式如式(13)所示。
AP= TP/(TP+FP) (13)
其中:TP表示被正確檢測為正例的實例數,FP表示被錯誤檢測為正例的實例數,AP表示類別的平均檢測精度。
模型在預測某一張圖片時,會給出1 000個類別的概率從高到低進行排名。top-1準確率是指模型對目標類別預測排名第一與真實類別相符合的概率;top-5準確率則是指模型對目標類別預測排名前五中,與真實類別相符合的概率。
5.4 性能分析
表2對正則化方法分類的機制、優勢、局限性這三個方面進行了詳細比較。本節使用5.2節中提到的數據評估策略在ResNet-50、ResNet-101[50]、PyramidNet200[72]、Inception-V4[73]等主干網絡和CIFAR、ImagNet數據集上對各個正則化方法從分類問題和目標檢測的角度進行性能評估,同時還對不同正則化方法進行組合測試,具體結果如表3~5所示。
1)圖像分類 從表中可得:a)在不同的數據集上分類的結果也不相同,受到類別個數的影響,CIFAR-10的分類結果總體要大于CIFAR-100和ImagNet數據集的分類結果;b)在參數正則化中,DropBlock和AutoDropout在不同的數據集下都有較好的效果,可根據表2的分析進行合適的選擇對網絡進行優化改進;c)在數據正則化中,多分類效果最好的是AutoAugment,使用該方法與其他正則化技術進行搭配,能夠使得模型訓練效果得到更好的優化;d)對不同正則化進行組合,在CIFAR和ImagNet數據集上表現比較優秀,可見在模型訓練的過程嘗試搭配使用不同的正則化,能讓模型得到更優的分類性能;e)通過實驗可知,并不是所有的正則化方法組合都能提升模型的分類能力,比如在不同的主干網絡中將label smoothing與DroBlock進行組合,模型基本沒有得到效果提升,所以采用何種正則化組合能夠有效改善模型,需要進行實驗驗證;f)使用優質的標注數據集并使用簡單的圖像變換策略進行數據增廣,能夠讓模型性能得到提升,但真實場景下的圖像數據可能與訓練樣本數據有很大不同,最新的方法feature weaken也在探索減少真實圖像與標注圖像差異的方法,說明研究真實圖像與標注圖像之間的差異性是值得關注的。
2)目標檢測 在計算機視覺領域目標檢測任務中,常見的基于CNN的目標檢測器可以劃分為one-stage[74~76]和two-stage[77,78]兩類。從表中可得:a)雖然參數正則化中AutoDropout對于模型的性能提升較好,但是使用該方法需要大量的額外計算成本,而在目標檢測實際應用中需要考慮性能與延遲的權衡;b)對模型進行特定目標檢測訓練時,通常都是小樣本訓練,而數據增廣能夠最大限度地填補訓練樣本量的不足,讓模型在目標檢測任務上得到更好的性能,比如CutMix、mixup等數據增廣的方式都能使得模型的檢測精度得到提升;c)無論是在分類任務還是目標檢測上,使用不同的正則化方法進行合理的組合使用,都會讓模型的性能得到更好的效果,比如cutout與KeepAugmeng相結合就能使得模型的檢測精度在單一使用其中任何一個的基礎上得到顯著的提升。
6 正則化方法的未來研究趨勢
正則化方法的創建初衷是用來解決模型過擬合問題,如今各類正則化方法已經在CNN中得到應用,并帶來了很好的效果。未來正則化方法在以下方面值得進一步研究。
a)計算機視覺的方向。Transformer是一種采用注意力機制的深度學習模型,在如今依然是一個不斷探索的領域,將應用于CNN效果較好的正則化方法直接移植到Transformer中效果普遍較差,研究如何將CNN中效果好的正則化方法適配Transformer,讓模型能夠更好地擬合網絡的全局信息,是一個值得改進的思路。
b)元學習方面。元學習是讓模型學習如何去學習,正則化方法對不同的網絡架構需要對自身超參數進行調整,可以嘗試結合元學習的思想讓模型在訓練過程中學習如何設置更好的正則化參數,這樣能夠讓模型在面對多任務問題時能有更好的適應性。
c)模型優化與泛化的權衡。目前大多數正則化效果好的方法都側重于提高模型的泛化能力,而忽略了模型優化的問題,導致模型在訓練過程中學習不穩定收斂速度較慢,雖然現在已經有一部分針對該問題的研究,但是離期望的效果還有很大的差距,所以該方向同樣值得繼續深入研究。
7 結束語
本文根據近幾年來CNN中常用的正則化方法,通過參數正則化、數據正則化、標簽正則化這三方面進行了詳細總結。正則化方法作為機器學習中防止訓練模型出現過擬合問題的一項重要手段,已經在各個模型訓練中廣泛應用,例如小樣本訓練的網絡。在對正則化方法進行系統的總結過程中,筆者發現在對于深度神經網絡中進行正則化方法應用時,單一地使用正則化方法可能帶來的效果對于實驗結果而言是不明顯的,而將正則化方法進行組合應用時,能更有效地預防模型過擬合問題。發現一個新的正則化方法并對其進行系統性總結是非常困難的,但對不同的正則化方法進行創新組合使用使得模型得到更好的優化是比較容易實現的,這也是今后筆者會著重進行研究的方向。
參考文獻:
[1]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]//Proc of the 26th Annual Conference on Neural Information Processing Systems.2012:1106-1114.
[2]Karen S,Andrew Z.Very deep convolutional networks for large-scale image recognition[C]//Proc of the 3rd International Conference on Learning Representations.2015.
[3]Ross B G,Jeff D,Trevor D,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of Conference on Computer Vision and Pattern Recognition.2014.
[4]Jonathan L,Evan S,Trevor D.Fully convolutional networks for semantic segmentation[C]//Proc of Conference on Computer Vision and Pattern Recognition.2015.
[5]Kaiming H,Georgia G,Piotr D,et al.Mask R-CNN[C]//Proc of International Conference on Computer Vision.2017.
[6]Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neural networks by preventing coadaptation of feature detectors[C]//Proc of Conference on Computer Vision and Pattern Recognition.2012.
[7]Sangdoo Y,Dongyoon H,Seong J O,et al.CutMix:regularization stra-tegy to train strong classifiers with localizable features[C]//Proc of International Conference on Computer Vision.2019:6022-6031.
[8]Christian S,Vincent V,Sergey I,et al.Rethinking the inception architecture for computer vision[C]//Proc of Conference on Computer Vision and Pattern Recognition.2016:2818-2826.
[9]Breiman L.Bagging predictors[J]. Machine Learning ,1996: 24 (2):123-140.
[10]Srivastawa N,Hinton G E,Krizhevsky A,et al.Dropout:a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research ,2014, 15 (1):1929-1958.
[11]Ian J G,David W F,Mehdi M,et al.Maxout networks[C]//Proc of the 30th International Conference on Machine Learning.New York:ACM Press,2013:1319-1327.
[12]Junsuk C,Seungho L,Hyunjung S.Attention-based dropout layer for weakly supervised single object localization and semantic segmentation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2021, 43 (12):4256-4271.
[13]Zhu Hui,Zhao Xiaofang.TargetDrop:a targeted regularization method for convolutional neural networks[C]//Proc of International Confe-rence on Acoustics Speech and Signal Processing.Piscataway,NJ:IEEE Press,2022:3283-3287.
[14]Wan Li,Matthew D Z,Zhang Sixin,et al.Regularization of neural networks using dropconnect[C]//Proc of the 30th International Conference on Machine Learning.New York:ACM Press,2013:1058-1066.
[15]Mojtaba F,Mohammad A,Akilesh B et al.PatchUp:a feature-space block-level regularization technique for convolutional neural networks[C]//Proc of the 34th Conference on Innovative Applications of Artificial Intelligence.2022:589-597.
[16]Hojjat M,Eghbal G M.Skipout:an adaptive layer-level regularization framework for deep neural networks[J]. IEEE Access ,2022, 10 :62391-62401.
[17]Lu Ziqing,Xu Chang,Du Bo,et al.LocalDrop:a hybrid regularization for deep neural networks[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2022, 44 (7):3590-3601.
[18]Huang Gao,Sun Yu,Liu Zhuang,et al.Deep networks with stochastic depth[C]//Proc of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Piscataway,NJ:IEEE Press,2016:1-4.
[19]Yoshihiro Y,Masakazu I,Koichi K.ShakeDrop regularization[C]//Proc of the 6th International Conference on Learning Representations.2018.
[20]Xavier G.Shake-Shake regularization[C]//Proc of the 5th International Conference on Learning Representations.2017.
[21]Lu Yao,Lu Guangming,Li Jinxing,et al.Multiscale conditional regularization for convolutional neural networks[J]. IEEE Trans on Cybernetics ,2022, 52 (1):444-458.
[22]Zhao Chenqiu,Dong Guanfang,Zhang Shupei,et al.Frequency regularization:restricting information redundancy of convolutional neural networks[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023.
[23]Ghiasi G,Lin T Y,Le Q.DropBlock:a regularization method for convolutional networks[C]//Proc of Annual Conference on Neural Information Processing Systems.2018:10750-10760.
[24]Brahim A S,Abdelhamid E H,Aicha M.Mixed-pooling-dropout for convolutional neural network regularization[J]. Journal of King Saud University- Computer and Information Sciences ,2022, 34 (8A):4756-4762.
[25]Jonathan T,Ross G,Arjun J,et al.Efficient object localization using convolutional networks[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:648-656.
[26]Ba L J,Frey B.Adaptive dropout for training deep neural networks[C]//Proc of the 26th International Conference on Neural Information Processing Systems.2013:3084-3092.
[27]Gong Dianchen,Wang Zhiling,Wang Hanqi,et al.DropMask:a data augmentation method for convolutional networks[C]//Proc of the 6th Advanced Information Technology,Electronic and Automation Control Conference.Piscataway,NJ:IEEE Press,2022:1718-1722.
[28]Pham H,Le Q V.AutoDropout:learning dropout patterns to regularize deep networks[C]//Proc of the 35th AAAI Conference on Artificial Intelligence.2021:9351-9359.
[29]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st InternationalConference on Neural Information Processing Systems.2017:6000-6010.
[30]Czernorucki M V,De Salles M B C,Avila S L,et al.Multi-objective design optimization for HVDC-LCC converter transformers:analytical and fea-based comparison[J]. IEEE Access ,2023, 11 :23032-23045.
[31]Bumsoo K,Jonghwan M,Minchul S,et al.MSTR:multi-scale Transformer for end-to-end human-object interaction detection[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:19556-19565.
[32]Hong Xia,Chen Sheng,Guo Yi,et al.l1-norm penalized orthogonal forward regression[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015.
[33]Lu Zhiwu,Peng Yuxin.Robust image analysis by l1-norm semi-supervised learning[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2011.
[34]Enzo T,Andrea B,Francesco O,et al.SeReNe:sensitivity-based regularization of neurons for structured sparsity in neural networks[J]. IEEE Trans on Neural Networks and Learning Systems ,2022, 33 (12):7237-7250.
[35]Hu Yaokai,Li Feng,Li Bo.Group L1/2 regularization for filter pruning of convolutional neural networks[C]//Proc of the 4th International Conference on Frontiers Technology of Information and Computer.Piscataway,NJ:IEEE Press,2022:1029-1032.
[36]Wu Shuang,Deng Lei,Liu Liu,et al.L1-norm batch normalization for efficient training of deep neural networks[J]. IEEE Trans on Neural Networks and Learning Systems ,2019, 30 (7):2043-2051.
[37]Han X,Kashif R,Roland V.Fashion-MNIST:a novel image dataset for benchmarking machine learning algorithms[C]//Proc of Conference on Computer Vision and Pattern Recognition.2017.
[38]Olga R,Deng Jia,Hao Su,et al.ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision ,2015, 115 (3):211-252.
[39]Fisher Y,Yinda Z,Shuran S,et al.LSUN:construction of a large-scale image dataset using deep learning with humans in the loop[C]//Proc of Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2017.
[40]Corinna C,Mehryar M,Afshin R.L2 regularization for learning kernels[C]//Proc of the 25th Conference on Uncertainty in Artificial Intelligence.2009:109-116.
[41]Anders K,John A.H.A simple weight decay can improve generalization[C]//Advances in Neural Information Processing Systems.1991:950-957.
[42]Ilya L,Frank H.Decoupled weight decay regularization[C]//Proc of the 7th International Conference on Learning Representations.2019.
[43]Kingma D P,Ba J.Adam:a method for stochastic optimization[C]//Proc of the 3rd International Conference on Learning Representations.2015.
[44]Krishna K S,Hao Yu,Aron S,et al.Hide-and-seek:a data augmentation technique for weakly-supervised localization and beyond[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018.
[45]Morgan N,Bourlard H.Generalization and parameter estimation in feedforward nets:some experiments[C]//Proc of the 2nd International Conference on Neural Information Processing Systems.1989:630-637.
[46]Connor S,Taghi M K.A survey on image data augmentation for deep learning[J]. Journal of Big Data ,2019, 6 (1):60.
[47]Yang Suorong,Xiao Weikang,Zhang Mengcheng,et al.Image data augmentation for deep learning:a survey[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[48]Yang Zihang,Sinnott R O,Bailey J,et al.A survey of automated data augmentation algorithms for deep learning-based image classication tasks[J]. Knowledge and Information Systems, 2023, 65 (7):2805-2861.
[49]Zhong Zhun,Zheng Liang,Kang Guoliang,et al.Random erasing data augmentation[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020.
[50]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[51]Yan Linyu,Zheng Kunpeng,Xia Jinyao,et al.LMix:regularization strategy for convolutional neural networks[J]. Signal Image Video Process ,2023, 17 (4):1245-1253.
[52]Terrance D,Graham W T.Improved regularization of convolutional neural networks with cutout[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017.
[53]Sergey I,Christian S.Batch normalization:accelerating deep network training by reducing internal covariate shift[C]//Proc of the 32nd International Conference on Machine Learning.2015:448-456.
[54]Gong Chengyue,Wang Dilin,Li Meng,et al.Keepaugment:a simple information preserving data augmentation approach[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:1055-1064.
[55]Zhang Hongyi,Cisse M,Dauphin Y N,et al.Mixup:beyond empirical risk minimization[C]//Proc of the 6th International Conference on Learning Representations.2018.
[56]Jiang Songhao,Chu Yan,Ma Tianxing,et al.Feature weaken:vicinal data augmentation for classification[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[57]Ekin D C,Barret Z,Dandelion M,et al.AutoAugment:learning augmentation strategies from data[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:113-123.
[58]Liang Jiawei,Liang Siyuan,Liu Aishan,et al.Rethinking data augmentation in knowledge distillation for object detection[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[59]Jason W W,Kai Z.EDA:easy data augmentation techniques for boosting performance on text classification tasks[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.2019:6381-6387.
[60]Zhang Xiang,Zhao Junbo,LeCun Y.Character-level convolutional networks for text classification.[C]//
Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:649-657.
[61]Bai Yingbin,Yang Erkun,Han Bo,et al.Understanding and improving early stopping for learning with noisy labels[C]//Proc of the 35th Conference on Neural Information Processing Systems.2021:24392-24403.
[62]Gou Jianping,Yu Baosheng,Maybank S J,et al.Knowledge distillation:a survey[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020.
[63]Tian Yijun,Pei Shichao,Zhang Xiangliang,et al.Knowledge distillation on graphs:a survey[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023.
[64]丁家滿,劉楠,周蜀杰,等.基于正則化的半監督弱標簽分類方法[J].計算機學報,2022, 45 (1):69-81. (Ding Jiaman,Liu Nan,Zhou Shujie,et al.Semi-supervised weak-label classification method by regularization[J]. Chinse Journal of Computers ,2022, 45 (1):69-81.)
[65]羅俊,高清維,檀怡,等.基于雙拉普拉斯正則化和因果推斷的多標簽學習[J].計算機工程,2023, 49 (11):49-60. (Luo Jun,Gao Qingwei,Tan Yi,et al.Multi-lable learning based on double Laplace regularization and causal inference[J]. Computer Engineering ,2023, 49 (11):49-60.)
[66]Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J]. Neural Computing ,2006, 18 (7):1527-1554.
[67]Julian L,Eyke H.From label smoothing to label relaxation[C]//Proc of the 33rd Conference on Innovative Applications of Artificial Intel-ligence.2021:8583-8591.
[68]Müller R,Kornblith S,Hinton G E.When does label smoothing help?[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.2019:4696-4705.
[69]Gregory C,Saeed A,Jonathan T,et al.EMNIST:an extension of MNIST to handwritten letters[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017.
[70]Brendan M,Eider M,Daniel R,et al.Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Intelligence and Statistics.2017:1273-1282.
[71]Deng Jia,Dong Wei,Richard S,et al.ImageNet:a large-scale hierarchical image database[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:248-255.
[72]Dongyoon H,Jiwhan K,Junmo K.Deep pyramidal residual networks[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:6307-6315.
[73]Christian S,Sergey I,Vincent V,et al.Inception-v4,inception-ResNet and the impact of residual connections on learning[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.2017:4278-4284.
[74]Chien Y W,Alexey B,Mark L.YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[75]Li Chuyi,Li Lulu,Geng Yifei,et al.YOLOv6 v3.0:a full-scale reloading[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023.
[76]Xu Xianzhe,Jiang Yiqi,Chen Weihua,et al.DAMO-YOLO:a report on real-time object detection design[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022.
[77]Ren Shaoqing,He Kaiming,Ross B G,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Trans on Pattern Analysis and Machine Intelligence ,2017, 39 (6):1137-1149.
[78]Liu Zongmin,Wang Jirui,Li Jie,et al.A novel improved mask RCNN for multiple targets detection in the indoor complex scenes[C]//Proc of Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023.
[79]Hinton G E,Vinyals O,Dean J.Distilling the knowledge in a neural network[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015.
收稿日期:2023-06-29; 修回日期:2023-08-28 基金項目:國家自然科學基金地區基金資助項目(62162013);貴州師范大學學術新苗基金資助項目(黔師新苗[2022]30號)
作者簡介:陳琨(1999—),男,貴州黔南人,碩士研究生,CCF會員,主要研究方向為人工智能、目標檢測;王安志(1986—),男(通信作者),貴州銅仁人,副教授,碩導,博士,主要研究方向為人工智能、深度學習、計算機視覺(andyscu@163.com).