基于隨機塊引導與多層次特征融合的細粒度鳥類圖像分類方法

2025-06-17 00:00:00林曉王正凱李巖

上海師范大學學報·自然科學版 2025年2期

中圖分類號：TN391.7 文獻標志碼：A 文章編號：1000-5137（2025）02-0153-07

Abstract：Muchatentionwasatracedforfine-grained imageclasificaionduetochallngessuchassubtlediffrencesbetween categoriesandbackground interference.Arandomguidedmulti-scale fusionnetwork（RG-MSF-Net）wasproposed to fulyCitationformat：LINX，WANGZK，LIY.Afine-grainedbirdimageclassificationmethodbasedonrandomblockguidanceandmuli-levelfeaturefusion[J].JournalofShanghaiNormalUniversity（NaturalSciences），2025，54（2）：153-159.

exploitthemulti-level feature informationoffine-grainedimagesand improveclassificationperformance.RG-MSF-Netwas consistedofarandom guided featureextraction（RGFE）module，amulti-scale feature fusion（MSFF）module，andadynamic saliencyclasification module（DSCM）.The generalisationabilityofthe model was enhancedbyRGFE moduleandlocaland globalfeatures werepaidatentiontobyrandomlyreorganizedimageblocksandaspatialatentionmechanismwasintroduced. Swin-transformerandfeature pyramidnetwork（FPN）werecombinedbyMSFFmoduletoachieveeficientfusion formulti-scale features.Theabilitytofocusonkeyfeatures was improved byDSCMthroughdynamicmasksandweighted classification mechanisms.Experimental results showed that RG-MSF-Net achieved Top-1 accuracy of 91.4% and 90.5% on the fine-grained birdclassificationdatasets CUB-20O-2011andNA-Birds，respectively，whichwascompetitivecompared toavarietyof advanced methods.

KeyWords：fine-grainedimageclassification；randomguided featureextraction（RGFE）；multi-scalefeaturefusion（MSFF）; saliencyclassification

0 引言

隨著計算機視覺和深度學習的快速發展，細粒度圖像分類成為該領域的重要研究課題，旨在區分具有微小差異的圖像（如鳥類[1]和汽車[2]）目標.鳥類圖像的細粒度分類因種類繁多且外觀相似，面臨不小的挑戰.傳統分類方法在復雜背景下難以提取細粒度特征并抑制冗余信息，影響分類性能.為此，本文提出了一種基于隨機塊引導與多層次特征融合網絡（RG-MSF-Net），有效捕捉細粒度特征，減少背景噪聲干擾，并在處理相似的鳥類圖像時，表現出優異的分類性能.

1方法介紹

本文方法整體結構如圖1所示.RG-MSF-Net包括以下三個核心模塊：隨機引導特征提取（RGFE）模塊、多尺度特征融合（MSFF）模塊和動態顯著性分類模塊（DSCM）.RGFE模塊通過隨機圖像塊重組技術，結合空間注意力機制提取多粒度特征圖.隨機塊的引入增強了模型的泛化能力，有效抑制背景噪聲并提升了對局部和全局特征的關注.MSFF模塊利用Swin-Transformer和特征金字塔網絡（FPN）實現多尺度特征的融合與增強.多層 SwinBlock 深度挖掘特征，FPN通過上采樣，動態平衡高層語義和低層空間信息，為分類提供豐富的特征表示.DSCM采用動態掩碼機制和動態權重分類器，對多層特征進行顯著性增強與分類優化.通過突出高響應通道并抑制低響應通道，增強了對重要特征的關注，同時利用動態權重分類器融合各層次分類結果，輸出最終分類結果.該方法顯著提升了細粒度圖像分類性能，并增強了模型對復雜圖像特征的處理能力.

1.1 RGFE模塊

本模塊由特征提取單元和圖像分割單元組成，旨在實現高效的特征提取與圖像分割.首先，將原始的細粒度圖像的 512pixel×512 pixel的尺寸重塑為 384pixel×384 pixel，以獲取較高精度的圖像.具體地，將輸入圖像 I∈R^C×H×W| （其中， c 表示圖片的通道數； H 表示圖片的高度； W 表示圖片的寬度）分割為n×n 的子塊，子塊大小為 b×b

隨機打亂圖像塊是一種有效挖掘判別性特征的技術，能幫助模型更好地聚焦于局部和全局特征，增強模型在應對目標姿態變化時的適應能力.通過這種技術，模型在處理圖像時，即使存在輕微遮擋或局部空間排列變化，也能表現得更加穩健，而不依賴于特定的空間排列，從而提升了模型的泛化能力.此外，本方法中的圖像補丁塊大小以及每行和每列的圖像塊數量均可調整，能夠適應不同分辨率的輸入圖像，并支持更廣泛的任務需求.在特征提取方面，本文采用了輕量化的預訓練ResNet-18網絡，分別對重塑后的細粒度圖像和原始細粒度圖像進行初步的多尺度特征提取.為了減少背景噪聲對判別性目標的影響，本文引人了空間注意力機制層來捕獲多尺度特征中的重要區域，提取出更加具有判別性的注意力區域，從而獲得最終的多尺度特征表示.

在此過程中，空間注意力機制對提取的第 k 層特征計算顯著性權重圖 M^（k），用于增強關鍵區域，

式中： A（k）（i，j）表示第 k 層的特征圖中，（i，j）位置的注意力權重值； μ（A^（k））為 A^（k）的平均值; α∈（0，1）為抑制因子.

1.2 MSFF模塊

本模型采用MSFF模塊對RGFE模塊生成的多尺度特征進行融合.該模塊由 Swin-Transformer網絡和FPN組成，其中FPN包含投影單元和上采樣單元，投影單元由兩個 1×1 卷積層和兩層全連接層組成；Swin-Transformer網絡包括兩個分支，每個分支由4個依次連接的Swin Block（Swin Block1＼～4）構成，且兩個分支中的SwinBlock相互對應連接.模型將 1×1 和 2×2 圖像特征圖分別輸入到不同層次的Swin-Transformer中進行前向傳播和縱向特征融合.隨著前向傳播層次加深，模型能夠提取更豐富的特征信息，并獲取更高層次的語義信息.因此，MSFF模塊的核心設計理念是將不同尺度的圖像特征視為獨立特征，分別進行處理和分類，并利用這些多層次特征作為模型分類的基礎，有效提升分類性能.

該模塊的執行步驟包括：將細粒度圖像的多尺度特征輸入第一分支中，在Swin Block1，Swin Block2，SwinBlock3及SwinBlock4上進行依次前向傳播，每個 SwinBlock 塊產生的不同尺度級別的特征;將隨機重組圖像的多尺度特征輸入第二分支中，重復第一分支中的操作.

S_1，L 和 S_2，L 分別表示第一分支和第二分支的第 L 個SwinBlock， F_1，L 和 F_2，L 表示第一分支和第二分支在第 L 層提取的特征表示.更新特征，

FPN對第一分支和第二分支中每個SwinBlock生成的不同尺度特征進行對應融合，得到多尺度融合特征.FPN旨在通過多尺度融合增強特征圖的表達能力，將高分辨率的低層特征與低分辨率的高層特征結合，生成統一的特征表示.融合后的特征通過2個 1×1 卷積層投影到統一維度，以確保輸出特征具有一致的通道數，并通過兩層全連接層進一步調整為分類器所需的維度.

式中： F_fuse，L 為兩個分支在第1層的融合特征.

本模塊利用雙線性插值方法的上采樣模塊自頂向下（從高層到低層）將高層特征匹配到低層特征分辨率，實現了對 1×1 圖像特征圖與 2×2 圖像特征圖的融合效果.將上采樣后的高層特征與當前層次的低層特征進行主機融合，最終生成統一的特征.

1.3 DSCM

DSCM通過多尺度顯著性分類選擇模塊對特征進行加權分類，結合低層次的空間信息與高層次的語義信息，動態調整特征的重要性，確保高判別性特征在分類過程中得到充分利用，從而顯著提升模型分類精度.模塊由特征響應單元、動態掩碼單元、第一層分類器和動態權重分類器組成.具體執行步驟：經過多尺度特征融合得到不同層次的特征輸出以及由2個級別共同生成的4個層次的語義信息，分別作為本模塊的輸人，并進行分類處理，以提升不同層次特征信息在最終分類中的貢獻效果.利用特征響應單元將4個層次的特征信息轉化為4個多尺度特征張量，分別表示為S1，S2，S3和 S4 ，經過特征響應模塊的特征分別表示為 .為了提高每一個層次信息的結果顯著性，將 X1 ， X2 ， X3 和X4 分別傳人動態掩碼單元，對于每一層的特征 X_l 沿空間維度進行均值池化，得到全局特征

F_l=M_ean（X_l，d_im=1）

式中； M_ean（?）表示均值池化； d_im 表示空間維度.

創建與 X1 ， X2 ， X3 ， X4 相同形狀的掩碼 M_l. 對每個樣本 b 的通道維度進行分析，找到響應值最大的通道，為最大響應通道分配權重1，

式中： a₁ 表示每一層的初始縮減權重.之后按元素相乘，將掩碼 M_ι 應用到不同的特征 F_ι 上，

F_?^′=F_??M_?，

式中： ? 表示按元素相乘操作.

最后將分類器與結果融合，應用到每一層分類器 C_ι，l∈（1，2，3，4），用于對處理后的特征進行分類.掩碼調整后的特征 F_l^′ 作為輸人，傳遞到每一層的分類器 C_?，最終，將不同層次的分類結果進行融合，生成綜合分類結果.

Y=Σ_l=4⁴Y_l，

式中： Y_ι 為1層的分類結果；Y為最終的分類結果.

DSCM應用Softmax函數作為激活函數， A_cc 作為該分類的評價指標，

式中：表示測試集中所有子類別的圖像總數；表示模型成功分類的樣本數量； A_cc 表示細粒度圖像分類的精確度.

同時，利用二元交叉熵函數作為該分類方法的損失函數，

式中：L表示總損失值； N 表示樣本的數量； y_i 表示第 i 個樣本的真實標簽，取值為0或表示第 i 個樣本的預測值，表示模型預測為正類的概率，取值范圍在0＼～1之間.

2 實驗部分

2.1 實驗配置

在CUB-200-20111和NA-Birds[3兩個鳥類識別數據集上進行實驗.CUB-200-2011數據集包含來自200種不同鳥類的11788張圖像，涵蓋200個類別，其中包括5994張訓練圖像和5794張測試圖像.NA-Birds是一個規模更大的細粒度數據集，包含555個類別和48562張北美鳥類圖像，其中23929張用于訓練，其余用于測試.在CUB-200-2011數據集上進行消融實驗，以驗證RG-MSF-Net的有效性.網絡使用Pytorch框架搭建，并在NVIDIAGeForceRTX3090GPU上進行實驗.優化器采用隨機梯度下降（SGD）算法，初始學習率設置為0.001，并使用0.0001的權重衰減因子.在訓練初期，學習率將在750個batch內進行線性預熱，以穩定訓練過程.整個訓練過程的最大epoch數為100，并且每10個epoch進行一次評估.

2.2 與先進方法的比較

本模型在兩個測試數據集上與6種先進細粒度圖像分類方法（PPL- ?Net^[4] ，HLS-FGVC[5]， PMG^[6] ，LGTF]，CSQA-Net及G2DFE- ）進行了對比評估，結果如表1所示.RG-MSF-Net在兩個數據集上的Top-1精度分別達到 91.4% 和 90.5% ，表現出較強的競爭力.這一優異表現得益于RG-MSF-Net通過平衡全局上下文與局部細節，增強關鍵特征表達，避免了對特定空間排列的過度依賴，有效提升了模型在復雜背景下的分類性能.

2.3 消融實驗

為驗證RG-MSF-Net中各個模塊的有效性，基于CUB-200-2011鳥類數據集進行了消融實驗，并采用與最終模型相同的實驗配置和訓練參數進行訓練.

首先，DSCM通過動態調整特征的重要性，提高特征表達的豐富性，有效利用了高判別性特征.當用簡單的Softmax激活函數替代DSCM時，分類精度從 91.4% 下降至 90.9% ，表明DSCM在提升分類性能方面具有關鍵作用.其次，為評估RGFE模塊的貢獻，移除了其中的 2×2 特征圖處理分支，僅保留單分支處理路徑.實驗結果顯示，采用完整的RGFE模塊，分類精度達到 91.4% ，而單分支方法的分類精度僅為90.8% ，驗證了RGFE模塊在挖掘判別性特征和增強細粒度特征敏感性方面的有效性.最后，同時移除RGFE模塊和DSCM，僅保留單分支輸入并使用Softmax激活函數時，分類精度進一步下降至 90.4% 上述結果充分證明了RGFE模塊和DSCM的協同作用，在提升模型性能方面的重要性，能夠顯著增強模型對細粒度圖像特征的捕捉能力，提高分類精度并增強模型的穩健性.

為了驗證空間注意力機制的有效性，本文在CUB-200-2011數據集上進行了3次獨立實驗，保持其他模塊不變，以評估模型性能.表3展示了不同注意力機制對網絡分類精度的影響.分析表明，空間注意力機制優于通道注意力機制和空間 + 通道注意力機制，其主要原因在于空間注意力機制能夠直接聚焦圖像中的關鍵區域，從而提升對象識別的準確性.同時，空間注意力機制計算復雜性較低，有助于模型快速適應基礎特征，減少對通道特征的依賴，避免引入干擾信息.在細粒度圖像分類任務中，由于目標的外觀和位置可能存在顯著差異，空間注意力機制的靈活性使其能夠有效適應這些變化，突出重要區域，為后續的細致特征學習提供了更扎實的基礎.因此，本文提出的空間注意力機制在初始階段展現了更優異的特征捕捉能力.

為了進一步驗證多尺度特征融合模塊不同分支的貢獻程度，本文進行了針對不同分支的單獨精確度實驗，4個實驗獨立進行，并在此基礎上對DSCM進行了相應調整，剔除掉相應掩碼層與不同層次的特征連接，得到的精度如表4所示.

如表4所示，特征提取層次的加深顯著提高了細粒度圖像分類模型的精度.深層網絡能夠逐步學習更復雜和抽象的特征.初始層捕捉簡單的邊緣和紋理，而隨著層次增加，模型逐步提取形狀、部分對象及其語義信息，這對區

分相似對象的微小差異至關重要.此外，多次非線性變換增強了模型的表達能力，使其有效識別復雜特征關系并融合上下文信息.這種逐層提取和融合特征的結構確保了良好的梯度傳播，從而提升了識別精度.

3結語

本文詳細介紹了一種基于隨機塊引導與多層次特征融合的細粒度圖像分類方法RG-MSF-Net.該方法的總體框架包括3個主要模塊：RGFE模塊、MSFF模塊和DSCM.通過在NA-Birds與CUB-200-2011數據集上的實驗證明了RG-MSF-Net在細粒度圖像分類任務中展現了優越的性能，與許多先進方法相比，仍具有競爭力.消融實驗進一步驗證了各模塊以及不同分支對整體性能的貢獻.總體而言，RG-MSF-Net在細粒度圖像分類領域具備一定的應用潛力.

參考文獻：

[1]WAH C，BRANSON S，WELINDER P，et al.The caltech-ucsd birds-200-2011dataset[DB/OL].Caltech Vision Lab，2011[2024-10-10]. https：/www.vision.caltech.edu/datasets/cub_200_2011/.

[2]KRAUSEJ，SARKM，DENGJ，etal3Djectrepresetationsforfingrainedcategorzation[C/IternatioalCoerence on ComputerVision Workshops.Sydney：IEEE，2013：554-561.

[3]VAN HORNG，BRANSON S，FARRELL R，et al.Building a bird recognition appand large scale dataset with citizen scientists：the fine print infine-grained dataset collection[C]// Conference on Computer VisionandPattern Recognition.Boston：IEEE，2015：595-604.

[4]MAL，ZHAOF，HONGHY，etal.Finegrainedvisualclasificationbyprogressive trainingviajigsawpuzzlepetation learning[C]//IternationalConferenceonCommunication，Image andSignalProcessing.Chengdu：IEEE，2021：155-161.

[5] ZHANG S C，ZHENG SY，SHUI Z Y，et al. HLS-FGVC： hierarchical label semantics enhanced fine-grained visual classification[C]// International Conference on Acoustics，Speech and Signal Processing.Seoul：IEEE，2024：7370- 7374.

[6] DURY，XIEJY，MAZY，etal.Progresive learning ofcategory-consistent multi-granularity features forfinegrained visual classification[J].IEEE Transactions onPattern Analysisand Machine Intellgence，2021，44（12）：9521-9535.

[7] ZHULY，CHEN TR，YINJX，et al.Learning Gabor texture features for fine-grainedrecognition[C]//International Conference on Computer Vision.Paris：IEEE，2023：1621-1631.

[8]XUQ，LIST，WANGJH，etal.Context-semanticqualityawarenessnetworkforfine-grainedvisualcategorization[J/OL]. Arxiv preprint arxiv，2024： 2403.10298[2024-10-10]. https：/arxiv.org/abs/2403.10298？ context=cs.

[9] WANGYP，XUC，WANGYL，etal.Graph-in-graph discriminative feature enhancement network forfine-grained visual classification[J].Applied Intelligence，2025，55（1）：22.

（責任編輯：包震宇，郁慧）