冀 中,吳伊兵,王 軒
雙路特征提取與度量的少樣本細粒度圖像分類方法
冀 中,吳伊兵,王 軒
(天津大學電氣自動化與信息工程學院,天津 300072)
少樣本學習旨在利用少量數據訓練深度學習模型,并將其快速泛化到新任務中.在這一領域,少樣本細粒度圖像分類是最具有挑戰性的任務之一,原因在于細粒度圖像具有類內方差大、類間方差小的特點.為了解決這一問題,本文提出了一種基于距離與方向雙重度量的神經網絡,分別利用歐氏距離衡量特征間的絕對距離差異和余弦相似度衡量特征間的相對方向差異,以提升度量信息多樣性和樣本特征的判別性.同時,為了與當前先進的少樣本細粒度圖像分類方法對比,將特征提取器在不增加深度的前提下設置為雙路形式,以適應不同度量方法對嵌入特征信息的需要.此外,設計了彼此分離的通道和空間注意力機制,分別通過自適應通道注意力和空間信息交叉注意力對不同階段的提取特征進行增強,從而挖掘重要分類信息.最后,通過雙相似度模塊分別計算兩種差異信息的度量結果,并選取一定權重融合得到最終的相似度分數,實現絕對差異與相對差異在度量空間中的協調補充.在4個主流細粒度圖像分類數據集上進行實驗對比與分析,最終結果表明了所提方法在相同設置下最多實現了7.0%左右的分類準確率提升.
細粒度圖像;少樣本;歐氏距離;余弦相似度
目前,少樣本圖像分類方法層出不窮,例如,Ji等[1]提出一種模態交替傳播網絡,通過利用語義信息增強視覺特征以緩解樣本過少問題.文獻[2]設計了一種利用全體樣本信息校正類別原型的原型網絡方法來提高類別原型的準確性.少樣本細粒度圖像分類任務主要側重于分類類別粒度更精細的圖像樣本,其任務難度較少樣本圖像分類則更加困難.相比傳統二維視圖數據,細粒度樣本類內相似度更高.Shu等[3]提出自我提升注意機制,能在少量數據標注時關注樣本和類別間共享的關鍵區域.度量學習作為當前比較有效的手段,通常用在人臉識別、行人重識別等任務中來計算人臉圖像間的相似度.Nguyen等[4]為了提高給定的度量模型的泛化能力,利用余弦相似度函數設計了一種有效度量人臉圖像相似性的學習算法.Munjal等[5]重新加權了用于特定查詢定位的查詢引導子網絡和用于相似度量的查詢引導子網絡,來適應少樣本細粒度分類和行人搜索任務.
當今主要的少樣本度量學習方法基本上都是將提取特征嵌入到單一度量空間中.而文獻[6]指出,單一的度量方式只能在單一性的相似度信息上具有判別性,比如原型網絡中利用的歐氏距離更偏向于特征在空間距離上的絕對差異.然而,對于訓練樣本量較少和類內相似度高的少樣本細粒度分類任務,使用單一的相似性度量方式可能會引起模型在圖像信息的特征學習中產生一定偏差,而多樣性度量則可以將不同單一度量差異協同在一起,提升模型的分類判別性和泛化能力.
本文提出一種基于雙路特征提取與度量的少樣本網絡(twins of distance-direction metric network,TD2MNet),利用歐氏距離和余弦值相似度來學習細粒度圖像特征中更為多樣和豐富的相似性信息.歐氏距離可以從嵌入特征的空間維度距離上衡量樣本間的絕對差異性,但這種度量方式將不同屬性和維度間的差異同等看待.在空間幾何中,兩個向量夾角的余弦值可用來衡量其在方向上的差異.夾角余弦值越大表示關聯性越大,反之則關聯性越小.與歐式距離相比,余弦相似度只與特征向量的方向相關,而與幅值大小無關,在機器學習中常用這一方法來度量樣本特征間的相似關聯性.TD2MNet在應用這兩種相似度的同時,還設計了一種基于雙相似度語義信息的特征提取網絡,為兩種相似度空間分別提取獨立的嵌入特征信息.此外,像素級特征的通道中蘊含較豐富的初原始圖像類別信息,而高級語義特征的視覺感受野更大,包含有豐富的上、下文信息依賴.本文方法針對這兩種特征,采用了彼此分離的自適應通道注意力和空間信息交叉注意力模塊,實現了通道和空間信息的增強,最大限度地提升對特征信息的利用.
本文提出了一種基于距離與方向差異的雙重度量網絡,利用歐式距離和余弦相似度分別度量圖像特征間的絕對距離差異和相對方向差異;設計了一種基于雙相似度語義信息的特征提取網絡,為兩種度量空間分別提取相互獨立和具有針對性的特征信息;同時設計了彼此分離的自適應通道注意力和空間信息交叉注意力模塊,通過對像素級特征的通道信息和高級語義特征的空間感受野信息相應增強來充分利用原始圖像的關鍵信息.
基于度量學習的少樣本方法模擬樣本之間的距離分布,旨在使得同一類別的樣本彼此接近,而不同類的樣本彼此遠離,從而能夠計算得到更加準確的相似度分數.度量學習[7]的方法既能是可訓練參數的方法,也可以是非參數方法.可訓練參數的方法對應著使用深度神經網絡來學習如何測量對象間的相似性,例如Sung等[8]提出關系網絡來度量特征對間相似性,而修正原型網絡[9]和匹配網絡[10]等通常采用歐氏距離或余弦距離等固定度量方法對圖像間相似度進行度量.
基于通道和空間視覺域的注意力方法通過將視覺通道域與空間域的注意力機制同時構建于神經網絡中,具有“關注重要位置”和“關注重要層次”兩種不同的注意力特性.Woo等[11]提出基于通道域與空間域的卷積注意力網絡,它通過獨立建模方式聚合不同維度的注意力信息,并且可以將注意力網絡集成到殘差神經網絡的卷積塊中.而這種方法并不能捕捉像素在空間位置上的長距離依賴關系.針對這一問題,Fu等[12]將自注意力機制引入通道域,實現了對特征通道域和空間域中長距離依賴信息的共同捕捉能力.Hou等[13]提出了協同注意力網絡(coordinate attention,network),該網絡將空間信息嵌入到通道注意力計算中以聚焦重要的感受野區域,同時也降低了網絡整體的算力開銷.
本文設計的少樣本分類方法對不同維度的特征信息獨立建模,并將最終的通道與空間注意力信息進行關聯融合;針對基于通道和空間視覺域的注意力機制實現,本文分別設計了自適應特征通道信息和聚集空間信息交叉路徑依賴關系的注意力網絡.因此,本文采用了更具針對性的視覺注意力方法來構建判別力更強的少樣本分類模型.
針對以上所描述的問題,本文所提出的TD2MNet旨在學習一種同時有效度量圖像樣本中多樣差異信息的神經網絡模型.如圖1所示,本文所提出的模型架構主要包含3種模塊:①基于雙相似度語義信息的特征提取網絡;②自適應通道注意力與空間信息交叉注意力模塊;③雙相似度分類模塊.

圖1 TD2MNet模型架構
為了有效設計能夠提取適用不同相似度空間的特征信息,本文的設計模型利用4層卷積網絡(Conv-4)作為特征提取器的主干網絡,并且只設置前兩層的卷積塊包含池化操作,以此盡量聚合原始圖像中的像素級別信息并用于后續提取和轉化高級語義信息.在后兩層的卷積模塊中,卷積操作后無池化層,旨在保留特征原感受野大小信息的同時,充分挖掘各通道中所蘊含的高級語義信息.此外,為了使不同相似度模塊的嵌入特征信息更加具有針對性,本文在不改變原有卷積網絡深度的前提下,將Conv-4網絡的后兩個卷積層改為雙路形式,從而實現對不同相似度模塊的針對性特征提取,使得原始圖像的像素級特征映射充分用于不同相似度的度量過程.該特征提取器的結構如圖2所示.



圖2 雙路特征提取器結構
卷積操作以圖像的感受視野域為基礎,對圖像中各位置及該位置鄰域內的像素加權求和,從而在該位置獲得感受野更大的新特征值.但更深的網絡結構更復雜,在訓練過程中容易出現過擬合等不穩定問題.針對這些問題,本文方法利用彼此分離的通道和空間注意力機制來增強不同階段提取特征中判別性信息.例如帶池化卷積階段提取的特征主要包含原始圖像像素信息,而無池化卷積階段則用于轉化高級的語義類別信息.本文分別使用自適應通道注意力和空間信息交叉注意力機制實現增強.下面介紹兩種注意力模塊.
2.2.1 自適應通道注意力模塊
特征通道一般代表不同結構的圖像類別信息,對通道的注意力選擇可以從整體上考慮不同特征通道間的相互聯系性,使神經網絡更加關注圖像中有助于判別的信息,從而提升差異判別信息權重.本文設計了一種自適應通道注意力(adaptive channel attention,ACA)模塊,如圖3所示.

圖3 自適應通道注意力網絡
該模塊針對不同圖像特征來自適應學習通道注意力權重.與ATL-Net[14]中使用的自適應注意力機制類似,ACA也利用多層感知機(MLP)和sigmoid激活函數來處理像素級的通道特征信息,并得到一個通道注意力圖.通過這種方式,ACA可以直接計算不同通道在表征關鍵信息上的貢獻程度,從而實現對相應特征通道的增強或抑制.自適應通道注意力操作的計算式為

2.2.2 基于空間信息聚合的交叉注意力模塊
數字圖像的各位置由像素點拼接構成,不同空間位置像素一般有豐富的上下文信息依賴.對于文獻[15] 方法中的非局部過程,Huang等[16]提出利用兩個連續的像素交叉路徑操作實現上、下文信息聚合.這種交叉路徑操作可以有選擇地捕捉圖像各位置的上、下文信息依賴,提供相似度模塊更具價值的空間度量信息.本文借鑒上述方法的思想,提出了一種空間信息交叉注意力(spatial-aggregation cross atten-tion,SCA)模塊,其計算過程如圖4所示.

圖4 空間信息交叉注意力模塊

本文所提基于特征間距離與方向差異的組合度量少樣本分類方法,利用余弦相似度和歐式距離來提升捕捉細粒度圖像差異的能力.這兩種度量函數均屬于固定度量方式,其參數是不可優化的.為此,本文首先在兩相似度模塊中加入適應性感知層來兼容輸入特征,然后再利用不同方法進行度量.本節主要設計實現雙相似度模塊對輸入特征的有效擬合與度量計算,下面分別介紹兩種模塊以及適應性感知層 網絡.
2.3.1 余弦相似度模塊

2.3.2 歐氏距離相似度模塊


2.3.3 適應性感知網絡的設計
為了使嵌入特征在固定度量空間中具有更強的適應力,本文在兩相似度模塊中首先添加適應輸入特征的適應性感知網絡,如圖5所示.該網絡由兩層全連接層組成,每層維度逐步遞減,從而盡可能減少過多訓練參數導致的計算開銷.同時,該網絡也進一步精簡和強化了輸入特征信息,實現更加精細有效的 度量.

圖5 適應性感知網絡


在本文方法的整體過程中,本文首先保持Conv-4原有網絡深度,將后兩個卷積層改為雙路形式,轉化提取更加多樣和針對性的信息.然后,對不同階段提取特征應用自適應通道注意力和空間信息交叉注意力機制的增強處理.最后通過雙相似度模塊來計算最終度量結果.因此,在經過以上對原始圖像數據的特征提取、增強和度量3個不同階段后,TD2MNet模型就完成了一次前饋傳播.后續利用兩種不同度量結果的交叉熵計算最終損失,對以上涉及模塊參數反向傳播優化.本文通過計算不同度量結果損失的組合來優化參數,使得模型優化中既有端到端的整體性也有對各自相似度網絡的獨立性.因此,完整損失函數為


本節在4個主流細粒度圖像數據集上驗證本文提出少樣本分類方法的有效性.首先介紹實驗設置的具體細節,然后分析本文方法與比較方法在各數據集的實驗結果,最后進行消融實驗和其他相關實驗 分析.
本文選用Stanford Dogs、Stanford Cars、CUB-200-2011以及FS-Aircrafts 4個主流細粒度圖像數據集進行實驗分析.其中,CUB-200-2011、Stanford Dogs、Stanford Cars 3個數據集在近些年的少樣本分類方法中應用較為廣泛,本文選用先進水平的工作來比較,包括PABN[17]、SoSN[18]、LRPABN[19]、MattML[20]、BSNet[6]、TOAN[21]、Matching Net[10]、Prototypical Net[22]、Relation Net[8]、SAN[23]、ATL-Net[14]、DeepEMD[24]、DSN[25]、LMPNet[26]、MlSo[27]和基于圖網絡優化及標簽傳播的少樣本分類算法[28].在應用FS-Aircrafts數據集的實驗中,本文選用Matching Net[10]、Prototypical Net[22]、Relation Net[8]、MAML[29]、DN4[30]、CovaMNet[31]、adaCNN[32]、DSN以及BSNet進行比較.數據集劃分詳見表1.
表1 4個主流細粒度圖像數據集劃分細節

Tab.1 Partitioned details of four major fine-grained im-age datasets
本文方法的實驗設置均采用-way-shot形式.特征提取器采用基于4層卷積的結構,以雙路輸出形式來提取多樣語義信息.為了與其他方法公平比較,本文方法只增加了卷積層寬度,沒有增加深度,因此兩路特征只經過了4層卷積的提取.采用基于任務的元學習訓練機制,每次訓練共抽樣10萬個少樣本分類任務,并劃分為100個周期進行訓練,每個周期均包含1000個分類任務.每個任務中,本文采用與ATL-Net[14]相同的設置,5-way 1-shot和5-way 5-shot的任務均抽樣15個查詢集樣本來預測,每個任務中共抽樣了5×15=75個查詢集樣本和 5×個支持集樣本.在訓練模型之前,首先將輸入圖像處理成84×84的大小,然后再經過相應模塊的處理.圖像在特征提取后最終獲得大小為19×19×64的向量,共包含361個64維通道值向量.訓練過程采用固定步長衰減學習率策略,使模型參數平穩收斂到最優解.初始學習率為1×10-3,每訓練25個周期時將學習率減半,直至結束.
測試階段利用訓練得到的最佳模型,從測試集隨機抽樣600個分類任務,并在多次實驗的基礎上計算置信度大于95%的平均準確率作為最終結果.
本文提出方法與比較方法在各數據集的實驗結果與分析如下.
3.3.1 FS-Aircrafts數據集上的實驗結果分析
表2為FS-Aircrafts數據集上TD2MNet與上述9個比較方法的實驗結果.從表中可以看到,本文方法在5-way 1-shot和5-way 5-shot任務中均達到最佳效果.相比次優結果,TD2MNet在兩種任務中的準確率獲得了7.0%和0.9%左右的提升,并極大領先其余多數方法,表明本文方法在FS-Aircrafts數據集上的有效性.
表2 FS-Aircrafts數據集上5-way分類實驗結果

Tab.2 Experimental results in 5-way classification on FS-Aircrafts dataset %
3.3.2 CUB-200-2011、Stanford Dogs、Stanford Cars數據集上的實驗結果分析
表3展示了在Stanford Dogs、Stanford Cars和CUB-200-2011 3個主流細粒度數據集的實驗結果. 在所有比較方法中,本文大體將其分為兩類:細粒度少樣本學習(fine-grained few-shot learning,FGFS)方法和通用少樣本學習(generic few-shot learning,GFS)方法.對于FGFS方法,本文選取SAN[23]、PABN[17]、SoSN[18]、LRPABN[19]、MattML[20]、BSNet[6]、TOAN[21]進行比較.其中,PABN[17]和LRPABN[18]模型引用了文獻中報告的結果;BSNet[6]模型引用了集成余弦相似度和歐式距離度量方式的實驗結果.對于GFS方法,本文也選擇了以往經典的方法,其包括Matching Net[10]、Prototypical Net[22]、圖網絡及標簽傳播算法[28]、Relation Net[8]、ATL-Net[14]、DeepEMD[24]、DSN[25]、LMPNet[26]、MlSo[27].
表3 StanfordDogs、Stanford Cars和CUB-200-2011數據集上5-way分類實驗結果

Tab.3 Experimental results in 5-way classification on Stanford Dogs,Stanford Cars,and CUB-200-2011 datasets %
與通用少樣本學習方法相比:在各數據集上與近些年先進的通用少樣本學習方法相比,本文方法取得了一定競爭力效果.在3個主流數據集的5-way 1-shot分類任務中,TD2MNet取得了最優分類效果.在Stanford Dogs數據集的5-way 5-shot任務中也達到了最優效果.但在Stanford Cars和CUB-200-2011數據集的5-way 5-shot分類任務中,僅處于當前先進少樣本方法的次優水平.這可能是由于在5-shot設置下,不同類別圖像差異較小,當每個類別有著更多的支持樣本就使得TD2MNet在相似差異信息捕捉上出現重復與冗余,導致模型分類水平下降.
與細粒度少樣本學習方法相比:與近些年專門用于細粒度圖像分類的少樣本方法相比,TD2MNet在3個數據集的大部分實驗設置下都獲得了最優效果,少部分實驗設置下獲得了具有競爭力的效果.例如在Stanford Cars和Stanford Dogs數據集上,TD2MNet在1-shot設置下都超過次優方法4%左右的分類精度.這些比較方法包括近些年同樣集成余弦相似度和歐式距離度量的雙相似度網絡BSNet(P&C)、通過雙池化操作解決細粒度圖像類間差異小和類內差異大難題的TOAN網絡等.
綜上,同以往經典和當今先進的少樣本分類方法相比,TD2MNet在4個主流細粒度數據集的分類效果具有一定競爭力,在大部分的實驗結果中均處于最優的水平.此外,從Stanford Dogs、Stanford Cars和CUB-200-2011的實驗比較結果中可以看到,近些年通用少樣本學習方法相比針對細粒度圖像分類的少樣本方法在性能上相對更好.
本節主要對本文方法TD2MNet的相應模塊分別進行消融實驗和超參數實驗分析,探究不同模型因素對分類的影響.這些實驗同樣在5-way 1-shot和5-way 5-shot設置下進行.
3.4.1 注意力模塊消融實驗結果
表4為TD2MNet在Stanford Dogs數據集上注意力模塊消融實驗結果,包括自適應通道注意力模塊(ACA)和空間信息交叉注意力模塊(SCA).其中w/o代表沒有相應模塊,w/ 代表有且僅有相應模塊.從表4中可以看到,在ACA和SCA模塊都不使用的情況下,1-shot和5-shot僅有52%和68%左右的分類精度;在只使用SCA模塊時,兩種任務的準確率提升到了56.79%和72.39%,相比只添加ACA時的效果更顯著.當兩類注意力模塊共同存在時,模型分類效果最佳.這表明SCA對空間上、下文依賴信息的聚合更有助于相似度差異計算.同時,ACA模塊對像素級特征的作用也增強了最終高級語義特征 信息.
表4 StanfordDogs上注意力模塊消融實驗

Tab.4 Ablation experiments of the attentional modules on Stanford Dogs %
3.4.2 相似度模塊消融實驗結果
表5為模型中兩類相似度模塊(CSM和ESM)的消融實驗結果,實驗同樣在Stanford Dogs數據集上開展.在進行單相似度模塊消融分析時,只利用了一路特征提取網絡結構,并利用對應相似度模塊來分類.其中,Baseline的實驗設置為不使用任何相似度模塊的單路特征提取與注意力增強網絡.Baseline+CSM和Baseline+ESM為使用單相似度模塊結構的網絡模型.從表中可以看到,不使用任何相似度模塊的Baseline在兩種分類任務中的性能下降最嚴重.在使用單相似度模塊的實驗結果中,分類準確率有了一定的提升.其中,ESM模塊對實驗結果的影響相比CSM模塊更顯著,其精度領先約4.32%和4.20%.最終通過結合兩類相似度模塊的方式,分類性能達到了最優水平,表明在有效融合兩種度量方法的情況下,TD2MNet將不同特性度量信息互相協調,獲得更優分類效果.
表5 StanfordDogs上雙相似度模塊消融實驗

Tab.5 Ablation experiments of twins-similarity modules on Stanford Dogs %
3.4.3 余弦相似度分數中放縮系數的影響


圖6 Stanford Dogs數據集上不同值對分類性能的 影響
針對少樣本細粒度圖像分類方法中利用單一相似度量空間所引起的特征信息學習偏差問題,本文提出了一種基于特征向量間距離與方向的雙差異性組合度量方法.通過歐氏距離和余弦相似度分別度量圖像中蘊含的多樣性差異信息,緩解了細粒度圖像類內相似度高的分類難題.本文方法首先利用部分參數共享的雙路特征提取網絡為不同相似度模塊提取獨立嵌入特征信息,然后對不同階段提取特征應用自適應通道注意力與空間信息交叉注意力增強,并將增強特征輸入對應相似度模塊中度量和計算最終結果.這3個處理步驟共同增強了分類模型的判別性和魯棒性.在4個主流細粒度數據集上的大量實驗分析驗證了所提方法的有效性和先進性.
[1] Ji Z,Hou Z S,Liu X Y,et al. Information symmetry matters:A modal-alternating propagation network for few-shot learning[J]. IEEE Transactions on Image Processing,2022(31):1520-1531.
[2] 冀 中,柴星亮. 基于自注意力和自編碼器的少樣本學[J]. 天津大學學報(自然科學與工程技術版),2021,54(4):338-345.
Ji Zhong,Chai Xingliang. Few-shot learning based on self-attention and auto-encoder[J]. Journal of Tianjin University(Science and Technology),2021,54(4):338-345(in Chinese).
[3] Shu Y Y,Yu B S,Xu H,et al. Improving fine-grained visual recognition in low data regimes via self-boosting attention mechanism[C]// European Conference on Computer Vision. Tel Aviv,Israel,2022:449-465.
[4] Nguyen H V,Bai L. Cosine similarity metric learning for face verification[C]// Asian Conference on Computer Vision. Queenstown,New Zealand,2011:709-720.
[5] Munjal B,Flaborea A,Amin S,et al. Query-guided networks for few-shot fine-grained classification and person search[J]. Pattern Recognition,2023,133:109049.
[6] Li X X,Wu J J,Sun Z,et al. BSNet:Bi-similarity network for few-shot fine-grained image classification[J]. IEEE Transactions on Image Processing,2020,30:1318-1331.
[7] Scott T,Ridgeway K,Mozer M C. Adapted deep embedings:A synthesis of methods for k-shot inductive transfer learning[J]. Advances in Neural Information Processing Systems,2018,31:76-85.
[8] Sung F,Yang Y X,Zhang L,et al. Learning to compare:relation network for few-shot learning[C]//Pro-ceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:1199-1208.
[9] Liu J L,Song L,Qin Y Q. Prototype rectification for few-shot learning[C]// European Conference on Computer Vision. Glasgow,UK,2020:741-756.
[10] Vinyals O,Blundell C,Lillicrap T,et al. Matching networks for one shot learning[J]. Advances in Neural Information Processing Systems,2016,29:3637-3645.
[11] Woo S,Park J,Lee J Y,et al. CBAM:Convolutional block attention module[C]// European Conference on Computer Vision. Munich,Germany,2018:3-19.
[12] Fu J,Liu J,Tian H J,et al. Dual attention network for scene segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:3146-3154.
[13] Hou Q B,Zhou D Q,Feng J S. Coordinate attention for efficient mobile network design[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2021:13713-13722.
[14] Dong C Q,Li W B,Huo J,et al. Learning task-aware local representations for few-shot learning[C]//Proceed-ings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence. Los Angeles,USA,2021:716-722.
[15] Wang X L,Girshick R,Gupta A,et al. Non-local neural networks[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:7794-7803.
[16] Huang Z L,Wang X G,Huang L C,et al. CCNet:Criss-cross attention for semantic segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:603-612.
[17] Huang H X,Zhang J J,Zhang J,et al. Compare more nuanced:Pairwise alignment bilinear network for few-shot fine-grained learning[C]//IEEE International Conference on Multimedia and Expo. Shanghai,China,2019:91-96.
[18] Zhang H G,Koniusz P. Power normalizing second-order similarity network for few-shot learning[C]// IEEE Winter Conference on Applications of Computer Vision. Santa Monica,USA,2019:1185-1193.
[19] Huang H X,Zhang J J,Zhang J,et al. Low-rank pairwise alignment bilinear network for few-shot fine-grained image classification[J]. IEEE Transactions on Multimedia,2020,23:1666-1680.
[20] Zhu Y H,Liu C L,Jiang S Q. Multi-attention meta learning for few-shot fine-grained image recognition [C]//Proceedings of the 29th International Conference on International Joint Conferences on Artificial Intelligence. Los Angeles,USA,2021:1090-1096.
[21] Huang H X,Zhang J J,Yu L T,et al. TOAN:Target-oriented alignment network for fine-grained image categorization with few labeled samples[J]. IEEE Transactions on Circuits and Systems for Video Technology,2021,32(2):853-866.
[22] Snell J,Swersky K,Zemel R. Prototypical networks for few-shot learning[J]. Advances in Neural Information Processing Systems,2017,30:4080-4090.
[23] Dai X L,Ma C M,Sun J W,et al. Self-amplificated network:Learning fine-grained learner with few samples[C]//Proceedings of the Journal of Physics:Conference Series. Geneva,Switzerland,2021:012006.
[24] Zhang C,Cai Y J,Lin G S,et al. DeepEMD:Few-shot image classification with differentiable earth mover’s distance and structured classifiers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:12203-12213.
[25] Simon C,Koniusz P,Nock R,et al. Adaptive subspaces for few-shot learning[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:4136-4145.
[26] Huang H W,Wu Z K,Li W B,et al. Local descriptor-based multi-prototype network for few-shot learning[J]. Pattern Recognition,2021,116:107935.
[27] Zhang H G,Li H D,Koniusz P. Multi-level second-order few-shot learning[J]. IEEE Transactions on Multimedia,2023,25:2111-2126.
[28] 劉 穎,車 鑫. 基于圖網絡優化及標簽傳播的小樣本圖像分類算法[J]. 信號處理,2022,38(1):202-210.
Liu Ying,Che Xin. Few-shot image classification algorithm based on graph network optimization and label propagation[J]. Signal Processing,2022,38(1):202-210(in Chinese).
[29] Finn C,Abbeel P,Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]// International Conference on Machine Learning. Sydney,Australia,2017:1126-1135.
[30] Li W B,Wang L,Xu J L,et al. Revisiting local descriptor based image-to-class measure for few-shot learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:7260-7268.
[31] Li W B,Xu J L,Huo J,et al. Distribution consistency based covariance metric networks for few-shot learning[C]//AAAI Conference on Artificial Intelligence. Hawaii,USA,2019:8642-8649.
[32] Munkhdalai T,Yuan X D,Mehri S,et al. Rapid adaptation with conditionally shifted neurons[C]//Interna-tional Conference on Machine Learning. Stockholm,Sweden,2018:3664-3673.
[33] Cao S Y,Wang W,Zhang J,et al. A few-shot fine-grained image classification method leveraging global and local structures[J]. International Journal of Machine Learning and Cybernetics,2022,13(8):2273-2281.
Dual-Path Feature Extraction and Metrics for Few-Shot Fine-Grained Image Classification
JiZhong,Wu Yibing,Wang Xuan
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
Few-shot learning aims at training deep-learning models with limited data and then quickly generalizing them to new tasks. Few-shot fine-grained image classification is a highly challenging task in this field,primarily due to the large intraclass and small interclass variance of fine-grained images. To address this issue,the twins of distance-direction metric network is proposed,which uses Euclidean distance and cosine similarity to measure the absolute distance difference and the relative direction difference among features,respectively,thereby improving the diversity of metric information and discrimination of sample features. Furthermore,the feature extractor is equipped with a dual-path output without the added depth to meet the embedding feature information demand for different metric methods. This ensures that the feature extractor remains competitive with advanced few-shot fine-grained image classification methods currently available. Moreover,the separate channel and spatial attention mechanisms are designed to enhance the extracted features at different stages,wherein the important classification information is mined via adaptive channel attention and spatial-aggregation cross attention,respectively. Finally,the twin-similarity modules calculate the metric results of the two different pieces of information and fuse them into the final similarity scores by selecting specific weights,thereby realizing the coordination and complement between absolute and relative differences in the metric space. The experimental contrast and analyses were conducted on four benchmark fine-grained datasets,and the results demonstrate that the proposed method enhances the classification accuracy by up to 7.0% under the same settings.
fine-grained image;few-shot;Euclidean distance;cosine similarity
TP37
A
0493-2137(2024)02-0137-10
10.11784/tdxbz202211015
2022-11-08;
2023-03-09.
冀 中(1979— ),男,博士,教授,jizhong@tju.edu.cn.
王 軒,wang_xuan@tju.edu.cn.
國家自然科學基金資助項目(62176178).
the National Natural Science Foundation of China(No. 62176178).
(責任編輯:孫立華)