999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

細粒度圖像分類綜述

2023-02-03 03:01:28申志軍穆麗娜史遠航劉志強
計算機應用 2023年1期
關鍵詞:分類特征區域

申志軍,穆麗娜,高 靜,史遠航,劉志強

(1.阜陽師范大學 計算機與信息工程學院,安徽 阜陽 236037;2.內蒙古農業大學 計算機與信息工程學院,呼和浩特 010011)

0 引言

細粒度圖像分類(Fine-Grained Image Categorization,FGIC)在學術研究和應用實踐中都較為活躍。常見的學術研究課題主要包括識別不同種類的鳥、狗、車、飛機、花、魚等。以清華狗數據集[1]為例,如圖1 所示:圖(a)中所有的狗都屬于大丹犬,但毛色不同;圖(b)是諾里奇更犬,毛色極其相似。實踐中細粒度分類的實例更為普遍,如病蟲害檢測[2]、社交娛樂網站中個人相冊的自標注管理、電子商務中購物平臺商品識別推薦系統中的商品檢索[3]以及在交通信息中的車型識別[4]等。

圖1 清華狗數據集Fig.1 Tsinghua dogs dataset

圖像分類任務可分為跨物種語義級分類、細粒度圖像分類和實例級圖像分類。跨物種語義級圖像分類[5-6]是在類別層次上對圖像進行分類,存在類間方差大、類內方差小的特點,常用于場景識別[7-9]和對象識別[10]等任務。

實例級圖像分類[11-12]是在個體層次上對圖像進行分類,其要求更加嚴格,如人臉識別[13-14]等。影響實例級圖像分類效果的關鍵因素是圖像預處理算法和個體比對算法,其中圖像預處理算法主要解決復雜光線環境和有限遮擋等問題。細粒度圖像分類是對同一類別圖像進行更細致的子類劃分,也稱子類別圖像分類,例如判斷圖像中的狗是哈士奇還是阿拉斯加。

與傳統的分類問題[15-17]不同,細粒度圖像具有類內方差大、類間方差小的特點:類內方差大通常表現為同一子類的物體外觀顯著不同,造成這種現象的主要影響因素有光照、視角、雜波背景和物體遮擋等;類間方差小通常表現為不同子類的物體具有相似的外觀。不僅如此,細粒度圖像分類還存在類別細分所引起的分類混淆問題,以及圖像背景信息冗余對分類結果產生干擾的問題。這一特點使得細粒度圖像分類的難度遠高于傳統的圖像分類任務。

以深度學習方法為分水嶺,細粒度圖像分類算法發展歷程大致可分為傳統的基于人工特征的分類方法和基于深度學習的分類方法。

基于人工特征的分類方法[18-20]主要基于人工特征實現,應用較多的人工特征如尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[21]、加速穩健特征(Speeded Up Robust Feature,SURF)[22]、方向梯度直方圖(Histogram of Oriented Gradient,HOG)[23]、局部二值模式(Local Binary Pattern,LBP)[24]、POOF(Part-based One-vs-One Features)[25]、Fisher-encoder[26]等,特征描述能力越強,分類準確率越高。但通常最優特征與所識別物種有密切關系,如鳥類的最佳特征是頭部和身體,而狗類的最佳特征是鼻子和耳朵,顯然人工特征的表達能力有限,不具有足夠的可判別性,固有特征無法解決所有的分類問題,因此此類方法僅適用于小樣本規模問題和具有領域專業知識的用戶。早期的研究工作表明,強大的特征表示對分類準確度有顯著的影響[27-31],但嚴重依賴人工標注信息的缺陷使其實踐可行性較低。據此,構建更具判別性的特征表示和更準確的局部定位是提高細粒度分類準確率的有效途徑。

基于深度學習的分類方法又可進一步分為基于局部檢測的分類方法、基于端到端的分類方法和基于注意力機制的分類方法三個發展階段。這三個階段分類方法的創新思路有四個方向,如通過強大的深度模型學習更多有判別性的表示、采用姿態對齊操作消除姿態偏差和拍攝角度等影響、構建局部區域特征表示,進行基于分割的目標對象定位:

1)基于局部檢測的分類算法的基本流程為:先檢測與定位局部區域,然后提取代表性的特征,從而提高細粒度分類的精度。此類兩段式算法主要采用若干階段交替或級聯的結構,這樣的結構導致訓練過程復雜。此外,算法利用標注信息[32-33]濾除背景噪聲,減少干擾,但獲取標注信息的代價過大,制約了算法的實用性。

2)針對訓練過程復雜的問題,研究人員提出了一系列雙線性特征學習算法[34-35]避免使用額外的標注信息,同時可以直接學習更具辨別性的特征,如僅依靠圖像標簽完成分類任務[36]。雖然該類算法能夠簡化訓練過程,但會產生特征維度過高的問題。使用聚合低緯特征或設計損失函數的方法可有效緩解特征維度過高的問題。

3)圖像領域中,注意力機制主要依靠掩碼操作實現,即使用新的權重標識圖像的關鍵區域,訓練的深度學習模型用于學習輸入的新圖像中所需關注的區域。因此,基于注意力機制的分類算法[37-42]能夠自主學習和理解圖像中的潛在信息。不僅如此,單個卷積神經網絡(Convolutional Neural Network,CNN)模型很難描述從屬類之間的差異,對于細粒度分類存在一定的困難,研究人員嘗試聯合對象級卷積網絡和部件級卷積網絡進行多尺度的特征學習,并設置約束條件篩選具有代表性的特征。

1 細粒度圖像分類數據集

在細粒度圖像分類中,數據集的質量對模型分類效果的影響非常明顯。細粒度圖像分類適用的數據集主要有8 種,分別是:加州理工學院的鳥類數據集(CUB200-2011)[43]、斯坦福狗數據集(Stanford Dogs)[44]、斯坦福汽車數據集(Stanford Cars)[45]、FGVC 飛機數據集(FGVC-Aircraft)[46]、牛津大學的花類數據集(Oxford Flowers)[47]、水下魚類數據集(Fish4Knowledge)[48]、野外魚類數據集(WildFish)[49]和清華狗數據集(Tsinghua Dogs)。其中,CUB200-2011 是細粒度圖像分類最經典和常用的數據集,具體信息如下:

1)CUB200-2011 數據集共有11 788 張圖像,包含200 種鳥類,其中5 994 張用于訓練,5 794 張用于測試。相關標注信息包含15 個局部區域位置、312 個二值屬性、1 個標注框和語義分割圖像。具體見http://www.vision.caltech.edu/visipedia/ CUB-200-2011.html。

2)Stanford Dogs 數據集共有20 580 張圖像,包含120 種狗類,其中12 000 張用于訓練,8 580 張用于測試,該數據集僅提供標注框注釋信息。具體見http://vision.stanford.edu/aditya86/ ImageNetDogs/main.html。

3)Stanford Cars 數據集共有16 185 張圖像,包含196 類車,其中8 144 張用于訓練,8 041 張用于測試,只提供標注框信息。該數據集中的圖像源于不同品牌、不同年份和不同車型。具體見http://ai.stanford.edu/~jkrause/cars/car_dataset.html。

4)FGVC-Aircraft 數據集共有10 200 張圖像,包含100 類飛機,每類有100 張圖像,其中6 667 張用于訓練,3 333 張用于測試,該數據集同樣僅提供標注框信息。具體見https://www.robots.ox.ac.uk/~vgg/data/fgvc-aircraft。

5)Oxford Flowers 數據集有兩種規模,最為常用的規模有8 189 張圖像,包含102 種花類,每種花包含40 到258 張圖像,其中6 149 張用于訓練,1 020 張用于測試。該數據集只提供語義分割圖像,但不提供額外標注信息。具體見https://tensorflow.google.cn/datasets/catalog/oxford_flowers102?hl=zh-cn。

6)Fish4Knowledge 數據集共22 370 張圖像,包含23 種魚類,每類含有16~12 000 張不同的圖像,其中19 159 張用于訓練,8 211 張用于測試。具體見https://groups.inf.ed.ac.uk/f4k/ GROUNDTRUTH/RECOG/。

7)WildFish 數據集共54 459 張圖像,包含1 000 種魚類,其中38 121 張用于訓練,16 338 張用于測試。具體見https://www.heywhale.com/mw/dataset/5e68b523cdf64e002c97a478。

8)Tsinghua Dogs 數據集共70 428 張圖像,包含130 種狗類,每類含有200 到7 449 張圖像,提供頭部和身體兩個部位的標注框信息。其中65%的圖像屬于生活場景類圖片。具體見https://cg.cs.tsinghua.edu.cn/ThuDogs/。

2 基于局部檢測的分類方法

CNN 表現出優異的分類性能,研究人員開始嘗試將通用分類任務中所學的知識遷移到細粒度圖像分類領域。

Donahue 等[50]提出一種半監督的遷移學習深度架構,其核心是一種深度卷積特征DeCAF(Deep Convolutional Activation Feature,DeCAF),該方法首先利用標注框提取前景對象,利用預訓練卷積網絡提取前景對象的DeCAF 特征,再在此基礎上通過多類別邏輯回歸模型進行分類。DeCAF在Caltech-UCSD 數據集上取得了58.75%的準確率,表明卷積特征擁有強大的泛化和領域自適應能力。DeCAF 開啟了利用卷積特征進行細粒度圖像分類的新時代。

對局部目標對象進行定位和描述是細粒度圖像分類的關鍵,為此業界首先針對這一問題開展了研究工作,Farrell等[51]提出用于細粒度分類的姿態歸一化表示法,該方法通過定位包含語義特征的局部區域和提取這些區域的外觀特征來消除姿態、清晰度和攝像機視角變化帶來的問題,不足之處在于局部區域定位需要人工獲得目標的體積特征[52-53]。為減少人工干預,Felzenszwalb 等[54]提出利用可變部件模型(Deformable Part Model,DPM)以獲取整個對象的方法。DPM 在貓狗等動物檢測領域比較有效,但對于姿態特征變化較大的檢測目標(如鳥、人)而言效果較差[55]。為此,Zhang等[56]提出可變部件描述子,該方法由基于HOG 的DPM 和支持向量機(Support Vector Machine,SVM)構成,其中基于HOG 的DPM 用于局部區域定位,SVM 用于分類。

此外,部分研究人員嘗試將CNN 融合到細粒度分類算法以提高特征所包含的信息量,Zhang 等[57]提出一種結合CNN 和局部區域的分類算法,該方法使用基于HOG 的Poselet 將圖像劃分為多個局部區域,利用CNN 提取各個局部區域的卷積特征,將局部區域卷積特征進行拼接形成描述整張圖像的卷積特征,最后輸入到線性SVM 中分類。

這類方法表明可通過準確提取特定對象之間細微的外觀差異進行局部區域定位,以此提高細粒度圖像的分類精確度;但在測試時都需要利用邊界框進行局部區域定位和關鍵點檢測,且均需使用類似HOG 的弱特征模型。

Girshick 等[58]提 出R-CNN(Regions with CNN features,R-CNN)算法將圖像檢測分為局部檢測和對象檢測,并使用幾何約束來提升定位精度。該方法采用自底向上的區域算法產生大量候選區域,對候選區域逐一進行特征提取,同時使用預訓練的SVM 模型尋找包含目標對象的候選區域,最終使用非極大抑制策略篩選定位檢測結果。然而,R-CNN 的結果并不能反映每個局部區域的好壞,類似檢測結果發生重疊的候選區域、局部區域檢測結果不在對象檢測結果內等情況都會不同程度地影響最終的分類性能。

針對R-CNN 的檢測結果問題,Zhang 等[59]提 出Part R-CNN 算法,該算法檢測流程與R-CNN 基本相同,不同之處在于Part R-CNN 使用幾何約束和邊界約束對檢測結果進行優化,在CUB200-2011 數據集上的分類準確率為73.89%,幾何約束能將分類精度提高約1%。相對于DeCAF 算法,Part R-CNN 算法在局部檢測定位和特征提取兩方面均采用基于CNN 的方法,并且針對細粒度圖像的特征對R-CNN 算法做了改進和優化。此外,該算法測試時不需要任何標記信息,提高了算法的實用性。但R-CNN 和Part R-CNN 所采用的自底向上的方法會產生很多無關區域,一定程度上會降低算法速度。

Branson 等[60]提出了姿態歸一化卷積神經網絡(Pose Normalized CNN,PN-CNN),該方法包含姿態原型的學習、姿態對齊和分類三個步驟,如圖2 所示。其中,姿態原型的學習可通過預訓練DPM 算法獲得目標對象的2D 位置和局部區域關鍵點,也可直接使用標注框和局部區域注釋信息。在此基礎上將學習得到的姿態原型進行姿態對齊,然后將各個區域的卷積特征連接成一個整體并用SVM 進行分類。

圖2 姿態歸一化卷積神經網絡結構Fig.2 Structure of pose normalized CNN

由于深度卷積特征具有更強的區分度,使用深層卷積特征表示淺層圖像能夠實現更高的準確度;同時,針對不同的局部區域提取不同深度的特征更有利于對細粒度圖像的分類。

Lin 等[61]提出包含深度定位、對齊和分類三個子網絡的細粒度圖像分類模型(Deep localization,alignment and classification,Deep LAC)。定位子網絡包含5 個卷積層、3 個全連接層,全連接層用于調整定位邊框的對角信息;對齊子網絡接收邊框信息進行模板對齊操作,其閥門連接函數(Valve Linkage Function,VLF)用于優化兩個子網絡之間的連接,協調定位結果和分類結果,有助于更新定位子網絡的參數,使模型易于收斂。

基于全卷積網絡(Fully Convolutional Network,FCN)[62],Wei 等[63]提出了Mask CNN 模型,該模型僅包含卷積層、激活層和池化層,使模型的參數量、特征維數較少,模型規模較小,如圖3 所示。其中FCN 用于定位關鍵局部區域(目標對象的部件)和生成帶權重的候選區域的掩碼,通過局部區域定位分割得到邊界框,建立Mask CNN 分支用于聚合目標對象的卷積特征。FCN 將局部區域定位轉化為三分類分割問題,分割結果為局部區域掩碼。

圖3 Mask CNN結構Fig.3 Structure of Mask CNN

深度學習可以通過層級連接對輸入進行復雜的非線性運算,提取到更豐富、更深層次的圖像特征信息,其中CNN所具有的局部感知、權值共享等特點可有效降低計算量[64]。

綜上所述,以上方法在早期工作[51-53]的基礎上將卷積特征引入細粒度圖像分類模型,在分類精度和泛化能力上取得了一定的進展,但這類方法大多采用交替或級聯結構,模型訓練較為復雜;同時對目標對象標注框和局部區域標注點等額外注釋信息的依賴限制了它們在實際場景中的應用;此外,這些方法還存在對顯著區域關注過多、對其他微小分類線索丟失過多等問題。

3 基于雙線性特征的分類方法

對于圖像的不同特征,前期常用的方法是連接、求和及池化等操作,但是人類視覺處理主要有兩個神經通路,分別用于物體識別和物體定位。因此,Lin 等[34]提出雙線性卷積神經網絡(Bilinear Convolutional Neural Network,B-CNN)模型,結構如圖4 所示,由兩個不同的CNN 協同完成細粒度圖像的類別檢測和特征提取,通過雙線性操作和特征歸一化處理得到最終的雙線性特征作為分類依據。該方法在CUB200-2011 數據集上取得了84.1%的準確率。

圖4 B-CNN結構Fig.4 Structure of B-CNN

雙線性操作通過外積相乘的運算實現不同特征的融合,運算得到的雙線性特征向量是一種高維的二次擴展特征,雖然能夠提高分類準確率,但同時也使它無法應用于大規模真實場景。此外,CNN 用相同的卷積核尺度進行特征提取,導致卷積特征單一化,不利于細粒度分類中局部微小區域的信息捕獲,特征提取能力稍顯不足。

針對B-CNN 模型參數過多、計算量和存儲開銷過大等問題,Gao 等[65]提出緊湊雙線性池化方法(Compact Bilinear Pooling,CBP),該方法通過隨機麥克勞林(Random MacLaurin)[66]和張量草圖(TensorSketch)[67]兩種多項式核函數逼近二階統計量,以較小的性能損失有效降低了雙線性特征維度。Kong 等[68]提出了一種低秩雙線性池化模型LRBP(Low-Rank Bilinear Pooling,LRBP),該方法用雙線性分類器代替了雙線性特征,減少了需要學習的參數,提高了計算效率。Li 等[69]提出一種基于矩陣低秩分解的因式分解雙線性網絡(Factorized Bilinear Network,FBN),該方法通過分解全連接層的卷積核,減少了模型的參數量。

B-CNN 不能捕獲特征圖通道之間的非線性關系,無法充分利用通道之間所蘊含的信息,使卷積網絡的表達能力得不到充分利用,針對這一問題,葛疏雨等[70]提出一種核化雙線性卷積網絡模型(Kernelized Bilinear Convolutional Neural Network,KB-CNN),該方法由卷積層、核化雙線性聚合塊、softmax 分類器三部分組成。其中,核化雙線性聚合塊對卷積層輸出的特征進行歸一化,并對特征圖進行雙線性聚合以建模特征圖通道間的非線性關系,提高了模型的表達能力。

B-CNN 模型聚合兩個雙線性特征會產生一個包含兩個特征之間相互作用的協方差矩陣,但B-CNN 模型產生的兩個特征相同時,其結果是一個對稱的半正定矩陣,這將會影響模型訓練。為此,Lin 等[71]分析了兩個特征相同的情況,提出一種改進的雙線性網絡模型(Improved B-CNN),如圖5 所示。該方法在二階特征的對角線添加一個小的正值得到一個新的矩陣,在此基礎上壓縮矩陣特征值的動態范圍和歸一化,使模型性能提升2%~3%。

圖5 Improved B-CNN結構Fig.5 Structure of Improved B-CNN

鑒于雙線性模型的成功,Cui 等[72]提出一種更通用的核池化方法(Kernel Pooling,KP),該方法以核函數的形式捕捉特征之間的高階信息。圖像輸入到全卷積層中,輸出特征映射,對每個空間位置上的特征向量進行核池化,對所有位置的特征使用平均池化獲得最終的特征,以此進行分類。

為進一步提升模型性能,Moghimi 等[73]提出一種增強深度卷積網絡BoostCNN(Boosting Deep Convolutional Neural Network,BoostCNN),該方法利用boosting 算法集成多個不同尺度的雙線性卷積網絡提升模型性能,該模型能夠在每次迭代中找到最佳網絡,且在訓練時不需要額外的注釋,有效降低了人工操作開銷。其不足之處在于最小二乘法學習boosting 權重使模型訓練顯著變慢。

為解決分類過程中存在無關背景的干擾以及個別可判別特征難以提取的問題,閆子旭等[74]提出一種將目標檢測模型YOLOv3 和雙線性融合網絡相結合的優化算法,該方法使用YOLOv3 檢測和定位目標對象在圖像上的大致位置,通過背景抑制方法遮擋目標以外的背景,避免背景無關信息的干擾,將處理后的圖像輸入到包含特征融合功能的BCNN 中進行分類。該方法將網絡不同卷積層的優勢進行互補,在一定程度上解決了BCNN 對圖像中的目標位置不敏感和卷積特征包含的信息不充分等問題,提高了細粒度分類的準確率。

同樣,為充分利用不同卷積層的優勢,Yu 等[75]提出一種跨層的雙線性池化(Cross-Layer Bilinear Pooling,CL-BP)方法來捕獲卷積層之間的特征關系,并以一種相互增強的方式學習圖像特征表示。同時,在此基礎上提出一種分層雙線性池化集成(Hierarchical Bilinear Pooling,HBP)框架,該框架通過對多個跨層雙線性模塊進行集成,從中間卷積層獲取互補信息,提高模型性能。

基于雙線性池化的模型在細粒度分類任務中的有效性已被證實,但大多數方法只將最后一個卷積層的激活作為圖像的表示,這種方法不足以描述對象的全部語義。

4 基于注意力機制的分類方法

注意力機制的本質與人類觀察外界事物的機制相似,人類觀察事物時通常會迅速掃描全景,然后根據大腦信號快速鎖定需要重點關注的局部區域,最終形成注意力焦點。在細粒度分類任務中,應用注意力機制可檢測到均勻分布的多個局部區域,其對應的特征可用于區分不同類別的目標對象。

Itti 等率先提出視覺注意力模型,該模型可將多尺度的圖像特征組合成單一的顯著性圖,并利用動態神經網絡(Dynamical Neural Network,DNN)[76]按序選擇重點關注區域。Mnih 等首次在循環神經網絡上應用注意力機制進行圖像分類[77],該模型能夠以自適應方式選擇一系列區域,將這些區域處理成為高分辨率圖像,然后提取圖像特征信息。該模型在一定程度上具有平移不變性,同時可對其計算量進行控制以減少計算開銷。

特征提取效果對細粒度分類效果影響較大,但現有方法存在標簽依賴、檢測準確率偏低等問題。

為檢測對分類結果更有利的可判別區域,Xiao 等提出一種包含對象級(object-level)和局部級(part-level)兩個層次特征的兩級注意力模型(Two-level Attention Model,T-L Attention)[37],該模型包含兩個子網絡FilterNet 和DomainNet。該模型整合了生成候選區域、選擇與目標對象相關區域和定位可判別區域三種注意力機制進行訓練,提取圖像的前景對象和特征明顯的局部區域,首次實現僅使用類別標簽完成細粒度圖像分類任務。

Liu 等[38]提出一種基于強化學習的全卷積注意力定位網絡(Fully Convolutional Attention Localization Networks,FCANs),其結構主要包含特征提取、全卷積局部區域注意力網絡、細粒度分類三部分。其中,全卷積注意力網絡首先定位圖像的多個局部區域,并利用卷積特征對每個局部區域生成分數映射(Score Map)。采用全卷積網絡架構可以避免全連接層帶來的超大計算量,但局部區域的高分辨率處理會導致在多步前向和后向傳播過程中很耗時。

Zheng 等[78]提出一種多注意力卷積神經網絡(Multi-Attention Convolutional Neural Network,MA-CNN)。MA-CNN 由卷積、通道分組和局部分類三部分組成,輸入圖像經卷積層提取基于區域的卷積特征,利用特征圖的峰值響應區域特征聚類響應區域相近的通道,得到具有判別力的局部區域,同時利用通道分組損失函數增大類間區分度,減小類內區分度。

Chang 等[79]提出一種輕量級互通道損失模塊(Mutual-Channel loss,MC-Loss),不需要復雜的網絡設計或訓練機制,即可獲得具有可判別性的細節信息。該模塊由判別性組件和差異性組件構成,有助于從圖像中不同顯著區域捕獲細節信息。

Fu 等[39]提出循環注意力卷積神經網絡RA-CNN(Recurrent Attention Convolutional Neural Network,RA-CNN),如圖6 所示。該網絡在多個尺度上學習可判別區域注意力(Discriminative Region Attention)和局部區域特征表示(Region-based Feature Representation)。每個尺度都包含分類子網絡和注意力生成子網絡(Attention Proposal Sub-network,APN)。APN 以迭代的方式從完整的圖像開始產生由粗粒度到細粒度的注意力區域,前一個網絡的輸出結果作為后一個網絡的輸入。該方法能夠使網絡逐步定位到可判別區域以產生更高置信度的預測結果。在CUB200-2011,Stanford Dogs 和Stanford Cars 三個數據集上分別取得85.3%、87.3%、92.5%的準確率。

圖6 循環注意力卷積神經網絡結構Fig.6 Structure of RA-CNN

借鑒人類通過對比兩張圖像獲得有效的比對線索進而識別圖像的思想,Zhuang 等[80]提出了一種簡單而有效的注意力成對交互網絡(Attentive Pairwise Interaction Network,API-Net),核心模塊是注意力成對交互模塊API,包含互向量學習(Mutual Vector Learning)、門向量生成(Gate Vector Generation)和成對交互(Pairwise Interaction)三個子模塊。在互向量學習模塊中,一對圖像經骨干網絡獲得各自的卷積特征,通過多層感知機將兩張圖像中的可判別信息提取成為一個互向量,互向量的特征通道中包含兩張圖像的高度對比線索,以輔助捕捉輸入圖像中的語義差別。在此基礎上,門向量生成模塊將互向量和各圖像的卷積特征進行通道積(channel-wise)和sigmoid 激活,產生兩個圖像之間注意力顯著不同區域的門向量,最后通過residual attention 引入觀察兩張圖像之間不同之處的交互機制。

此外,Zhang 等提出一種漸進式共同注意力網絡(Progressive Co-Attention network,PCA-Net)[81],PCA-Net 包含兩個核心模塊:共同注意力模塊(Co-Attention Module,CA)和注意力消除模塊(Attention Erase Module,AE),如圖7 所示。CA 模塊通過對同類圖像卷積特征中特征通道的交互來捕獲共同的可判別特征,形成交互特征圖。AE 模塊通過全局平均池化、上采樣和閾值設定獲得和原始圖像尺寸一致的0-1擦除掩碼(Drop Mask),經原圖像和擦除掩碼進行逐元素乘積運算消除通道交互增強的突出區域,迫使網絡將注意力集中在其他判別區域,使模型學習的區域多樣化,同時減少對訓練樣本的依賴,降低過擬合,提高模型的魯棒性。該方法可將注意力分散到每個區域,從而使預測更加全面。

圖7 漸進式共同注意力網絡結構Fig.7 Structure of PCA-Net

Ji 等提出一種結合注意力卷積的二叉神經樹模型(Attention Convolutional Binary Neural Tree Architecture,ACNet)[82]。該模型將注意力卷積網絡加在二叉樹的邊緣,用于獲取目標對象的特征表示,不同分支的注意力卷積專注于不同的局部區域。每個節點間的路由函數用于計算樹結構中根到葉子節點的路徑,以此作為決策依據。完整的樹結構表示由粗到細的層次特征學習過程。該網絡將傳統數據結構和神經網絡進行融合,同時加入注意力機制,最終的分類效果較優。在CUB-200-2011、Stanford cars 和FGVCAircraft 數據集上取得88.1%、94.6%、92.4%的準確率。

此外,Sun 等[83]提出一種基于注意力機制的卷積神經網絡能夠在輸入的不同圖像之間調節多個目標區域。該方案首先通過壓縮多擴展模塊(One-Squeeze Multi-Excitation,OSME)提取每個輸入圖像的多注意力特征區域,然后使用多注意力多類別約束模塊(Multi-Attention Multi-class Constraint,MAMC)加強注意力特征的相關性。

5 總結和展望

隨著深度學習的發展、遷移學習的引入、注意力機制的出現,細粒度圖像分類任務取得很大的進展。現有研究表明,使用卷積特征替代早期人工設計特征描述子,節省了時間的同時提高了準確率;但基于局部檢測交替或級聯的模型結構注定其訓練過程復雜,對注釋信息的依賴也限制了它在實際場景中的應用,還存在過分關注顯著區域和丟失微小分類線索等問題。基于雙線性特征的方法存在高維特征導致模型參數過多、計算量大等問題,后續方法的改進思路是降維特征、減少模型參數量等。借鑒人類觀察事物時注意力分布的方式,將注意力機制引入細粒度分類模型可以更好地尋找細微的差異。

本文對未來研究方向作出以下梳理:

1)構建更高質量更完善的細粒度數據集。近年,由于深度學習的發展和算力的提高,各種分類任務利用深度學習獲得了前所未有的進展,一個高質量的數據集往往能夠提高模型訓練的質量和預測的準確率。如何構建更高質量更全面的數據集仍是需要研究的問題。此外,使用圖像增強方法豐富訓練數據集,讓模型盡可能地學習更多的特征,以增強其泛化能力,也是后續需要研究的內容。

2)在更自然的環境中進行細粒度分類。科研的目的是更好地實踐,之前的研究多數無法滿足現實的需求。所以,后續研究中仍需考慮自然場景中圖像光照、遮擋、其他物體干擾等情況下的圖像分類,新穎的模型應該具有自適應性,且能夠更好地泛化,能夠探索異構圖像之間的關聯,結合目標檢測進一步挖掘圖像特征。

3)與其他領域進行結合。細粒度圖像分類是一個綜合性研究課題,將細粒度圖像分類與圖像檢索、圖像生成、對象檢測等領域結合還有待進一步探索。

4)支持大規模數據的細粒度分類。Transformer 模型[84]在一系列廣泛的語言任務表現出色,如文本分類、機器翻譯[85]和問答。已有研究表明,Transformer 在計算機視覺領域不僅適用于高級任務如圖像分類[86]、目標檢測[87-88]等,在低級任務如圖像增強中也取得了突破性進展,因此,Transformer 和細粒度圖像分類任務的結合也是值得關注的方向之一。

猜你喜歡
分類特征區域
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 午夜色综合| 91久草视频| 久久亚洲国产最新网站| 亚洲欧美天堂网| 欧美特黄一免在线观看| 欧美日韩成人在线观看| 国产黄色片在线看| 在线亚洲小视频| 极品国产在线| 亚洲成aⅴ人片在线影院八| 香蕉久久国产超碰青草| 无套av在线| 国产自在线拍| 亚洲欧美一区二区三区蜜芽| 国产丝袜啪啪| 色婷婷国产精品视频| 中文字幕日韩欧美| 亚洲欧美在线看片AI| igao国产精品| 青青草原国产一区二区| 99久久精品免费看国产电影| 亚洲精品无码AⅤ片青青在线观看| 在线精品欧美日韩| 亚洲IV视频免费在线光看| 超薄丝袜足j国产在线视频| 国产99免费视频| 欧美激情福利| 国产精品乱偷免费视频| a色毛片免费视频| 人人爱天天做夜夜爽| 51国产偷自视频区视频手机观看| 国产黑丝视频在线观看| 制服丝袜国产精品| a天堂视频| 无码中文字幕精品推荐| 国产黄色免费看| 青草视频网站在线观看| 国产精品久久久久婷婷五月| 美女被操91视频| 91精品国产一区| 99久久国产综合精品2020| 亚洲不卡av中文在线| 色婷婷成人| 亚洲无码37.| 99热这里只有免费国产精品| 久久先锋资源| 91欧美亚洲国产五月天| 久久九九热视频| 蜜芽一区二区国产精品| 国产99欧美精品久久精品久久| 欧美一级专区免费大片| 国产经典在线观看一区| 国产手机在线ΑⅤ片无码观看| 国产免费羞羞视频| 欧美在线视频不卡第一页| 国语少妇高潮| 精品国产福利在线| 国产自在线播放| 97久久精品人人做人人爽| 欧洲在线免费视频| 国产福利免费视频| 999在线免费视频| 国产高潮视频在线观看| 97无码免费人妻超级碰碰碰| 韩国自拍偷自拍亚洲精品| 91久久精品国产| 国产va在线| 97免费在线观看视频| 日本a级免费| 国产视频只有无码精品| 国产午夜人做人免费视频中文| 国产成人在线小视频| 色天天综合| 九九热视频精品在线| 欧美成人手机在线视频| 国产真实乱人视频| 欧美国产综合色视频| YW尤物AV无码国产在线观看| 天天综合网色| 一级毛片无毒不卡直接观看| 久久成人18免费| 欧美有码在线观看|