999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多區域注意力的細粒度圖像分類網絡

2024-01-18 13:57:56白尚旺王夢瑤胡靜陳志泊
計算機工程 2024年1期
關鍵詞:特征提取分類特征

白尚旺,王夢瑤,胡靜,陳志泊

(1.太原科技大學計算機科學與技術學院,山西太原 030024;2.北京林業大學信息學院, 北京 100091)

0 引言

細粒度圖像分類是近幾年計算機視覺、模式識別等領域新興的熱門研究課題,其主要研究的對象為某一類別下細分程度更高的子類。與傳統的圖像分類相比,細粒度圖像分類的難點在于:1)類間差距細微(如哈士奇與阿拉斯加、比熊犬與泰迪犬),不同子類間的區別僅僅體現在局部細節上;2)類內差距大,即同一子類對象在形態、姿勢、背景等方面具有較大差異。因此,如何提取出目標具有高度可辨的語義部件是當前細粒度圖像識別領域的難題。為此,不少研究者使用手工標記關鍵區域來訓練目標檢測網絡,之后再使用特征提取網絡進行目標分類。ZHANG 等[1]在使用Part-Based R-CNN 算法對圖像進行分類時,會產生大量不相關的候選區域,造成計算資源浪費;BRANSON 等[2]提出了姿態歸一化算法,先對目標進行關鍵區域定位,再根據定位的結果裁剪出圖像的局部區域送入卷積神經網絡進行特征學習。這種方法雖然可以使得神經網絡更容易地發現關鍵區域,但是需要人為地對圖像進行提前標注,所以使用弱監督的方法成為了研究熱點。LIN 等[3]認為人的視覺處理有兩個通路,分別是物體定位和物體識別,因此提出雙線性卷積神經網絡(B-CNN),通過兩個并行的卷積神經網絡提取特征后再進行外積相乘,但該方法產生的特征維度非常大,不利于模型訓練。閆子旭等[4]在此基礎上提出一種將目標檢測模型YOLOv3 和雙線性融合網絡相結合的方法,抑制了除目標以外的背景,一定程度上解決了B-CNN對目標信息位置不敏感的缺點,然而該模型提取的局部區域為矩形框,依然存在噪聲干擾。FU 等[5]使用注意力的方法,提出遞歸注意力卷積神經網絡(RA-CNN),通過區域檢測和細粒度特征相互強化的方法來進行識別,該方法可以較好地定位到最具有判別性的局部區域,然而不斷增大的尺度會導致次要特征的丟失。為了使得模型可以兼顧到更多的局部特征,劉洋等[6]提出一種結合非局部和多區域注意力機制的細粒度圖像分類方法,該方法使用導航模塊輔助分類網絡獲取多個局部區域,最后將局部區域和整體區域進行級聯,得到分類結果,從而很好地解決了次要細節丟失的問題,但是導航模塊的推薦區域依然存在較大的環境噪聲,且不同尺度的推薦區域很容易發生區域重疊的現象。除此之外,針對多區域圖像分類也可以通過構建語義部件檢測子網絡來完成,如趙毅力等[7]通過構建局部和整體的檢測子網絡并搭建三路基于ResNet 的分類模型對目標進行細粒度識別,李新葉等[8]提出一種基于Faster RCNN 聯合語義提取和檢測的分類方法,通過自上而下生成不同的語義部件來提高識別準確率。通過構建檢測網絡的方式雖然可以準確定位到目標局部,但在分類網絡之前再訓練一個檢測網絡過程繁瑣,且檢測網絡嚴重依賴原始數據標注的準確性。

本文使用Inception-V3[9]作為特征提取網絡,設計多區域注意力的細粒度圖像分類網絡(MRA-CNN),該方法有如下優點:1)基于弱監督的分類方法,不需要人工標注信息,只需要類別標簽;2)產生的局部區域類似于圖像分割的效果,區域噪聲非常小,相較于產生矩形框的局部區域模型來說其環境噪聲可以忽略不計;3)在局部定位的過程中使用注意力擦除的辦法,無須單獨訓練目標檢測網絡便可以準確定位到目標的局部信息。

本文所做的創新工作如下:1)設計多區域特征提取模塊,通過CAM 激活圖像關鍵區域,并重復擦除關鍵區域,迫使模型進行互補學習,同時通過局部區域坐標來獲取目標整體圖像,減少細節信息丟失;2)設計聯合損失函數,通過動態平衡難易樣本以及縮小類內距離的方法提高識別效果。

1 相關工作

目前針對細粒度圖像識別的大部分研究以弱監督為主,因此,本節主要介紹弱監督的方法。

1)基于局部定位的方法。構建局部定位子網絡的方法比較常見,如文獻[10-12]使用語義部件定位子網絡,定位到細粒度圖像的關鍵區域后進行學習,WANG 等[13]提出DFL 結構,通過學習一組卷積過濾器來捕獲特定類別的判別特征,從而表明細粒度圖像的特征學習可以在增強后的CNN 框架內進行。除了上述方法,GE 等[14]建立互補模型,通過使用Mask R-CNN 和CRF 的分割,提取細粒度圖像的語義部件,使模型能夠關注除了最具區分性的次要局部。引入DCL 進行細粒度學習也是一種新的細粒度識別方式[15],首先定位關鍵區域,然后破壞該關鍵區域以強調區分性局部細節,對不同局部區域之間的相關性進行建模,最后獲得結果。還有研究者提出可以通過子通道排列將CNN 的不同通道聚合為不同的語義部件,從而實現目標局部區域的自動定位,并采用加權組合正則化方法對識別能力強的目標部位進行分組引導激活[16]。

2)基于端到端特征編碼的方法。二階雙線性特征具有良好的特征表示能力,該方法通過兩個并行的卷積神經網絡提取特征后再通過外積相乘進行細粒度識別,但產生的特征維度非常大,以ResNet-50為例,最終產生的維度高達2 048×2 048。為了降低維度,研究者通過壓縮雙線性特征[17]、雙線性池化[18]以及設計哈達瑪積[19]的方法來近似原來的雙線性特征,大大減少了模型參數量。但是這些方法都僅僅關注一個特定層內的相關性,在很大程度上忽略了多個層之間的交互,WANG 等[20]提出HOI 算法,通過引入三線性池化來計算不同層之間的三階相互作用,然后將其融合,產生更具判別性的特征表示。除此之外,CUI 等[21]提出的基于最小二乘目標函數的深度學習體系結構也能夠降低網絡維度,同時還可以在每次迭代之后選擇最佳的網絡結構。

3)基于注意力機制的方法。ZHENG 等[22]提出線性注意力抽樣網絡(TASN),該方法通過三線性注意模塊對通道間關系進行建模從而生成注意圖,通過圖表示的內容進行特征學習。陸鑫偉等[23]提出基于自身線性融合的弱監督細粒度圖像分類算法(WS-DAN),通過Inception-V3 提取全局特征后使用算法增強圖像。胡志偉等[24]提出基于注意力和殘差網絡相結合的ARNet,通過在殘差網絡中插入多層次的注意力模塊抽取信息,解決網絡退化的問題。ZHANG 等[25]通過門控機制控制不同區域對識別的貢獻。JI 等[26]設計兩級注意力網絡,生成物體級和零件級的區域,同時訓練了兩個子網絡,將兩個層次的特征進行結合后再進行分類,獲得了良好的性能。不同于上述方法,DING 等[27]引入一種稀疏注意力的機制,通過這個機制將關鍵區域的細粒度特征放大,然后進行分類。

為了能夠對目標進行細粒度識別,本文提出一種多區域注意力的細粒度圖像分類網絡(MRA-CNN),該方法基于注意力機制,可以生成類似于圖像分割后的目標局部和整體區域,從而對圖像進行更加精準的識別。

2 多區域注意力的細粒度圖像分類網絡

MRA-CNN 主要由3 個部分組成:2 個特征提取器Inception-V3 以及1 個多區域特征提取模塊,同時,還設計了針對細粒度圖像分類的聯合損失函數,它可以動態平衡難易樣本并縮小類內差異。MRACNN 的結構如圖1 所示(彩色效果見《計算機工程》官網HTML 版,下同)。

圖1 MRA-CNN 模型框架Fig.1 MRA-CNN model framework

從圖1 可知,MRA-CNN 主要由3 個部分組成,分別是階段1 和階段2 的Inception-V3 特征提取網絡以及1 個多區域特征提取模塊。該模型的訓練的過程為:首先,將圖像輸入一個訓練好的分類網絡Inception-V3,通過獲取類別標簽并進行梯度反傳得到第一張網絡的注意力熱圖H1,之后使用硬閾值的方法(閾值η=0.5)獲得一張去除關鍵區域的原圖I1,并繼續送入分類器進行學習。由于關鍵區域已經被去除,分類網絡自然地會發現下一個可以分類的新區域,以保證能夠有效分類圖片。通過兩次對關鍵區域進行擦除,可以得到從I2得到關鍵區域的坐標信息,并依據該坐標信息對原圖進行局部裁剪并上采樣,得到局部和整體區域的圖像(P1,P2,P3),之后將得到的最為關鍵的3 個局部區域送入網絡進行階段2 的訓練,最后輸出結果。

2.1 多區域特征提取模塊

細粒度圖像識別的關鍵在于提高模型對于局部細微區域的提取能力,而物體具有的關鍵區域往往不止一個,對單個關鍵區域進行循環訓練的方法[5]雖然能夠提取到更加精細的特征,但是在放大圖像的同時也會丟失其他次要的細節特征。同時,使用類似目標檢測的方法對物體多個局部的語義部件畫標注框[7-8]可能會增加不必要的噪聲,影響模型的性能。為此,本文設計的多區域特征提取模塊在獲得類似于圖像分割的局部區域時,提高了模型對多個關鍵區域特征的關注能力。同時,為了保留更多的細節,本文使用弱監督的方法對目標整體進行標注,在獲得精細化局部特征的同時也保留了物體的整體特征,減少了細節信息的丟失。多區域特征提取模塊的結構如圖2 所示。

圖2 多區域特征提取模塊架構Fig.2 Multi-region feature extraction module architecture

如圖2 所示,將圖像輸入到經過訓練的Inception-V3 中,得到圖像的特征層,通過全連接層映射圖像的類別,使用類別的預測值進行反向傳播,得到反傳回特征層的梯度信息,對這些梯度信息求均值,得到(w1,w2,…,wn),然后將得到的平均值加權求和,最后通過ReLU 得到該類別圖像中最關鍵的局部熱圖。本文選取的特征層是Inception-V3 的最后一層,這是因為神經網絡層數越靠后,特征層的語義信息就越豐富,關鍵區域的判定就越準確。熱力圖激活公式如式(1)所示:

其中:c代表類別;k為特征層中的第k個通道;a是特征層代表c類k通道的權重;F為最后一層卷積的特征輸出;Fk代表特征層F中第k個通道的數據。求解的公式為:

其中:yc表示網絡對類別c預測的得分;表示特征層F中坐標(i,j)處的數據;U為特征層的寬度;V為特征層的高度。得到關鍵區域的熱圖后,刪除熱圖區域并二次激活,同時對刪除區域裁剪并上采樣得到P1。第二次激活的步驟與第一次激活的步驟相同,可以得到P2。

之后,對P1、P2在原圖中的位置信息進行統計。以P1為例,計算4 個方向最靠近邊緣的非白色像素位置,從左至右第一個白像素的坐標為(xw1,null),從上至下第一個像素的坐標為(null,xh1),這樣就可以得到裁剪矩形的左上角坐標,記為(xw1,xh1),同理,右下角記為(yw1,yh1),如圖3 所示。

圖3 裁剪模板Fig.3 Crop template

通過對P1、P2在原圖中的位置信息進行統計,分別得到P1、P2的左上角坐標P1(xw1,xh1)、P2(xw2,xh2),以及右下角坐標P1(yw1,yh1)、P2(yw2,yh2),根據獲得的4 個坐標,可以對目標整體區域進行計算,(xw,xh)和(yw,yh)的計算公式為:

根據獲得的兩個坐標,可以在原圖上形成一個矩形區域,并針對該區域進行原始圖像裁剪。為了判斷裁剪區域的有效性,本文采用目標檢測中常用的IoU 作為裁剪有效性的判斷標準。IoU 的計算公式如下:

其中:G表示原圖給定的邊界框區域;Acrop表示裁剪后的矩形區域;IoU 的取值范圍為[0,1],IoU 越大說明裁剪區域占原圖的比例越大,反之比例越小。通過設置IoU 的值,對裁剪的區域進行刪選。在本文中,IoU的閾值設定為0.8,如果大于這個值,那么截取區域的大小與原圖基本相等,由于在階段1 的訓練過程中已經對原圖進行訓練,因此裁剪區域不會對模型產生更加有利的影響,因此刪除;若小于0.8,那么證明截取區域不是圖像的整體區域,而是目標的局部區域,因此可以進行保留。通過對整體圖像進行兩次熱圖激活并裁剪,可以獲得目標最重要的局部區域并且可以進行更加細致的學習,減少獲得局部區域所造成的細節信息丟失,整體的區域獲取如圖4 所示。

圖4 保留局部與刪除局部的IoU 對比Fig.4 Comparison of IoU when part retained and part deleted

通過多區域特征提取模塊可以幫助模型篩選出更加精確的局部以及整體區域,并且在最大程度上減少了噪聲,有助于提高模型的識別精度。

2.2 聯合損失函數設計

在多分類任務中,常常使用Softmax 作為類別輸出的概率,本文將輸出的概率用qi表示,因此,Softmax 函數可以寫為:

其中:yi表示第i張圖像的真實標簽;xi表示第i張圖像放入全連接層前的特征向量;W表示全連接層;b代表網絡偏置;s代表目標類別的數量。由于Softmax 經常和交叉熵搭配使用,因此交叉熵的公式可以表示為如下形式:

交叉熵損失函數描述了p、q兩個樣本之間的誤差,其中,pi代表真實標簽值,而qi代表預測的標簽值,又因為真實標簽pi是一個1×n的向量,且該向量有且只有一個值1,其余的值為0,所以當條件限定qi為正樣本的概率時,可以將交叉熵損失函數簡寫為:

同時在細粒度圖像識別任務中,困難樣本往往包含著更加細微的信息,所以,增加困難樣本的損失,使得模型專注困難樣本的訓練,將會對模型產生積極的影響。受目標檢測網絡Retina-Net 中聚焦損失(Focal Loss)[28]的啟發,本文對聚焦損失進行了一些改進,將其應用到多分類任務中。聚焦損失的公式如式(9)所示:

其中:α用來控制正負樣本對總損失的權重,當樣本為正樣本時α=0.25,負樣本時α=0.75;而γ用來控制難易樣本的權重,γ=2。在目標檢測網絡中,通過增大正樣本中的困難樣本對模型的損失,使得模型關注于有用樣本的訓練,得到了非常好的效果。然而,聚焦損失的缺點也很明顯:當其應用在目標特征比較明顯的多分類任務中時,由于樣本的難度偏低,聚焦損失會將所有樣本的損失設置得過低,導致模型提前收斂,不能達到最優的效果,同時一些誤分類或者噪聲圖像由于難度較大,對模型的干擾也將會變大。此外,不同的樣本的特點使得必須通過大量實驗才能選擇到最佳的γ,γ過大,會導致模型過于關注困難樣本,忽視了表現良好的樣本的訓練;γ過小,聚焦損失又會退回到交叉熵[30]。對于這些問題,本文提出一種可變權值的聚焦損失Lvfl,如式(10)所示:

其中:α用來減少不平衡數據集對模型的影響;qi為樣本的概率;n為總樣本迭代次數;t代表實驗設置的Epoch,為當前樣本的迭代次數。Lvfl是隨著實驗進度不斷變化的,對于一些分類有誤或者含有噪聲的圖像,在訓練后期,網絡的權重會逐漸分散到其他多數訓練良好的樣本上,避免過于關注困難樣本使得模型的抗噪性變差的缺點。

Lvfl是對交叉熵損失函數的改進,可以很好地反映類間差異,但是對于細粒度識別問題來說,縮小類內差異也是提高模型識別準確率非常有效的方法。受Center Loss[30]的啟發,本文使用Center Loss 和Lvfl相結合的辦法,既增加了困難樣本的訓練權重,同時也縮小了類內差異。Center Loss 的計算公式如下:

其中:cyi表示第yi類別的特征中心;xi表示第i個部位的相應特征;m表示mini-batch 的大小。xi和cyi的更新公式如下:

其中:δ的取值為0 或者1;Δcyi的更新需要滿足條件yi=j,此時δ的值為1,否則δ的值為0,即類別j只負責更新與它相對應的類別中心cyi。

綜合Lvfl與Lcenter,聯合損失為:

其中:γ用于平衡兩種不同的損失函數,值為0.75。本文使用SGD 優化器進行優化,并且給出了在這種聯合損失函數下的訓練細節,如算法1 所示。

算法1聯合損失計算網絡參數的基本流程

3 實驗

3.1 數據集

為了驗證MRA-CNN 的性能,本文使用3 個公開的細粒度圖像數據集,分別是CUB-200-2011、Stanford-Cars、FGVC-Aircraft。

1)CUB-200-2011:該數據集包括200 類不同的鳥類,其中訓練集有5 994 張圖像,測試集有5 794 張圖像,共計11 788 張圖像。

2)Stanford-Cars:該數據集包括196 類不同品牌與年份的車輛,其中訓練集有8 144 張圖像,測試集有8 041 張圖像,共計16 185 張圖像。

3)FGVC-Aircraft:該數據集包括100 款不同類型的飛機,其中訓練集有6 667 張圖像,測試集有3 333 張圖像,共計10 000 張圖像。

3.2 實驗細節

本文實驗的訓練過程分為兩部分:1)使用遷移學習的方法訓練階段1 的Inception-V3,這一步的目的主要是加快模型的訓練速度以及幫助多區域特征提取模塊提取到有價值的局部區域,之后再次訓練提取次要特征,每張原圖可以產生3 張局部區域圖像,其中2 張是目標的語義部件,1 張是目標整體的矩形區域;2)訓練階段2 的Inception-V3,通過多區域特征提取模塊產生的更加精細的結果,在階段1 訓練的基礎上進一步提高模型性能。

3.3 參數設置

實驗在PyTorch1.71 版本下進行,GPU 為Nvidia Genforce 3060Ti,CPU 為i5-10700K。優化器選擇SGD,初始學習率設置為0.000 1,動量超參數為0.9,batch_size 為32,階段1 和階段2 的Epoch 為100。

3.4 評價指標

使用準確率作為衡量模型性能的指標,其公式如下:

3.5 消融實驗

為驗證本文模型提出的各個模塊是否能有效提高模型的性能,在CUB-200-2011 上進行消融實驗,實驗1 使用Inception-V3 進行訓練,實驗2 增加了多區域特征提取模塊,實驗3 在實驗2 的基礎上又增加了聯合損失函數(實驗1 和實驗2 均為交叉熵損失函數),評價指標為Top-1 準確率。具體的實驗結果如表1 所示。

表1 在CUB-200-2011 數據集上的消融實驗結果Table 1 Ablation experimental results on CUB-200-2011 dataset

從表1 中的結果可知,增加了多特征提取模塊和聯合損失函數的準確率高于Inception-V3 以及在此基礎上增加的多特征提取模塊,這說明了本文所設計的多特征提取模塊以及聯合損失函數的有效性。

3.6 對比實驗

為驗證本文算法的性能,分別在CUB-200-2011、FGVC-Aircraft 和Stanford-Cars 這3 個數據集上進行實驗,準確率變化曲線如圖5 所示,其中前100 個Epoch 表示階段1 的模型準確率,即Inception-V3 的準確率(用綠色表示),100~200 的Epoch 表示階段2 的準確率,即增加多特征提取模塊的準確率(用紅色表示)。

圖5 MRA-CNN 在3 個不同數據集上的準確率變化曲線Fig.5 Accuracy curves of MRA-CNN on three different datasets

如圖5 所示,在階段2,MRA-CNN 的準確率有了較大提升,說明多區域特征提取模塊是有效的。同時,本文方法與一些最新的方法也進行了比較,如表2 所示,其中加粗數據為最優值??梢钥闯觯琈RA-CNN 在3 個數據集上的Top-1 準確率分別達到了89.2%、94.8%、94.0%,均優于其他模型,證明了本文方法的有效性。

表2 相關方法在3 個不同數據集上的Top-1 準確率Table 2 Top-1 accuracy of the related methods on three different datasets %

4 結束語

本文提出一種多區域注意力的細粒度分類網絡,通過設計多區域特征提取模塊,使用關鍵區域擦除的方法幫助模型獲得了更多類似于圖像分割的局部信息,減少了局部信息冗余,同時也保留了目標的整體特征,減少了在截取局部區域時造成的細節信息丟失。此外,通過設計聯合損失函數、動態平衡難易樣本以及縮小類內距離的方法,提高了模型的識別效果。在未來的工作中,將繼續針對多區域特征的細粒度識別方法展開研究,探索更加高效的細粒度識別模型。

猜你喜歡
特征提取分類特征
分類算一算
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 亚洲无线国产观看| 全部免费特黄特色大片视频| 99偷拍视频精品一区二区| 亚洲综合色区在线播放2019| 东京热一区二区三区无码视频| 无码中字出轨中文人妻中文中| 欧洲日本亚洲中文字幕| 亚洲男女天堂| 亚洲va欧美ⅴa国产va影院| 久久久久久久久久国产精品| 亚洲成人网在线播放| 久久久91人妻无码精品蜜桃HD| 欧美成人在线免费| 精品久久蜜桃| 亚洲欧美日本国产综合在线| 自偷自拍三级全三级视频 | 国产精品主播| 99国产精品免费观看视频| 激情无码视频在线看| 欧美日韩在线亚洲国产人| 伊人久久婷婷| 亚洲成综合人影院在院播放| 欧美一区二区啪啪| 欧美日韩综合网| 日韩欧美国产综合| 欧美第一页在线| 成人福利在线看| 欧美日韩国产成人高清视频| 国产精品七七在线播放| 亚洲综合色区在线播放2019| 91九色国产porny| 精品第一国产综合精品Aⅴ| 亚洲成人手机在线| 91无码视频在线观看| 97精品国产高清久久久久蜜芽| 色婷婷色丁香| 国产第二十一页| 精品无码国产自产野外拍在线| 综合五月天网| 丰满人妻被猛烈进入无码| 四虎在线观看视频高清无码| 国产女人在线| 亚洲日韩每日更新| AV不卡国产在线观看| 伊人久久青草青青综合| 五月天丁香婷婷综合久久| 超清无码熟妇人妻AV在线绿巨人| 国产女人在线视频| 六月婷婷激情综合| 国产欧美性爱网| 四虎永久免费网站| 99这里精品| 欧美五月婷婷| 高清国产va日韩亚洲免费午夜电影| 91偷拍一区| 欧美在线国产| 久久99国产综合精品1| 亚洲一级毛片免费观看| 真实国产乱子伦高清| 亚洲高清无在码在线无弹窗| 91久久夜色精品国产网站| 丁香婷婷综合激情| 精品99在线观看| 午夜在线不卡| 国产麻豆另类AV| 日韩人妻无码制服丝袜视频| 性喷潮久久久久久久久| 国产精品思思热在线| 毛片视频网址| 91破解版在线亚洲| 亚洲色图欧美视频| 国产综合精品日本亚洲777| 国产欧美精品专区一区二区| 鲁鲁鲁爽爽爽在线视频观看| a在线观看免费| 日韩人妻少妇一区二区| 久久人搡人人玩人妻精品| 日日拍夜夜操| 91精选国产大片| 亚洲免费毛片| 亚洲精品成人福利在线电影| 国产亚洲精品精品精品|