999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙注意力核化雙線性網(wǎng)絡(luò)的細(xì)粒度圖像分類

2022-07-21 04:11:58朱晨鵬彭宏京劉學(xué)軍
關(guān)鍵詞:分類機(jī)制特征

朱晨鵬,彭宏京,劉學(xué)軍

(南京工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211816)

0 引 言

與粗粒度圖像數(shù)據(jù)集相比,細(xì)粒度圖像數(shù)據(jù)集具有較小的類間相似性和較大的類內(nèi)差異性。只有捕捉到不同類之間局部區(qū)域的細(xì)微差異或?qū)W習(xí)到更精細(xì)的細(xì)粒度圖像特征,才能實(shí)現(xiàn)對(duì)不同細(xì)粒度圖像的有效辨別。因此為了更好描述圖像特征,Lin等[1]提出的雙線性卷積神經(jīng)網(wǎng)絡(luò)(bilinear CNN,B-CNN)采用外積的方式對(duì)雙通道特征進(jìn)行融合,從而建模不同通道間的線性相關(guān),增強(qiáng)了卷積網(wǎng)絡(luò)的對(duì)圖像表達(dá)能力。然后Gao和Cui等[2-4]在此基礎(chǔ)上圍繞雙線性卷積網(wǎng)絡(luò)的壓縮和特征分布展開研究,并取得了一定的進(jìn)展。但這些網(wǎng)絡(luò)都忽略了特征圖中不同通道和空間位置關(guān)系對(duì)分類的不同作用,其次僅使用外積方式建模了不同通道間的線性關(guān)系,而沒有考慮非線性關(guān)系。

針對(duì)上述兩個(gè)問題,我們提出從通道和空間兩個(gè)維度上對(duì)局部區(qū)域進(jìn)行雙注意力建模,其中通道注意力機(jī)制對(duì)通道加權(quán),使網(wǎng)絡(luò)將更多注意力放在具有判別性的特征通道上;空間注意力機(jī)制對(duì)位置加權(quán),通過增加具有判別性區(qū)域的權(quán)重和減少噪聲區(qū)域的權(quán)重,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。其次將兩個(gè)機(jī)制的注意力特征圖矩陣相加后進(jìn)行外積聚合。最后為了充分挖掘通道間所蘊(yùn)含的豐富信息,提出采用sigmoid 核函數(shù)的方式對(duì)外積矩陣進(jìn)行核化以建模通道間的非線性關(guān)系。與原始B-CNN及其它基于雙線性網(wǎng)絡(luò)的算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文方法具有更高的分類準(zhǔn)確率。

1 相關(guān)工作

本節(jié)將從細(xì)粒度特征提取和注意力機(jī)制兩個(gè)方面簡(jiǎn)要回顧相關(guān)工作。研究工作[5]表明,生物特征識(shí)別的關(guān)鍵在于找到一個(gè)合適的特征表達(dá)空間將不同類別的對(duì)象區(qū)分開。我們通過細(xì)粒度特征提取結(jié)合雙注意力機(jī)制獲得了所需的細(xì)粒度特征表達(dá)空間。

1.1 細(xì)粒度特征提取

由于細(xì)粒度子類之間的區(qū)別是局部且細(xì)微的,因此用于粗粒度圖像分類的網(wǎng)絡(luò)模型往往不能很好地表征細(xì)粒度圖像。Lin等[1]提出了雙線性卷積網(wǎng)絡(luò)模型,該模型采用外積的方式對(duì)雙通道特征進(jìn)行融合,從而建模不同通道間的線性相關(guān),增強(qiáng)了卷積網(wǎng)絡(luò)的對(duì)細(xì)粒度圖像表達(dá)能力。雙線性卷積網(wǎng)絡(luò)模型是細(xì)粒度圖像分類領(lǐng)域中“端到端”訓(xùn)練的首批模型之一,極大地提高了分類的準(zhǔn)確性。之后,為了減小雙線性特征的維度和內(nèi)存消耗,同時(shí)加快訓(xùn)練和識(shí)別速度,Gao等[2]使用張量速寫(tensor sketch)與隨機(jī)麥克勞林(random maclaurin)兩種算法降低了圖像表達(dá)的維度。Cui等[3]提出了核聚合卷積網(wǎng)絡(luò)(kernel pooling)來提取高階信息的圖像,該方法通過級(jí)聯(lián)不同的階信息來獲得圖像的多階特征表示。Li等[4]對(duì)全連接層的參數(shù)矩陣進(jìn)行低階分解,把特征的一階和二階信息都利用起來,進(jìn)而更好完成細(xì)粒度圖像分類任務(wù)。但上述方法僅使用單層的卷積特征,并不能完整表示圖像特征。本文方法通過雙注意力機(jī)制對(duì)局部區(qū)域進(jìn)行建模,可以進(jìn)一步提高對(duì)判別性區(qū)域的關(guān)注度,有效地解決了這些問題。另外,為了建模特征圖中不同通道之間的非線性關(guān)系,我們采用核化的雙線性卷積網(wǎng)絡(luò)進(jìn)行分類。

1.2 注意力機(jī)制

由于卷積神經(jīng)網(wǎng)絡(luò)直接從單個(gè)卷積層中提取的特征并不能完整表征細(xì)粒度圖像,因此一些研究試圖通過注意力機(jī)制來增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力。

注意力機(jī)制類似于人類的視覺系統(tǒng),它主要包括兩個(gè)部分:①確定需要關(guān)注的區(qū)域;②從關(guān)鍵區(qū)域提取特征以獲得重要的信息。Zheng等[6]提出了循環(huán)注意力卷積神經(jīng)網(wǎng)絡(luò)(RA-CNN),它包含3層分類子網(wǎng)絡(luò),并使用注意建議子網(wǎng)絡(luò)進(jìn)行連接。訓(xùn)練過程中它將上一個(gè)注意建議子網(wǎng)絡(luò)的注意力區(qū)域裁剪后放大作為下一個(gè)分類子網(wǎng)絡(luò)的輸入,最后通過融合不同尺度下網(wǎng)絡(luò)的分類結(jié)果進(jìn)行判斷。MA-CNN[7]進(jìn)一步擴(kuò)展了 RA-CNN的思路,通過特征圖的聚類來定位細(xì)粒度圖片中多個(gè)具有判別性的區(qū)域,然后提取相應(yīng)特征,最后級(jí)聯(lián)各個(gè)判別性特征取得了優(yōu)異的分類性能。SENet[8]探索了不同特征通道之間的關(guān)系,通過學(xué)習(xí)和自動(dòng)檢測(cè)每個(gè)特征通道的重要性,來增強(qiáng)有用特征并抑制無用特征以強(qiáng)化網(wǎng)絡(luò)的表征能力。另外,文獻(xiàn)[9]表明不同空間位置的特征對(duì)圖像分類的貢獻(xiàn)度也不同。Woo等[10]同時(shí)關(guān)注特征尺度,通道和空間位置3個(gè)不同維度,并在不顯著增加計(jì)算量和參數(shù)量的前提下提高了網(wǎng)絡(luò)模型的特征提取能力。受文獻(xiàn)[10]的啟發(fā),我們提出了基于雙注意力機(jī)制的細(xì)粒度分類模型。

2 方 法

細(xì)粒度圖像分類的關(guān)鍵在于發(fā)現(xiàn)局部區(qū)域的細(xì)微差異。本文采用雙注意力機(jī)制對(duì)局部區(qū)域進(jìn)行建模,賦予具有判別性區(qū)域的更大的權(quán)重,以強(qiáng)化有用特征并抑制無用特征,從而實(shí)現(xiàn)更有效的特征表示。本節(jié)先概述整體流程,然后再分模塊進(jìn)行介紹。

2.1 總體框架

為了更好地描述圖像特征,我們?cè)贐-CNN的基礎(chǔ)上從通道和空間兩個(gè)維度對(duì)局部區(qū)域進(jìn)行雙注意力建模。其次將兩個(gè)維度的注意力特征圖相加后進(jìn)行外積聚合。最后采用sigmoid核函數(shù)的方式對(duì)外積矩陣進(jìn)行核化以建模通道間非線性關(guān)系。

模型的總體框架如圖1所示,雙注意力核化雙線性模型由3個(gè)模塊組成:特征提取器、雙注意力模塊及核化雙線性聚合模塊。在第一個(gè)模塊中,我們選擇VGG-16充當(dāng)整個(gè)圖像的特征提取器。由于底層特征集中于學(xué)習(xí)更復(fù)雜的形狀和語義信息,因此我們將卷積層Conv5_3的輸出特征圖作為初始特征表示,其中w、h和d分別表示特征圖的寬、高和通道數(shù)。第二個(gè)模塊中,通道和空間注意力機(jī)制分別從通道和空間兩個(gè)維度上對(duì)局部區(qū)域進(jìn)行建模,對(duì)具有判別性的局部區(qū)域分配相當(dāng)大的權(quán)重,最后將兩個(gè)機(jī)制的注意力特征圖以矩陣相加的方式獲得最佳特征表示。核化雙線性聚合模塊首先對(duì)雙注意力機(jī)制的輸出特征圖進(jìn)行通道二范數(shù)歸一化,并將結(jié)果按通道展開為特征矩陣X∈Rd×N,其中N=h×w。然后對(duì)X進(jìn)行外積聚合并采用sigmoid核函數(shù)的方式對(duì)外積矩陣進(jìn)行核化以建模通道間的非線性關(guān)系,得到圖像表達(dá)P。最后對(duì)矩陣P進(jìn)行指數(shù)冪操作并取上三角部分作為圖像的最終表達(dá)進(jìn)行細(xì)粒度圖像分類。

圖1 基于雙注意力機(jī)制的核化雙線性卷積網(wǎng)絡(luò)架構(gòu)

2.2 特征提取器

VGG模型在計(jì)算機(jī)視覺任務(wù)中有著廣泛的應(yīng)用。在這里,我們使用VGG-16作為特征提取器。

對(duì)于輸入圖像I,我們使用W表示所有參數(shù),*表示卷積和池化等一系列操作,則提取的圖像特征F可表示為

F=W*I

(1)

2.3 雙注意力機(jī)制

從VGG-16中直接獲取的卷積特征不具有很強(qiáng)的判別力,因此本文引入注意力機(jī)制來提高網(wǎng)絡(luò)的表征能力,在討論注意力機(jī)制之前,我們先介紹特征圖的不同維度。經(jīng)過卷積和池化后的特征圖具有兩個(gè)維度,一個(gè)是通道維度,另一個(gè)是空間維度。通道間的關(guān)系在細(xì)粒度圖像分類中被廣泛研究,例如MA-CNN[7]對(duì)特征圖分組以獲取不同部位的關(guān)鍵性特征。而空間維度則表示不同像素間的關(guān)系。本文的注意力機(jī)制主要應(yīng)用于通道和空間兩個(gè)維度,可分為以下兩個(gè)模塊。

2.3.1 通道注意力模塊

不同通道的特征圖在圖像分類中的貢獻(xiàn)值是不同的,但很多研究認(rèn)為不同通道的特征圖對(duì)分類結(jié)果的影響都是相同的。例如,Wei等[11]將不同通道的特征圖直接相加,其結(jié)果受到了混亂圖像背景的嚴(yán)重干擾。

我們?nèi)稳×薈onv5_3中4個(gè)通道的特征圖進(jìn)行可視化如圖2所示。由圖2可以看出,不同特征通道的關(guān)注點(diǎn)不同,后3個(gè)通道的特征圖都將關(guān)注點(diǎn)集中在目標(biāo)主體部位上,而第108層的特征圖卻集中在背景噪聲上。

圖2 4個(gè)通道特征圖的可視化結(jié)果

因此為了突出目標(biāo)主體區(qū)域,同時(shí)抑制背景噪聲干擾,我們使用通道注意力機(jī)制來根據(jù)不同通道的重要性學(xué)習(xí)權(quán)重,通過增加包含目標(biāo)主體區(qū)域特征圖的權(quán)重并減小噪聲響應(yīng)圖的權(quán)重,以達(dá)到增強(qiáng)有效通道信息和抑制無效通道信息的效果。對(duì)于深層卷積神經(jīng)網(wǎng)絡(luò),在經(jīng)過多次卷積和池化后,卷積層的最后一層包含最充分的空間和語義信息。所以我們僅在最后一個(gè)卷積層輸出的特征圖之后使用注意力機(jī)制,其中通道注意力機(jī)制的結(jié)構(gòu)如圖3所示。

圖3 通道注意力機(jī)制結(jié)構(gòu)

全局平均池化(global average pooling)可以充分利用每個(gè)通道的空間信息,具有很強(qiáng)的魯棒性且不易過度擬合。而全局最大池化(global max pooling)可以反映全局最大響應(yīng),并在一定程度上表示通道中的關(guān)鍵信息。此外,Woo等[10]的研究工作表明,與僅使用一種全局池化方法相比,全局平均池化和全局最大池化的合并結(jié)果更為有效。因此我們使用GAP和GMP信息融合的方式來學(xué)習(xí)通道權(quán)重,池化后的特征向量分別表示為FGAP和FGMP。然后為了實(shí)現(xiàn)通道間信息的交互并減少數(shù)據(jù)量,我們將兩層1×1卷積連接起來應(yīng)用到FGAP和FGMP中。前一層1×1卷積核數(shù)量設(shè)置為c/r,其中c為FGAP和FGMP的通道維度。r為可變參數(shù),表示特征維度c的縮減倍數(shù),它的值對(duì)細(xì)粒度分類結(jié)果的影響將在實(shí)驗(yàn)部分3.4.1節(jié)中詳細(xì)介紹。最后一層1×1卷積核的數(shù)量調(diào)整為c以保證輸出特征圖的通道維度與輸入相同。

經(jīng)過兩層1×1卷積后得到F′GAP和F′GMP, 然后將它們的合并結(jié)果傳遞給sigmoid函數(shù)。該函數(shù)將合并結(jié)果的每個(gè)元素都映射到0~1之間來得到權(quán)重MC,它表示每個(gè)特征通道的重要性。最后將MC乘以原始特征圖F對(duì)其加權(quán)得到注意力特征圖F′C, 這意味著在不同特征通道上都執(zhí)行權(quán)重分配,以抑制無用信息并增加有用信息的比例。公式表達(dá)為

F′C=MC?F=σ(F′GAP+F′GMP)?F

(2)

由于部分通道信息可能會(huì)在GAP和GMP傳遞過程中丟失,因此受到ResNet[12]殘差學(xué)習(xí)的啟發(fā),我們將注意力模塊的卷積特征和原始輸出疊加以獲得最佳表示。整個(gè)通道注意力模塊框架如圖4所示,通道注意力機(jī)制作為側(cè)分支添加到原始特征通道中,這樣網(wǎng)絡(luò)只需要學(xué)習(xí)注意力模塊,而無需學(xué)習(xí)整個(gè)輸出。最終輸出的特征圖FC表示為

FC=F⊕F′C=(1+σ(F′GAP+F′GMP))?F

(3)

其中,σ表示sigmoid函數(shù),⊕表示逐像素相加,?表示逐元素相乘。

圖4 通道注意力模塊框架

2.3.2 空間注意力模塊

特征圖中不同像素對(duì)于分類結(jié)果的貢獻(xiàn)也不同。空間注意力模塊的作用是為特征圖中每個(gè)像素分配權(quán)重值,通過增加判別性區(qū)域的權(quán)重和減少噪聲區(qū)域和背景區(qū)域的權(quán)重,以達(dá)到增強(qiáng)關(guān)鍵區(qū)域和抑制無用區(qū)域的效果。該機(jī)制結(jié)構(gòu)如圖5所示。

圖5 空間注意力機(jī)制結(jié)構(gòu)

與通道注意力機(jī)制相同,首先沿著通道維度采用GAP和GMP來獲得FsGAP和FsGMP,維度均為h×w×1。然后將FsGAP和FsGMP逐元素相加后進(jìn)行3×3的卷積,并將卷積結(jié)果傳遞給sigmoid函數(shù)以獲得權(quán)重圖MS。最后,將權(quán)重圖逐元素與原始特征圖F相乘,得到空間注意力特征圖F′S。 公式表達(dá)為

F′S=MS?F=σ(f(FsGAP+FsGMP))?F

(4)

同樣的,我們將空間注意力機(jī)制作為側(cè)分支添加到原始特征通道中,整個(gè)模塊框架如圖6所示,最終輸出的特征圖FS表示為

FS=F⊕F′S=(1+σ(f(FsGAP+FsGMP)))?F

(5)

其中,σ表示sigmoid函數(shù),f代表3×3的卷積操作,⊕表示逐像素相加,?表示逐元素相乘。

圖6 空間注意力模塊框架

通道和空間注意力從兩個(gè)維度上解析圖像特征,以促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)更多的特征信息。而雙注意力機(jī)制融合了兩個(gè)不同維度的注意力特征圖,框架如圖7所示。

圖7 雙注意力機(jī)制框架

雙注意力機(jī)制的輸出FDA,公式表達(dá)為

FDA=FC+FS

(6)

2.4 核化雙線性聚合模塊

在上一模塊中,雙注意力機(jī)制以矩陣相加的方式對(duì)兩個(gè)機(jī)制的注意力特征圖進(jìn)行融合得到FDA,維度為w×h×d。葛等[13]為解決B-CNN中僅能建模特征通道間非線性關(guān)系的不足,提出了一種核化的雙線性卷積網(wǎng)絡(luò),因此為了更充分地挖掘通道間所蘊(yùn)含的豐富信息,我們也采用sigmoid核函數(shù)的方式對(duì)FDA的外積矩陣進(jìn)行核化以建模通道間的非線性關(guān)系,增強(qiáng)網(wǎng)絡(luò)的表征能力。

如圖8所示,核化雙線性聚合模塊首先對(duì)雙注意力機(jī)制的輸出特征圖FDA進(jìn)行通道二范數(shù)歸一化,并將結(jié)果按通道展開為特征矩陣X∈Rd×N,其中N=h×w,d為特征通道數(shù)。然后對(duì)矩陣X進(jìn)行外積聚合XXT∈Rd×d,并采用sigmoid核函數(shù)的方式對(duì)外積矩陣進(jìn)行核化以建模通道間的非線性關(guān)系,得到圖像表達(dá)P。最后對(duì)矩陣P進(jìn)行指數(shù)冪操作,冪指數(shù)設(shè)為α,并取結(jié)果的上三角部分作為圖像的最終表達(dá)進(jìn)行細(xì)粒度圖像分類。

圖8 核化雙線性聚合模塊流程

本文采用sigmoid核函數(shù)對(duì)外積矩陣A=XXT進(jìn)行核化,sigmoid核函數(shù)公式K表示為

K(xi,xj)=tanh(θ·〈xi,xj〉+γ)

(7)

其中,θ為幅度調(diào)節(jié)參數(shù),θ>0,γ為位移參數(shù),γ<0,核化后的矩陣P表示為

P=K(XXT)=tanh(θ·XXT+γ·1d×d)= tanh(θ·A+γ·1d×d)=[tanh(θ·〈xi,xj〉+γ)]d×d

(8)

其中,1d×d表示元素均為1的d維方陣。交叉熵?fù)p失函數(shù)l針對(duì)矩陣A的反向傳播公式如下所示,其中“°”表示哈達(dá)馬積

(9)

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)平臺(tái)

仿真的實(shí)驗(yàn)環(huán)境為:Win10操作系統(tǒng),i7-8700K處理器和GTX 1080Ti 顯卡。實(shí)驗(yàn)采用Python編程語言在Tensorflow上設(shè)計(jì)與實(shí)現(xiàn),并采用NVIDIA推出的通用并行計(jì)算架構(gòu)CUDA(computer unified architecture)加速模型的訓(xùn)練。

3.2 數(shù)據(jù)集

實(shí)驗(yàn)部分在CUB-200-2011、FGVC-Aircraft及Stanford Cars這3個(gè)細(xì)粒度圖像數(shù)據(jù)集上對(duì)本文方法進(jìn)行評(píng)估。所有數(shù)據(jù)集的訓(xùn)練集與測(cè)試集的劃分見表1,其中CUB-200-2011鳥類數(shù)據(jù)集被公認(rèn)為最具挑戰(zhàn)性的細(xì)粒度分類數(shù)據(jù)集,因?yàn)槊總€(gè)類平均僅有30張圖片供模型訓(xùn)練,并且具有較大的類內(nèi)差異。注意本文實(shí)驗(yàn)中均未采用邊界框等人工標(biāo)注信息。

表1 3個(gè)細(xì)粒度數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)

3.3 實(shí)驗(yàn)參數(shù)設(shè)置

本文選用VGG-16網(wǎng)絡(luò)模型作為整個(gè)圖像的特征提取器,并將Conv5_3卷積層的輸出作為初始特征表示。在模型訓(xùn)練前,先使用ImageNet上的分類模型初始化網(wǎng)絡(luò)參數(shù),并采用與改進(jìn)的B-CNN相同的圖像預(yù)處理方式:對(duì)于CUB-200-2011和StanfordCars數(shù)據(jù)集,在保持長(zhǎng)寬比的前提下將短邊縮放至448后,從中間裁剪出448×448的區(qū)域作為模型的輸入。對(duì)于FGVC-aircraft數(shù)據(jù)集,則將圖像短邊縮放至512后,從中間裁剪出448×448的區(qū)域作為模型的輸入。預(yù)處理完成后,采用隨機(jī)水平翻轉(zhuǎn)的方式進(jìn)行數(shù)據(jù)增強(qiáng),最終Conv5_3卷積層的輸出特征圖大小為28×28×512。

訓(xùn)練過程中采用帶動(dòng)量的隨機(jī)梯度下降法作為優(yōu)化算法,動(dòng)量設(shè)置為0.9,批次大小設(shè)置為20,矩陣冪正規(guī)化層中參數(shù)α設(shè)置為0.5。訓(xùn)練共分為兩個(gè)階段,第一階段為微調(diào)訓(xùn)練,即對(duì)模型最后兩層即softmax分類器進(jìn)行訓(xùn)練,學(xué)習(xí)率和權(quán)重衰減分別設(shè)置為1.0和10-8。第二階段對(duì)整個(gè)模型進(jìn)行訓(xùn)練,學(xué)習(xí)率和權(quán)重衰減分別設(shè)置為0.001和10-5。

3.4 實(shí)驗(yàn)結(jié)果評(píng)估

實(shí)驗(yàn)分別針對(duì)本文提出的通道注意力模塊、空間注意力模塊及雙注意力機(jī)制進(jìn)行評(píng)估,同時(shí)還探討了通道注意力模塊中不同縮減倍數(shù)r對(duì)分類結(jié)果的影響。最后對(duì)核化雙線性聚合模塊進(jìn)行消融實(shí)驗(yàn)以驗(yàn)證其有效性。

3.4.1 通道注意力模塊評(píng)估

通道注意力模塊中r表示特征維度的縮減倍數(shù),它是一個(gè)可變參數(shù),因此我們首先對(duì)其進(jìn)行了參數(shù)評(píng)估。我們?cè)赩GG模型的Conv5_3卷積層后直接添加了通道注意力模塊,并將r值分別設(shè)置為2、4、8和16,最后在CUB鳥類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。損失函數(shù)使用交叉熵?fù)p失函數(shù),結(jié)果見表2。

表2 不同r值的CAKB模型在CUB-200-2011上的準(zhǔn)確率

從表2可以看出,當(dāng)r值為2時(shí),嵌入通道注意力模塊的核化雙線性網(wǎng)絡(luò)(channel attention kernelized B-CNN,CAKB)在CUB鳥類數(shù)據(jù)集上的分類準(zhǔn)確率達(dá)到了86.9%的最佳性能。因此,我們將通道注意力模塊中的r值設(shè)置為2。然后在3個(gè)細(xì)粒度數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果見表3。

表3 CAKB與其它基于雙線性網(wǎng)絡(luò)方法的比較結(jié)果/%

實(shí)驗(yàn)結(jié)果表明,與原始B-CNN方法相比,CAKB框架在CUB、FGVC及Stanford Cars上的分類準(zhǔn)確率分別提高了2.4%、4.3%和2.8%。與其它基于雙線性網(wǎng)絡(luò)的方法,如CBP及KP模型相比,它也具有一定的優(yōu)越性。因此,引入通道注意力機(jī)制對(duì)通道加權(quán),使網(wǎng)絡(luò)將更多注意力放在具有判別性的特征通道上,這對(duì)細(xì)粒度分類產(chǎn)生了積極的影響。此外,還驗(yàn)證了不同特征通道對(duì)分類的作用是不同的。

3.4.2 空間注意力模塊評(píng)估

同樣地,我們?cè)赩GG模型的Conv5_3卷積層后直接添加了空間注意力模塊,并將嵌入空間注意力模塊的核化雙線性網(wǎng)絡(luò)命名為SAKB(spatial attention kernelized B-CNN)。SAKB的實(shí)驗(yàn)評(píng)估結(jié)果見表4。

表4 SAKB與其它基于雙線性網(wǎng)絡(luò)方法的比較結(jié)果/%

從表4可以看出,與原始的雙線性卷積網(wǎng)絡(luò)模型相比,增加空間注意力及核化機(jī)制的SAKB框架在3個(gè)實(shí)驗(yàn)數(shù)據(jù)集上的分類準(zhǔn)確率分別提高了2.3%、4.1%和2.5%。而與僅包含核化機(jī)制的雙線性卷積網(wǎng)絡(luò)相比,準(zhǔn)確率也有所提升。這表明在空間維度上增加注意力機(jī)制的合理性與有效性,也驗(yàn)證了圖像不同部分對(duì)分類的作用也不同。

3.4.3 雙注意力機(jī)制

嵌入雙注意力機(jī)制的核化雙線性卷積網(wǎng)絡(luò)(dual attention kernelized B-CNN,DAKB)架構(gòu)如圖1所示,它的評(píng)估結(jié)果見表5。同時(shí)為了與CAKB、SAKB框架及其它基于雙線性網(wǎng)絡(luò)方法進(jìn)行更直觀的比較,我們繪制了折線如圖9所示。

表5 DAKB與其它基于雙線性網(wǎng)絡(luò)方法的比較結(jié)果/%

圖9 各框架與其它基于雙線性網(wǎng)絡(luò)方法的對(duì)比折線

從表5和圖9可以看出,與B-CNN方法相比,基于雙注意力機(jī)制的核化雙線性網(wǎng)絡(luò)(DAKB)在3個(gè)實(shí)驗(yàn)數(shù)據(jù)集上的分類準(zhǔn)確率分別提高了2.7%、4.4%和2.9%。不僅高于原始的雙線性網(wǎng)絡(luò)和其它基于該網(wǎng)絡(luò)的算法,還優(yōu)于嵌入單個(gè)注意力機(jī)制的CAKB和SAKB框架。這都?xì)w因于雙注意力機(jī)制融合了通道和空間兩個(gè)不同維度的注意力特征圖,從而促進(jìn)了卷積網(wǎng)絡(luò)學(xué)習(xí)到更多的特征信息。

3.4.4 消融實(shí)驗(yàn)

由于CAKB、SAKB和DAKB框架中都添加了核化雙線性聚合模塊,因此為了驗(yàn)證該模塊的有效性,我們對(duì)其進(jìn)行了消融實(shí)驗(yàn),直接采用原始雙線性卷積網(wǎng)絡(luò)中的外積聚合模塊進(jìn)行細(xì)粒度圖像分類。3種框架消融前后在CUB-200-2011鳥類數(shù)據(jù)集上的準(zhǔn)確率見表6。

表6 CUB-200-2011上對(duì)核化雙線性聚合模塊的消融結(jié)果

從表6可以看出,通道注意力模塊、空間注意力模塊和雙注意力機(jī)制添加核化雙線性聚合模塊后再進(jìn)行細(xì)粒度分類,CAKB、SAKB以及DAKB在CUB-200-2011鳥類數(shù)據(jù)集上的分類準(zhǔn)確率分別提高了1.5%、1.7%和1.6%。這驗(yàn)證了核化雙線性聚合模塊的有效性。雙注意力機(jī)制以矩陣相加的方式對(duì)兩個(gè)機(jī)制的注意力特征圖進(jìn)行融合后,它采用sigmoid核函數(shù)的方式對(duì)外積矩陣進(jìn)行核化,進(jìn)一步建模了通道間的非線性關(guān)系,從而得到了更加充分的圖像表達(dá)。

4 結(jié)束語

為了更好地描述細(xì)粒度圖像特征,本文從通道和空間兩個(gè)維度對(duì)局部區(qū)域進(jìn)行雙注意力建模,其次將兩個(gè)維度的注意力特征圖相加后進(jìn)行外積聚合。最后采用sigmoid核函數(shù)的方式對(duì)外積矩陣進(jìn)行核化以建模通道間的非線性關(guān)系,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的表征能力。實(shí)驗(yàn)在CUB-200-2011、FGVC-Aircraft及Stanford Cars這3個(gè)細(xì)粒度數(shù)據(jù)集上進(jìn)行了測(cè)試,結(jié)果表明本文方法在3個(gè)細(xì)粒度圖像數(shù)據(jù)庫(kù)上均優(yōu)于同類方法,同時(shí)驗(yàn)證了特征圖中每個(gè)通道和空間位置在分類中的不同作用以及核化雙線性聚合模塊的有效性。在未來的工作中,可以將本文方法應(yīng)用于更多的計(jì)算機(jī)視覺任務(wù)中,例如場(chǎng)景分割、目標(biāo)檢測(cè)等。同時(shí)考慮將ResNet及GoogleNet等模型作為特征提取器來進(jìn)一步提升分類準(zhǔn)確率。

猜你喜歡
分類機(jī)制特征
分類算一算
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
破除舊機(jī)制要分步推進(jìn)
注重機(jī)制的相互配合
主站蜘蛛池模板: a级高清毛片| 亚洲最新网址| 色婷婷亚洲十月十月色天| 久久久久久久97| 国产在线观看99| 成人看片欧美一区二区| 欧美午夜网| 国产精品.com| 亚洲国产欧美国产综合久久| 天堂在线亚洲| 国产一级毛片网站| 欧美第一页在线| 美女无遮挡被啪啪到高潮免费| 成年片色大黄全免费网站久久| 国产精品美女免费视频大全| 亚洲无码电影| 久久毛片网| 国产97视频在线| 亚洲日本www| 久久午夜影院| 久久五月视频| 精品乱码久久久久久久| 亚洲成人播放| 久久这里只有精品66| 日韩国产无码一区| 国产精品13页| 欧美激情视频一区二区三区免费| 最新日本中文字幕| 波多野结衣在线一区二区| av天堂最新版在线| 亚洲午夜福利精品无码| 精品视频在线一区| 亚洲成人动漫在线| 亚洲Av综合日韩精品久久久| 亚洲美女一区| 中文字幕久久波多野结衣| 国产一区二区三区免费| AⅤ色综合久久天堂AV色综合| 国产精品福利导航| 波多野结衣视频网站| av一区二区三区在线观看| 草逼视频国产| 国产精品不卡片视频免费观看| 亚洲天堂成人| 妇女自拍偷自拍亚洲精品| 国产一二三区视频| 一区二区自拍| 免费人成网站在线观看欧美| 国产精品无码AV中文| 精品伊人久久久大香线蕉欧美| 欧洲精品视频在线观看| 亚洲欧美综合另类图片小说区| 精品久久久久成人码免费动漫| 亚洲综合久久成人AV| 最新无码专区超级碰碰碰| 欧美亚洲一区二区三区导航| 国产美女精品一区二区| 久久综合丝袜长腿丝袜| 亚洲色图欧美激情| 欧美黄网在线| 色妞永久免费视频| 99视频在线精品免费观看6| 久久久久久午夜精品| 欧美一区国产| 国产精品亚洲精品爽爽| 亚洲a级毛片| 亚洲一道AV无码午夜福利| 97国产在线视频| 国产精品美女在线| 欧美一级视频免费| 中日韩一区二区三区中文免费视频| 青青操国产| 欧美日韩在线亚洲国产人| 在线精品视频成人网| 青青青国产视频手机| 国产爽爽视频| 亚洲乱码精品久久久久..| 亚洲国产精品日韩专区AV| 免费看美女毛片| 亚洲AⅤ无码国产精品| 久青草免费视频| 新SSS无码手机在线观看|