周 燕
(上海理工大學(xué) 光電信息與工程學(xué)院,上海 200093)
顯著性檢測(cè)的目標(biāo)是找出圖像中最具視覺(jué)特征的目標(biāo)。近年來(lái),它得到了廣泛的關(guān)注,并被廣泛應(yīng)用于視覺(jué)和圖像處理相關(guān)領(lǐng)域,如內(nèi)容感知圖像編輯[1],目標(biāo)識(shí)別[2],非真實(shí)感渲染[3],弱監(jiān)督語(yǔ)義分割[4],圖像檢索[5]。除此之外,還有很多關(guān)于視頻顯著性物體檢測(cè)[6]和RGB-D顯著性物體檢測(cè)[7]的工作。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[8]已經(jīng)成功突破了傳統(tǒng)顯著性方法的限制,尤其是在全卷積神經(jīng)網(wǎng)絡(luò)(FCNs)[9]出現(xiàn)之后。在基于CNNs架構(gòu)的方法中,絕大多數(shù)以圖像補(bǔ)丁的方式作為輸入,利用多尺度或多上下文信息來(lái)獲得最終的顯著性圖。由于針對(duì)像素標(biāo)注問(wèn)題提出了全卷積網(wǎng)絡(luò),因此出現(xiàn)了幾種用于顯著性檢測(cè)的端到端深度架構(gòu)[10]輸出顯著性圖的基本單位從圖像區(qū)域變?yōu)槊肯袼亍R环矫妫Y(jié)果突出了細(xì)節(jié),因?yàn)槊總€(gè)像素都有其顯著值。另一方面,它忽略了對(duì)顯著性檢測(cè)中很重要的結(jié)構(gòu)信息。隨著網(wǎng)絡(luò)接受域的增大,顯著性對(duì)象的定位越來(lái)越精確。然而,與此同時(shí),空間相干性也被忽視了。最近,為了獲得精細(xì)的邊緣細(xì)節(jié),一些基于U-Net[11]的模型采用雙向或遞歸的方法,利用局部信息對(duì)高層特征進(jìn)行細(xì)化。然而,突出對(duì)象的邊界仍然沒(méi)有顯著地建模。顯著性區(qū)域的邊緣信息與區(qū)域內(nèi)部信息之間的互補(bǔ)性尚未得到足夠的重視。此外,也有一些方法使用預(yù)處理(超像素分割)[12]或后處理(CRF)[10]來(lái)保存對(duì)象邊界。這些方法的主要不足是推理速度較慢,不能實(shí)現(xiàn)端到端的學(xué)習(xí)。
本文主要研究顯著性邊緣信息與顯著性目標(biāo)信息之間的互補(bǔ)關(guān)系,。在NLDF[13-35]中,他們提出了IOU損失來(lái)影響邊緣位置的梯度。然而,它們都沒(méi)有注意到突出邊緣檢測(cè)與突出目標(biāo)檢測(cè)之間的互補(bǔ)性,忽視了圖像的空間一致性,導(dǎo)致了突出的目標(biāo)邊緣模糊。良好的顯著性邊緣信息可以幫助顯著性檢測(cè)任務(wù)實(shí)現(xiàn)分割和定位,反之亦然。基于這一思想,利用顯著性邊緣特征輔助區(qū)域特征定位顯著性對(duì)象,使得它們的邊界更準(zhǔn)確。由于不同位置的特征對(duì)顯著性檢測(cè)結(jié)果的貢獻(xiàn)并不相同。因此,設(shè)計(jì)了注意力機(jī)制,以集中在那些位置最重要的性質(zhì)突出的對(duì)象。在該設(shè)計(jì)中,注意力模塊可以通過(guò)對(duì)特征圖的迭代下采樣來(lái)快速地收集多尺度信息。這樣的金字塔結(jié)構(gòu)使得特征層的接受域易于快速擴(kuò)大。與以往的注意模型相比,所提的注意力模型能夠有效地增強(qiáng)顯著性目標(biāo)區(qū)域的權(quán)重,以提高特征表示能力。
提出的邊緣效應(yīng)模型以端到端方式對(duì)單個(gè)網(wǎng)絡(luò)中互補(bǔ)的顯著的邊緣信息和顯著的目標(biāo)信息進(jìn)行建模和融合,利用注意力機(jī)制增強(qiáng)融合后的顯著性特征,從而提高網(wǎng)絡(luò)的準(zhǔn)確性。

圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure of this paper
在多尺度特征上構(gòu)建的多個(gè)注意力層被堆疊起來(lái),形成一個(gè)統(tǒng)一的金字塔注意力模型。設(shè)計(jì)該模塊的目的是學(xué)習(xí)一組等空間大小的注意力掩模,這些掩模通過(guò)多尺度的空間特征加權(quán)地輸出顯著性特征。設(shè)為顯著網(wǎng)絡(luò)邊緣互補(bǔ)層的寬度和高度為M,通道數(shù)為C的三維特征張量。利用該模塊將特征X轉(zhuǎn)換成N個(gè)尺度的特征映n = 1 ,2,3,… , N。對(duì)于每一個(gè)尺度的特征映射通過(guò)軟注意力機(jī)制 softmax增強(qiáng)相應(yīng)區(qū)域重要特征位置的概率,如式(1)所示:


其中Y是更新的特征,jY是特征立方體的第j個(gè)切片。在這里,模型通過(guò)對(duì)不同區(qū)域的圖像特征進(jìn)行期望來(lái)計(jì)算輸入的期望值。我們的注意模塊不僅可以增強(qiáng)聚焦位置的顯著性表示,還可以解釋多尺度信息。正如在[33]中所討論的,由注意圖改進(jìn)的特征通常有大量接近于零的值。因此,一堆經(jīng)過(guò)改進(jìn)的特性使得反向傳播變得困難。為了解決這個(gè)問(wèn)題,應(yīng)用了身份映射,如式(3)所示:

即使只有很少的注意力,來(lái)自原始特征X的信息仍將通過(guò)剩余連接保留,更重要的是,金字塔的注意力模塊配備了堆疊的池操作,顯著改善相應(yīng)的特征提取層。如圖2所示,經(jīng)過(guò)注意力機(jī)制處理后的特征映射明顯提高了顯著性區(qū)域的權(quán)重,使得其更加清晰和明確。

圖2 注意力機(jī)制效果對(duì)比Fig.2 Comparison of attention mechanism effects
在該模塊中,我們的目標(biāo)是對(duì)突出邊緣信息進(jìn)行建模,提取突出邊緣特征。Conv2-2保存了更好的邊緣信息。因此,我們從Conv2-2中提取局部邊緣信息。然而,為了獲得顯著的邊緣特征,僅僅局部信息是不夠的。還需要高級(jí)語(yǔ)義信息或位置信息。當(dāng)信息像U-Net體系結(jié)構(gòu)一樣從頂層逐步返回到低層時(shí),高層位置信息將逐漸被稀釋。頂層的接受域最大,位置最準(zhǔn)確。因此,我們?cè)O(shè)計(jì)了一個(gè)自頂向下的位置傳播,將頂層位置信息傳播到邊路徑2S,以抑制非顯著性特征信息,融合特征表示為:

其中Ru(*;θ)表示參數(shù)為θ的卷積,旨在改變通道特征的數(shù)量特征。φ(*)表示ReLU激活函數(shù),并且Blu ( *; S2)表示雙線性插值操作。為了說(shuō)明清楚,利BlIT代表增強(qiáng)后的特征函數(shù)代表增強(qiáng)后的特征F?6,增強(qiáng)后的特征S3,S4,S5可描述為:

其中 Ti和代表一系列卷積和非線性操作。獲得特征后,類似于另外一條路徑,我們?cè)黾恿艘幌盗械木矸e層來(lái)增強(qiáng)特征特性,然后是最后的突出邊緣特征在 S2中的 Fe可以計(jì)算出。為了對(duì)突出邊緣特征進(jìn)行顯式建模,我們?cè)黾恿艘粋€(gè)額外的邊緣分支監(jiān)督來(lái)學(xué)習(xí)顯著性邊緣特征。我們使用的交叉熵?fù)p失可以定義為:

其中X+和X-分別表示突出邊緣像素和背景像素集合。為預(yù)測(cè)圖,其中每個(gè)值表示像素的顯著邊緣置信度,M為過(guò)渡層參數(shù)。此外,突出目標(biāo)檢測(cè)側(cè)路徑上增加的監(jiān)督,可以表示為:

因此,互補(bǔ)信息建模的總損失?可以表示為:

得到互補(bǔ)的顯著性邊緣特征和突出對(duì)象特征后,利用顯著性邊緣特征指導(dǎo)顯著性對(duì)象特征,從而更好地進(jìn)行定位和分割。通過(guò)將和進(jìn)行融合,充分利用多分辨率的顯著性對(duì)象特征信息。然而,將突出邊緣特征與多分辨率突出目標(biāo)特征自下向上逐步融合會(huì)導(dǎo)致顯著性邊緣特征被稀釋。為了解決這一問(wèn)題,本文提出邊緣互補(bǔ)機(jī)制。采用S3,S4,S5,S6的下行路徑。在每一個(gè)子邊路徑中,通過(guò)將突出邊緣特征融合為增強(qiáng)的突出目標(biāo)特征,使得高層預(yù)測(cè)的定位更加準(zhǔn)確,同時(shí)保留了邊緣細(xì)節(jié)。可表示為:

其中()φ*表示注意力模塊。然后,在每個(gè)子邊路徑中采用一系列卷積層T進(jìn)一步增強(qiáng)特征映射,并使用一個(gè)轉(zhuǎn)換層D將多通道特征圖轉(zhuǎn)換為單通道預(yù)測(cè)圖。這里為了說(shuō)明清楚,我們把這個(gè)模塊中的T和D表示為T′和D′由式(3)得到增強(qiáng)的特征映射 ?iG 。同時(shí),本文為特征映射 ?iG添加了深度監(jiān)視。對(duì)于每一個(gè)子面輸出預(yù)測(cè)圖,損失可計(jì)算如式(10)所示:

然后對(duì)多尺度精細(xì)預(yù)測(cè)圖進(jìn)行融合,得到融合后的預(yù)測(cè)圖。融合圖的損失函數(shù)可以表示為:

υ(*,*)表預(yù)測(cè)圖和顯著真值之間的交叉損失函數(shù)。因此,這一部分的損失和整個(gè)網(wǎng)絡(luò)的全部損失可以分別表示為式(12)和式(13):

我們?cè)?DUTS[14]數(shù)據(jù)集上訓(xùn)練模型,利用數(shù)據(jù)增強(qiáng),將每個(gè)圖像在隨機(jī)翻轉(zhuǎn)之前重采樣到256× 256,并隨機(jī)裁剪成為224× 224區(qū)域。使用隨機(jī)梯度下降(SGD)作為優(yōu)化器,其動(dòng)量momentum =0.9,重量衰減 w eight decay = 1 e-4,學(xué)習(xí)率 learning rate = 5e-5,最大迭代設(shè)置為30個(gè)epoch,每5個(gè)epoch的學(xué)習(xí)率衰減系數(shù)為0.05。
本文在六個(gè)廣泛使用的公共基準(zhǔn)數(shù)據(jù)集上測(cè)試所提模型:DUTS[14],ECSSD[15],DUT-OMRON[16]SOD[17],HKUIS[18]。使用三個(gè)廣泛使用的標(biāo)準(zhǔn)度量,F(xiàn)-measure[19],平均絕對(duì)誤差(MAE)[20],以及最近提出的一個(gè)基于結(jié)構(gòu)的度量,即S-measure[21],來(lái)評(píng)估我們的模型和其他最先進(jìn)的模型。
F-measure是平均精度和平均查全率的平均值,表示為式(14),我們?cè)O(shè)20.3ε=來(lái)衡量精確度。

MAE是評(píng)價(jià)預(yù)測(cè)圖與基準(zhǔn)真值圖平均差值的一種度量方法。設(shè)P和Y示顯著性映射和歸一化為[0,1]的基準(zhǔn)值。計(jì)算 MAE的方法可以表示為式(15),其中W和H分別為圖像的寬度和高度。

S-measure側(cè)重于評(píng)價(jià)顯著性映射的結(jié)構(gòu)信息,它比 F-measure更接近人類的視覺(jué)系統(tǒng)。因此,我們將 S-measure納入其中進(jìn)行更全面的評(píng)估。S-measure的計(jì)算表示為式(16),其中Sα和Sβ表示區(qū)域感知和對(duì)象感知結(jié)構(gòu)相似性,γ是一個(gè)平衡參數(shù),默認(rèn)設(shè)置為0.5。

為了驗(yàn)證本文提出的方法,在5個(gè)公開數(shù)據(jù)集上與 WSS[22]、Aumelt[23]、C2S[24]、PAGR[25]、RAS[26]、BDMP[27]等 7個(gè)方法進(jìn)行了定量對(duì)比分析,均不采用任何后期處理方式優(yōu)化結(jié)果圖。表1中最佳結(jié)果加粗標(biāo)記。

表1 在5個(gè)數(shù)據(jù)集上的定量比較結(jié)果Tab.1 Quantitative comparison results on 5 datasets
F-measure,MAE 和 S-measure。我們從F-measure,MAE,S-measure三個(gè)方面對(duì)我們提出的方法與其他顯著的目標(biāo)檢測(cè)方法進(jìn)行了評(píng)價(jià)和比較,如表1所示。可以看出,我們的模型運(yùn)行良好,在最先進(jìn)的方法下和所有評(píng)價(jià)指標(biāo)中的所有數(shù)據(jù)集相比,尤其是相對(duì)具有挑戰(zhàn)性的數(shù)據(jù)集SOD(36,44)(F-measure和S-measure分別提高6.0%和1.0%)和最大的數(shù)據(jù)集DUTS-TE [46](7.8%和2.6%)。并且為了更加直接表明本文算法的優(yōu)越性,建立了S-measure與F-measure的關(guān)聯(lián)分析,如圖3所示,本文算法在各個(gè)復(fù)雜的數(shù)據(jù)集測(cè)試結(jié)果均位于最右上方發(fā),說(shuō)明本文在各個(gè)指標(biāo)下都具有最優(yōu)的結(jié)果,從而更加說(shuō)明了所提方法的有效性和準(zhǔn)確性。并且值得一提的是這是在沒(méi)有任何預(yù)處理和后處理的情況下實(shí)現(xiàn)的。
Precision-recall曲線。除了如表2所示的數(shù)值以及圖3所示的關(guān)聯(lián)分析比較外,本文還在兩個(gè)數(shù)據(jù)集上繪制了所有比較方法的PR曲線,如圖4所示。可以看出,實(shí)紅線表示的是所提議的方法在大多數(shù)閾值上優(yōu)于所有其他方法。由于互補(bǔ)的突出邊緣信息的幫助,計(jì)算結(jié)果邊緣信息清晰,同時(shí)所設(shè)計(jì)的注意力機(jī)制使得實(shí)驗(yàn)高精度的準(zhǔn)確定位,從而得到更好的P-R曲線。
視覺(jué)對(duì)比。本文展示了一些可視化結(jié)果,如圖5所示。所提方法在突出目標(biāo)分割和定位方面有較好的效果。由于邊緣特征的突出,我們的結(jié)果不僅突出了邊緣的突出區(qū)域,而且產(chǎn)生了連貫的邊緣。例如,對(duì)于第一個(gè)樣本,由于復(fù)雜場(chǎng)景的影響,其他方法無(wú)法準(zhǔn)確地對(duì)突出目標(biāo)進(jìn)行定位和分割。但是,由于具有互補(bǔ)的顯著邊緣特征,本文提出的方法具有更好的性能。對(duì)于第二個(gè)樣本,突出的對(duì)象相對(duì)較小且含有多個(gè)目標(biāo),比較復(fù)雜,但實(shí)驗(yàn)的結(jié)果仍然非常接近真實(shí)值。

圖3 S-measure與F-measure的關(guān)聯(lián)分析Fig.3 Correlation analysis of s-measure and F-measure

圖4 DUTS-test和ECSSD數(shù)據(jù)集的P-R曲線Fig.4 P-R curve of DUTS-test and ECSSD datasets

圖5 各個(gè)算法的可視化結(jié)果對(duì)比Fig.5 Comparison of visualization results of each algorithm
在本文中,所提方法的目的是保持顯著性區(qū)域的邊界。與其他綜合多尺度特征或利用后處理的方法不同,本文重點(diǎn)研究了顯著性邊緣信息與顯著性目標(biāo)信息之間的互補(bǔ)關(guān)系。基于這一思想,提出了對(duì)網(wǎng)絡(luò)中的這些互補(bǔ)特性進(jìn)行建模。首先,提出了基于U-Net的多分辨率突出目標(biāo)特征提取方法。在此基礎(chǔ)上,提出了一種融合局部邊緣信息和全局位置信息的非局部邊緣特征提取模塊。最后,我們采用的注意力機(jī)制來(lái)增強(qiáng)并融合這些互補(bǔ)的特性。在突出邊緣特征的幫助下,改進(jìn)了目標(biāo)的突出邊界和定位。我們的模型在沒(méi)有任何預(yù)處理或后處理的五個(gè)廣泛使用的數(shù)據(jù)集上與最先進(jìn)的6種方法相比,綜合實(shí)驗(yàn)表明本文方法都要表現(xiàn)良好,為該領(lǐng)域的進(jìn)一步發(fā)展提供了新的思路。