基于多層次特征細(xì)化融合的RGB-D顯著性目標(biāo)檢測(cè)

2021-03-14 00:50:46王靜李穎宋甜

現(xiàn)代計(jì)算機(jī) 2021年36期

王靜，李穎，宋甜

（四川大學(xué)電子信息學(xué)院，成都 610065）

0 引言

顯著性目標(biāo)檢測(cè)的目的在于識(shí)別場(chǎng)景中最吸引人類注意力的區(qū)域。這一基礎(chǔ)研究任務(wù)在各種計(jì)算機(jī)視覺(jué)應(yīng)用中發(fā)揮著重要作用，比如場(chǎng)景分類［1］、視覺(jué)跟蹤［2］、內(nèi)容感知圖像編輯［3］、光場(chǎng)圖像分割［4］、圖像字幕［5］、語(yǔ)義分割［6］、縮略圖創(chuàng)建［7］、前景注釋［8］和質(zhì)量評(píng)價(jià)［9］等領(lǐng)域。

僅采用RGB 圖像的顯著性目標(biāo)檢測(cè)雖然能夠較好的識(shí)別出場(chǎng)景中的顯著性目標(biāo)，但是在面對(duì)一些較為復(fù)雜的背景，如背景中具有不同的光照條件、目標(biāo)與背景對(duì)比度較低以及顯著目標(biāo)和背景具有相似的外觀等時(shí)，仍然有提升的空間。為了解決這些具有挑戰(zhàn)性的問(wèn)題，近年來(lái)常采用的一種方法是使用Depth 圖像。Depth 圖像可以在位置和空間結(jié)構(gòu)上提供許多有用的信息。Depth圖像提供的有用信息能和RGB 圖像信息形成互補(bǔ)，有助于解決復(fù)雜背景下不能很好檢測(cè)顯著目標(biāo)的問(wèn)題。

傳統(tǒng)的基于RGB-D的顯著性目標(biāo)檢測(cè)方法主要依賴于手工提取的特征，如深度圖中的邊界信息、形狀紋理以及表面法線等，以此來(lái)增強(qiáng)復(fù)雜背景中顯著目標(biāo)的識(shí)別。Ciptadi 等人［10］提出了一種新的包含深度信息的視覺(jué)顯著性計(jì)算模型，并采用了一種從深度測(cè)量構(gòu)建三維布局和形狀特征的方法。Ren 等人［11］提出了一種兩階段RGB-D 顯著性目標(biāo)檢測(cè)模型，其中通過(guò)整合區(qū)域?qū)Ρ榷龋约氨尘啊⑸疃群头较蛳闰?yàn)來(lái)獲得顯著性圖。Peng 等人［12］提出了一種專門(mén)的多階段RGBD 模型，該模型考慮了低水平特征對(duì)比、中等水平區(qū)域分組和高水平先驗(yàn)增強(qiáng)所產(chǎn)生的深度和外觀信息。

傳統(tǒng)方法雖然取得了一定的效果，但是手工提取的特征并不能充分的表征Depth 圖中所包含的互補(bǔ)信息，傳統(tǒng)方法的顯著性目標(biāo)檢測(cè)模型性能仍然有一定的提升空間。當(dāng)前的一些研究采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取Depth 圖像和RGB 圖像的特征。DF［13］設(shè)計(jì)了一種新的卷積神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)學(xué)習(xí)RGBD 顯著目標(biāo)檢測(cè)的交互機(jī)制，該方法利用了傳統(tǒng)顯著性檢測(cè)中獲得的知識(shí)，采用各種靈活的、可解釋的顯著性特征向量作為輸入。該方法能夠引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)現(xiàn)有特征的組合，以更有效地預(yù)測(cè)顯著性。AFNet［14］提出了一種自適應(yīng)融合方案來(lái)融合兩種模態(tài)產(chǎn)生的顯著預(yù)測(cè)結(jié)果。該方法設(shè)計(jì)了一個(gè)雙流卷積神經(jīng)網(wǎng)絡(luò)，每個(gè)網(wǎng)絡(luò)從RGB 或Depth 模態(tài)提取特征并預(yù)測(cè)顯著性圖，然后通過(guò)一個(gè)開(kāi)關(guān)映射來(lái)自適應(yīng)融合預(yù)測(cè)結(jié)果。FRDT［15］提出了一種新的自頂向下的多層次融合結(jié)構(gòu)，通過(guò)交織融合模塊有效地融合全局信息，門(mén)控選擇融合模塊過(guò)濾RGB 和Depth 數(shù)據(jù)中不需要的信息以及提出了自適應(yīng)融合模塊以重新整合融合跨模態(tài)特征的每一層。

以往這些RGBD 顯著性目標(biāo)檢測(cè)的研究部分過(guò)于關(guān)注RGB 和Depth 特征的充分提取以及RGB特征和Depth 特征的跨模態(tài)融合，缺少了對(duì)于跨模態(tài)特跨層次特征解碼方面的研究，甚至可能會(huì)引入噪聲。部分關(guān)注于RGB和Depth特征層次融合的研究也并沒(méi)有充分利用到深層次特征和淺層次特征的特性。淺層次特征攜帶有詳細(xì)的微觀信息，有豐富的顯著目標(biāo)的細(xì)節(jié)以及包含較多的噪聲。深層次特征包含有豐富的全局上下文信息，能夠較好的區(qū)分顯著目標(biāo)和背景以及含有更少的噪聲。

因此，本文設(shè)計(jì)了一種基于多層次特征融合的網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)設(shè)計(jì)的多尺度檢測(cè)模塊增強(qiáng)獲取全局上下文信息的能力，并且增強(qiáng)網(wǎng)絡(luò)定位顯著目標(biāo)的能力，這有助于獲取顯著目標(biāo)的整體結(jié)構(gòu)以及減少噪聲的干擾。同時(shí)運(yùn)用了改良過(guò)的多層次細(xì)化模塊，在網(wǎng)絡(luò)跨層次融合解碼的過(guò)程中，將所有更深層次的特征作為輸入，以保持網(wǎng)絡(luò)解碼過(guò)程中顯著目標(biāo)與背景的區(qū)分，同時(shí)逐步細(xì)化顯著目標(biāo)的細(xì)節(jié)并精煉邊界。本文在5 個(gè)常見(jiàn)數(shù)據(jù)集上與7 種先進(jìn)的RGBD 顯著性目標(biāo)檢測(cè)方法進(jìn)行了4 個(gè)常見(jiàn)指標(biāo)以及預(yù)測(cè)結(jié)果的對(duì)比，總體來(lái)說(shuō)，我們的網(wǎng)絡(luò)取得了較為優(yōu)異的結(jié)果。同時(shí)進(jìn)行了各模塊的消融實(shí)驗(yàn)，證明了各模塊的有效性。

1 網(wǎng)絡(luò)結(jié)構(gòu)

1.1 模型引入

本文構(gòu)建了基于殘差網(wǎng)絡(luò)進(jìn)行特征提取和跨層次特征融合的雙流網(wǎng)絡(luò)結(jié)構(gòu)，總體架構(gòu)如圖1所示。在該網(wǎng)絡(luò)架構(gòu)中，多尺度檢測(cè)和跨層次融合在網(wǎng)絡(luò)中相互串聯(lián)，在擴(kuò)大網(wǎng)絡(luò)全局感受野［16］的同時(shí)增強(qiáng)深層次特征在融合中的區(qū)分能力，共同結(jié)合實(shí)現(xiàn)顯著目標(biāo)的完整預(yù)測(cè)，并且有效地抑制淺層次特征噪聲導(dǎo)致的圖像不清晰問(wèn)題。下面給出了一個(gè)較為簡(jiǎn)略的網(wǎng)絡(luò)工作流程。

圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)

首先，我們采用了兩個(gè)相同的骨干網(wǎng)絡(luò)對(duì)原始的RGB 圖像和Depth 圖像進(jìn)行特征提取。骨干網(wǎng)絡(luò)分為五個(gè)卷積層，來(lái)自骨干網(wǎng)絡(luò)的層次特征以類似Hou［17］的側(cè)輸出方式加以利用。再通過(guò)多尺度檢測(cè)模塊（MSD）生成初始預(yù)測(cè)圖。然后通過(guò)多層次細(xì)化模塊（CFA）從深層次到淺層次逐層級(jí)融合層次特征（每層次都加入更深層次特征）得到最終的顯著目標(biāo)預(yù)測(cè)圖。

1.2 骨干網(wǎng)絡(luò)

本文采用在深度學(xué)習(xí)方法中廣泛使用的經(jīng)過(guò)ImageNet 預(yù)訓(xùn)練初始化的ResNet 作為骨干網(wǎng)絡(luò)，去掉了ResNet最后的全連接層，并且將ResNet五層卷積層的每一層的最后一個(gè)卷積塊的輸出作為提取出的層次特征。我們將同層次的RGB 特征和Depth特征先采用像素加進(jìn)行了初步的融合。

1.3 多尺度檢測(cè)模塊（Multiscale detection, MSD）

由于顯著目標(biāo)的尺度大小并不總是一致的，這意味著模型需要在不同的上下文中獲取信息，以便可靠地檢測(cè)目標(biāo)。我們需要增強(qiáng)網(wǎng)絡(luò)模型的感受野，以便于解決不同規(guī)模大小的顯著目標(biāo)的檢測(cè)問(wèn)題，因此我們采用了一個(gè)多尺度檢測(cè)模塊來(lái)擴(kuò)大網(wǎng)絡(luò)的感受野。

多尺度檢測(cè)模塊如圖2 所示，我們采用了三個(gè)不同膨脹率的卷積塊構(gòu)成的并行分支并且增加了一個(gè)短連接。每個(gè)卷積塊都由1×1，3×3，1×1的三個(gè)連續(xù)卷積核級(jí)聯(lián)組成。不同在于三個(gè)卷積塊中的3×3卷積層的膨脹率分別為1、2、3，這樣做的目的是從跨模態(tài)的特征中提取全局上下文信息，增強(qiáng)預(yù)測(cè)顯著目標(biāo)的完整性。最后，將三個(gè)卷積塊的輸出和短連接加在一起，通過(guò)一個(gè)1×1的卷積層將通道數(shù)降為1，生成一個(gè)初始預(yù)測(cè)。深層次的特征具有更多的語(yǔ)義區(qū)分信息，所以初始顯著圖能夠更好的捕獲顯著目標(biāo)的位置，但是缺失許多顯著目標(biāo)的細(xì)節(jié)。

圖2 多尺度檢測(cè)模塊

1.4 多層次細(xì)化模塊（Cross level aggre-gation, CFA）

由于低層次的特征包含輸入圖像的許多顯著細(xì)節(jié)，我們?cè)诔跏硷@著圖中逐步融合較低層次特征，以細(xì)化顯著目標(biāo)的細(xì)節(jié)。但是引入低層次特征細(xì)化的過(guò)程中，同時(shí)會(huì)引入非顯著區(qū)域。高層次的特征主要關(guān)注于顯著目標(biāo)的語(yǔ)義區(qū)分信息，因此我們?cè)谝胼^低層次特征的同時(shí)，會(huì)引入所有更高層次的特征，以消除低層次特征引入會(huì)帶來(lái)的非顯著區(qū)域。

層次特征的融合方式引入了如圖3 所示的In?ception［18］結(jié)構(gòu)，主要構(gòu)造為1×1、3×3、5×5 的多級(jí)卷積和最大池化。在我們的網(wǎng)絡(luò)中，將輸入設(shè)計(jì)為融合所有較高層次特征后的Fi和高層次CFA的融合輸出Cj（i，j=1，2，3，4，5）。我們將四個(gè)分支的輸出聚合在一起最終輸出，并且為了便于進(jìn)一步融合較淺層次的特征，我們將總輸出通道數(shù)修改為輸入通道數(shù)（k）的一半。

圖3 多層次細(xì)化模塊

2 實(shí)驗(yàn)相關(guān)設(shè)置

2.1 實(shí)驗(yàn)數(shù)據(jù)集

本文的訓(xùn)練集采用了訓(xùn)練集NJUD 的1485 張圖片和訓(xùn)練集NLPR的700張圖片作為訓(xùn)練集。將剩余的NJUD 和NLPR 兩個(gè)數(shù)據(jù)集的部分當(dāng)做了測(cè)試集。并且額外選取了3個(gè)常用的數(shù)據(jù)集STERE，DES，LFSD作為測(cè)試集。

2.2 評(píng)價(jià)指標(biāo)

為了評(píng)估我們的模型和相比較的先進(jìn)模型的性能，我們采用了4 個(gè)在顯著性目標(biāo)檢測(cè)中的常用指標(biāo)：E-measure（Eα）、S-measure（Sβ）、F-measure（Fξ）以及平均絕對(duì)誤差（M）。對(duì)于M來(lái)說(shuō)，值越低越好。對(duì)其它指標(biāo)來(lái)說(shuō)，值越高越好。

2.3 實(shí)驗(yàn)細(xì)節(jié)

本文的網(wǎng)絡(luò)模型是基于Pytorch 框架實(shí)現(xiàn)的，在實(shí)驗(yàn)室配備的一臺(tái)GTX 1080 Ti GPU上進(jìn)行的網(wǎng)絡(luò)訓(xùn)練和測(cè)試。訓(xùn)練時(shí)初始的學(xué)習(xí)率設(shè)置為1e-4，衰減率設(shè)置為0.1。將批次大小batch-size設(shè)置為6，并且對(duì)訓(xùn)練模型進(jìn)行了200個(gè)epoch的訓(xùn)練。

2.4 損失函數(shù)

我們的方法總體損失函數(shù)由初始損失Lm和最終損失Lf組成。假設(shè)G表示真實(shí)監(jiān)督，Sm代表MSD 模塊輸出的初始預(yù)測(cè)，Sf是網(wǎng)絡(luò)細(xì)化后的最終預(yù)測(cè)結(jié)果。總體損失函數(shù)定義如下：

公式（1）中λ用于平衡初始預(yù)測(cè)的權(quán)重。我們采用了廣泛使用的交叉熵?fù)p失用于計(jì)算Lf和Lm：

公式（2）中i表示索引并且Si∈{Sf,Sm}。

3 實(shí)驗(yàn)結(jié)果

3.1 消融實(shí)驗(yàn)

為了研究我們的網(wǎng)絡(luò)模型中每個(gè)關(guān)鍵結(jié)構(gòu)的有效性，我們進(jìn)行了消融實(shí)驗(yàn)，并展示了在兩個(gè)具有代表性的數(shù)據(jù)集STERE 和NLPR 上的實(shí)驗(yàn)結(jié)果。

表1展示了網(wǎng)絡(luò)模型的消融實(shí)驗(yàn)結(jié)果。對(duì)比1和2 的結(jié)果可以看出，網(wǎng)絡(luò)僅采用MSD 模塊的對(duì)顯著目標(biāo)檢測(cè)的性能不如網(wǎng)絡(luò)僅采用CFA 模塊的性能。根據(jù)3 的結(jié)果數(shù)據(jù)可以看出，網(wǎng)絡(luò)同時(shí)采用MSD 模塊和CFA 模塊的性能是最佳的。相對(duì)于僅采用CFA模塊，網(wǎng)絡(luò)在加上MSD模塊和CFA模塊后，在兩個(gè)數(shù)據(jù)集四個(gè)評(píng)價(jià)指標(biāo)上分別取得了0.3%～1.39%，0.3%～1.45%，0.5%～2.0%，0.002～0.007的性能提升。

表1 消融實(shí)驗(yàn)結(jié)果

3.2 與其他方法對(duì)比

本文主要對(duì)比的方法是近年來(lái)基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法。由于基于傳統(tǒng)方法的顯著性目標(biāo)檢測(cè)方法的性能和基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法有較大差距，故方法對(duì)比中未加入傳統(tǒng)方法。為了保證公平，競(jìng)爭(zhēng)方法的結(jié)果皆為作者直接提供的開(kāi)源結(jié)果。

表2 中展示了我們的方法在5 個(gè)數(shù)據(jù)集上與其他7 個(gè)先進(jìn)方法的定量結(jié)果，其中紅色和藍(lán)色分別代表對(duì)應(yīng)數(shù)據(jù)集指標(biāo)的第一、第二。圖4 中展示了我們的方法與其他6 個(gè)先進(jìn)方法的定性結(jié)果。可以看到，我們的方法取得了優(yōu)異的性能。如圖4 中第一行所示的顯著目標(biāo)與背景具有相似結(jié)構(gòu)情況，我們的方法能夠準(zhǔn)確分割出顯著，目標(biāo)與背景并且排除了背景干擾。第三行和第五行的顯著目標(biāo)與背景的對(duì)比度較低，我們的方法能夠更準(zhǔn)確清晰的分割出顯著目標(biāo)，并且邊界更為凝練。第四行的結(jié)果表明我們的模型更能排除背景干擾，展示出顯著目標(biāo)的細(xì)節(jié)。第七行中顯著目標(biāo)有遮擋分割的情況下，我們的網(wǎng)絡(luò)能夠有較好的表現(xiàn)。

表2 定量結(jié)果對(duì)比

圖4 可視化比較

4 結(jié)語(yǔ)

本文提出了一種多層次特征細(xì)化融合的顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò)模型，通過(guò)以深層次特征的區(qū)分性語(yǔ)義為引導(dǎo)，在與低層次特征的融合過(guò)程中去除噪聲和冗余，有效地融合了不同通道和尺度的特征。最終以一種漸進(jìn)融合的方式融合深層次到淺層次的特征，從粗糙到精細(xì)地預(yù)測(cè)出完整且精細(xì)的顯著目標(biāo)。在5 個(gè)常用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了我們的網(wǎng)絡(luò)模型的有效性，同時(shí)也顯示了在完整并精細(xì)檢測(cè)顯著目標(biāo)的優(yōu)勢(shì)。