王靜,李穎,宋甜
(四川大學電子信息學院,成都 610065)
顯著性目標檢測的目的在于識別場景中最吸引人類注意力的區域。這一基礎研究任務在各種計算機視覺應用中發揮著重要作用,比如場景分類[1]、視覺跟蹤[2]、內容感知圖像編輯[3]、光場圖像分割[4]、圖像字幕[5]、語義分割[6]、縮略圖創建[7]、前景注釋[8]和質量評價[9]等領域。
僅采用RGB 圖像的顯著性目標檢測雖然能夠較好的識別出場景中的顯著性目標,但是在面對一些較為復雜的背景,如背景中具有不同的光照條件、目標與背景對比度較低以及顯著目標和背景具有相似的外觀等時,仍然有提升的空間。為了解決這些具有挑戰性的問題,近年來常采用的一種方法是使用Depth 圖像。Depth 圖像可以在位置和空間結構上提供許多有用的信息。Depth圖像提供的有用信息能和RGB 圖像信息形成互補,有助于解決復雜背景下不能很好檢測顯著目標的問題。
傳統的基于RGB-D的顯著性目標檢測方法主要依賴于手工提取的特征,如深度圖中的邊界信息、形狀紋理以及表面法線等,以此來增強復雜背景中顯著目標的識別。Ciptadi 等人[10]提出了一種新的包含深度信息的視覺顯著性計算模型,并采用了一種從深度測量構建三維布局和形狀特征的方法。Ren 等人[11]提出了一種兩階段RGB-D 顯著性目標檢測模型,其中通過整合區域對比度,以及背景、深度和方向先驗來獲得顯著性圖。Peng 等人[12]提出了一種專門的多階段RGBD 模型,該模型考慮了低水平特征對比、中等水平區域分組和高水平先驗增強所產生的深度和外觀信息。
傳統方法雖然取得了一定的效果,但是手工提取的特征并不能充分的表征Depth 圖中所包含的互補信息,傳統方法的顯著性目標檢測模型性能仍然有一定的提升空間。當前的一些研究采用卷積神經網絡來提取Depth 圖像和RGB 圖像的特征。DF[13]設計了一種新的卷積神經網絡來自動學習RGBD 顯著目標檢測的交互機制,該方法利用了傳統顯著性檢測中獲得的知識,采用各種靈活的、可解釋的顯著性特征向量作為輸入。該方法能夠引導卷積神經網絡學習現有特征的組合,以更有效地預測顯著性。AFNet[14]提出了一種自適應融合方案來融合兩種模態產生的顯著預測結果。該方法設計了一個雙流卷積神經網絡,每個網絡從RGB 或Depth 模態提取特征并預測顯著性圖,然后通過一個開關映射來自適應融合預測結果。FRDT[15]提出了一種新的自頂向下的多層次融合結構,通過交織融合模塊有效地融合全局信息,門控選擇融合模塊過濾RGB 和Depth 數據中不需要的信息以及提出了自適應融合模塊以重新整合融合跨模態特征的每一層。
以往這些RGBD 顯著性目標檢測的研究部分過于關注RGB 和Depth 特征的充分提取以及RGB特征和Depth 特征的跨模態融合,缺少了對于跨模態特跨層次特征解碼方面的研究,甚至可能會引入噪聲。部分關注于RGB和Depth特征層次融合的研究也并沒有充分利用到深層次特征和淺層次特征的特性。淺層次特征攜帶有詳細的微觀信息,有豐富的顯著目標的細節以及包含較多的噪聲。深層次特征包含有豐富的全局上下文信息,能夠較好的區分顯著目標和背景以及含有更少的噪聲。
因此,本文設計了一種基于多層次特征融合的網絡結構,通過設計的多尺度檢測模塊增強獲取全局上下文信息的能力,并且增強網絡定位顯著目標的能力,這有助于獲取顯著目標的整體結構以及減少噪聲的干擾。同時運用了改良過的多層次細化模塊,在網絡跨層次融合解碼的過程中,將所有更深層次的特征作為輸入,以保持網絡解碼過程中顯著目標與背景的區分,同時逐步細化顯著目標的細節并精煉邊界。本文在5 個常見數據集上與7 種先進的RGBD 顯著性目標檢測方法進行了4 個常見指標以及預測結果的對比,總體來說,我們的網絡取得了較為優異的結果。同時進行了各模塊的消融實驗,證明了各模塊的有效性。
本文構建了基于殘差網絡進行特征提取和跨層次特征融合的雙流網絡結構,總體架構如圖1所示。在該網絡架構中,多尺度檢測和跨層次融合在網絡中相互串聯,在擴大網絡全局感受野[16]的同時增強深層次特征在融合中的區分能力,共同結合實現顯著目標的完整預測,并且有效地抑制淺層次特征噪聲導致的圖像不清晰問題。下面給出了一個較為簡略的網絡工作流程。

圖1 整體網絡結構
首先,我們采用了兩個相同的骨干網絡對原始的RGB 圖像和Depth 圖像進行特征提取。骨干網絡分為五個卷積層,來自骨干網絡的層次特征以類似Hou[17]的側輸出方式加以利用。再通過多尺度檢測模塊(MSD)生成初始預測圖。然后通過多層次細化模塊(CFA)從深層次到淺層次逐層級融合層次特征(每層次都加入更深層次特征)得到最終的顯著目標預測圖。
本文采用在深度學習方法中廣泛使用的經過ImageNet 預訓練初始化的ResNet 作為骨干網絡,去掉了ResNet最后的全連接層,并且將ResNet五層卷積層的每一層的最后一個卷積塊的輸出作為提取出的層次特征。我們將同層次的RGB 特征和Depth特征先采用像素加進行了初步的融合。
由于顯著目標的尺度大小并不總是一致的,這意味著模型需要在不同的上下文中獲取信息,以便可靠地檢測目標。我們需要增強網絡模型的感受野,以便于解決不同規模大小的顯著目標的檢測問題,因此我們采用了一個多尺度檢測模塊來擴大網絡的感受野。
多尺度檢測模塊如圖2 所示,我們采用了三個不同膨脹率的卷積塊構成的并行分支并且增加了一個短連接。每個卷積塊都由1×1,3×3,1×1的三個連續卷積核級聯組成。不同在于三個卷積塊中的3×3卷積層的膨脹率分別為1、2、3,這樣做的目的是從跨模態的特征中提取全局上下文信息,增強預測顯著目標的完整性。最后,將三個卷積塊的輸出和短連接加在一起,通過一個1×1的卷積層將通道數降為1,生成一個初始預測。深層次的特征具有更多的語義區分信息,所以初始顯著圖能夠更好的捕獲顯著目標的位置,但是缺失許多顯著目標的細節。

圖2 多尺度檢測模塊
由于低層次的特征包含輸入圖像的許多顯著細節,我們在初始顯著圖中逐步融合較低層次特征,以細化顯著目標的細節。但是引入低層次特征細化的過程中,同時會引入非顯著區域。高層次的特征主要關注于顯著目標的語義區分信息,因此我們在引入較低層次特征的同時,會引入所有更高層次的特征,以消除低層次特征引入會帶來的非顯著區域。
層次特征的融合方式引入了如圖3 所示的In?ception[18]結構,主要構造為1×1、3×3、5×5 的多級卷積和最大池化。在我們的網絡中,將輸入設計為融合所有較高層次特征后的Fi和高層次CFA的融合輸出Cj(i,j=1,2,3,4,5)。我們將四個分支的輸出聚合在一起最終輸出,并且為了便于進一步融合較淺層次的特征,我們將總輸出通道數修改為輸入通道數(k)的一半。

圖3 多層次細化模塊
本文的訓練集采用了訓練集NJUD 的1485 張圖片和訓練集NLPR的700張圖片作為訓練集。將剩余的NJUD 和NLPR 兩個數據集的部分當做了測試集。并且額外選取了3個常用的數據集STERE,DES,LFSD作為測試集。
為了評估我們的模型和相比較的先進模型的性能,我們采用了4 個在顯著性目標檢測中的常用指標:E-measure(Eα)、S-measure(Sβ)、F-measure(Fξ)以及平均絕對誤差(M)。對于M來說,值越低越好。對其它指標來說,值越高越好。
本文的網絡模型是基于Pytorch 框架實現的,在實驗室配備的一臺GTX 1080 Ti GPU上進行的網絡訓練和測試。訓練時初始的學習率設置為1e-4,衰減率設置為0.1。將批次大小batch-size設置為6,并且對訓練模型進行了200個epoch的訓練。
我們的方法總體損失函數由初始損失Lm和最終損失Lf組成。假設G表示真實監督,Sm代表MSD 模塊輸出的初始預測,Sf是網絡細化后的最終預測結果。總體損失函數定義如下:

公式(1)中λ用于平衡初始預測的權重。我們采用了廣泛使用的交叉熵損失用于計算Lf和Lm:

公式(2)中i表示索引并且Si∈{Sf,Sm}。
為了研究我們的網絡模型中每個關鍵結構的有效性,我們進行了消融實驗,并展示了在兩個具有代表性的數據集STERE 和NLPR 上的實驗結果。
表1展示了網絡模型的消融實驗結果。對比1和2 的結果可以看出,網絡僅采用MSD 模塊的對顯著目標檢測的性能不如網絡僅采用CFA 模塊的性能。根據3 的結果數據可以看出,網絡同時采用MSD 模塊和CFA 模塊的性能是最佳的。相對于僅采用CFA模塊,網絡在加上MSD模塊和CFA模塊后,在兩個數據集四個評價指標上分別取得了0.3%~1.39%,0.3%~1.45%,0.5%~2.0%,0.002~0.007的性能提升。

表1 消融實驗結果
本文主要對比的方法是近年來基于深度學習的顯著性目標檢測方法。由于基于傳統方法的顯著性目標檢測方法的性能和基于深度學習的顯著性目標檢測方法有較大差距,故方法對比中未加入傳統方法。為了保證公平,競爭方法的結果皆為作者直接提供的開源結果。
表2 中展示了我們的方法在5 個數據集上與其他7 個先進方法的定量結果,其中紅色和藍色分別代表對應數據集指標的第一、第二。圖4 中展示了我們的方法與其他6 個先進方法的定性結果。可以看到,我們的方法取得了優異的性能。如圖4 中第一行所示的顯著目標與背景具有相似結構情況,我們的方法能夠準確分割出顯著,目標與背景并且排除了背景干擾。第三行和第五行的顯著目標與背景的對比度較低,我們的方法能夠更準確清晰的分割出顯著目標,并且邊界更為凝練。第四行的結果表明我們的模型更能排除背景干擾,展示出顯著目標的細節。第七行中顯著目標有遮擋分割的情況下,我們的網絡能夠有較好的表現。

表2 定量結果對比

圖4 可視化比較
本文提出了一種多層次特征細化融合的顯著性目標檢測網絡模型,通過以深層次特征的區分性語義為引導,在與低層次特征的融合過程中去除噪聲和冗余,有效地融合了不同通道和尺度的特征。最終以一種漸進融合的方式融合深層次到淺層次的特征,從粗糙到精細地預測出完整且精細的顯著目標。在5 個常用數據集上的實驗結果證明了我們的網絡模型的有效性,同時也顯示了在完整并精細檢測顯著目標的優勢。