石玉誠,吳 云,龍慧云
貴州大學計算機科學與技術學院,貴陽550025
顯著性目標檢測旨在模擬人類視覺系統檢測出吸引人類注意力的物體或區域,顯著性目標檢測在許多計算機視覺任務中有著廣泛的應用。例如,圖像分類[1]、語義分割[2]、行人檢測[3]、圖像檢索[4]、圖像壓縮[5]、視覺跟蹤[6]等。隨著深度傳感器設備的普及,深度圖的采集變得更加便利,推動了RGB-D 顯著性目標檢測的研究。針對該研究,主要存在以下問題,顯著性檢測是將圖像中顯著的區域檢測出來,如何有效定位邊緣清晰的顯著區域是本文待解決的關鍵問題。此外,與RGB 圖像相比,RGB-D 圖像包含有顏色信息和深度信息,深度圖作為RGB 的互補信息,包含豐富的空間結構以及形狀信息,為顯著性目標檢測提供了更加豐富的信息,利用該信息有助于理解復雜的場景。但是,RGB和Depth屬于不同模態,如何有效融合RGB和Depth信息是本文待解決的關鍵問題。
針對上述問題,早期的一些方法采用早期融合策略,Qu 等人[7]將手工RGB 和Depth 特征串聯輸入到網絡中。Fan 等人[8]和Liu 等人[9]將深度圖作為第四通道,與RGB 一起輸入到網絡模型中,采用單流網絡模型架構進行學習。由于二者模態上存在差異,這種融合方式往往達不到好的效果。研究者們開始采用結果融合的方式[10-11]。采用雙流網絡模型架構,每個網絡分別生成顯著圖,最后通過相乘、相加或者卷積運算生成最終的顯著圖。Wang 等人[12]采用結果融合策略,學習交換映射,自適應融合RGB 和Depth。由于兩種數據在不同網絡中進行特征提取,交互有限,這樣的融合策略很難達到好的效果。因此,很多基于中間融合策略的方法被提出。例如,Chen等人[13]提出了一種多尺度多路徑融合網絡,改進了傳統的單融合路徑。Li 等人[14]提出深度特征加權組合模塊(cross-modal depth-weighted combination,CDC),在每個層次上通過深度特征來增強RGB 特征,并提出一個信息轉換模塊,以交互式和自適應的方式融合高層的RGB 和Depth 特征。該方法雖然通過CDC 模塊對RGB 和Depth 特征進行了一定的交互,但是模態交互有限,無法挖掘到更加復雜多模態交互特征,這樣會導致后期融合得到的高層RGB 和Depth 特征有限。Fan等人[15]提出二分支主干策略網絡(bifurcated backbone strategy network,BBSNet),兩個網絡分別對兩種信息進行提取,使用相加對RGB 和Depth 特征進行融合。然后,采用二分支主干策略,把多尺度特征分為教師特征和學生特征,利用教師特征對學生特征進行指導學習。但是該網絡前期模態融合簡單,這樣會導致提取得到的教師特征和學生特征不豐富,影響最終的檢測效果。
針對上述存在的問題,本文提出一個跨模態特征融合模塊,采用雙流網絡結構,將特征提取網絡分為六部分,每部分采用跨模態特征模塊對RGB 和Depth 特征進行充分融合,以獲得更具共性和互補性的模態融合特征。該模塊借鑒CDC 模塊的Depth 特征對RGB 特征進行加權的思想,以突出顯著區域與非顯著區域的對比度。之后,將Depth 特征和增強的RGB 特征進行相乘、相加以及級聯卷積運算,以完成二者之間的模態交互,創新性地引入注意力機制,使得網絡關注有用的模態融合特征,提高融合穩定性。最后,加上一個殘差連接分支,將原始RGB 特征與模態融合特征進行融合,有效避免低質量的深度圖對模態融合特征造成的影響。
針對定位顯著區域以及顯著區域邊緣模糊問題,受到Fan 等人[15]二分支主干策略的啟發,高級語義特征具有豐富的語義特征有助于定位顯著區域,底層特征具有豐富的細節信息,有助于改善顯著區域邊緣模糊問題。因此,提出一種高級語義修復策略,用于解決顯著區域定位以及邊緣模糊問題。
本文的工作不同于二分支主干策略,該策略將網絡的后三層特征用于提取教師特征,將網絡的前三層用于提取學生特征,利用教師特征對學生特征進行指導學習。本文將上述跨模態特征融合模塊提取的模態融合特征的后三層用于提取高級語義信息,同樣經過全局上下文模塊(global contextual module,GCM)[15]對后三層特征進行進一步提取,本文采用拼接融合運算,具有更小的參數量和計算量,而二分支主干策略對提取后的特征進行不同層次的模態交互運算,增加了參數量和計算量。此外,本文的修復策略與二分支主干策略不同,本文采用U-Net[16]的網絡結構,從網絡的頂層向下融合,每一層經過上采樣之后與下一層進行通道維度上的拼接融合。最后,前三層底層特征在融合前后采用高級語義特征修復,這樣能充分利用高級語義特征對底層特征進行指導。本文的貢獻如下:
(1)為了充分挖掘RGB 與Depth 的跨模態特征,本文提出一個跨模態特征融合模塊,自適應地融合多模態特征,能夠提取深度圖中有效的信息,突出融合特征的共性和互補性,并降低融合的模糊度。
(2)為了提高顯著區域的完整性以及邊緣模糊問題,提出一種高級語義修復的策略,有助于準確檢測出顯著區域并提高邊緣清晰度。
(3)實驗結果表明,本文方法在五個公開的數據集上均達到了優秀的效果,達到了較為先進的性能。
基于RGB-D 顯著性目標檢測,主要分為深度學習和傳統方法。傳統的方法主要利用對比的知識,通過計算顏色、邊緣、紋理的對比得到圖像中的顯著區域。由于手工特征的局限性,效果往往不好。隨著深度學習的不斷發展,人們開始使用深度學習的方法進行顯著性檢測任務。Chen 等人[13]提出了一種多尺度多路徑融合網絡,改進了傳統的單融合路徑。Wang 等人[12]提出一個顯著性融合模塊,通過學習一個開關映射來自適應融合RGB 顯著性預測。Li等人[17]提出一種交叉模態加權策略,以鼓勵RGB 和深度通道之間的互動,提出三種深度交互模塊,分別用來處理低、中、高層的跨模態融合特征。Li 等人[14]提出深度特征加權組合模塊,在每個層次上通過深度特征來增強RGB 特征,并提出一個信息轉換模塊,以交互式和自適應的方式融合高層的RGB 和Depth特征。Fan 等人[15]提出一種二分支主干策略,使用相加對RGB 和Depth 特征進行融合。然后,把多尺度特征分為教師特征和學生特征,利用教師特征對學生特征進行指導學習。Li 等人[18]提出了一種注意力引導的融合網絡,通過注意力引導機制逐步融合RGB 圖像和深度圖像中的跨模態、跨層次的互補性,對RGB-D 圖像中的互補特征進行聯合提取,并以密集交織的方式進行層次化融合。Fu 等人[19]采用一個共享網絡同時對RGB 和Depth 進行特征提取,并提出聯合學習和密集合作融合模塊,進行顯著性檢測。Chen 等人[20]針對編碼階段的預融合和解碼階段的深度融合,提出了編碼器和解碼器的漸進融合策略,有效利用了兩種模式的相互作用,提高了檢測精度。Li等人[21]提出分層交互模塊,該模塊利用RGB 特征過濾掉Depth 特征中的干擾信息,然后使用過濾后的Depth 特征依次對RGB 特征進行增強,RGB 與Depth的交互分層進行。Jin 等人[22]提出一種新的互補深度網絡來更好地利用顯著的Depth 特征。
本文方法與上述方法不同,首先提出一個跨模態特征融合模塊用來逐層提取豐富的跨模態融合特征。之后,基于該模塊提取的融合特征,提出一種高級語義修復策略,將后三層融合特征用于提取高級語義信息,以U-Net[16]的網絡結構,逐步向下融合,之后利用高級語義特征對前三層低層特征進行修復,從而檢測出邊緣清晰定位準確的顯著圖。
針對跨模態融合問題、顯著區域不完整以及邊緣模糊問題,本文提出的解決方法,將在本章進行介紹。首先介紹網絡的整體架構,接著闡述跨模態特征融合模塊以及高級語義修復策略的主要思路以及具體實施過程。最后,介紹優化網絡模型所使用的損失函數。
本文提出的基于高級語義修復策略的跨模態融合RGB-D 顯著性目標檢測網絡的架構如圖1 所示,將該網絡命名為SRMFNet(advanced semantic repair strategy for cross-modal fusion salient detection network)。
該網絡架構以EfficientNet-b0[23]為主干網絡,構建雙流網絡結構,分別用來提取RGB 和Depth 特征。Conv1~Conv6 表示EfficientNet-b0[23]的不同層,作為側輸出。每個側輸出經過跨模態特征融合模塊進行特征融合,最終得到不同層次的模態融合特征。模態融合特征Slid4~Slid6 用于提取高級語義特征,并生成圖1 所示的顯著圖Salient map 1。之后采用U-Net[16]網絡結構,從網絡的頂層向下融合,每一層經過上采樣之后與下一層進行通道維度上的拼接融合,Slid1~Slid3 在融合前后采用高級語義特征修復,最終生成圖1 所示的顯著圖Salient map 2。

圖1 高級語義修復策略的跨模態融合網絡結構Fig.1 Cross-modal fusion network architecture for advanced semantic repair strategies
由于RGB 和Depth 特征模態之間存在差異,深度圖主要關注物體間空間距離,而RGB 主要負責捕獲顏色和紋理信息,簡單的融合操作,無法提取到復雜的多模態交互特征。受到信息轉換網絡(information conversion network,ICNet)[14]的CDC 模塊的啟發,深度特征可作為注意圖對RGB 特征進行加權。本文借鑒該思想,首先利用深度特征計算得到深度注意圖,然后利用深度注意圖對RGB 特征進行加權,以獲得增強的RGB 特征,以增強顯著區域與非顯著區域的對比度,避免顯著目標丟失。將增強后的RGB 特征與Depth 特征進行相乘、相加以及級聯卷積運算,充分挖掘模態交互特征,突顯它們之間的共性和互補性。之后將三個融合操作結果進行通道維度上的拼接,得到跨模態融合特征輸出。考慮到不是所有的模態融合特征都是有效的,因此,引入通道和空間注意力機制[24],使得網絡能更加關注有用的模態融合特征,進而提高模態融合的穩定性。最后,考慮到低質量的深度特征對融合特征的影響,因此,加入一個殘差邊,將原始的RGB 特征與模態融合特征進行相加。即使深度圖的質量不好,也能利用RGB 信息進行后續的特征提取,能有效避免了低質量的深度圖對融合特征造成的影響。
本文的跨模態特征融合模塊如圖2 所示,主要有兩個分支,一個模態融合分支,一個殘差連接分支。假設,Srgb、Sd分別表示RGB 和Depth 特征提取網絡的側輸出,具體操作如下所示:

圖2 跨模態特征融合模塊Fig.2 Cross-modal feature fusion module
(1)Depth 特征經過1×1 卷積運算,把通道數降為1,使用Sigmoid 激活函數生成Depth 特征注意圖,對RGB 特征進行加權,得到增強后的RGB 特征,具體過程可表示為:

其中,Re表示增強后的RGB 特征;S(·)表示Sigmoid激活函數;Conv1-1(·)表示卷積核大小為1×1,通道數為1 的卷積;⊙表示逐像素相乘。
(2)將增強后的RGB 特征與Depth 特征進行相乘、相加以及級聯卷積運算。然后將三個支路的結果進行通道維度上的拼接,具體過程可表示為:
^

(3)為了保證跨模態融合的穩定性,在融合之后引入一個串聯的通道和空間注意力[24]。具體操作如下:



其中,x代表輸入的特征圖;Mout1、Mout2表示經過感知器特征提取的輸出;S(·)表示Sigmoid 激活函數;M(·) 表示三層感知機;Max(·) 表示全局最大池化;Avg(·)表示全局平均池化;⊙表示逐像素相乘操作。空間注意力的具體操作為:

其中,x代表輸入的特征圖;S(·)表示Sigmoid 激活函數;Conv(·)表示卷積運算;Cat(·)表示通道維度上的拼接;Max(·)表示全局最大池化;Avg(·)表示全局平均池化;⊙表示逐像素相乘;⊕表示逐像素相加。
(4)為了避免低質量的深度圖對融合特征的影響,加入一個殘差邊,與模態融合后的特征進行相加融合。具體操作如下所示:

其中,Fout表示跨模態特征融合輸出;Fcat表示跨模態融合分支輸出;Srgb表示原始的RGB 特征。
基于上述跨模態特征提取模塊提取到的多層次模態融合特征,本文提出一種高級語義修復策略,提高顯著區域定位準確度以及邊緣清晰度。受到二分支主干策略網絡[15]的啟發,高層特征具有較豐富的語義特征,能夠有效定位顯著區域,低層特征包含著豐富的細節信息,能夠有效改善顯著區域邊緣模糊問題。利用高級語義信息定位顯著區域,底層特征用于修復顯著區域邊緣,從而使得網絡能檢測出顯著區域完整且邊緣清晰的顯著圖。
本文的高級語義修復策略,首先利用模態融合特征Slid4~Slid6 提取高級語義信息。為了進一步提取全局信息,引入BBSNet[15]的GCM 模塊,如圖3 所示,該模塊由四個并行分支組成,每個分支都采用一個1×1 卷積,將輸入特征通道降低到32,對于k∈{2,3,4}分支,采用卷積核為2k-1 的卷積操作,緊接著進行卷積核為3、膨脹率為2k-1 的卷積運算。然后將四個分支的輸出進行通道上的拼接,最后與最初的輸入進行殘差連接。

圖3 全局上下文提取模塊Fig.3 Global context extraction module
與BBSNet[15]提取教師特征不同,本文將GCM 模塊提取到的三個分支特征,直接進行通道維度上的拼接融合,沒有進行不同層次的模態交互運算,大大減小了計算量和參數量。具體操作如下所示:

其中,Conv(·)表示卷積運算;Cat(·)表示通道維度上的拼接;GCM(·)表示全局上下文提取操作;Fhs表示高級語義特征輸出。
本文的修復策略如圖1 所示,采用U-Net[16]的網絡結構,自頂向下融合的過程中,需要將每一層的特征圖分辨率上采樣到下一層特征圖的分辨率大小,然后進行通道上的拼接。當融合到Slid1、Slid2、Slid3時,融合之前使用具有高級語義信息的注意圖,對Slid1、Slid2、Slid3 進行相乘操作。融合之后再進行同樣的修復操作,具體操作如下所示:


其中,Fouti_j表示不同層的融合輸出,i∈{5,4,3,2},j∈{6,5,4,3};Slidk表示不同層次的跨模態融合特征,k∈{1,2,3,4,5,6};Fhs表示具有高級語義的特征輸出;⊙表示逐像素相乘;S(·)表示Sigmoid 激活函數;Up(·)表示兩倍上采樣;Cat(·) 表示通道維度上的拼接;Conv(·)表示卷積運算。
假設W、H為輸入圖片的寬和高,則對應的網絡輸出的初始顯著圖S1∈[0,1]W×H×1,最終的顯著圖S2∈[0,1]W×H×1,其對應的標簽G∈[0,1]W×H×1。總損失計算公式如下所示:

Lce表示二值交叉熵損失函數,具體計算公式如下:

其中,S表示預測的顯著圖,G表示對比標簽。
本文模型基于PyTorch[25]框架實現,在一塊2080Ti GPU 上進行訓練。使用ImageNet[26]上的預訓練權重來初始化本文的主干網絡EfficientNet-b0[23]的參數。兩個特征提取網絡之間不共享權重。使用Adam 優化器[27]進行端到端的訓練。初始學習率設為1E-4 并且每隔40 輪調整至原來的10%。使用二值交叉熵損失函數作為監督。所有訓練和測試的圖像尺寸大小統一設置為352×352。為了避免過擬合,提高模型的魯棒性,在訓練階段采用隨機翻轉、旋轉和裁剪等數據增強策略對訓練數據進行增強。訓練批次大小設置為10,訓練模型120 輪大約需要4 h,得到最終的模型。
為了評估本文的網絡性能,本文在7 個數據集上進行了實驗。
NJU2K[28]總共有1 985 張圖片,立體圖像來自互聯網和3D 電影,照片使用Fuji W3 照相機拍攝,其中訓練集1 400 張,驗證集100 張,測試集485 張。
NLPR[29]總共有1 000 張圖片,由Kinect 在11 個場景下拍攝得到,其中訓練集650 張,驗證集50 張,測試集300 張。
STERE[30]共有1 000張立體圖片,從互聯網下載得到。
SIP[8]共有1 000張圖片,由一部智能手機拍攝得到。
DES[31]總共135 張室外圖像,由Microsoft Kinect拍攝得到。
LFSD[32]總共100 張圖片,由Lytro 相機拍攝得到。
SSD[33]總共80 張圖片,從三部立體電影中挑選得到。參照文獻[34-35] 的訓練策略,使用1 485 張NJU2K 的圖像和700 張NLPR 的圖像用于訓練,其余樣本用于測試,為了公平比較,本文將在該數據集訓練的模型應用于其他測試數據上。
為了評估本文方法,使用5 個廣泛使用的評價指標:MAE、S-measure、E-measure、F-measure、P-R曲線。
(1)平均絕對誤差(MAE),顯著圖與真值圖逐像素之間絕對誤差的均值,計算公式如下所示:

其中,m和n分別表示圖像的寬和高;pij表示顯著性概率結果;yij表示真值。MAE值越小表示模型性能越好。
(2)S-measure比較結構相似信息,其中so為物體結構相似性,sr為區域結構相似性,α為平衡參數,取值為0.5。計算公式如下所示:

(3)E-measure 增強匹配指標,基于認知視覺的研究來獲取圖像層次的統計信息及其局部像素匹配信息。

其中,P為二值化的顯著預測圖,G為Ground Truth。
通過設置閾值得到二值化的顯著預測圖P,通過上式計算得到一對Precision、Recall。閾值取值為0~255,不同的閾值,對應不同的P-R 對,總共有256個P-R對。以P為縱坐標,R為橫坐標,構成P-R曲線。
(5)F-measure

β2一般取值為0.3,每一對P-R,都可計算出一個Fβ,本文選取最大值作為評價指標。評價代碼采用的是http://dpfan.net/d3netbenchmark/中提供的matlab 版本。
3.4.1 實驗過程分析
圖4 所示為模型在訓練階段的Loss 變化曲線和驗證階段的MAE 變化曲線。由曲線的趨勢可以看出,模型在20 個Epoch 迭代以內訓練損失以及驗證集上的MAE 指標迅速下降,模型快速收斂,且在訓練過程中未出現大幅度的抖動,比較平緩。隨著迭代次數的增加,損失和MAE 指標不斷降低,表明了本文提出的模型訓練更加穩健。

圖4 訓練的Loss變化曲線和驗證的MAE 變化曲線Fig.4 Loss change curve of training and MAE change curve of verification
3.4.2 結果對比
表1 展示了本文在7 個數據集上4 個評價指標MAE (M)、max S-measure (Sα)、max E-measure (Eξ)和max F-measure(Fβ)上的對比結果。表2 詳細地列出了不同方法的模型大小,在這些先進的方法中,本文方法模型最小,比第二小的模型節省了24.6%的參數量。圖5 和圖6 展示了P-R 曲線和F-measure 曲線,本文方法用紅線表示。這些方法所有的顯著圖都是由論文作者提供,或者根據他們提供的代碼計算得到。

表1 不同方法的評測結果Table 1 Evaluation results of different methods

表2 不同方法的模型大小Table 2 Model size of different methods
如表1 所示,↑(↓)表示越高(低)越好。每行最好的結果用加粗表示,次優的結果用下劃線表示,每個方法的下標表示出版年份。本文方法在四個評價指標、五個數據集上都取得了最好的結果。在SSD、LFSD 數據集上本文方法在Sα、Fβ、Eξ指標上處于次優,MAE 指標排在第三。
如圖5 和圖6 所示,展示了不同算法的P-R 曲線和F-measure 曲線。可以看到,在NJU2K、NLPR、STERE、DES、SIP 五個數據集上,本文方法的曲線明顯高于其他方法。在LFSD 這個數據集上,本文曲線與先進算法基本持平。在SSD 數據集上,略低于先進算法。通過詳細的定量比較可以看出,本文方法在精度和模型大小上都有明顯的優勢。

圖5 不同算法在7 個數據集上的P-R 曲線Fig.5 P-R curves of different algorithms on 7 datasets

圖6 不同算法在7 個數據集上的F-measure曲線Fig.6 F-measures of different algorithms on 7 datasets
3.4.3 視覺對比
圖7 展示了本文方法和一些先進方法生成的顯著圖的視覺對比。將這些圖像主要分為(a)簡單場景、(b)小物體、(c)多物體、(d)復雜背景和(e)低對比度場景。

圖7 本文方法和一些先進方法的視覺對比Fig.7 Visual comparison between method presented in this paper and some advanced methods
(a)圖展示兩個簡單場景的圖像。很多算法不能將椅子完整地檢測出來,本文提出的高級語義修復策略能有效提高檢測的準確度,完整地將椅子檢測出來。
(b)圖展示了三個小物體圖像。如第一行的人,很多算法能把人作為顯著性對象檢測出來,但是都不能把人雙腿之間的間隔檢測出來,然而本文方法仍然能夠準確地檢測出來,第二行的小貓、第三行的蝴蝶圖像,本文方法依然能將蝴蝶的腳這樣的細節部分檢測出來。
(c)圖展示兩個包含多個物體的圖像。本文方法能夠檢測出所有的顯著目標,并且能夠很好地把它們分割出來。可以看出(c)圖中第一行的深度圖像沒有清晰的信息,本文方法也能夠將所有顯著物體檢測出來。
(d)圖展示的是兩張具有復雜背景的圖像。盡管(d)圖中第一行的深度圖質量很差,但是本文方法受益于跨模態特征融合模塊,不受低質量深度圖的影響,能夠自適應地融合Depth 特征中有效信息。很多方法受到復雜背景的影響,把背景作為顯著物體的一部分,不能準確檢測出來,本文采用了高級語義修復策略,準確地將顯著物體檢測出來。
(e)圖展示了兩張低對比度的圖像,本文方法能夠抑制背景的干擾并從深度圖中提取有用的信息,尤其是最后一行,深度圖提供的信息,蘑菇的下面部分的深度信息質量差,前景信息與背景信息分離很不明顯。很多算法不能將蘑菇的下面部分檢測出來,本文算法不被質量較差的深度特征影響,提取有用的深度特征,有效融合RGB 和Depth 特征,能夠精準地將顯著物體檢測出來。
本文以EfficientNet-b0[23]為主干網絡,將RGB 和Depth 相加融合的網絡作為基線,分析各個模塊的貢獻。所有模型都是用相同的超參數和訓練集進行訓練。為了證明它們的泛化能力,本文在7 個數據集上展示實驗結果。
(1)高級語義修復策略的有效性
本文在基線網絡的基礎上加上高級語義修復策略,從表3 中數據顯示以及圖8 展示,使用Baseline 網絡生成的顯著圖不能將顯著物體完整檢測出來,而使用高級語義修復策略能有效定位顯著區域并提高邊緣清晰度,該方法有效提升了網絡的性能。

表3 高級語義修復策略消融結果對比Table 3 Comparison of ablation results of advanced semantic repair strategies
(2)跨模態特征融合的有效性
本文在上個消融實驗的基礎上加上跨模態特征融合模塊,通過表4 中數據顯示以及圖8 展示,由于本文使用跨模態融合模塊,能有效利用深度圖所提供的細節信息,抑制干擾信息,共同檢測出圖像中的顯著區域。從表格中的結果對比可以看出,本文所提出的跨模態特征融合模塊能有效提高網絡的性能。

圖8 模塊消融視覺對比Fig.8 Visual contrast of module ablation

表4 跨模態特征融合模塊消融結果對比Table 4 Comparison of ablation results of cross-modal feature fusion modules
(3)本文跨模態特征融合模塊與深度特征加權組合模塊消融對比
從表5 的數據顯示,本文提出的跨模態特征融合模塊能有效融合RGB 和Depth 特征,模態交互分支能提取到更具共性和互補性的融合特征,引入的注意力機制能更加關注有用的融合特征,加入的殘差連接分支,能避免低質量的深度圖對融合特征的影響,提高網絡的性能。從表中數據可以看出,本文提出的模塊具有更大的優勢。

表5 跨模態特征融合模塊與CDC 模塊結果對比Table 5 Comparison of results between cross-modal feature fusion module and CDC module
(4)本文高級語義特征提取與BBSNet 教師特征提取消融對比
從表6 的數據中顯示,本文提取高級語義特征的方法得到的結果更好。相較于BBSNet[15]提取教師特征的方法,本文方法需要更少的參數量和計算量,具有更大的優勢。

表6 高級語義特征提取與BBSNet教師特征提取對比Table 6 Comparison of advanced semantic feature extraction and BBSNet teacher feature extraction
(5)不同主干網絡的性能測試
不同主干網絡結果對比如表7所示。現有的RGBD 顯著目標檢測模型主要采用VGG(visual geometry group)[38]、ResNet(residual network)[39]系列網絡作為主干網絡,本文采用EfficientNet-b0[23]作為主干網絡,主要考慮為了節省參數量,構建輕量級的RGB-D 顯著性目標檢測模型。為了證明本文方法的擴展性,表7展示了不同主干網絡在4 個評價指標、7 個數據集上的max S-measure、max F-measure、max E-measure 以及MAE 上的對比結果。結果顯示,盡管本文方法使用其他主干網絡,仍然能超過很多先進算法。表8 展示不同主干網絡的模型大小。數據顯示,盡管本文使用了不同的主干網絡,本文方法在模型大小上還是較小的。

表7 不同主干網絡結果對比Table 7 Comparison of results from different backbone networks

表8 不同主干網絡模型大小對比Table 8 Comparison of model sizes of different backbone networks
本文提出基于高級語義修復策略的跨模態特征融合的RGB-D 顯著目標檢測方法,該方法受益于跨模態特征融合模塊、高級語義修復策略的網絡框架。跨模態特征融合模塊有效地將RGB 和Depth 特征進行自適應的融合,不會受到低質量深度圖的影響,能有效地從深度圖中提取到深度信息,進而輔助RGB 特征進行顯著性特征提取。利用高級語義特征能夠有效定位顯著區域,低層特征具有豐富細節信息,聯合底層特征,從而檢測出邊緣清晰、顯著區域完整的顯著圖。本文方法在五個數據集上均達到了較為先進的性能。此外,本文方法同樣也可適用于目標檢測、語義分割、圖像分類等方面的研究。