基于注意力感知的RGB-D顯著性檢測

2023-02-21 13:17:24劉云翔

計算機工程與設計 2023年2期

李琦，戴蒙，張晴，劉云翔

(上海應用技術大學計算機科學與信息工程學院，上海 201418)

0 引言

當進行一個復雜場景(前景與背景極度相似、圖像中有多個對象)的顯著性檢測時，僅僅靠基于紅綠藍三通道的彩色圖(RGB)進行輸入的模型并不能得到一個很好的效果，這時往往需要使用可以反映空間結構的深度圖(Depth)對輸入進行補充。為了有效地對RGB圖和Depth圖進行跨模態(tài)的融合，Chen等[1]提出了一種多尺度殘差粗預測的RGB-D顯著性檢測算法。Feng等[2]在每個階段提取RGB特征，然后將其與深度特征相結合。Ji等[3]提出一種協(xié)作學習框架用來計算顯著性檢測。

上述方法雖然在顯著性檢測中有了很好的效果，但仍然存在一些不足。首先，他們未考慮RGB圖與Depth圖模態(tài)之間的差異性，只是通過簡單的相加或通道串聯(lián)。雖然深度圖可以對顯著區(qū)域進行更好的定位，但質量較差的深度圖反而會給檢測的結果帶來負面的影響。另一方面，即使有少數(shù)研究會考慮圖像中這些干擾因子的存在并提出了抗干擾模塊，但他們往往又會忽略經(jīng)過抗干擾模塊后的特征總會丟失一些原始信息。

針對上述問題，本文基于注意力機制設計了一個新的用于融合特征的跨模態(tài)融合模塊。由于隨著卷積神經(jīng)網(wǎng)絡深度的增加，高低層關注的信息側重點會有不同，本文將跨模態(tài)融合模塊嵌入進了整個編碼-解碼網(wǎng)絡結構中，與其它8個最近發(fā)表的先進模型相比，在多個評價指標上，本文的模型在5個被廣泛使用的公開數(shù)據(jù)集上取得了較好的檢測效果。

1 相關工作

在過去的幾十年時間里，研究人員針對顯著性檢測開創(chuàng)了很多方法。但在早期，研究人員的注意更多是放在利用傳統(tǒng)方法來計算局部區(qū)域的顯著性。比如，Zhu等[4]提出一種基于親和圖學習和加權流排序的自底向上的檢測方法，通過圖像數(shù)據(jù)自表示無監(jiān)督學習來學習親和圖。Zhu等[5]則提出使用哈里斯角點來定位前景實體，通過先驗圖獲得原始顯著結果，再將其優(yōu)化得到顯著圖。Niu等[6]提出了基于超像素連同先驗的顯著性目標分割法。但是，這些方法對于高級的語義信息總是無法精準捕獲，而基于神經(jīng)網(wǎng)絡的顯著性檢測算法則很好彌補了這一點。Yi等[7]基于神經(jīng)網(wǎng)絡設計了自頂向下的網(wǎng)絡結構用以捕捉多尺度的語義信息。Wu等[8]提出使用前景邊界信息以及其輪廓信息來進行顯著性檢測。但這些方法都是單純基于RGB圖進行單一輸入的檢測方法，沒有使用具有其它額外信息的深度圖進行顯著性檢測。

深度特征包含了大量的上下文與語義信息，能反映出物體的空間布局，合理運用深度圖進行顯著性檢測將會給檢測效果帶來極大的改善。因此，研究人員開始嘗試將RGB與Depth一同輸入進檢測模型進行顯著性檢測。Han等[9]設計了一個端到端模型，使用完全連接層來得到最終結果。最近，Zhao等[10]設計了一個單流網(wǎng)絡實現(xiàn)RGB圖和Depth圖的早中期融合，針對深度圖設計了深度增強雙注意力模塊進行有效濾波。Zhao等[11]基于RGB與Depth串聯(lián)進行側輸出獲取顯著性結果。

與上述方法不同，本文主要研究基于編碼-解碼的雙流結構如何有效地進行跨模態(tài)的融合。本文通過分層網(wǎng)絡來級聯(lián)解碼，自頂向下地對每個側輸出進行監(jiān)督。同時通過不同模塊間的整合來實現(xiàn)高效的跨模態(tài)融合操作。

2 本文方法

本文提出的模型結構是如圖1所示的編碼-解碼結構雙流結構。編碼器部分由兩個VGG-16特征提取網(wǎng)絡組成，用于跨模態(tài)的特征提取。我們采用分層融合架構來融合多尺度特征并進行側輸出預估計。在這一部分，將給出本文所用融合方法的具體操作。

2.1 網(wǎng)絡結構

如圖1所示，RGB圖和Depth圖分別單獨輸入進兩個一樣的主干分支網(wǎng)絡。為了提高模型的計算效率，本文使用層數(shù)較淺的VGG-16作為主干分支網(wǎng)絡來提取相關特征。因為VGG-16主干分支網(wǎng)絡是5個塊，本文取每個塊的最后一層卷積層所提取到的特征進行跨模態(tài)的特征融合操作。RGB流用來提取圖片的主要特征信息，比如顏色、位置或其它低級特征和其它高級的語義信息以及上下文特征等。Depth流主要捕獲空間信息以使得顯著性的檢測更加準確與完整。為了將二者更好地融合，本文在融合階段設計了跨模態(tài)融合模塊，其中包含的特征增強模塊通過兩個并行的注意力機制來增強特征。同時在跨模態(tài)融合過程通過特征融合模塊來實現(xiàn)信息間的互補。主干分支的每個結果都會進行解碼側輸出，同時，為了更好地聯(lián)系多層次特征、捕捉全文信息，解碼后的結果還會自頂向下式地傳遞進相鄰塊的解碼器中。

2.2 特征增強模塊

由于不同模態(tài)的屬性差異以及深度圖的質量總是參差不齊，單純地對RGB與Depth進行等權值相加或串聯(lián)不能夠有效地挖掘出兩者的互補信息并加以充分地運用。為了提高RGB與Depth的兼容合并性，以及實現(xiàn)對不必要信息的過濾，本文在跨模態(tài)融合模塊里設計了一個特征增強模塊。其主要通過兩個并行的注意力機制即空間上的注意力以及通道上的注意力來增強特征并挖掘重要信息。

每個深度流的分層結果所出來的深度特征都首先會進入特征增強模塊進行處理。其具體操作如圖2所示，當深度特征輸入該模塊時，則對特征進行空間注意力和通道注意力操作，兩個操作并行進行。

圖2 特征增強模塊的結構

(1)

(2)

考慮到兩個注意力操作針對得側重點各有不同，在空間上，一個側重全局信息，一個側重局部信息。所以，將并行得到的兩個結果進行像素級相加操作來得到最終增強后的深度特征

(3)

(4)

2.3 特征融合模塊

通過增強后的深度特征能更好地反映出空間布局等附加信息，為了更好地利用增強后的深度信息以及為了保證原始深度信息的不丟失和不同模態(tài)之間的調制。本文在跨模態(tài)融合模塊里設計了一個特征融合模塊，如圖3所示。

圖3 特征融合模塊結構(FFM)

首先，使用增強后的深度特征去引導RGB信息，其計算如下

(5)

(6)

(7)

(8)

(9)

2.4 殘差連接

為了保存原始的彩色信息，同時為了保證信息的完整與準確性，我們使用通過融合處理所獲取到的特征作為殘差信息來校正預測到的顯著圖

(10)

(11)

Pred5表示第五層的預測結果，De(*)表示解碼操作，其主要是通過卷積與反卷積恢復圖像的分辨率。為了更好聯(lián)系上下文信息，本文將每層得解碼信息進行級聯(lián)操作

(12)

Contacat(*,*) 表示通道串聯(lián)操作，其中i=1,2,3,4。

2.5 損失函數(shù)

在訓練階段，我們對每個側輸出都進行了監(jiān)督，整個模型的損失函數(shù)也由每個側輸出的損失函數(shù)構成

(13)

Lt表示每個側輸出的損失函數(shù)，t表示層數(shù)。Lt由兩個常用函數(shù)構成，一個是二值交叉熵損失函數(shù)(binary cross-entropy，BCE)，另一個則是交并比損失函數(shù)(intersection-over-union，IOU)

(14)

Lbce=ylogx+(1-y)log(1-x)

(15)

(16)

A表預測區(qū)域，B表真實區(qū)域。

3 實驗結果

3.1 數(shù)據(jù)集與評價指標

數(shù)據(jù)集：為了驗證整個模型的可靠性，本文參考文獻[12～15]，使用的5個數(shù)據(jù)集分別是NLPR、SIP、DUT-RGBD、STERE、DES。NLPR由十一種室內外場景的圖像組成，其總共包含950張圖像。SIP是最近才公開發(fā)布的一款數(shù)據(jù)集，它的設計主要是為了對圖像中的人物做顯著性檢測，并且生成它的設備是一款高性能智能手機，整個數(shù)據(jù)集包含929幅圖片。DUT-RGBD的圖像大多具有很復雜的背景，其總共包含1200張圖像。STERE包含了1000個具有顯著對象遮罩的圖像，是一個立體顯著性分析的基準數(shù)據(jù)集。DES則是由135幅室內圖像組成。

評價指標：本文使用了5個評價指標來評估模型的整體性能。分別是，S-measure、F-measure、平均F-measure(avgF)、最大F-measure(mF)和絕對平均誤差(MAE)。

S-measure主要評估顯著圖與二值真值圖之間結構的相似性，其公式如下

S=αSo+(1-α)Sr

(17)

So表示對象感知，Sr表示區(qū)域感知，α是一個平衡參數(shù)，一般設為0.5。

F-measure主要計算二值化顯著圖的精度P和召回率R之間的加權平均值，其計算如下

(18)

β2是一個超參數(shù)，用來賦予準確率與召回率不同權重。使用文獻[13,14]的設置,為了側重精度的重要性，將β2設置為0.3。mF則是F-measure的最大值，avgF則是其均值。絕對平均誤差評估在顯著圖與真值圖之間所有像素的平均絕對誤差，它的計算方法如下

(19)

T表示像素總數(shù)，si表示顯著圖像素，gi表示真值圖像素。

3.2 實施細節(jié)

本文使用Pytorch實現(xiàn)所有的方法，并且使用NVIDIA 2080 Ti圖像處理器進行處理。使用與文獻[13]一樣的數(shù)據(jù)進行訓練。每個圖像輸入的大小是352*352，批量大小為4。

3.3 與先進模型比較

本文將模型與現(xiàn)階段同樣基于RGB-D進行顯著性檢測的先進模型進行了比較，包括UC-NET[14]、CPFP[15]、CMW[16]、DANET[11]、S2MA[17]、D3NET[12]、ICNET[18]、DCMF[19]，本文使用可用的源代碼或直接使用作者提供的顯著結果圖進行了以上模型的重新評估。其中，除CPFP是2019年所發(fā)表的模型，其它模型均是2020年公開發(fā)表的模型。

定量比較：基于上述5個指標的實驗的詳細比較結果列于表1中?？梢钥闯?，在SIP數(shù)據(jù)集上，本文使用的方法在5個指標上都明顯優(yōu)于其它方法，這說明對人物的檢測上本文模型效果很優(yōu)異。在mF指標上，本文方法在NLPR、DUT-RGBD與STERE上都取得了最好的效果。在NLPR數(shù)據(jù)集上，本文方法的5個指標效果都維持在前兩名，其中F指標只比第一名低了0.0009。而在DUT-RGBD與STERE上，本文模型的5個指標都維持在前三名。在數(shù)據(jù)集DES上，指標F、avgF與MAE都處在了第三名，其中指標avgF比第二名低了0.0054，指標F比第二名低了0.0042，指標MAE比第二名高了0.041。本文還提供了所有比較方法在5個數(shù)據(jù)上的PR曲線，如圖4所示。由PR曲線也可以看出本文方法的曲線幾乎領先大多數(shù)方法或是與最佳方法持平，尤其是在包含大量人物圖片的SIP和由立體圖片組成的STERE和NLPR數(shù)據(jù)集上，這說明了更好利用深度信息的重要性?？偟膩碚f，通過表1和圖4可以看出本文方法在精度方面具有顯著優(yōu)勢。

圖4 在5個數(shù)據(jù)集上的PR曲線比較

表1 在5種數(shù)據(jù)集上的性能比較

視覺比較：除了通過定量比較，本文還進行了更直觀的視覺比較，在圖5中展現(xiàn)了一些視覺比較結果。本文分別摘取了不同場景下的圖像大物體、小物體、前背景相似等圖像以驗證方法的可靠性。如圖5中第二行的椅子，其顏色與背景門非常相似。但本文模型依舊可以將椅子與背景門區(qū)分開，而其它模型則不能清晰地給出椅子的輪廓。如圖5最后一行所示，較其它模型來說，本文模型對小物體的檢測也很好，本文模型可以清晰地給出小物體的顯著區(qū)域。總的來說，通過特征增強與特征融合，本文模型可以預測出“人”、“椅子”、“雕塑”等形狀復雜的物體，同時能夠比較準確且完整得對相似像素點進行分類。

圖5 與經(jīng)典模型的視覺對比效果

3.4 消融實驗

為了驗證本文中所設計的跨模態(tài)融合中注意力機制的有效性，本文進行了消融實驗。因為在特征增強與特征融合的過程中都使用到了注意力機制，因此實驗比較了在跨模態(tài)融合過程中不使用特征增強模塊的模型和不使用特征融合模塊的模型以及只使用殘差連接(residual connection，RC)后的檢測效果。遵循相同的實驗設置，本文在部分數(shù)據(jù)集上進行了對比實驗。實驗結果見表2和圖6。由表2可知，當在跨模態(tài)融合時同時使用特征增強與特征融合模塊，其性能相較于只使用其中一部分的方法是最好的，這也驗證了注意力機制的有效性。同時，通過視覺對比，可以驗證3種方法的組合可以獲得清晰準確的輪廓。

圖6 消融實驗視覺對比

表2 在兩種數(shù)據(jù)集上的消融實驗，√代表模型使用了該方法

4 結束語

本文研究了RGB-D顯著性檢測中的跨模態(tài)融合問題，設計了一個基于注意力機制的跨模態(tài)融合模塊用以實現(xiàn)RGB信息與Depth信息的高效利用與互補。整個跨模態(tài)融合由3部分構成，分別是特征增強、特征融合與殘差連接，它們的有效性通過消融實驗得到了驗證。本文將跨模態(tài)融合模塊嵌入到以VGG-16為主干的編碼-解碼網(wǎng)絡中，與現(xiàn)有的8個先進的模型相比，在5個公開的數(shù)據(jù)集下使用5種評價指標進行的實驗結果表明，該模型的檢測效果具有優(yōu)越性。