陳小偉 張 晴
(上海應用技術大學計算機科學與信息工程學院 上海 201418)
顯著物體檢測(Salient Object Detection,SOD)旨在從視覺場景中自動檢測和分割出最引人注目的物體,其檢測結果通常用灰度圖表示,每個像素的灰度值表示該像素屬于顯著物體的概率。顯著物體檢測可廣泛應用于各種計算機視覺應用任務以大幅度降低其處理復雜度,包括圖像編輯[1]、行人再識別[2]、視覺追蹤[3]和圖像分割[4]等。
由于基于手工選擇特征的傳統的顯著物體檢測方法[5-6]主要采用中低層特征和各種先驗性假設(對比度、背景、邊界等)進行顯著性計算。最常用的對比度方法基于顯著性區域與背景的顏色特征具有較大差異這一假設。傳統的顯著物體檢測方法面對簡單場景時檢測效果良好,但是由于該類方法僅關注中低層特征,缺乏對高層語義信息的表示和學習能力,因此在面對復雜場景時往往不能取得令人滿意的檢測效果。
卷積神經網絡由于其強大的特征表征和學習能力,被廣泛應用于計算機視覺任務,取得了令人矚目的成績。基于卷積神經網絡的顯著物體檢測方法[7-9]能提取圖像不同層級的特征,淺層卷積層組得到的特征富含中低級特征,但缺乏全局信息,而深層卷積層組得到的特征包含豐富語義特征,但缺乏細節信息。因此,如何從卷積神經網絡中提取不同層級的特征,以及如何有效融合這些不同層級的特征,是關鍵且具有挑戰性的問題。
現有顯著性檢測模型一般采用多尺度特征方法提取全局特征,然而這些方法僅僅針對同一層級特征的不同尺度進行建模,再簡單融合這些多尺度特征,各個尺度特征之間缺乏交互。針對此不足,本文提出全局特征信息感知模塊(Global Information Perception Module,GIPM),對同層級特征的各個尺度進行建模,利用各尺度特征之間得到的交互信息進行多尺度特征更新,有效表示和提取顯著物體的語義特征,從而獲得目標物體的位置信息。
此外,骨干網絡的淺層側輸出具有豐富且雜亂的低層級特征,而顯著物體檢測只需針對特定區域的細節特征進行學習,因此,常用的逐層融合結構容易引入噪聲。針對此不足,本文提出顯著特征更新模塊(Saliency Feature Refinement Module,SFRM),利用全局信息直接引導局部特征,聚焦目標區域學習有用的細節信息,從而得到具有精確輪廓信息的顯著物體檢測結果。本文工作的主要貢獻有:
1) 提出一種新的卷積神經網絡用于顯著物體檢測,實現端到端的像素級預測,利用全局特征感知和局部信息更新,獲得具有辨識力的顯著性特征,從而提升模型的檢測性能。
2) 提出全局特征感知模塊和局部特征更新模塊,利用多尺度的全局特征引導網絡的每個側輸出聚焦學習有用區域的細節特征。
近年來,深度學習技術在計算機視覺的各類任務中得到了廣泛的應用,大幅度提升了算法模型性能。基于深度學習技術的顯著物體檢測模型能提取圖像的高層語義信息,因此突破了傳統模型的性能瓶頸,大大提升了檢測性能。基于深度學習的顯著物體檢測算法可以分為兩類:區域級預測模型[10-11]以及像素級預測模型[12-14]。
區域級預測模型以區域為基本單位,通過深度神經網絡預測其深度特征,位于同一區域內的所有像素享有同樣的顯著性值。Li等[10]利用全卷積層整合從一系列區域中提取多尺度特征。在文獻[11]中,研究人員采用兩個深度卷積神經網絡以獲取圖像區域的全局和局部特征。這些區域級預測模型較傳統方法提升了檢測性能,然而,由于其不能有效表示圖像的全局語義信息,因此在面對低對比度、背景雜亂等復雜場景時,檢測準確率較低。另外,這類方法依賴區域分割技術,必須多次運行網絡才能計算圖像中所有區域的顯著性值,因此其算法非常耗時,實用性較低。
像素級預測模型利用全卷積神經網絡結構實現端到端的預測,提取和融合從骨干網絡不同邊側輸出的多層級多尺度特征。Liu等[15]提出基于池化的全局引導模塊和特征整合模塊,利用高層語義特征逐步更新多層級顯著性圖。Wei等[16]設計了交叉特征模塊以融合多層級特征,探索特征間的互補性。Pang等[17]提出相鄰層級多尺度特征的融合方式。Zhao等[18]設計了一種新型的門控雙分支結構,促進不同層次特征之間的協作以提高整個網絡的可分辨性。Wu等[19]旨在通過疊加交叉細化單元(CRU)同時細化顯著目標檢測和邊緣檢測的多層次特征。文獻[20]通過漸進式上下文感知的特征交織整合模塊有效集成多層級特征。盡管這些方法極大提高了檢測性能,但是在邊界細節和分割質量上仍存在一定的提升空間。
本文基于特征金字塔(Feature Pyramid Network,FPN)結構構建網絡模型,自頂向下逐層級連接深層特征和淺層特征,網絡結構如圖1所示。主要包括兩個部分:全局信息感知模塊(Global Information Perception Module,GIPM)和顯著特征更新模塊(Saliency Feature Refinement Module,SFRM)。首先,采用預訓練的卷積神經網絡ResNet-50作為骨干網絡生成多層級多尺度的側邊輸出粗糙特征;然后,在每個側邊采用一個卷積層組提升粗糙特征的顯著性表達能力,每側的卷積層組均由3個3×3的卷積層組成;其次,采用全局信息感知模塊GIPM產生全局語義特征,定位顯著物體區域;最后,利用顯著特征更新模塊SFRM融合全局特征和側邊輸出特征,得到最終的具有精確輪廓信息的顯著物體預測結果。

圖1 本文網絡結構模型
全局特征具有豐富的語義信息,能定位出顯著物體的位置,在顯著物體檢測中具有十分重要的作用。在不同的視覺場景中,顯著物體具有不同的尺度,因此良好的顯著物體檢測模型需要具有獲取全局特征的多尺度信息的能力。為了更好表征具有全局上下文信息的多尺度語義特征,本文設計全局信息感知模塊GIPM,其詳細結構如圖2所示。

圖2 全局信息感知模塊GIPM細節

(1)
卷積神經網絡淺層輸出特征包含豐富的圖像細節特征,而其深層輸出特征包含豐富的全局語義信息。雖然常用的FPN網絡結構,能逐漸將深層特征與淺層特征相結合,采用由粗至細的方式更新側輸出的顯著圖,但是這種逐層連接的更新方式會造成全局信息的損失。為了使淺層網絡聚焦于有用區域的細節特征學習,提升網絡學習效果,本文提出顯著特征更新模塊SFRM,其結構細節如圖3所示。

圖3 顯著特征更新模塊SFRM細節
SFRM首先將深層輸出的全局特征直接與淺層特征相融合,接著通過空間位置權重的計算,突出顯著特征中重要的空間信息,從而提高側輸出在顯著區域上的細節學習能力。其過程可以表示為:
(2)
(3)

(4)
式中:Avg(·)和Max(·)分別是平均值和最大值計算。
顯著物體檢測中常用二元交叉熵(Binary Cross Entropy,BCE)作為損失函數。然而,BCE強調的是像素之間的差異,忽略了全局結構信息間的不同,因此,本文模型引入IoU計算預測顯著圖和真值圖之間的圖像級差異。整個網絡的損失函數可表示為:
(5)

本模型基于PyTorch實現,訓練和測試是在具有一塊NVIDIA GTX TITAN GPU的臺式計算機上進行。使用具有10 553幅圖像的DUTS-TR數據集訓練,通過隨機水平翻轉進行數據增強。使用Adam作為優化算子,學習率設置為5E-3,權重衰減為5E-4,批大小為8,一共訓練60期。本文模型為端到端模型,不需要任何的預處理以及其他操作。
在ECSSD、DUT-OMRON、PASCAL-S和DUTS-TE基本數據集上進行了實驗以驗證本文模型的有效性。這些數據集均具有像素級標簽。ECSSD包含1 000幅復雜圖像。DUT-OMRON包括5 168幅背景相對復雜的圖像。PASCAL-S包含850幅從PASCAL-VOC數據集中選擇的真實世界圖像。DUTS-TE包含5 109幅包含一個或多個具有雜亂背景的顯著物體的圖像。
本文采用6個普遍認可的評價指標對模型性能進行評估,包括:準確率-召回率(Precision-Recall,PR)曲線、平均F值(avgFβ)、平均絕對誤差(Mean Absolute Error,MAE)和S值(Sm)。
PR曲線:在0~255區間內,用固定閾值對顯著圖計算其準確率-召回率值對,用于形成PR曲線。
F值:F值是準確率和召回率的綜合評價指標,計算方法為:
(6)
式中:β是平衡參數;P為準確率;R為召回率。β2通常設置為0.3以提高準確率權重。
MAE:用于衡量真值圖和預測顯著性圖之間的平均像素誤差。
(7)
式中:S表示預測顯著性圖;G表示真值圖;H和W分別表示像素的高和寬。
S值:通過結合區域感知結構相似性So和對象感知結構相似性Sr來衡量顯著性圖質量,計算公式為:
Sm=αSo+(1-α)Sr
(8)
式中:通常設α=0.5。
為了證明本文模型的有效性,將其與12種近三年具有代表性的基于深度學習模型進行了比較,其中包括:CPD[7]、BANet[14]、PoolNet[15]、EGNet[12]、SCRN[19]、F3Net[16]、ITSD[13]、GateNet[18]、MINet[17]、GCPA[20]、DNA[8]和SUCA[9]。為了比較的公平性,使用作者提供的顯著性圖進行比較。
3.2.1 定性評估
圖4是本文模型與具有代表性算法生成的顯著圖的視覺比較。通過對比可知,本文模型在各種復雜場景(低對比度、目標接觸圖像邊界、多目標、背景雜亂等)中能夠一致高亮顯著區域,并有效抑制背景聲,效果明顯優于其他模型。

圖4 本文模型與其他模型生成顯著圖的視覺對比
3.2.2 定量評估
圖5至圖8分別是本文算法與12種主流算法的PR曲線比較,可以看到,本文方法幾乎在4個基準數據集上均優于其他方法。此外,將本文模型與12種主流算法就avgFβ、EMA和Sm得分進行比較,結果如表1和表2所示,其中:加粗表示最佳性能;下劃線表示次佳性能;“-”表示作者沒有提供該算法的顯著圖。可知:1) 本文方法的MAE指標在DUT-OMRON數據集上位列第三;2) 本文方法的S值指標在ECSSD數據集上位列第二;3) 除此以外,本文方法的各項指標在各基準數據上均優于主流算法。說明本文模型能處理各種復雜場景,具有優越性。

圖7 不同方法在PASCAL-S數據集上的PR曲線比較

圖8 不同方法在DUTS-TE數據集上的PR曲線比較

表1 不同方法在ECSSD和DUT-OMRON數據集上的性能對比結果

表2 不同方法在PASCAL-S和DUTS-TE數據集上的性能對比結果
3.3.1 不同模塊性能分析
為了驗證不同模塊對本文模型的影響,構建了不同的網絡,并在DUT-OMRON和DUTS-TE數據集上進行了不同模塊的消融實驗。主要考慮以下模型:1) w/o_G:將本文模型中的GIPM用一個卷積降維操作取代;2) w/o_S:從本文模型中去掉SFRM模型。
采用Sm、avgFβ和EMA指標定量分析模塊性能,如表3所示,可以看出,本文模塊GIPM和SFRM均能有效提升模型的檢測性能。

表3 不同模塊的性能比較
3.3.2 GIPM模塊有效性分析
本文設計了GIPM模塊提取圖像的全局特征,為了驗證該模塊的有效性,本節進行了全局特征提取模塊的消融實驗,用流行的全局特征提取模塊取代GIPM模塊,包括ASPP、PPM、Inception和RBF,實驗結果如表4所示。

表4 GIPM與其他全局特征提取模塊的性能比較
可以看出采用GIPM的模型性能最佳,說明本文所提的GIPM模型可以較好提取全局語義信息,精確定位顯著目標所在區域。
本文提出一種基于特征感知和更新的顯著物體檢測模型,首先采用GIPM模型提取全局語義特征,充分挖掘全局特征的多尺度信息,同時直接融合全局語義信息和局部細節特征,根據顯著物體的大致定位進行細節特征的進一步學習,并對融合后的特征進行空間位置加權操作,以進一步聚焦有用區域的局部細節學習。在ECSSD、DUT-OMRON、PASCAL和DUTS-TE這4個公開的基準數據集上進行充分實驗和比較,結果表明本文模型具有良好的檢測性能。本文所提網絡模型體積較小,可移植性較高。在今后的研究中,將考慮研究引入深度信息的基于RGB-D的顯著物體檢測模型,研究如何提取和融合RGB和depth特征,豐富圖像細節特征,以獲得更完整的顯著物體。