左保川,張 晴
上海應用技術大學 計算機科學與信息工程學院,上海201418
顯著性檢測旨在通過模擬人類的視覺特征來提取人類感興趣的圖像顯著區域。檢測顯著性物體需要理解整個圖像以及圖像中物體的語義信息和詳細結構。因此,顯著性檢測是計算機視覺中的一個基本且具有挑戰性的問題。在過去的十幾年里,隨著大數據和人工智能技術的快速發展,研究者們提出了很多經典的顯著性檢測方法,可以應用于多種計算機視覺任務,例如目標識別[1]、圖像壓縮[2]和圖像修復[3]。
傳統算法通常采用人工選擇特征的方法檢測和分割圖像中的顯著物體,基于局部或全局對比度[4-6],人為選擇基于像素或超像素級別的各種圖像特征(例如顏色、強度和直方圖),進行顯著性計算。這些方法在簡單的數據集上表現良好,但是當圖像背景變得復雜時可能會檢測失敗,因為人工選擇的低層特征無法有效捕獲圖像中隱藏的語義信息。此外,這些人為手動選擇的特征大多是基于現有數據集的先驗知識,因此在面臨實際應用中的復雜場景時往往不能取得令人滿意的檢測效果。近年來,研究人員在顯著性檢測方法中引入了卷積神經網絡(Convolutional Neural Network,CNN),它展示出了出色的特征表征和學習能力,可以自動且有效學習圖像上下文信息。卷積神經網絡[7]突破了傳統人工特征的性能局限,并且在檢測速度方面取得了很大的提升。隨后研究者們提出了全卷積神經網絡(Fully Convolutional Network,FCN)[8],把全連接層變為卷積層,進一步促進了顯著性檢測的發展,提供了一種更高效和更完善的網絡模型,實現了端到端的檢測。
現有研究成果[9-10]表明,CNN具有金字塔狀結構,較淺的卷積層輸出特征圖具有較大的分辨率,保留了豐富的細節信息,例如邊界和輪廓,較深的卷積層包含豐富的語義信息,并有助于定位顯著物體位置。據此,研究者們設計了多種用于顯著性檢測的網絡結構,其中基于特征金字塔網絡(Feature Pyramid Network,FPN)結構的顯著性檢測模型受到廣泛關注,因為它能夠通過自頂而下的路徑構造多尺度多層次的特征圖。
盡管基于卷積神經網絡的方法較傳統方法極大提升了算法檢測性能,但仍有許多方面值得進一步研究與改進。首先,采用FPN 結構的模型,深層的語義信息以逐層傳遞方式傳遞到淺層,由粗至精更新顯著性圖,然而在這過程中,深層特征所包含的物體位置信息等語義特征也同時被逐層稀釋。其次,目標物體具有不同的大小,單一尺度的卷積核并不能有效檢測出圖像中的所有物體。
受膨脹卷積[11]和感知結構[12-14]的啟發,本文設計了一種新的基于深層特征引導的顯著性物體檢測網絡模型,以特征金字塔網絡為基礎,主要包括:全局特征生成模塊(GGM)、殘差模塊(RM)和引導流(GF)。首先,本模型的GGM 由多個膨脹卷積組成,可以支持感受野成倍的擴大而不會降低分辨率和網絡收斂性,進一步提取豐富的語義信息。RM 是通過不同卷積核的卷積操作所得到的卷積層組成,可以提取多尺度特征。同時,在構建自頂而下的路徑時,通過GF將來自GGM和RM模塊的特征進行融合,在每個側輸出補充來自GGM 的深層語義信息。此外,所提模型對每個側邊的輸出進行監督。本文模型與近年發表的主流方法的視覺比較結果如圖1所示。

圖1 視覺比較
概括的說,本文的主要貢獻如下:
(1)提出了一種基于特征引導的顯著性物體檢測網絡模型。首先,采用一個由膨脹卷積組成的全局特征提取模塊捕獲豐富的語義信息。然后,對于不同的側輸出,采用殘差模塊提取其多尺度特征。采用由粗至細方式,逐層更新顯著性圖。
(2)設計了一種連接方式,可以在建立自頂而下路徑的過程中,通過引導流來逐步融合兩個模塊所提取的特征,達到為淺層特征補充語義信息的作用。同時可以用深層語義信息幫助淺層特征準確地定位顯著性物體的位置。
(3)與其他11種近年發表的主流模型相比,無論是定量還是定性評估,本文模型在5個廣泛應用的公開數據集上取得了較好的檢測性能。
在過去的十年里,研究者們設計了許多顯著性檢測模型。開拓性工作可以追溯到文獻[5-6]。這些早期的顯著性物體檢測方法大多數是基于人為手動選擇的特征,例如邊界背景[6]、顏色對比度[4]和中心先驗[15]。這些方法對內容簡單的圖像具有較高的檢測性能。然而,手動選擇特征和先驗知識難以捕獲顯著性物體的高級語義信息。
與利用人為手動選擇特征的傳統方法相比,基于卷積神經網絡的方法在顯著目標檢測中大大提升了系統性能。Li 等人[16]將圖像調整為三個不同的比例以提取多尺度特征,然后將這些顯著圖進行匯總以獲得最終的預測圖。Wang等人[17]設計了一個神經網絡以圖像塊作為輸入提取局部信息,并將這些特征與全局對比度信息進行融合,用來描述整個圖像。Zhao等人[18]提出使用兩個獨立的卷積神經網絡,它可以同時提取局部和全局上下文信息,然后將它們進行融合。Lee 等人[19]先用傳統方法提取低層次的啟發式特征(例如顏色對比度和Gabor響應),然后和原始圖像一起作為卷積神經網絡的輸入。上述方法很耗時,因為它們將圖像塊作為CNN 的輸入。此外,它們忽略了重要的圖像空間信息。
為了解決上述問題,相關研究者提出了基于全卷積神經網絡的方法[20-21]。它實現了端到端的檢測,并且FCN 的顯著性檢測方法可以捕獲更豐富的空間信息和多尺度信息,找到最佳的多尺度融合方法來解決由下采樣操作引起的尺度空間問題。Zhang等人[22]設計了一個混合的上采樣模塊,以減少反卷積操作引起的棋盤效應,并融合多層次卷積特征進行顯著性檢測。Liu 等人[23]設計了一個兩階段網絡,該網絡首先獲得粗略的顯著性預測圖,然后融合局部上下文信息以循環的方式且分層次的優化它們。Hou等人[9]受整體嵌套邊緣檢測器(HED)[24]的啟發設計了一個短連接的方式對側輸出進行逐步融合,然后進行顯著性預測。Luo 等人[10]改進了U形結構,并使用了多級上下文信息來準確定位顯著物體的位置。Zhang等人[22]將注意力機制嵌入到U形網絡結構中,以引導特征融合過程。Zhang 等人[25]利用一個雙向結構在FCN提取的多層次和多尺度特征之間傳輸信息,以更好地預測顯著圖。Chen等人(RAS)[26]采用逆向注意力模型來迭代地優化其側邊輸出。
與上述方法不同,本文的方法研究如何在FCN 的基礎上利用特征引導機制來提高性能。
研究人員在文獻[9,23,27-28]中指出,深層的語義信息有助于定位顯著性物體的位置,淺層和中層特征可以補充一些細節信息,以保證物體的完整性。基于此,本文提出了新的顯著性物體檢測模型,利用全局特征準確定位顯著物體位置,通過信息引導流將全局特征與側邊輸出的多尺度特征進行融合。
本文提出的模型基于特征金字塔網絡[29],它是典型的U型結構,具有自底向上和自頂向下兩個路徑。由于它具有組合來自分類網絡的多層次特征[30-31]的能力,因此許多視覺任務采用了此類網絡結構。本文所提模型結構如圖2 所示,首先,全局特征生成模塊(GGM)建立在自底而上路徑的最頂部。在這個過程中,淺層會顯現出一個大致的物體輪廓,隨著網絡的加深,細節信息會丟失,深層卷積層輸出顯現出一個模糊的物體。融合深層信息和淺層信息可以突顯物體的完整性,因此,將由GGM 提取的信息通過引導流(GF)分配到各個層次的特征圖中,具體的方法是逐像素相加,這樣做可以便于定位不同層次特征圖中顯著性物體的位置。在進行特征融合之前,利用殘差模塊(RM)通過不同卷積核大小的卷積運算提取不同尺度的特征以進行多層級特征增強。

圖2 模型架構
FPN 在自頂向下的過程中可以逐步融合來自主干網絡的多層次和多尺度特征。因為自頂而下的路徑建立在自底而上的主干網絡上,所以這種結構的問題之一是深層的語義信息在傳輸到低層時會逐漸被稀釋。研究表明,CNN經驗上的感受野比理論上要小得多,尤其是對于更深的層次。因此,對于輸入圖像,整個網絡的感受野不足以提取足夠的全局信息。另外,由于自頂向下的路徑中缺少深層語義信息,因此,本文提出了一種全局生成和特征引導流模塊,直接將深層特征與側輸出特征相互融合,準確定位各個層次特征圖中的顯著性物體的位置,GGM模塊的詳細結構如圖3所示。

圖3 全局引導模塊的詳細結構
更具體地說,為了有效地捕獲輸入圖像的上下文信息,受SIFT 特征提取的啟發[32],本文利用膨脹卷積[33]獲得具有相同比例但不同感受野的特征圖。在卷積和池化的過程中卷積核的感受野是相對變大的,但是依然可以進行進一步的擴大,提取更多信息。卷積核膨脹就是將卷積核擴張到膨脹尺度約束的尺度中,并將原卷積核沒有占用的區域填充為零,這樣可以使輸出變得稠密,而且在不增加計算量的情況下,擴大了卷積核的尺寸。將VGG-16中的conv5_3作為深層語義特征來提取全局信息。第一個分支利用卷積核大小為1×1 的卷積操作來降低維度,而接下來的三個分支則使用膨脹率分別為3、5和7的膨脹卷積捕獲多感受野的上下文信息。為了更好捕獲全局上下文信息,添加了全局最大池化操作作為額外的分支,然后結合來自不同分支的特征圖,采用3×3和1×1的卷積操作生成具有一個通道的特征圖作為全局特征輸出。
首先使用了一個類似于inception的結構,因為顯著性物體檢測不針對特定目標,不同物體在不同圖像中所占的比例、位置都不盡相同,因此,很難為卷積運算選擇合適的卷積核大小。因此,采用不同大小的多個卷積核分別對側輸出進行卷積操作,從而提取多尺度的側輸出信息。
此外,受殘差網絡[30]啟發,在上述結構的基礎上,本文提出了一種殘差結構模塊來提取多尺度特征。利用殘差結構第一是為了加快訓練時間,使模型收斂速度更快,第二是為了加強上下文之間的聯系,原始的卷積層經過一系列操作后再與原始的卷積層融合可以提取更多細節信息,進行進一步的特征優化和調整。殘差模塊的細節信息如圖4所示。卷積核大小會影響訓練時間,為了保證模型的統一性且不增加過多的參數,不宜采用過大的卷積核,因此,本模型以卷積層的最小尺寸為基礎,采用三個具有不同卷積核大小(1×1,3×3,5×5)的卷積層在降維的同時生成三種特征圖。為了獲得多尺度的上下文信息,將這些特征圖和原始卷積層進行結合,得到fcat,然后通過一個3×3 和一個1×1 卷積的運算獲得只含有一個通道的特征圖。

圖4 殘差模塊的結構
該模型的最終損失為所有側邊輸出損失的總和,由以下公式表示:

其中,lk表示第k個側輸出的損失,K表示輸出的總數,αk是每個輸出的權重。在本文中,將每個側輸出的αk設置為1。
在本文中,選擇二值交叉熵損失函數作為模型的損失函數,它是交叉熵損失函數的一個特例且是二分類問題中常用的一種損失函數,顯著性檢測可以看做是一個二分類問題,其結果用0和1兩種類別來表示,0代表圖像背景,1 代表顯著性物體,模型會通過一個sigmoid 函數輸出概率值。概率值越大,表示該像素為顯著性物體的可能性越大。具體公式如下:

其中,H、W表示圖像的高度和寬度,Gxy∈(0,1)是像素(x,y)的真值圖標簽,Sxy表示相應的成為顯著性物體的概率。另外,通過雙線性插值法將6個顯著性預測圖上采樣到與真值圖相同的大小,最后,使用Sigmoid 函數將預測圖的值歸一化為[0,1]。
數據集:為了評估模型的性能,本模型在五個具有代表性的公開數據集進行了實驗,這些數據集包括ECSSD[34]、HKU-IS[35]、PASCAL-S[36]、DUT-OMRON[6]、DUTS-TE[37]。ECSSD 具有1 000 幅語義信息豐富的復雜結構圖像。HKU-IS是一個較大的數據集,包含4 447幅復雜圖像,其中大多數具有兩個或多個顯著性物體。PASCAL-S 具有850 張背景和前景復雜的圖像。DUTOMRON 數據集包含5 168 張圖像,雖然大多數圖像只有一個顯著性物體但具有數百種不同的類別。DUTS-TE數據集由于其多樣性和數量龐大的特性,已廣泛應用于相關的顯著性檢測模型。
評估指標:本文使用四個指標評估模型性能:準確率-召回率(PR)曲線、F-measure、ωF-measure和平均絕對誤差(MAE)。
顯著圖的準確率和召回率是通過將預測圖與真值圖相比,預測圖中預測正確的像素所占的比例來計算的,從0 到255 的閾值得到一系列相對的準確-召回值,繪制PR曲線。
F-measure可以評估顯著性圖的質量,通過準確率和召回率的加權調和平均得到:

其中,β2設置為0.3,和以前的論文[38]一樣。與Fβ類似,ωF-measure用Precisionω和Recallω的加權調和平均值計算。
MAE得分用來評估顯著圖S與真值圖G之間的平均像素差值:

本文分別選擇VGG-16[31]和Resnet[39]作為主干網絡,使用DUTS-TR 數據集訓練模型。在訓練過程中,每個輸入圖像的大小均調整為320×320,除主干網外,其他卷積層均由Xavier 初始化[40],且使用Adam 優化器[41]優化本文的網絡,并將一些超參數設置為默認值,其中初始學習率為5E-5,權重衰減為5E-4。參照文獻[31]中的建議,本文模型在訓練時未使用驗證集,訓練損失穩定時停止訓練。所有上采樣操作均使用雙線性插值的方法。本文所提的網絡模型在公開可用的框架Pytorch 0.4.0[42]上實現。
通過組合不同模式的GGM、RM 和GF 進行消融實驗,以說明所提各模塊的有效性。表1顯示了在數據集ECSSD和DUTS-TE上的性能比較結果。

表1 在兩個流行數據集上的消融實驗的對比結果
RM。簡單地將RM嵌入基礎網絡中可以提高檢測性能。這可能是因為與原始卷積層相比,RM使用不同大小的卷積核擴大了整個網絡的感受野,并且還表明FPN 結構仍需要結合更多來自不同尺度和不同層次的特征圖。
RM+GF。在上述模型基礎上增加了信息引導流,但用普通的卷積核1×1 代替了GGM,并降成一個通道的特征圖。由于深層特征圖含有豐富的語義信息可以為淺層特征圖補充信息,因此檢測效果有所提升。
GGM+GF。GGM 和GF 的組合方式優于前兩種情況。來自GGM的全局信息使模型能夠更加專注于顯著性物體的完整性,從而提高預測顯著圖的質量。
GGM+RM+GF。這種組合方式可以進一步提高整個網絡的性能。利用這些模塊可以使模型擁有準確定位顯著性物體的位置和完善邊界信息的強大能力。圖5是可視化效果比較。

圖5 消融實驗的視覺對比結果
本文所提模型與11種近年發表的主流方法進行比較,包 括UCF[22]、RFCN[43]、DHS[23]、Amulet[44]、DCL[20]、NLDF[10]、DSS[9]、PAGRN[45]、C2S[46]、PiCANet[47]、RAS[26],其中UCF 是典型的編碼和解碼結構,只是用深層次特征生成最終的特征圖,缺少淺層的細節特征。DSS、DCL、DHS 和NLDF 先提取多尺度和多層次特征,然后用上采樣進行逐層次融合生成最終的顯著圖。Amulet和C2S 加入了邊界約束,進一步補充顯著圖的邊界信息。RAS 和PiCANet 則是在多尺度和多層次特征的基礎上加入了注意力機制。最后RFCN和PAGRN則是加入了循環結構,RFCN額外添加了先驗圖作為引導信息,而PAGRN加入了注意力機制。這些模型都沒有注重深層特征的重要性。本文模型充分利用了深層的特征。
定量比較:表2是所提模型和主流方法在五個公開數據集上的比較結果。其中DCL、DSS兩個模型采用了全連接條件隨機場(CRF)的后處理技術。從表2中可以看到,本文模型的性能仍幾乎超過了所有模型,整體性能最佳。為了進行更直觀的比較,本文還展示了在五個數據集上的PR曲線,如圖6所示。可以看出,與其他經典的方法相比,本文模型(紅色)的PR 曲線幾乎領先或持平于其他模型。在PASCAL-S數據集中,本文的準確率和召回率略低于PAGRN 和PiCANet,可能是因為這兩個模型中加入了循環機制和注意力機制,但總體而言,本文模型預測的顯著性圖的質量更高。

圖6 本文算法的PR曲線與經典算法在5個數據集上的比較

表2 在5種基準數據集上的性能比較
視覺比較:為了進一步證明本文提出的模型的優越性,在圖7 中展示了一些視覺比較結果。從頂部到底部,圖像的場景分別包括大物體、小物體、前景和背景之間的低對比度以及含有復雜的物體結構。可以明顯看出,本文模型不僅可以預測正確且較完整的顯著性物體,而且可以保持清晰的邊界。

圖7 與經典模型的視覺對比結果
本文提出了一種顯著性物體檢測模型,通過設計和實現全局特征生成模塊(GGM)和殘差模塊(RM),研究多尺度和多層次特征的提取與融合,尤其是深層語義信息的利用。實驗結果表明,該模型可以在五個廣泛使用的基準數據集較現有的主流網絡具有較好的檢測性能,此外,本文設計的模塊獨立于網絡結構,可以靈活地應用于基于特征引導的模型。在以后的研究中,將探討注意力機制對顯著性檢測中不同通道和區域的影響。