趙應丁,岳星宇,楊文姬,4,張吉昊,楊紅云,4
(1.江西農業大學軟件學院,江西 南昌 330045;2.江西農業大學計算機與信息工程學院,江西 南昌 330045;3.華中科技大學外國語學院,湖北 武漢 430074;4.江西省高等學校農業信息技術重點實驗室,江西 南昌 330045)
人類視覺注意力機制使得人眼能夠快速地從視覺場景中獲取到感興趣的區域并傳遞給大腦,大腦重點處理感興趣區域細節信息,這種方式大大加速了人類對視覺場景的理解。顯著性檢測即模仿人類視覺注意力機制,通過一系列的處理獲得圖像中容易引起人眼注意的區域或目標,其能夠大大降低后續處理的復雜度,因此被廣泛應用于計算機視覺領域,其中包括目標檢測[1]、語義分割[2]、圖像描述[3]、視頻摘要[4]和無監督視頻對象分割[5]等。
由于卷積神經網絡CNN(Convolutional Neural Network)在計算機視覺領域中的突出表現,基于CNN的深度顯著性檢測方法成為顯著性檢測的主流方法。相比于傳統的顯著性檢測方法,深度顯著性檢測方法不需要人為設計特征,能夠自動學習有利于顯著性檢測的特征,使得到的顯著性目標更加準確,而且深度顯著性檢測方法具有更強的魯棒性。近幾年,各種各樣的深度顯著性檢測方法被提出。比如,Wang等人[6]通過集成局部估計和全局搜索來預測顯著性圖:首先使用深度神經網絡學習局部塊特征,為每個像素提供顯著性值;然后將局部顯著性圖、全局對比度和幾何信息合并在一起,輸入到另一個神經網絡中,預測每個區域的顯著性值。Zhao等人[7]提出一種用于顯著對象檢測的多上下文深度學習框架,設計2個不同的CNN,以獨立捕獲每個分割段的全局和局部上下文信息,最后通過回歸器確定每個分割段的顯著性值。Lee等人[8]將CNN提取的高級語義特征和人工設計特征進行融合,通過全連接神經網絡預測每一個查詢區域的顯著性。Hou等人[9]通過添加短連接對HED(Holisitcally-nested Edge Detector)網絡進行更改,使其能夠用于顯著性檢測,短連接的方式使得底層網絡可在高層語義特征指導下,更好地定位顯著性目標或區域,同時底層網絡也能夠優化高層網絡的輸出結果。Li等人[10]提出多分支CNN,網絡最后分為2個分支,2個分支分別進行語義分割和顯著性檢測,通過這樣的策略,網絡中共享的部分就能夠產生對對象感知更有效的特征,促進顯著性檢測。Wang等人[11]提出一種用于顯著性檢測的循環全卷積網絡,并將顯著性先驗融合到全卷積網絡中,利用顯著性先驗不斷地修正之前的檢測結果,從而獲得更加準確的顯著性圖。文獻[12]將3個VGG16網絡并聯,使得網絡能夠提取不同尺度的特征,然后通過融合3個VGG16網絡預測的結果獲得最終的顯著性圖,雖然能夠得到更準確的結果,但是網絡并聯極大地增加了參數量。Luo等人[13]同樣使用VGG16作為骨干網絡,提出一種多尺度的網絡模型,通過融合不同尺度下的檢測結果得到最終的顯著性圖。文獻[14]通過利用輸入圖像的對比度信息提出一個深度對比度網絡,它結合了像素級完全卷積流和分段空間池化流,最后使用條件隨機場進一步完善來自對比網絡的預測結果。Liu等人[15]設計了一個2階段的深度網絡,通過該網絡生成粗略的顯著性圖,然后使用遞歸的CNN逐步地完善顯著性圖的細節。
雖然深度顯著性檢測方法發展極快,很大程度上提升了顯著性檢測結果的準確性,但是它也存在如下問題:(1)受卷積核尺寸的限制,網絡底層只能在較小感受野內提取特征;(2)CNN是通過不斷堆疊卷積層的方式獲取全局特征的,網絡將局部信息從底層傳遞到高層,在高層綜合局部信息獲得全局信息,逐層傳遞的過程會造成大量信息遺失,此外,網絡太深也會導致計算開銷加大,難以優化。本文提出一種基于多特征融合卷積神經網絡,該網絡具備在多個尺度下學習局部特征和全局特征的能力,最后通過融合不同尺度的結果獲得最終的顯著性圖。本文在多特征融合卷積神經網絡中加入局部特征增強模塊和全局上下文模塊,較好地解決了上述2個問題。

Figure 1 Structure diagram of multi-feature fusion convolutional neural network圖1 多特征融合卷積神經網絡結構圖
縱觀文獻,好的顯著性特征必須考慮圖像的局部和全局上下文信息,并融合各種分辨率的細節特征。為達到上述目的,本文設計了一種基于多特征融合卷積神經網絡的顯著性檢測方法。該方法的網絡結構圖如圖1所示,網絡使用VGG16作為骨干網絡,并將其最后3層全連接層替換成全卷積層,用于提取全局特征。VGG16網絡中包含5個池化層,每次池化操作后特征圖大小都只有原來的一半,5次池化后將會獲得5種分辨率的特征圖。在網絡的每個池化層后,都加入側出部分用于提取特定分辨率的特征,這樣,網絡就具備學習多尺度特征的能力。網絡的側出部分:第1行由局部特征增強LFE(Local Feature Enhancement)模塊組成,LFE大幅地增加了網絡的特征提取范圍;第2行由全局上下文建模GCM(Global Context Modeling)模塊組成,GCM用來學習特征圖的全局信息,然后將學習到的全局信息融合到特征圖中,并輸入到下一行的卷積層中;第3行的卷積層通過對包含了全局信息的特征圖的學習,得到不同分辨率的多尺度局部特征圖;第4行由對比度層組成,目的是捕獲多尺度局部特征圖中前景和背景的差異信息,學習對比度特征;最后一行用于融合多尺度局部特征圖和對比度特征圖;由于每一列局部特征圖的分辨率不統一,所以增加了反卷積層,從分辨率小的特征圖開始,逐層從后往前進行融合,最后通過一個卷積層來得到側出部分輸出的最終局部特征。將最終的局部特征和全局特征分別通過一個卷積層再相加,獲得包含局部和全局的特征,最后通過Softmax輸出預測的顯著圖。
對于給定圖像I,首先將圖像尺寸調整為416*416,然后輸入到如圖1所示的網絡中。網絡采用VGG16作為骨干網絡,網絡的每一次池化操作都會使得特征圖大小變為原來的一半,經過5次池化操作(Pool-1到Pool-5)即可得到5種分辨率的特征圖,記為{F1,F2,F3,F4,F5}。
在CNN中,卷積操作只在感受野內進行,對于特征圖中的每個位置,都是以該位置為中心點,將該位置及其周圍鄰域位置進行加權求和得到新的特征圖中該位置對應的濾波結果。對于顯著性檢測而言,更大的感受野可以更好地幫助網絡定位感興趣區域。在網絡底層,相對于特征圖尺寸,感受野尺寸太小,感受野范圍內的特征變化不明顯,導致局部對比不強烈,不利于顯著性檢測。因此,可以適當增加感受野范圍,而感受野大小受到卷積核尺寸的限制,所以可以通過增加卷積核尺寸來增加感受野范圍,使網絡能夠在更大視野范圍內提取特征,從而達到增強局部特征的目的。但是,直接采用更大卷積核勢必伴隨著參數量的大幅增長,例如,對于一個13*13的卷積核而言,其參數數量是3*3卷積核的18.8倍,因此,直接使用13*13卷積核會造成負擔不起的計算花銷。
基于此,本文在前述提取的特征上加入局部特征增強模塊,在只增加較少參數量的情況下大幅度增大了感受野的范圍,從而達到了增強局部特征的目的,局部特征增強模塊的結構如圖2所示,其中,H*W表示特征圖尺寸,C表示通道數。該模塊可以提取到13*13范圍內的特征,但相比13*13卷積核的參數量,該模塊的參數量減少了83.4%,為3*3卷積核參數量的3倍。

Figure 2 Local feature enhancement module圖2 局部特征增強模塊
全局上下文信息也是顯著性檢測的有效線索。在CNN中,首先,卷積層通過卷積核對特征圖進行局部感知,然后通過不斷堆疊卷積層方式,將底層感知的局部信息逐層向網絡高層進行傳遞,在網絡高層中綜合這些局部信息來獲得全局信息。這樣的方式有很大局限性,堆疊卷積層會大量增加計算量,增大網絡優化難度,而且信息從底層傳遞到高層的過程中也會造成信息的大量遺失。
本文通過在傳統CNN網絡中嵌入全局上下文建模模塊[16]的方式克服上述問題,使得網絡不需要通過疊加卷積模塊就能夠快速地獲得對特征圖的全局理解。該模塊的具體結構如圖3所示,其中X和Z分別表示輸入和輸出,Wk、Wv1、Wv2表示3次卷積操作,r控制通道數量。模塊主要分為3個階段:首先獲取全局上下文信息,然后通過卷積操作進行特征轉換,最后通過逐元素相加的形式進行特征融合。

Figure 3 Global context modeling module圖3 全局上下文建模模塊

(1)
其中,F′i表示Fi局部平均池化后的結果,平均池化的核尺寸為3*3。

(2)
其中,concat表示特征圖融合,Deconv表示反卷積操作。

(3)
檢測圖像中的顯著性對象需要捕獲圖像的全局信息,因此,本文在Pool-5層后,使用3個卷積層Conv-G1、Conv-G2和Conv-G3替換VGG16網絡中的3個全連接層,用來獲得全局特征,將全局特征記為FG,這3個卷積層均包含128個特征通道,卷積核尺寸分別是7*7,5*5和3*3。
組合前面得到的局部特征FL和全局特征FG來計算最終的顯著性圖S,本文使用局部特征和全局特征的線性組合來計算顯著性圖,最后,使用Softmax函數計算每個像素v是顯著性對象的概率P,具體如下:
S(v)=P(G(v)=c)=
(4)
其中,G(v)表示人工標注圖G中的像素v,c和c′分別代表類別和類別集合,wL和wG表示局部和全局權重參數,bL和bG表示局部和全局偏置參數。
顯著性檢測可以認為是二分類任務,而在二分類任務中,通常使用的損失函數為交叉熵損失。交叉熵損失能夠衡量真實概率分布和預測概率分布之間的差異性。二分類的交叉熵損失計算公式如式(5)所示:
(5)
其中,N表示樣本個數;G和S分別表示人工標注的顯著圖和網絡預測的顯著圖。
為了縮短網絡的訓練時間,使用預訓練的VGG16網絡權重對網絡的骨干部分進行初始化,網絡的其余部分采用隨機初始化。網絡使用Adam優化器優化目標函數,初始學習率設置為10-6,β1=0.9,β2=0.999。
選用MSRA-B數據集作為網絡的訓練集,其中,BatchSize被設置為1,圖像在輸入網絡之前尺寸會被重新調整為416*416,總共訓練20輪,總耗時22 h。訓練使用的計算機主要硬件配置如表1所示。

Table 1 Computer hardware configuration
為了驗證所提方法的有效性,分別在HKU-IS、DUT-OMRON、ECSSD和SOD數據集上對網絡性能進行了驗證。這4個數據集均提供像素級的人工標注圖,各個數據集的簡要說明如下:HKU-IS數據集包含4 447幅圖像,大多數圖像對比度低且具有多個邊界重疊的顯著性目標;DUT-OMRON數據集由5 168幅圖像組成,大部分圖像具有比較復雜的背景;ECSSD數據集共有1 000幅圖像,圖像內容多是包含結構復雜的自然場景;SOD數據集包含300幅圖像,大多數圖像中包含多個顯著性目標,而且顯著性目標和背景的顏色對比度較低。
在上述4個數據集上,將本文方法同其它11種顯著性檢測方法(MR[17]、HDCT[18]、TLLT[19]、RFCN[11]、NLDF[13]、DS[10]、DCL[14]、ELD[8]、SBF[20]、UCF[21]和RSD[22])分別在視覺和定量分析上進行了對比,其中前3種方法屬于傳統顯著性檢測方法,后8種方法是深度顯著性檢測方法,實驗結果表明,本文方法優于參與比較的方法。
4.2.1 視覺對比
為了將本文方法檢測的顯著性圖和由其它11種方法生成的顯著性圖進行視覺對比,在此,分別從HKU-IS、DUT-OMRON、ECSSD和SOD數據集中選擇具有復雜背景或前景和背景對比度比較低的圖像進行對比,具體結果如圖4所示,其中GT表示人工標注的結果。

Figure 4 Saliency detection results of different methods圖4 本文方法與11種方法的視覺對比圖
通過觀察圖4可以發現,深度顯著性檢測方法的結果整體上是優于傳統顯著性檢測方法的,后者錯檢和漏檢的情況比較明顯。觀察深度顯著性檢測方法的結果(圖4f~圖4n)可以發現,它們都大致檢測出了顯著性目標的主要區域,觀察圖4c、圖4d、圖4g和圖4h發現,大多數深度顯著性檢測方法雖然檢測出了顯著性目標的主體,但輪廓卻不夠完整,缺失較多邊界細節,只有本文方法不僅準確檢測出了顯著性目標,同時保留了比較完整的目標輪廓(從圖中可以看出,本文方法的檢測結果不僅包含了老虎和山雞的主體部分,其中比較細小的尾巴區域也被較完整地檢測出來),因此本文方法的有效性得到了驗證。
4.2.2 定量分析
為了從多個角度評價本文方法的有效性,本文還使用了PR曲線、F-measure、均值絕對誤差MAE(Mean Absolute Error)和S-measure等4個指標評來價網絡模型的性能。

Figure 5 PR curves of different methods圖5 各方法的PR曲線
(1)PR曲線。
PR曲線是顯著性檢測中最常用的評價指標。精確率Precision和召回率Recall是在二值顯著性圖和真值圖上計算得到的,因此在計算Precision和Recall時,首先要將顯著性圖轉換為二值顯著性圖。通常將顯著性圖轉換為二值顯著性圖的方法是將閾值設置為0~255對檢測的顯著性圖進行分割,每個閾值可得到一個二值顯著性圖,每個二值顯著性圖都對應一對Precision和Recall,所有的Precision和Recall對就形成了一條PR曲線,用來描述顯著性檢測模型的性能,PR曲線越靠近右上角(坐標(1,1)處),就表明模型的性能越好。Precision和Recall的計算公式如式(6)所示:
(6)
其中,TP表示人工標注為正類,同時被預測為正類的結果;FP表示人工標注為負類,但是被預測為正類的結果;FN表示人工標注為正類,但是被預測為負類的結果。在顯著性檢測中,正類表示顯著性像素,負類表示背景像素。
各方法的PR曲線如圖5所示,從圖5中可以比較明顯地看出,在4個數據集上,深度顯著性目標檢測方法都明顯優于傳統顯著性目標檢測方法;圖5中的各深度顯著性目標檢測方法之間的PR曲線區分度較小,但不難發現,本文方法的PR曲線(所示的曲線)更加靠近外側,說明在這些數據集上,本文方法的檢測結果要更加準確。
(2)F-measure。
F-measure通過計算精確率和召回率的加權調和平均值全面考慮精確率和召回率,計算公式如式(7)所示:
(7)
本文同大多數方法一樣,將β2設置為0.3,更加強調Precision。一些方法會使用自適應閾值(閾值為顯著圖平均值的2倍)分割顯著性圖,計算相應的平均F-measure值;另一些方法會直接使用最大F-measure值,本文使用最大F-measure。
本文方法和其它11種方法在4個數據集上的F-measure對比結果如圖6所示,在4個數據集上,本文方法的F-measure分別是0.897,0.732,0.904和0.821。由于本文方法同時考慮了多尺度,局部增強特征和全局上下文特征等有益于顯著性檢測的因素,可以發現,本文方法在4個數據集上的F-measure均高于另外11種方法的,和排名第2的深度顯著性檢測方法對比,本文方法的F-measure也高出了1到2個百分點。

Figure 6 F-measure of different methods on different datasets圖6 各方法在不同數據集上的F-measure
(3)MAE。
PR曲線和F-measure在顯著性目標檢測中使用的頻率很高,但是它們也存在問題,即它們都沒有考慮非顯著性像素的情況。MAE通過在像素層次上計算歸一化顯著性圖S和真值圖G之間的絕對誤差均值來解決該問題。MAE的計算公式如式(8)所示:
(8)
其中,W和H表示圖像的寬和高,(i,j)表示圖像中的像素點坐標。
各個方法的MAE評價結果如表2所示。MAE值越低說明方法的性能越好,表中加粗的數值對應的方法即為各個數據集上排名前3的方法。通過對比表2中的數據可以發現,在4個數據集上,本文方法的MAE值均低于其它11種方法的,說明本文方法的檢測結果更接近真值,錯檢情況更少;對比結果表明,本文方法性能要優于其它11種方法的,本文的網絡獲得的多尺度局部增強特征和全局上下文特征十分有利于顯著性檢測。
(4)S-measure。
Precision、Recall、F-measure和MAE都是逐像素計算誤差,而S-measure是從人類視覺系統對場景結構非常敏感的角度出發,使用結構性度量評估檢測結果,使得評估結果和人的主觀評價具有高度一致性。S-measure同時考慮了對象角度So和區域角度Sr的結構相似性,計算方法如式(9)所示:
S-measure=α×So+(1-α)×Sr
(9)
其中,α∈[0,1],本文中α設置為0.5。各方法的S-measure評價結果如表3所示。
同F-measure指標一樣,S-measure的值越大就說明方法的性能越好,對比表3中的數據可以發現,在4個不同的數據集上,本文方法均得到了最高的S-measure值(以DUT-OMRON數據集上的結果為例,本文的S-measure值為0.798,比排名第2的DCL方法高了3.5%),說明本文方法檢測結果的準確性更高,和人類視覺觀察的結果更吻合。

Table 2 MAE of different methods

Table 3 S-measure of different methods
為了對局部特征增強和全局上下文建模模塊的有效性進行驗證,本文設計了4組實驗,包括:(1)不使用局部特征增強模塊,也不使用全局上下文建模模塊;(2)使用局部特征增強模塊,但不使用全局上下文建模模塊;(3)使用全局上下文建模模塊,不使用局部特征增強模塊;(4)同時使用局部特征增強模塊和全局上下文建模模塊。
基于DUT-OMRON數據集圖像數量大、背景結構復雜、圖像中包含多個物體,更接近真實世界的情況,本文選擇在DUT-OMRON數據集上進行有效性驗證,4組實驗得到的PR曲線如圖7所示。圖7的圖例部分中,LFE表示局部特征增強模塊;GCM表示全局上下文建模模塊;“-”表示未使用此模塊;“+”表示使用此模塊。
將圖7中4組實驗的PR曲線進行對比可以得出以下結論:基于局部特征增強模塊和全局上下文建模模塊的模型是4種組合中性能最好的,因此基于局部特征增強模塊和全局上下文建模模塊的有效性得到了驗證;其次,這2個模塊都能有效地改進顯著性檢測的結果,但相比于全局上下文建模模塊,局部特征增強模塊能更明顯地提升網絡的性能。

Figure 7 Validation results of two modules圖7 模塊有效性驗證結果
本文提出了一種新的基于多特征融合卷積神經網絡的顯著性檢測方法,該方法能夠在不同尺度下學習局部特征和全局特征,在此基礎上,通過局部特征增強模塊和全局上下文模塊對深度顯著性檢測網絡性能進一步優化。本文通過對比實驗,對2個模塊的有效性進行了驗證,結果表明2個模塊均有效地改進了深度顯著性網絡的性能,能夠使本文的深度顯著性檢測方法取得更好的結果。此外,本文使用了多項指標在4個公開數據集上對本文的網絡性能進行了全面的評價,并和其它11種流行的顯著性檢測方法進行對比,視覺對比結果表明,本文方法不僅能夠準確檢測出顯著性目標的主體,同時還能夠保留比較完整的輪廓,在圖像背景結構相對復雜或目標和背景對比度較低的情況下,本文方法依然能夠較完整而準確地將顯著性目標從背景中分隔開;在其它幾項評價指標中,本文方法同樣取得了更好的結果。