趙恒 安維勝 付為剛



摘 要:針對目前基于深度卷積神經網絡的顯著性檢測算法存在對復雜場景圖像目標檢測不完整、背景噪聲多的問題,提出一種深度特征導向顯著性檢測算法。該算法是基于現有底層特征與深度卷積特征融合模型(ELD)的改進,網絡模型包含基礎特征提取、高層語義特征跨層級引導傳遞兩個部分。首先,根據不同層級卷積特征的差異性,構建跨層級特征聯合的高層語義特征引導模型;然后,用改進的網絡模型生成初始顯著圖,利用高層語義特征引導的方式進行顯著性聚類傳播;最后,用完全聯系條件隨機場對聚類傳播的結果進行優化,使其能夠獲取更多結構邊緣信息和降低噪聲并生成完整顯著圖。在ECSSD上和DUT-ORMON兩個數據集上進行實驗測試,實驗結果表明,所提算法的準確率和召回率(PR)優于ELD模型,其F-measure(F)值分別提升了7.5%和11%,平均絕對誤差(MAE)值分別降低了16%和15%,說明了所提算法模型能夠在目標識別、模式識別、圖像索引等復雜圖像場景應用領域得到更加魯棒的結果。
關鍵詞:顯著性檢測;深度特征;神經網絡;特征引導;顯著圖
中圖分類號: TP391.413; TP18
文獻標志碼:A
Abstract: As current saliency detection algorithms based on deep convolutional network have problems of incomplete target and noisy background detected from complex scene images, a new algorithm of deep feature-oriented saliency detection composed with basic feature extraction and high-level feature which guided cross-level aggregating delivery was proposed. It was based on the improvement of an extant Encoded Low level distance map with Deep features (ELD) model. Firstly, according to the characteristics of convolutional features at different levels, a cross-level feature fusion network model of high-level feature guidance was established. Then, saliency clustering propagation by using high-level feature guidance on initial saliency map that generated by improved neural network was implemented. Finally, final saliency map with more details and less noise was generated by using fully-connected conditional random field after saliency propagation. The experimental results on ECSSD and DUT-ORMON data sets show that, the Precision-Recall (PR) performance of the proposed algorithm is better than ELD algorithms, and F-measure(F) is increased by 7.5% and 11%, respectively, while its Mean Average Errors (MAE) are decreased by 16% and 15%, respectively,which also can obtain more robust results in complex image scene fields of target recognition, pattern recognition, image indexing, and so on.
Key words: saliency detection; deep feature; neural network; feature guidance; salient map
0 引言
視覺感知是人類接收外部圖像信息的主要機制,計算機技術的飛速發展,使得人們面對外部海量圖像數據信息時能夠借助計算機模擬人類視覺進行處理。研究人員發現,人類視覺注視點會落在圖像強烈刺激神經元的區域,根據這一機制逐漸衍生出了顯著性檢測方法[1]。顯著性檢測重點突出人們對圖像最關注(顯著)的目標區域,能夠避免信息冗余和降低后續計算復雜度,在圖像目標索引[2]、視頻壓縮[3]等領域應用廣泛。
現有顯著性檢測模型包括視覺顯著注視點[4]和視覺顯著目標的檢測[5]。人們根據數據處理方式分為自底向上和自頂向下的方法:自底向上方法基于底層數據計算,根據顏色對比度、中心或邊界先驗等區分顯著性[6];自頂向下算法模型,需要從大量樣本中提取特征并學習經驗(本質屬性特征)生成目標數學模型,然后利用所生成的模型對輸入圖像進行處理判斷顯著性[7]。
近年來深度卷積神經網絡逐步在顯著目標檢測中得到應用。Vig等[8]利用卷積稀疏編碼模型學習特征,然后利用支持向量機對圖像區域分類。Zhao等[9]提出局部和全局上下文信息聯合算法模型。由于這些算法模型在特征提取和傳遞過程中需要進行池化(pooling)或隨機失效(dropout)運算,不可避免地存在圖像信息的缺失。Liu等[10]指出在視覺觀測早期對圖像顯著區域定位檢測主要由底層數據驅動;在觀測后期則由高層語義特征起主導作用,而底層特征通常包含較多的結構細節信息,因此將高層語義特征與底層信息結合可提升算法模型性能。Li等[11]提出多尺度深度特征聯合模型;Li等[12]提出多任務深度卷積模型;Lee等[13]在VGG16(Visual Geometry Group Net16)模型[14]基礎上提出高層特征和底層特征差異圖聯合編碼模型。這三種算法模型相比早期網絡模型卷積層次更高,雖采取不同的策略但都利用了圖像底層特征。從總的來看算法性能有所提升,但由于底層特征權重過大,面對一些復雜的場景,仍然存在不足:目標局部區域缺失、結構邊緣不清晰、背景高亮的離散噪聲等。
因此,為提升顯著性檢測算法的性能,本文在底層特征編碼與高層語義特征融合(Encoded Low level distance map with Deep features, ELD)算法模型[13]基礎上進行改進,提出一種深度高層語義特征引導結合底層特征優化的模型。用改進的神經網絡生成顯著圖,然后為保證目標背景區域的均勻一致性,豐富邊緣信息和降低噪聲,利用底層特征聚類和完全聯系條件隨機場[15-16]進行優化。
1 深度特征引導的顯著性檢測
1.1 深度導向神經網絡模型
對于給定的數據集Data={(X,G)},Xj為訓練圖像集,Gj為其對應的真值圖像集, j(j=1,2,…,J)為圖像數量。ELD[13]網絡模型特征聯合過程為:
逆卷積運算過程中由于采樣間隔jg、滑動步距s和邊界填塞pts的存在,卷積后的特征圖分辨率或維度不一定完全和被聯合的特征圖相同,即可利用Crop層可以將逆卷積后的特征圖Yjv以Lj為模板進行裁剪,從而使得最終聯合的特征圖分辨率相同。特征聯合層則是相同分辨率的不同層級特征圖按照各元素位置相應的連接成同一個特征團(blobs),特征團降維和元素權值融合則是由尺度大小為1×1的卷積核W卷積實現。
根據式(1),將底層特征直接與卷積特征同權值聯合,雖能增添局部細節,但權重過大導致與底層數據驅動算法類似的缺陷。文獻[10]指出在視覺觀測的過程中高層語義特征會逐漸起主導作用,而ELD算法[13]中提到卷積層級更深的模型比早期只利用淺卷積層特征的模型性能更好,說明深卷積層相比淺卷積層獲取了更多的高層語義特征,淺卷積層相對包含較多底層特征。綜上可知,突出高層語義特征的主導性,以底層特征作為補充增添細化高層語義特征,可以避免底層特征權重過大的缺陷。
因此,本文利用ELD算法底層特征和卷積特征聯合的框架,將高層語義特征同其他中間層或淺卷積層進行跨層級的聯合傳遞,然后再增添底層特征細節作為補充。算法模型整體框架如圖1所示,VGG16模型主要包括S1、S2、S3、S4、S5的卷積層特征,參考文獻[12]的方法在VGG16模型基礎上進一步生成S6特征。根據層級特性不同,定義S5和S6為深卷積層;S1和S2為淺卷積層;S3和S4定義為中間層。為突出高層語義特征,首先將高層語義特征向中間層傳遞,從而引導中間層轉變為包含較多高層語義特征的卷積層。定義fjci代表S(i)的卷積層特征,則高層特征對中間層的引導計算過程如下:
式(3)和(4)中對于S6非直接對跨層級特征聯合缺少S5,應當改為"對于S6和S5非直接跳躍性的跨層級特征聯合"對于S6和S5非直接跳躍性的跨層級特征聯合,在文獻[17]算法中指出,跳躍性的層級特征聯合對于獲取高層語義特征的邊緣信息有改善作用。將高層語義特征與S2聯合生成S2′,然后引導五個高層語義特征與S1聯合生成S1′,計算過程如下:
在中間層和淺卷積層特征引導成功后,將所有結果再聯合,從而完成卷積神經網絡內部不同層級間,利用高層語義特征引導淺卷積層信息優勢互補的聯合過程,并進一步生成最終的卷積特征圖:
式(7)中fjuse為神經網絡輸出的卷積特征。式(8)中Sig()為Sigmod激活函數。其中式(3)~(7)中所涉及到的卷積核W尺寸大小為1×1,經過Concat layer聯合多個層次特征后特征圖blobs維度增加,通過尺寸1×1的卷積核,可以降低特征圖的維度;涉及到的偏置b為卷積輸出學習后附加的常數,初始化為0。式(8)中: fj此處的fj是矢量、向量或矩陣嗎?回復:是為全分辨率顯著圖;Λ為卷積神經網絡特征傳遞涉及到的所有參數集合; fj表示在參數集Λ下生成的顯著圖。
上述按圖1所示模型結構特征傳遞過程中,不同階段主要輸出特征圖的尺度大小如表1所示,在VGG16模型特征傳遞過程取的是池化前的尺度細節信息,特征聯合階段取的是輸出特征的尺度細節信息。
在模型訓練階段,神經網絡主要是提取特征并迭代求解模型的最佳參數Λ,參數是否優異通過交叉熵代價函數(Cross-entropy loss function)對輸出fj和Gjfj和Gj(j為下標)是矢量、向量或矩陣嗎?答:矢量之間的差異作評價,定義如下:
其中:[Xj]為圖像像素個數;Gji為像素i的真值標簽;γi為真值圖像標簽為0的像素數目比例; fji(Gji=1|Xj;Λ)為參數集Λ下神經網絡輸出的圖像像素i屬于標簽為1的概率; fji(Gji=0|Xj;Λ)則為像素i屬于標簽0的概率。L值越小說明模型輸出fj和Gji之間的差異越小,則相對應的參數集Λ就更加優異。通過式(109)代價函數對神經網絡模型進行迭代訓練,直到整個過程收斂時,求解對應的參數集合Λ,便可生成目標模型。對于輸入圖像I,經目標模型處理便可生成初始顯著圖f。
1.2 底層特征優化
卷積神經網絡在特征提取時采取較為固定的k×k大小的卷積核,而圖像目標形狀不一,結構復雜多變,不可避免存在結構邊界信息缺失。文獻[15]根據圖像特征進行聚類保留了圖像區域間結構邊界細節信息,文獻[16]采用完全聯系條件隨機場根據標記數據和觀測數據之間的內在聯系,對區域進行了類內平滑和類間邊界的分離,有效地平滑了區域和降低了噪聲,因此可以利用這兩個框架對初始顯著圖進行處理獲取結構邊緣信息和降低噪聲。
式(1110)代表圖像特征聚類優化,為了凸顯高層語義特征,參考文獻[2215]沒有文獻22,請作相應調整。要注意在正文中的引用順序。答:文獻15添加局部二值特征(Local Binary Pattern, LBP)特征的原理,將LBP替換為高層語義特征f,在聚類完成后計算超像素顯著性平均值,并作為超像素類內像素的顯著值,然后以此輸出聚類傳播后的顯著圖fy。對于輸入圖像I和對應的顯著圖fy,完全聯系條件隨機場優化的計算過程如下:
pi,pj,Ii,Ij,fs這幾個是矢量、向量或矩陣嗎?請明確?;貜停呵懊嫠膫€符號,表示圖像某一元素的空間位置和顏色特征,標量;第五個符號標記整個圖像,矢量。
其中: fs代表優化后的輸出結果;wik(fyi, fyk)為二元勢函數聯合代表顏色和空間特征的差異; μ(fyi, fyk)通常等于1,但當i=k時值為0;Tc為高斯核能量項;pi和Ii分別為像素i的空間和顏色特征;ω1,ω2,δα,δβ,δγ等參數控制空間和顏色特征在勢函數中的作用。聯合式(1211)~(1413)求解能量函數最優解,便可求得最終顯著圖fs。
1.3 模型細節
本文采用的深度學習框架為Caffe[18],硬件設備基于Intel CPU和Nvidia GTX GPU,以Python和C++語言進行圖像處理,Matlab 2014b作為實驗結果的數據對比處理。由于MSRA-B[12]數據集,包括5000張自然場景圖像,其中圖像包含人、動物、植物、房屋建筑等多種不同類別目標物,在顯著目標檢領域應用廣泛,因此以MSRA-B作為訓練集。運用隨機梯度衰減(Stochastic Gradient Descent, SGD)方式進行優化訓練,基礎學習率(base learning rate)為10-8,動量(momentum)為0.9,權重衰減系數(weight decay)為0.0005,批處理數量(batch size)為1,初始設置的最大迭代次數為50000。在實驗測試中,初始出現的代價損失最大值L約為900000,在迭代步長到達20000時,代價損失L在38000保持平穩波動,最后在迭代次數為20000~25000時,L值平穩收斂沒有進一步發生非常大的變化,因此實際選取的目標模型為迭代24000次時的求解模型,對應的損失值水平為36000,訓練過程耗時30h。圖2為能量損失值L此處應該為“能量損失值L”更為恰當些吧?請明確。答: 能量損失值L隨迭代步長的變化。
2 實驗對比測試
2.1 算法評價指標
為驗證本文改進算法的有效性,將本文算法與強判別區域特征集合(Discriminative Regional Feature Integration, DRFI)算法 [7]、深度顯著性(Deep Saliency,DS)算法[12]、底層與高層特征聯合編碼(Encoded Low level distance map with Deep features, ELD)算法[13]、多尺度深度特征(Multiscale Deep Feature, MDF)算法[11]進行測試對比。由于DRFI是早期學習型的經典算法模型,DS、ELD、MDF是近年基于深度神經網絡的算法。由于這幾種算法整體性能較好,比較有代表性,因此將本文算法與這幾種算法進行對比以體現出算法性能。采用顯著性檢測領域通用的PR曲線圖、F-measure(F)值以及平均絕對誤差(Mean Average Error, MAE)值[1]三種客觀評價指標來分析算法性能。
1)PR曲線圖。顯著灰度圖根據閾值從0~255進行閾值分割,再計算準確率P和召回率R值,根據不同值的變化在坐標軸繪制就可生成曲線圖。召回率R較高時準確率P高水平持續范圍廣,即PR曲線靠近坐標系右上角區域表征算法性能好。
2)F-measure(F)值。取顯著圖灰度平均值2倍對顯著圖進行閾值分割,計算P和R值,然后再計算F:
式(1514)中常設β2=0.3突出準確率,F值越大表示算法性能越優異。
3)MAE值。PR曲線圖、F值主要關注目標區域的完整性和均勻高亮程度,而背景噪聲也常常影響準確率。平均絕對誤差MAE能夠綜合目標和背景與真值圖相似的程度來評價算法性能,計算如下:
其中:M和N代表輸入圖像的大小。MAE值越小,說明顯著圖不僅目標區域與真值圖相似程度高,而且背景區域噪聲也少,反映了算法的整體性能更加優越。
2.2 數據集
測試對比采用的是ECSSD和DUT-OMRON兩個大型數據集[12]:ECSSD包含1000幅自然場景圖像,來源于BSD和PASCAL VOC兩個公開的數據集;DUT-OMRON有5168幅自然場景圖像,挑選自140000幅自然場景圖像,兩個數據集都包含相應的人為標注的真值結果。這兩個數據集圖像的來源較為廣泛,復雜程度高,涵蓋了人類社會生活對于圖像目標識別定位大部分類別,因此以此兩個大型數據集的結果作各個算法性能的對比,可以體現算法泛化的能力。DUT-OMRON圖像通常超過一個或多個顯著目標,相比ECSSD大多數圖像只包含一個顯著目標的自然場景更為復雜,顯著目標檢測的難度更大[12]。
2.3 數據評價指標定量對比
兩個數據集多種算法數據定量對比如圖3的PR曲線和表2所示。從數據上仔細對比可得:1)在PR曲線圖上,本文改進的算法相比DRFI、DS、ELD、MDF算法最接近于坐標右上角區域;ECSSD數據集上,90%以上準確率持續最長,在召回率為70~90%時準確率明顯高于其他算法;DUT-OMRON數據集上,由于復雜度提高所有算法性能都有所下降,但本文算法70%以上準確率持續范圍較長,在召回率為70%~80%時準確率明顯高于其他算法。2)從表2中可知,本文算法的F值相比DRFI、DS、ELD、MDF中值最高的算法,在ECSSD數據集上性能提升了7.5%,在DUT-OMRON數據集上性能提升了11%;本文算法的MAE值相比DRFI、DS、ELD、MDF中值最低的算法,在ECSSD數據集上降低了16%,在DUT-OMRON數據集上降低了15%。F值較高主要體現圖像目標檢測準確性和完整性,MAE值低則體現目標準確完整性和較少的背景噪聲,而本文算法在兩個客觀評價指標上效果都有大幅度的提升,也從側面說明了DS、ELD、MDF算法面對復雜場景存在著一定程度的目標局部區域缺失、邊緣模糊、背景離散噪聲的缺陷,而本文算法則對此缺陷進行了改善,從而在數據指標上有所體現。
2.4 視覺效果
不同顯著性檢測算法對自然場景圖像的處理示例如圖4所示,包含人工標記的結果。從圖4可以看出:在復雜自然場景下,不同顯著性檢測算法處理圖像的結果與標記圖都存在著差異,但整體上基于學習的算法模型結果和真值圖最為相似。早期的DRFI多特征集合,目標定位較為準確,但背景噪聲未能較好抑制,且目標高亮程度有待提升,本文算法以及DS、ELD、MDF近年較為先進的算法對顯著目標定位識別較好,但仔細查看細節,DS、ELD、MDF算法檢測的目標局部區域是有缺失的,邊緣細節不清晰,含高亮的離散噪聲,而本文算法的結果目標均勻一致高亮,結構邊緣信息豐富,背景噪聲抑制程度最好,最接近于真值圖的效果,與2.3節的數據結果定量對比也是相一致的,突顯了本文算法的優越性。
3 結語
針對現有的底層特征與深度高層語義特征融合的ELD算法模型存在的目標局部缺失和離散噪聲的問題,本文提出深度特征導向的顯著性檢測算法。根據卷積網絡各層級特征特性的不同,為突出高層語義特征在顯著性檢測中占據的主導性作用,構建了從深卷積層到低卷積層的跨層級特征引導聯合網絡模型,實現不同層級特征的優勢互補。針對卷積神經網絡在特征提取時卷積核大小固定的缺陷,利用特征聚類和完全聯系條件隨機場對初始顯著圖優化,獲取結構邊界信息和清晰的邊緣并降低噪聲。在兩個大型數據集上進行實驗測試,綜合客觀評價指標定量分析和視覺效果圖的直觀對比,表明了本文算法的有效性,在復雜自然場景圖像顯著目標檢測中,能夠更加準確地分離目標和背景,并且使目標區域均勻一致高亮,背景噪聲少。
從本文數據對比和直觀的實驗結果可以看出,多目標的圖像目標檢測效果比單一目標的圖像效果相對差一些,進一步的研究方向是探索更佳的網絡結構和網絡輸出特征與底層特征能夠更好結合的方式,以求得算法多目標檢測性能的提升;同時嘗試將底層特征優化的方法直接融合于卷積神經網絡訓練的過程中,進一步降低Loss損失,提高模型的魯棒性。
參考文獻 (References)
[1] BORJI A, CHENG M M, JIANG H Z, et al. Salient object detection: a benchmark [J]. IEEE Transactions on Image Processing, 2015, 24(12): 5706.
[2] GAO Y, WANG M, TAO D C, et al. 3-D object retrieval and recognition with hypergraph analysis [J]. IEEE Transactions on Image Processing, 2012, 21(9): 4290-4303.
[3] HADIZADEH H, BAJIC I V. Saliency-aware video compression [J]. IEEE Transactions on Image Processing, 2014, 23(1): 19-33.
[4] ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection [C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2009: 1597-1604.
[5] ZHU W, LIANG S, WEI Y, et al. Saliency optimization from robust background detection [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 2814-2821.
[6] LI X, LU H, ZHANG L, et al. Saliency detection via dense and sparse reconstruction [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2013: 2976-2983.
[7] JIANG H Z, WANG J D, YUAN Z J, et al. Salient object detection: a discriminative regional feature integration approach [J]. International Journal of Computer Vision, 2014, 123(2): 251-268.
[8] VIG E, DORR M, COX D. Large-scale optimization of hierarchical features for saliency prediction in natural images [C]// Proceedings of the 2014 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 2798-2805.
[9] ZHAO R, OUYANG W, LI H, et al. Saliency detection by multi-context deep learning [C]// Proceedings of the 2015 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1265-1274.
[10] LIU N, HAN J W, ZHANG D W, et al. Predicting eye fixations using convolutional neural networks [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 362-370.
[11] LI G B, YU Y Z. Visual saliency based on multiscale deep features [C]// Proceedings of the 2015 IEEE Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5455-5463.
[12] LI X, ZHAO L M, WEI L N, et al. DeepSaliency: multi-task deep neural network model for salient object detection [J]. IEEE Transactions on Image Processing, 2016, 25(8): 3919-3930.
[13] LEE G, TAI Y W, KIM J. Deep saliency with encoded low level distance map and high level features [C]// Proceedings of the 2016 IEEE Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 660-668.
[14] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. ArXiv Preprint, 2014, 2014: 1409.1556.
[15] 李嘯宇,張秋菊.融合局部紋理特征的顆粒圖像SLIC超像素分割方法[J].食品與機械,2016,32(12):31-34.(LI X Y, ZHANG Q J. A SLIC-based superpixel segmentation method by using local texture feature for granular image [J]. Food and Machinery, 2016, 32(12): 31-34.)
[16] 劉彤,黃修添,馬建設,等.基于完全聯系的條件隨機場的圖像標注[J].計算機應用,2017,37(10):2841-2846.(LIU T, HUANG X T, MA J S, et al. Image labeling based on fully-connected conditional random field [J]. Journal of Computer Applications, 2017, 37(10): 2841-2846.)
[17] HOU Q, CHENG M M, HU X, et al. Deeply supervised salient object detection with short connections [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 5300-5309.
[18] JIA Y Q, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding [C]// Proceedings of the 2014 ACM Conference on Multimedia. New York: ACM, 2014: 675-678.