李亞茹
(上海海事大學 信息工程學院,上海 201306)
基于卷積神經網絡的顯著性檢測*
李亞茹
(上海海事大學 信息工程學院,上海 201306)
顯著性檢測在圖像處理領域應用廣泛,當前顯著性檢測主要有自底而上與自頂而下及一些相關或改進算法,它們各有優勢和缺陷。提出了一種基于卷積神經網絡的顯著性檢測算法,利用卷積神經網絡在圖像處理方面強大的功能提取圖像特征,進行特征融合,最后得到顯著性圖,用于顯著性檢測。將本文方法與傳統的顯著性檢測方法進行對比,發現本文方法效果顯著。
卷積神經網絡;特征提取;顯著性檢測
顯著性檢測技術廣泛應用于圖像壓縮、檢索、識別等圖像處理領域,因此需要更加高效魯棒的顯著性檢測方法來處理不同的圖像。早期KOCH C與UIIMAN S提出了非常有影響力的生物啟發模型[1];南加州大學iLab實驗室的ITTI L教授及其學生對生物啟發的機器人視覺定位研究[2],應用在醫學診斷等各方面[3];ITTI L等人最早提出了基于生物視覺機制的注意力模型(Attention-Model)[4],在2013年的論文中發現ITTI及他的學生利用分析分數、數據設置和模型來確定顯著性區域[5],但是該方法只是對對比度比較明顯的顯著性區域效果好。侯曉迪等人在圖像的頻域[6]進行計算,研究了圖像的頻譜特性,用圖像的“剩余譜”來表示圖像的顯著性區域[7];侯曉迪提出的頻域殘差法(Spectral Residual)[8],對數學的應用發揮到極致;Guo Chenlei等人在頻域殘差法(Spectral Residual)[9]的基礎上提出相位譜(Phase Spectrum)方法,但是這些頻域的方法普遍存在對背景復雜的區域處理不好、準確度不高和容易遺失有用信息的問題。
深度學習(Deep Learning)開啟機器學習領域新時代,卷積神經網絡(Convolution Neural Network,CNN)是廣泛應用于圖像處理領域的深度學習算法。其網絡模型在20世紀80年代用于支票上的手寫字符識別,取得了很好的效果,KRIZHEVSKY A[10]對其進行擴展后在ImageNet視覺競賽中取得了成功。故本文將卷積神經網絡用于顯著性檢測,提出一種基于卷積神經網絡的顯著性檢測方法,能更好地處理背景復雜、顯著性對比不明顯的圖片,實驗證明該方法有更好的準確率和完全率。


圖1 卷積神經網絡結構圖
卷積神經網絡是由卷積層和下采樣層交替形成的。圖1中C代表卷積層,S代表下采樣層。卷積層用來進行特征提取,其中局部感受野與權值共享減少了參數,提高了模型的魯棒性,算法如下[11]:
(1)

下采樣層是對特征進行映射,減少了特征的分辨率,節省了計算時間,增加量了模型的效率,下采樣層中的節點輸出可以表示為:
(2)

最后網絡形成一個全連接層輸出的最后結果,輸出公式如下:

(3)
在網絡中的權值更新采用了BP神經網絡的反向傳播算法,根據結果的錯誤率來反向更新權值和參數,以達到更好的識別率,關于這一過程文獻[7]有詳細介紹。
平常所定義的顯著性區域與人眼視覺系統(HVS)有關[12],就是人眼注意的區域,即一幅具體的圖像中最明顯的區域,顯著性檢測就是提取出來圖像的特征區域。而卷積神經網絡在語音識別、圖片識別上的準確率高的原因在于其特征提取能力。傳統的顯著性檢測需要對圖像進行預處理,人工提取圖像特征,然后對特征進行大量的處理,耗費時力。所以本文利用卷積神經網絡強大的特征提取能力進行特征提取,將提取出來的圖像特征進行融合,最后生成顯著性圖,其流程如圖2所示。

圖2 顯著性檢測流程圖
利用卷積神經網絡進行顯著性檢測的流程如下:
(1)將用來進行顯著性檢測的圖像建成圖片庫,圖像尺寸為128×128。
(2)設置卷積神經網絡的網絡結構,采用五層經典模型,兩層卷積層(C層)和兩層下采樣層(S層)交替,最后全連接輸出。本文中的CNN網絡的學習效率(alpha)設置為1,每次的輸入圖片量(bathsize)為5,迭代次數(numepochs)設置為50。
(3)在C1層,采用3種5×5的卷積核對圖像進行卷積操作。卷積核由隨機數據生成,由返向傳播(Back Propagation,BP)和前向傳播(Forword Propagation,FP)原理,根據結果反向調整其參數,其大小代表著神經元感受野大小,若過小會導致特征提取不充分,若過大則會導致提取的特征過于復雜。這一層之后輸出3幅124×124的特征圖。這一層提取了一些初級紋理和顏色邊緣等底層特征。
(4)S1層的下采樣層即對C1層輸出的特征圖進行下采樣,采樣窗口為2×2,為更多地保留圖像信息,采用均值池化的方法,即每相鄰四個像素間取均值。這一層圖像尺寸為原來的一半,輸出3幅62×62的特征圖。這一層降低了維度,提取了更多的紋理特征。
(5)C2層依然是卷積層,特征圖為5幅,卷積核依然為5×5,輸出圖像為58×58。S2層是窗口為2×2的均值采樣,輸出5幅29×29的特征圖。這兩層提取了更有區分性的輪廓特征。一幅圖像經過C層和S層的特征圖輸出如圖3所示。

圖3 CNN每一層輸出結果圖
(6)將不同的卷積核提取到的特征進行特征融合。對圖像進行特征融合不僅能綜合多幅特征圖像的特征,還能保持圖像原本的圖像信息。Gonzales-Diazi曾提出,在視覺注意模型中經常用到的信息融合方法有乘積、取均值、取最大值、求對數等方法。為了充分說明方法的有效性,本文應用了最廣泛的線性融合方法:
(4)
其中S(pi)為融合后的圖片,α、β…λ為系數,并且滿足α+β+…+λ=1,其中si為對應的圖像。如圖4所示,前三幅是特征圖,最后一幅是融合后的特征圖,可以看出經過融合后的圖像不僅更加清晰,特征也更加全面豐富。

圖4 特征融合對比圖
(7)將融合后的特征圖像輸入到經典的ITTI、GVBS、SR顯著性檢測算法中進行實驗結果的對比分析。
為了突出體現本文方法的有效性,選取了多種顯著性檢測算法進行實驗結果的對比。有基于紋理特征的ITTI方法、GBVS方法;有基于頻域特征的SR方法。為增加算法的有效性,在ASD圖像數據庫上進行實驗。ASD庫是MSAR庫的子庫,包含人、動物、植物等1 000多幅圖像,是顯著性檢測的常用數據庫。實驗選取背景復雜、顏色變化小、顯著性對比不強烈的圖像,如圖5所示,圖像大小為128×128。本文中的實驗環境為MATLAB r2014b, CNN網絡就是采用文中介紹的五層經典結構。

圖5 數據庫中部分圖
為了體現顯著性檢測效果,一般有兩種評價標準,一種是主觀感受,就是以觀測者的主觀感受來判定哪種顯著性效果好;第二種方法是客觀評價,通過一些相應的數據計算來說明方法的優勢,如計算圖像的匹配率,傳統的方法是用F-Measure來評價[8],它能夠同時考慮到檢測的準確率和完全率。計算公式如下:
(5)
其中,P代表示檢測的準確率;R表示檢測的完全率;α用來衡量F-Measure值是側重于檢測的準確率還是完全率,一般取α為0.3,表示側重于檢測的準確率。
將原圖、未融合的特征圖與融合后的特征圖在ITTI、GVBS和SR這三種經典的顯著性檢測算法上進行對比,結果如圖6所示。

圖6 融合結果對比圖
由圖6中的圖像對比可以看出,融合后的圖像在ITTI上的檢測效果要比未融合的圖和原圖信息都全面,且顯著性部位更加明顯,在GVBS上的融合后的圖像也比原圖和未融合圖效果更加清晰,在SR上融合后的圖像能顯示出顯著性物體所在的區域,而其他圖片沒有明顯效果。根據人眼視覺觀察也能清楚地看出本文中所用的方法無論是在ITTI、GVBS還是在SR上都明顯高于原始圖像的效果,且顯著性檢測效果更加清晰和全面,不僅考慮了圖像的全局信息,也考慮了圖像的局部信息。客觀計算圖像匹配率結果如表1所示。

表1 圖像匹配率結果表
由表1中的結果可以看出,本文方法融合后的圖像無論在ITTI、GVBS還是在SR上,匹配率結果均高于原始圖像和未融合的特征圖像。這一結果說明本文提出的算法所融合后的圖像確實有良好效果。
為了增加本文中的方法與其他方法效果的對比度,又選取了多幅圖像進行對比,如圖7所示。

圖7 不同方法對比結果圖
圖7中,第一列是原始圖像,第一幅和第三幅圖像背景比較單一,第二幅背景復雜,其中第三幅圖像特征區域與非特征區域邊界區分不明顯,對圖片進行經典的ITTI、GVBS和SR三種顯著性檢測方法和本文中的方法進行對比。
ITTI方法檢測計算比較簡單,實驗相對容易操作,但是得到的顯著圖分辨率比較低,有時無法很好地檢測出圖像中的主要物體。GVBS方法計算比較復雜,在大型圖像上效率不高,不能清晰地將目標物的邊緣和細節信息反映出來。但是相對于ITTI方法顯著性區域比較明顯,匹配率相對高。SR采用基于頻域的方法檢測顯著區域,算法簡單,比較容易實現,在一定程度上顯示物體所處的區域,不能夠完全找出顯著性物體的確切位置和輪廓。而本文中的方法無論是在清晰度還是在顯示顯著性區域的準確度方面均有一定的提高。
由人眼主觀感受可以明顯地看出本文方法顯著性檢測效果有一定的優勢,由表2準確率結果說明本文算法對目標的準確率高于其他算法,可以將顯著性目標更準確地檢測出來。由表3的完全率結果可以看出本文檢測到顯著目標的完整性高于其他算法,由表4的數據結果可以看出本文算法的F-Measure值高于其他三種算法,證明本文提出的顯著性檢測算法有一定的合理性和優勢。

表2 圖像準確率結果

表3 圖片完全率結果

表4 F-Measure結果圖
本文中將卷積神經網絡用于圖像顯著性檢測領域,該模型不依賴于目標的形狀、環境和場景的變化,具有較好的魯棒性。利用卷積神經網絡魯棒有效地提取顯著性特征,經過特征融合進行顯著性檢測。結果顯示,在主觀觀測和客觀計算結果上顯著性效果均有一定的提高,顯著性結果圖片在清晰度和準確度上也有一定的提高。現在大多數方法包括本文方法都停留在單目標無法很好地處理顯著性多目標的檢測,后續將對多顯著目標的檢測進行研究。
[1] BORJI A, ITTI L. Human vs. computer in scene and object recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014: 113-120.
[2] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transaction on Pattern Analysis and Machine Intelli gence, 1998, 20(11):1254-1259.
[3] SIAGIAN C, ITTI L. Comparison of gist models in rapid scene categorization tasks[J]. Journal of Vision, 2008,8(6): 734.
[4] ITTI L, KOCH C. Computational modelling of visual attention[J]. Nature Reviews Neuroscience, 2001, 2(3):194-203.
[5] BORJI A, TAVAKOLI H R, SIHITE D N, et al. Analysis of scores, datasets, and models in visual saliency prediction[C]. International Conference on Computer Vision (ICCV), 2013: 921-928.
[6] Hou Xiaodi, HAREL J, KOCH C. Image signature: highlighting sparse salient regions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 34(4): 114-201.
[7] 李岳云,許悅雷,馬時平,等.深度卷積神經網絡的顯著性檢測[J].中國圖象圖形學報,2016,21(1):0053-0059.
[8] Hou Xiaodi, Zhang Liqing. Saliency detection: a spectral residual approach[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2007: 1-8.
[9] Guo Chenlei, Zhang Liming. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression[J]. IEEE Transactions on Image Processing, 2010, 19(1): 185-198.
[10] LECUN Y, JACKEL L D, BOTTOU L, et al. Learning algorithms for classification: a comparison on handwritten digit recognition[M].World Scientific, 1995.
[11] BOUVRIE J. Notes on convolutional neural networks[J/OL].Neural Nets, 2006.
[12] 黃志勇,何發智,周正欽,等.一種隨機的視覺顯著性檢測算法[J].中國科學(信息科學),2011, 41(7): 683-874.
Saliency detection based on deep convolutional neural network
Li Yaru
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)
Saliency detection is widely used in the field of image processing. At present, the saliency detection is mainly based on the bottom and the top, also includes some correlation or improved algorithm, and each has both advantages and shortcomings.A saliency detection algorithm based on convolution neural network is proposed in this paper. It takes use of the great power of convolution neural network in image processing to extract image features and do feature fusion, and finally forms a saliency map which is used in saliency detection. Comparing this method with the traditional detection methods, it shows that this algorithm is more effective.
convolution neural network; features; saliency detection
TP391.9
A
10.19358/j.issn.1674- 7720.2017.20.018
李亞茹.基于卷積神經網絡的顯著性檢測[J].微型機與應用,2017,36(20):61-64.
航空科學基金(2013ZC15005)
2017-03-31)
李亞茹(1991-),女,碩士,主要研究方向:視覺顯著性方法。