王寶艷,張 鐵,李 凱,杜松林
1(東北大學 計算機科學與工程學院,沈陽 110004) 2(東北大學秦皇島分校 通信工程學院,河北 秦皇島 066004) 3(燕山大學 信息科學與工程學院,河北 秦皇島 066004)E-mail:wangbaoyan2005@163.com
圖像分割與顯著目標檢測這兩個任務具有較強的相關性.圖像分割是指根據灰度、彩色、空間紋理、幾何形狀等特征把圖像劃分成若干個互不相交的區域,使得這些特征在同一區域內表現出一致性或相似性,而在不同區域間表現出明顯的不同.通常,分割區域的個數可以通過調整算法的參數來確定.理想的分割算法不但要保證過分割(精細分割)下分割的有效性,還要考慮分割數目較小時(粗糙分割)分割的有效性.顯著目標檢測是指將圖像中顯著的目標檢測出來.由于顯著目標也屬于目標,若通過圖像分割算法可以將目標有效地分割出來,那么顯著目標的檢測結果可能會因此而受益.
目前,很多學者從事基于圖像分割算法進行顯著目標檢測的研究[1-4],他們大都采用的是超像素分割方法.通常,用于顯著目標檢測的超像素分割數一般控制在200或300左右,這樣的分割雖然可以保證同一超像素內像素間的相似性,但無法保證不同超像素間的差異性.對于現在流行的超像素分割法[5],雖然理論上可以通過調整其參數產生較大的超像素分割區域,但往往得到的分割區域并不符合人的感知.除此之外,也有一些研究學者嘗試基于其他的圖像分割算法建立顯著目標檢測模型[6-8],比如mean-shift方法[9],圖的分割方法[10]等.但由于這些算法并不能很有效地、準確地分割出可感知的區域,從而導致最終的顯著目標檢測效果并不理想.這也是為什么至今很多研究學者仍傾向基于分割區域數較多的超像素分割方法進行顯著目標檢測的原因.
盡管超像素分割被廣泛地應用到顯著目標檢測領域[1,3,11,4],但對于一些復雜圖像,緊密、小區域的超像素往往會導致同一顯著目標的顯著性是分片的,不光滑的.事實上,這與算法是基于超像素分割計算的顯著性值有關.因此,我們嘗試引入一種更可靠的圖像分割方法(精細和粗糙分割均有效)來提高顯著目標的檢測結果.
卷積神經網絡(CNNs)的研究在最近幾年取得了巨大的進展,它在計算機視覺方向的廣泛應用同樣也鼓舞一些研究者嘗試將卷積神經網絡研究用于準確的、有效的圖像分割上[12].這勢必會給顯著目標檢測的研究帶來更多的啟發.Liu等人[13]最近提出了一種基于深度嵌入學習的圖像分割算法(DEL),這種算法以超像素分割為基礎,通過計算相鄰超像素間的相似性對超像素進行合并,從而實現了圖像的有效分割.值得一提的是,圖像的分割區域數可以通過相似閾值進行控制.同時,此算法的運行速度也很快.
由于顯著目標檢測在計算機視覺方面的廣泛應用[14-17],許多學者從事此領域的研究,并建立了一些經典、有效的算法[18].Wang 等人[19]提出了SSLS算法,此算法對于一般圖像的顯著目標檢測是比較有優勢的.但對于復雜圖像,檢測效果不是很理想.因此,我們考慮利用有效的圖像分割算法DEL對SSLS算法進行改進,以提高顯著目標的檢測結果.不失一般性,這種做法同樣適用于其他顯著目標檢測算法的改進.雖然本文提出的算法思想比較簡單,但實驗結果表明,改進后的檢測結果明顯優于原來算法的檢測結果.同時,相對于目前流行的顯著目標檢測算法,本文提出的改進算法也是有一定優勢的.這表明,有效的圖像分割算法在一定程度上會提高顯著目標的檢測結果.本文的創新點有三個:
1)將基于深度學習的DEL分割算法引入到顯著目標檢測中,通過DEL算法對SSLS算法進行改進.不失一般性,這種方法同樣可以應用到一些其他顯著目標檢測算法的改進上.
2)提出了多尺度顯著目標的檢測算法,尤其是將深度特征引入到多尺度顯著性圖的融合算法中.
3)本文在三個數據集上從多個評價指標分析改進算法的實驗結果.
本文通過DEL分割算法對SSLS算法進行改進,因此本節只對這兩個算法的相關內容進行簡要介紹.
圖像分割的目的是將一幅圖像劃分成有特別意義的不相交子區域,并且每個區域具有最大的相似特性和相似意義.由于圖像類型、格式及表現方式的多樣性和復雜性,圖像分割目前仍有很多待解決的問題,也依然是一個研究熱點[20].Shi等人[21]將圖像分割轉化為一個圖割問題.Comaniciu等人[9]提出了Mean Shift算法.Felzenszwalb等人[10]提出了一種有效的基于圖的EGB算法.基于邊緣的gPb算法[22]通過多尺度的局部特征和譜聚類對圖像的邊緣進行檢測,然后基于分水嶺算法將這些邊緣轉化為分割問題.
隨著卷積神經網絡(CNNs)的廣泛研究,一些研究者考慮將卷積神經網絡引入到圖像分割的研究上[12,13].DEL算法以超像素分割為基礎,利用特征嵌入學習網絡得到超像素間的相似性,依據相鄰超像素間的相似性,對相鄰的超像素進行合并,實現圖像的分割.此算法的超像素分割區域是利用SLIC算法的GPU版本—gSLIC1得到的,每個超像素大約包含64個像素.特征嵌入學習的網絡結構是基于VGG16 網絡[23]建立的,它將VGG16網絡的第5層池化層和3個全連接層刪除,同時,第4層池化層的步長改為1.五個Group卷積層的輸出分別同32個,64個,128個,256個和256個3*3的卷積核做卷積,然后將卷積后的輸出分別同32個,64個,64個,128個和128個1*1的卷積核做卷積,所得結果再進行L2標準化.考慮到隨著網絡層數的加深,學習到的特征就會越來越粗糙.除此之外,由于精細的特征會包含圖像更多的細節信息,而粗糙的特征會反映更多的全局信息.因此,此網絡將五個Group卷積層得到的特征圖聚合,以便同時反映粗的全局信息和細的局部信息.聚合后的特征圖同256個3*3的卷積核進行卷積.然后,將輸出結果同1*1的卷積核進行卷積,從而得到64維的特征嵌入空間.最后,網絡對特征嵌入空間進行池化操作,將每個超像素對應的特征向量輸出.根據超像素的特征向量計算相鄰超像素之間的相似性,并與閾值作比較,將相似的超像素進行區域合并.
Wang等人[19]提出的SSLS算法是基于圖的顯著目標檢測算法.在這節中,我們回顧一下這類顯著目標檢測算法.算法有2個關鍵的環節:
1)顯著種子的選取.通常,可靠的背景種子和前景種子作為顯著種子.對于背景種子的選擇,依據“背景先驗”的知識,一般選取圖像的上、下、左、右四個方向的邊界作為背景種子.然而對于一些諸如顯著目標接觸圖像邊界等復雜圖像而言,研究學者嘗試對選取的邊界種子進行過濾[24,25].Li等人[24]在進行背景顯著性估計之前通過定位、排除錯誤的邊界從而優化了邊界對整體估計的影響.蔣寓文等人[25]利用“背景的連續性特征”提出了一種基于背景先驗的顯著區域檢測算法.對于前景種子的選擇,不同于[3,19,26-27]通過自適應的閾值對第一階段的顯著性圖進行二值分割,選取顯著性值大于閾值的超像素作為前景種子,Fu等人[28]將粗糙顯著性圖與Harris和Foci凸包方法結合,二值化得到前景標簽.Li等人[29,30]結合“中心”和“似物性采樣”等先驗知識確定前景標簽.Kong等人[31]采用“模式挖掘”的方法獲得的前景種子.
2)顯著模型的建立.顯著模型一般有測地距離法,隨機游走法和能量函數法.具體地,WEI等人[1]通過未標簽節點與標簽節點的測地距離來計算未標簽節點的顯著性值.文獻[4,32]都是基于隨機游走法得到的顯著性圖.能量函數法將顯著目標檢測問題轉化為求能量函數最小值的一個優化問題[3,28-29].能量函數的構造通常包含smoothness 和fitness項,smoothness項要求相鄰節點的顯著性值差別不會太大,fitness項要求節點真正的顯著性值不應當與其初始的顯著性值有太大的偏離.除此之外,Li等人[29]構造的能量函數又考慮了局部smoothness約束項,這項要求每一個節點的顯著性值不應
1http://www.robots.ox.ac.uk/~victor/gslicr/.
當與此節點鄰域的平均顯著性值偏離過大.Fu等人[28]構造的能量函數同時加入了“流形重構”項,這項的引入使得初始特征空間的“流形重構”在新的特征空間仍舊被保持.與既有的基于圖的顯著目標檢測算法不同的是,本文采用的SSLS算法的兩階段顯著模型是基于兩階段顯著種子所在類的不同而建立的,而且這兩個模型的關系既是互補的,又是相輔相成的.特別地,第 2 階段擴散模型中匯點的引入,既提高了檢測效果,又增強了模型的魯棒性.
依據圖像分割與顯著目標檢測這兩個任務的相關性,我們有理由相信,高效的圖像分割算法一定會提高顯著目標的檢測結果.DEL算法無論是在精細尺度,還是在粗糙尺度的分割上均有很大的優勢,因此本文考慮利用DEL算法對既有的顯著目標檢測算法進行改進,主要介紹對SSLS算法的改進.不失一般性,算法的思想還可用于其他算法的改進.改進的SSLS算法的一般步驟為:首先,利用SSLS算法得到圖像的初始顯著性圖;利用DEL算法得到的多尺度分割圖對初始顯著性值進行區域化的重新分配,從而形成多尺度的顯著性圖;最后,基于DEL算法學習到的深度特征,將多尺度的顯著性圖深度融合,從而得到最終的顯著性圖.本節將對上述步驟逐一展開.
DEL算法是以超像素分割為基礎進行區域合并的,不妨假設超像素集為S={S1,S2,…,SM},M為超像素的個數.對于DEL算法,首先通過特征嵌入學習網絡得到超像素的相似性,然后經驗性地選取10個T的值作為區域合并閾值,通過相似性與閾值的比較,將相似的超像素合并,從而得到由細到粗的10個尺度的分割圖.假設第i個尺度分割圖的分割區域集合記為Ri=Ri1,Ri2,…,Riz,i=1,2,…,10,Z為第i個分割尺度的分割區域數.值得注意的是,后一個分割圖是以前一個分割圖為基礎,通過計算相鄰超像素的相似性,進行合并的.
對于一幅圖像I,假設由SSLS算法得到任意像素j的顯著性值為sj(j=1,2,…,N).第i個尺度分割區域Rik的顯著性值sik定義為區域Rik所包含像素的顯著性值的平均值:
(1)
其中,sj由SSLS算法確定,|Rik|表示區域Rik所包含的像素的個數.將區域的顯著性值作為區域所包含像素的顯著性值,即可得到10個不同分割尺度下的顯著性圖.圖1為兩幅圖像在不同閾值下的多尺度分割圖及顯著性圖,其中,每一幅圖像的第一行分別為原圖,改進算法分割閾值T=0.01,0.06,0.11,0.16,0.21對應的顯著性圖;第三行分別為由SSLS算法得到的顯著性圖,改進算法分割閾值T=0.26,0.31,0.36,0.41,0.46對應的顯著性圖;第二行和第四行分別表示DEL算法中閾值T分別取0.01,0.06,0.11,0.16,0.21及0.26,0.31,0.36,0.41,0.46時對應的分割圖.如第一幅圖像的分割圖及其對應的顯著性圖所示,隨著閾值的增加,分割區域越來越粗糙,顯著目標猩猩被更加準確、完整地分割出來.但這并不意味著,相對于精細尺度,粗糙尺度的分割對顯著目標的檢測一定是最有效的.因為對于一些復雜的圖像,粗糙尺度的分割可能會失效,而這會直接影響到顯著目標的檢測效果.如圖1中第二幅“楓葉”的圖像所示,顯著目標楓葉與背景的顏色很相近,原則上,這類圖像的顯著目標比較難檢測.對于此圖像的顯著性圖,相對于粗糙尺度的分割,精細分割尺度下顯著目標的檢測結果更令人滿意.其原因是由于從第5個分割尺度之后,圖像的分割結果就很差了,這直接影響了顯著目標的檢測.綜上分析,對于變化的圖像而言,基于單一尺度的分割圖進行顯著目標檢測并不是一種合理的做法.因此,本文考慮將多尺度的顯著性圖進行融合,形成最終的顯著性圖.

圖1 不同閾值下的多尺度分割圖、顯著性圖Fig.1 Corresponding multi-scale segmentation graphs and saliency maps with various thresholds
顯著圖的融合主流方法包括線性相加進行平均融合[33,34],直接相乘融合[35]等.Tong 等人[36]提出的顏色加權融合是一種較為新穎的思路,該方法充分考慮了超像素內像素點的顏色差異,得到的顯著目標檢測效果更好.Li等人[2]以像素點與其所屬超像素的顏色差異為權值,將不同尺度的顯著性值進行加權求和.與[2]不同的是,本文提出的算法是以像素點與其所屬區域的深度特征差異為權值的.這里,區域是由DEL算法分割得到的,而特征是通過DEL算法中特征嵌入學習網絡學習得到的.特征嵌入學習網絡中得到的深度特征同時反映了圖像的局部、全局信息,因此,相對于單純的顏色特征,本文利用深度特征融合多尺度的顯著性圖,融合效果更加有效.
考慮到用于顯著性融合的深度特征是像素級別而非超像素級別的,因此需要將特征嵌入學習網絡中 “超像素池化”的過程略去,從而得到深度特征.不妨假設任意像素p的深度特征為xp,其顯著性值用sp表示.多個尺度的顯著性圖進行如下的深度融合:
(2)
(3)
其中,k是區域的索引,i是區域尺度的索引,Z為第i個尺度下分割區域的個數,ε是一個小的常值.xik表示區域Rik中心的特征向量,由公式(3)所確定,它是區域Rik包含的所有像素特征向量的平均值.‖xp-xik‖2表示從像素p到區域Rik中2為方便起見,后面將 FB-measure記為 F-measure.
心的特征距離.δ(·)為指標函數.公式(2)即為多尺度的顯著性圖經過深度融合后得到的任意像素p的顯著性值.
值得一提的是,由于SSLS算法簡單地選取圖像的四個邊界為背景種子,對顯著目標位于邊界的圖像而言,這種做法會導致顯著目標接觸邊界的區域可能不會被檢測出來.然而,我們驚奇地發現,在粗糙尺度分割下,本文改進的SSLS算法卻可以將接觸邊界的顯著目標完整地檢測出來,而這主要是歸功于DEL算法在粗糙尺度下可以分割出符合人感知的較完整的目標.如圖1的一幅圖像所示,圖中有一只接觸邊界的猩猩,利用SSLS算法只檢測出猩猩的頭部和上半部分身體,并沒有將猩猩接觸邊界的部分檢測出來.但改進的SSLS算法在粗糙尺度分割下,卻可以將猩猩較完整地檢測出來,包括接觸邊界的猩猩的下半部分身體,只不過此時的檢測會使猩猩整體對應的顯著性值適當的降低.由前面的分析可知,單一地利用某一尺度的顯著性圖作為最終的檢測結果是不合理的,因此我們考慮多尺度顯著性圖的融合.雖然這種做法可能會破壞顯著目標檢測的完整性,但相對于SSLS算法,融合后的顯著性圖對于接觸邊界的顯著目標的檢測,其完整性還是有一定的改善.
本節將主要介紹改進的SSLS算法在三個數據集上的實驗.這三個數據集分別是ECSSD[37],DUT-OMRON[4]和PASCAL-S[38].ECSSD是一個包含了1000幅復雜場景的數據集.DUT-OMRON包含了5168幅圖像,這些圖像通常有一個或兩個顯著目標,且背景較復雜.PASCAL-S 包含了850幅具有多個復雜目標和雜亂背景的自然圖像.這個數據集取自PASCAL VOC2010[39].
為了得到10個粗細尺度不同的分割圖,DEL算法中的閾值T分別取為0.01,0.06,0.11,0.16,0.21,0.26,0.31,0.36,0.41和0.46,minimum-size分別設定為0,0,0,0,3,3,4,4,4,4,初始超像素數取為200.公式(2)中ε的取值設定為0.1.
本節選取3種普遍被認可的、標準的、易于計算的評價指標對改進的算法進行評價,這些評價指標分別是正確率(precision),召回率(recall),Fβ-measure.為方便起見,記S為標準化到[0,255]的被預測的顯著圖,M為S的二值掩碼,G為顯著目標 Ground-Truth 的二值掩碼,|·|表示掩碼中非零元素的個數.
正確率,召回率:通過以上M和G的定義形式來計算正確率和召回率:
(4)
Fβ-measure:只使用正確率和召回率并不能綜合地評價顯著性圖的質量,為此,評價指標Fβ-measure被提出來,它由非負權值β2對正確率和響應率做加權調和平均得到的:
(5)
為了更側重于考慮正確率,β2通常取為0.3,其原因是相對于召回率,正確率更加重要[40]2.
本節通過三個數據集對SSLS及其改進算法進行評價,分別是ECSSD數據集,DUT-OMRON數據集和PASCAL-S數據集.圖2分別表示SSLS及其改進算法在三個數據集上的比較結果.圖2的左圖為P-R曲線,右圖通過正確率,響應率和F-measure的指標來評價原算法與改進算法.綜合多種評價指標分析,改進的SSLS算法在一定程度上了提高了原算法的檢測結果.

圖2 SSLS及其改進算法在三個數據集上的比較結果Fig.2 Comparison results of SSLS and improved SSLS for 3 datasets

圖3 改進的SSLS算法與9種流行算法在ECSSD數據集上的P-R曲線Fig.3 P-R curves of improved SSLS and 9 state-of-the-art algorithms for ECSSD dataset
除了與原算法進行比較外,我們還選取目前流行的9種顯著目標算法同改進算法進行比較.測試的數據集仍是ECSSD數據集,DUT-OMRON數據集和PASCAL-S數據集.9種顯著目標檢測算法分別為MC[4],MR[3],GS[1],wCtrO[11],HS[37],DSR[2],MPDS[28],SS[41],MLSP[42].圖3-圖5為改進的SSLS算法與9種流行算法分別在ECSSD,DUT-OMRON和PASCAL-S數據集的P-R曲線.圖6-圖8通過正確率,響應率和F-measure的指標對改進的SSLS算法與9種算法進行比較.綜合多種評價指標分析,相對于目前流行的 9 種顯著目標檢測算法,改進的SSLS 算法具有較大的優勢.
除了利用評價指標分析本文提出的改進算法外,我們還將從直觀的視覺角度來評價改進SSLS算法的檢測效果,并與一些既有的算法進行比較,其結果如圖9所示.這里,第1至第2行,第3至第4行,第5至第6行圖像分別來自數據集DUT-OMRON,ECSSD和PASCAL-S.第1列是原圖像,第2列是原圖對應的GT,第3列至第10列的顯著性圖分別是由算法DSR[2],MC[4],wCtrO[11],MR[3],GS[1],HS[37],SSLS[19]和改進的SSLS算法得到的.從各種算法的顯著性圖中可以看到,改進的SSLS算法在較好地抑制背景的同時,較完整地將顯著目標檢測出來.尤其對于接觸邊界的顯著目標也可以較完整地被檢測出來.

圖4 改進的SSLS算法與9種流行算法在DUT-OMRON數據集上的P-R曲線Fig.4 P-R curves of improved SSLS and 9 state-of-the-art algorithms for DUT-OMRON dataset

圖5 改進的SSLS算法與9種流行算法在PASCAL-S數據集上的P-R曲線Fig.5 P-R curves of improved SSLS and 9 state-of-the-art algorithms for PASCAL-S dataset

圖6 改進的SSLS算法與9種流行算法在ECSSD數據集上的正確率,召回率和F-measure指標Fig.6 Precision,Recall and F-measure index of improved SSLS and 9 state-of-the-art algorithms for ECSSD dataset

圖7 改進的SSLS算法與9種流行算法在DUT-OMRON數據集上的正確率,召回率和F-measure指標Fig.7 Precision,Recall and F-measure index of improved SSLS and 9 state-of-the-art algorithms for DUT-OMRON dataset

圖8 改進的SSLS算法與9種流行算法在PASCAL-S數據集上的正確率,召回率和F-measure指標Fig.8 Precision,Recall and F-measure index of improved SSLS and 9 state-of-the-art algorithms for PASCAL-S dataset

圖9 不同方法的顯著性比較結果Fig.9 Saliency detection results for different methods
考慮到圖像分割與顯著目標檢測兩者之間較強的關聯性,本文通過引入一種基于特征嵌入學習網絡的高效分割算法(DEL)對既有的SSLS算法進行改進.對于變化的圖像,單一尺度分割圖的有效性很難保證,這必然會影響到后續算法的改進.因此,我們利用多尺度的分割來彌補單一尺度分割的不足.改進的顯著性值實際上是利用多尺度的分割圖對SSLS算法得到的初始顯著性值進行區域化的重新分配.除此之外,改進算法獨創性地將特征嵌入學習網絡得到的深度特征引入到多尺度顯著性圖的融合中.值得注意的是,融合用到的深度特征并不需要通過其他的網絡單獨學習,它可直接通過DEL的分割算法學習得到,從而提高了計算效率.不失一般性,對SSLS改進的思想還可以應用到其他一些顯著目標檢測算法上.本文通過三個數據集對改進算法進行評價.實驗結果表明,改進算法在多個評價指標上均超越了原算法.同時,相對于目前流行的顯著目標檢測算法,它也是有一定優勢的.除此之外,從視覺上對顯著性圖的直觀比較發現,改進后的檢測不但更能突出顯著目標的整體性、一致性,對背景的抑制也更加有效.因此,雖然本文提出的改進算法的思想很簡單,但改進后的效果卻比較顯著.