鄒耀斌 張進玉 周 歡* 孫水發 夏 平
①(三峽大學大數據研究中心 宜昌 443002)
②(湖北省水電工程智能視覺監測重點實驗室(三峽大學) 宜昌 443002)
③(三峽大學計算機與信息學院 宜昌 443002)
圖像分割是計算機視覺研究領域低層次視覺中重要的研究方向之一[1,2]。在已有的圖像分割方法中,例如閾值分割、區域分割、聚類分割、深度學習分割,閾值分割因其簡單和易于實現的優勢而被廣泛地應用到不同圖像處理任務中[3],其基本原則是將圖像中每個像素的灰度值與選取的閾值進行大小比較,以此來決定該像素是屬于目標還是背景,因而閾值分割的關鍵在于如何確定合適的閾值。
在眾多閾值分割方法中,應用了信息論中熵概念的熵閾值法頗具代表性,它們大體可以分為兩類:一類以最大化圖像中背景熵和目標熵的和為原則來選擇閾值,由該思想衍生而來的方法主要有最大香農熵法[4,5]、最大Rényi熵法[6–8]、最大Tsallis熵法[9–11]、最大Arimoto熵法[12,13]、最大Masi熵法[14]和最大Kaniadakis熵法[15]等。另一類則以圖像分割前后信息量差異最小化為原則來選擇閾值,其代表性的方法是最小熵閾值法[16]。在第1類方法中,除最大香農熵法,其他方法涉及的熵計算模型都有熵參數。分割不同直方圖模態的灰度圖像通常對應不同的熵參數,而自動選取合理熵參數的算法依舊缺乏,這在很大程度上限制了這些最大熵閾值方法的適應性。第2類方法將二值化問題轉換為最小熵高斯擬合問題,它忽略了目標和背景之間的相互關系,難以分割非對稱性直方圖模態的灰度圖像[16,17]。
不少熵閾值法結合離散概率分布和熵計算模型來計算相關的熵[4,6,9,12,14,15],但它們都有一個共同的不足:沒有考慮圖像像素間的相關性,這使得同一個熵閾值法對于具有相同直方圖的兩幅不同圖像將產生相同的閾值。此外,當一個灰度值的離散概率非常小的時候,容易引入大的計算誤差從而降低獲得閾值的魯棒性。后續研究相繼提出2維閾值法和3維閾值法。2維閾值法同時考慮圖像灰度信息和鄰域平均灰度信息,分割效果一般要優于1維閾值法[5,10,11,13]。3維閾值法在2維閾值法的基礎上又加入了鄰域的中值信息,這類算法對于具有混合噪聲的圖像有較好的分割效果[7,8]。2維或3維閾值法雖在一定程度上彌補了1維閾值法的不足,但其計算復雜度卻遠高于1維閾值法[8,11]。
現有熵閾值法除了上述不足外,還有一個關鍵問題是分割適應性較差。許多灰度圖像因受噪聲、點擴散或者背景和目標大小等因素影響,其灰度直方圖呈現為無模態、單模態、雙模態或者多模態,而現有熵閾值法一般較適合處理具有單模態長拖尾直方圖的灰度圖像,卻難以兼顧其他情形。為了在統一的方法框架內從上述4種不同直方圖模態的灰度圖像中自動地選擇出合理的分割閾值,提出了一種基于多尺度多方向Gabor變換的Tsallis熵閾值分割方法(Tsallis Entropy thresholding based on Multi-scale and multi-direction Gabor transform,MGTE)。MGTE方法將不同灰度直方圖模態轉換成統一的單模態,這種轉換借助多尺度乘積效應來實現,其轉換方式兼顧像素的灰度分布和像素間的空間位置。在獲得4個方向上的單模態灰度直方圖后,采用Tsallis熵作為熵計算模型來分別選取4個方向上的閾值,最后通過對4個方向上的閾值進行加權求和以作為最終分割閾值。
2維Gabor濾波器由高斯信號和復正弦信號調制而成[18],它可以表示為
注意到大小為( 8σ+1)×(8σ+1)的高斯核與圖像進行卷積所得結果可以充分逼近完整高斯分布與圖像進行卷積所得結果[19],且在對數字圖像卷積時,卷積核大小一般為奇數,由此可以推出σi=0.25×i(i ≥1)。Gabor濾波核中平行條帶的方向角具有中心對稱性,又因方向角等間距取值,即θr=rπ/m(r=0,1,...,m),而式(5)又通過模運算計算圖像kθ(σ), 故θr取值可限制在[ 0,π/2]內。另外,方向太多容易造成圖像方向性信息冗余并顯著增加運算時間,而方向太少則可能遺漏重要方向性信息,經過反復試驗最終確定使用4個方向角:0 ,π /7 ,2 π/7 和 3 π/7。
對2維Gabor濾波器的某一方向角度θr,定義圖像f在該方向上的多尺度乘積圖像為
其中,uθr表 示在方向角度為θr時參與多尺度乘積變換的圖像數量。多尺度乘積變換使得圖像f的邊緣信號和噪聲呈現不同響應特點:當空間尺度增大時,噪聲的響應值相對快速地減小,而邊緣信號附近位置的響應值能相對保持良好。在圖像Kuθr的灰度值被規范化到[0, 255]的前提下,隨著uθr的增加,圖像Kuθr的灰度直方圖的眾數逐漸趨于0,并且隨著眾數逐漸左移,灰度直方圖中頻數為0的灰度級逐漸增多,結果是[0, 255]的灰度分布越來越稀疏。Kuθr的灰度直方圖與uθr之 間的關系表明:存在合適的uθr使得Kuθr中灰度級為0的頻數足夠大以抑制噪聲,同時又保證頻數為0的灰度級不能太多以維持邊緣響應的多樣性。為了自動計算這樣的uθr值,第3節將引出Tsallis熵差的概念。
定義S+?S為Tsallis熵差,下面4個命題揭示了Tsallis熵差的重要性質。值得注意的是,基于S+?S定義的Tsallis熵差不同于閆海霞等人[21]定義的局部Tsallis熵差。
圖1 灰度直方圖的左右劃分示意圖
實驗的主要軟硬件參數如下:Intel Core i5-9300H 2.4 GHz CPU, 16 GB DDR2內存,Windows 10 64位操作系統,MATLAB 2018a 64位。測試圖像包含合成圖像4幅和真實世界圖像40幅,它們以及對應的分割參考圖像可以訪問https://share.weiyun.com/UAmqSFkl獲得。MGTE方法與交互式閾值(Interactive Thresholding, IT)方法[23]、迭代3類閾值(Iterative Triclass Thresholding, ITT)方法[24]、Tsallis熵閾值(Tsallis Entropy Thresholding,TET)方法[9]、快速魯棒模糊C-均值聚類(Fast and Robust Fuzzy C-Means, FRFCM)方法[25]、迭代卷積活動輪廓分割(Iterative Convolution Active Contour, ICAC)方法[26]進行比較。其中,IT方法通過交互式選取分割閾值,該閾值對應的二值圖像具有最小的誤分類率(Misclassification Error,ME)。ME是一個常用的分割精度評估指標[3],它表示在分割結果圖像中誤將背景作為目標及目標作為背景的百分比。IT方法可作為其他比較方法在分割精度方面的參考。
為了檢驗6個方法對4種不同直方圖模態圖像的分割適應性,將它們分別在4幅合成圖像上進行分割實驗(見圖2),它們的灰度直方圖分別呈現為無模態、單模態、雙模態和多模態(見圖3)。圖3、圖4以及表1給出了6個方法在這4幅合成圖像上的定性和定量比較結果。值得注意的是,圖3中間綠色區域顯示了對應的灰度直方圖,4條垂直線及旁邊的數字標示了4個閾值分割方法選擇的閾值。表1中前面4個方法為閾值分割方法,后面2個方法為非閾值分割方法,因此后面2個方法的閾值用*代替。
圖2 分割實驗
第1組實驗測試了無模態合成圖像,結合圖3(a)和圖4(a)以及表1的第1列數據,可以觀察到:(1)TET和ITT的總體分割結果最差,它們的ME值分別是24%和22.22%,遠大于其他方法的ME值;(2)ICAC的分割結果雖優于TET和ITT,但也存在明顯誤分割,其ME值為19.58%;(3)FRFCM的分割結果要優于ITT,TET和ICAC,其ME值為1.17%,但它的分割結果不穩定;(4)MGTE的分割結果明顯優于其他4個方法,其分割結果和IT完全一致,ME值為0%,達到理論上的最優分割;(5)IT,MGTE, ITT和TET所得閾值分別為201, 201, 133,126,MGTE方法與IT方法所得閾值一致,優于其他2個閾值方法所得閾值。這些量化指標值顯示MGTE在分割無模態合成圖像上的相對優勢。
第2組實驗測試了單模態合成圖像,結合圖3(b)和圖4(b)以及表1的第2列數據,可以觀察到:(1)TET, ITT和FRFCM的誤分割都很嚴重,它們的ME值分別達到48.57%, 28.80%, 39.43%;(2)ICAC和MGTE的ME值分別為0.02%和0.01%;(3)IT, MGTE, ITT和TET所得閾值分別為214,212, 162, 151。其中,MGTE與IT所得閾值差距甚小,明顯優于其他2個閾值方法所得閾值。這些量化指標值顯示MGTE在分割單模態合成圖像上的相對優勢。
第3組實驗測試了雙模態合成圖像,結合圖3(c)和圖4(c)以及表1的第3列數據,可以觀察到:(1)TET的誤分割比較嚴重,其ME值達到了21.70%,遠大于其他方法的ME值;(2)FRFCM的分割結果雖優于TET,其ME值為0.17%,但它的分割結果不穩定性;(3)MGTE和ITT的分割結果與IT完全一致,ME值都為0.01%;(4)ICAC的分割結果略優于MGTE,ITT和IT,其ME值為0%;(5)IT, MGTE,ITT和TET所得閾值分別為129, 129, 128, 73,其中,MGTE方法與IT方法所得閾值再次保持一致。這些量化指標值顯示MGTE方法在分割雙模態合成圖像上的相對優勢。
圖3 4個模態合成圖像的灰度直方圖及不同方法所得閾值比較
第4組實驗測試了多模態合成圖像,結合圖3(d)和圖4(d)以及表1的第4列數據,可以觀察到:(1)TET和ITT的誤分割都較嚴重,它們的ME值分別達到28.16%和17.40%,遠大于其它方法的ME值;(2)ICAC的分割結果優于TET和ITT,但在多模態合成圖像上仍存在誤分割,其ME值為2.95%;(3)FRFCM的分割結果雖優于TET, ITT和ICAC,其M E 值為0.8 7%,但它的分割結果不穩定;(4)MGTE與IT的分割結果差距甚小,它們的ME值分別為0.01%和0%;(5)IT, MGTE, ITT和TET所得閾值分別為209, 214, 146, 98。其中,MGTE與IT所得閾值差為5,明顯優于其它2個閾值方法所得閾值。這些量化指標值顯示MGTE在分割多模態合成圖像上的相對優勢。
表1 6個分割方法在4幅合成圖像上的分割閾值t 和ME值(%)
圖4 不同分割方法在4個模態合成圖像上的分割比較
為了進一步比較MGTE方法與其它5個方法的分割適應性,將6個方法分別在40幅真實世界圖像上進行分割實驗。這40幅測試圖像中編號1~10,11~20, 21~30和31~40的圖像分別對應無模態、單模態、雙模態、多模態真實世界圖像。
作為定性比較的代表性示例,圖5(a)—圖5(d)顯示了編號為4, 17, 27和37的圖像灰度直方圖及4個閾值方法所得閾值,而圖6展示了6個方法在這4幅圖像上的分割結果。從圖5(a)—圖5(d)可以看到,MGTE所得閾值幾乎非常接近IT所得閾值,而圖6(a)—圖6(d)也驗證了MGTE能夠相對成功地對這4幅測試圖像進行目標和背景的分離。圖7全面展示了6個方法在40幅真實世界圖像上的ME量化結果,在每幅子圖中,藍色、紅色、綠色和紫色的豎條分別標示了各分割方法在無模態、單模態、雙模態和多模態情況下的ME值,而深藍色水平虛線及其上的數字標示了對應情形下ME值的平均值??梢杂^察到:(1)對于無模態、單模態、雙模態和多模態真實圖像,MGTE的ME均值總體上更接近IT的ME均值,其對應的ME均值都小于0.9%;而其它方法,除ITT和FRFCM在雙模態真實圖像以及ICAC在單、雙模態真實圖像外,每種方法對應模態上的ME均值都大于14%;(2)ITT對于雙模態真實圖像有明顯的分割效果,其ME均值為2.47%,但它對于無模態、單模態和多模態真實圖像存在明顯的誤分割,其各自的ME均值都超過了19%;(3)TET對于無模態、單模態、雙模態和多模態真實圖像的誤分割都很嚴重,各自的ME均值都超過28%;(4)FRFCM雖對雙模態真實圖像有明顯的分割效果,其ME均值為4.71%,但FRFCM的分割結果不穩定,它在對同一幅圖像進行多次聚類時,其ME值會存在很大差異;(5)ICAC雖適合單模態和雙模態真實圖像,其ME均值分別為5.25%和1.80%,但不適合無模態和多模態真實圖像。這些都表明MGTE對無模態、單模態、雙模態和多模態真實圖像具有更強的分割適應性。
圖5 4個不同編號真實世界圖像的灰度直方圖及不同方法所得閾值比較
圖6 不同分割方法在4個編號真實世界圖像上的分割結果比較
圖7 6個分割方法在40幅測試圖像上的ME值比較
在相同軟硬件參數下,同一個方法多次作用在同一幅圖像上的CPU運行時間會在一定范圍內波動。為了降低CPU運行時間波動的影響,每個方法將對同一幅圖像分別進行10次測試,記錄10次的CPU運行時間再求均值,以此均值作為該圖像上的CPU耗時。依次可計算出5個自動分割方法在4幅合成圖像和40幅真實世界圖像上CPU耗時的均值和標準偏差。由表2可知:MGTE的CPU耗時最長,ITT, TET, FRFCM和ICAC的CPU耗時相對較短。
表2 5個分割方法的計算效率比較(s)
當灰度圖像的灰度直方圖呈現為無模態、單模態、雙模態或者多模態時,相對于ITT, TET,FRFCM以及ICAC方法,MGTE方法的分割結果更加接近分割參考方法IT方法。MGTE方法的計算效率雖不及ITT, TET, FRFCM和ICAC方法,但它的分割精度更高,且在閾值選取方面具有更強的適應性。MGTE方法能夠在分割精度、分割適應性上取得一定優勢主要得益于:(1)MGTE方法的多尺度乘積效應能夠將不同模態直方圖轉化成統一的單模態直方圖;(2)在不同方向上,MGTE方法自動計算參與多尺度乘積變換的圖像數量;(3)對不同方向上重構的灰度直方圖進行Tsallis熵運算,所得閾值進行加權計算,這種加權策略使得選取的閾值更加接近合理閾值。