劉 棟,周冬明,聶仁燦,侯瑞超
(云南大學 信息學院,昆明 650500)(*通信作者電子郵箱zhoudm@ynu.edu.cn)
多聚焦圖像融合是圖像處理領域的一個重要分支。就目前而言,該技術已被廣泛應用于計算機視覺、目標識別和人工智能等多個領域。在使用光學鏡頭拍攝照片時,受到光學鏡頭聚焦能力的限制,大多數關于同一場景的圖片會出現不同的焦點,這就導致圖片的某些清晰的、細節的信息只能出現在聚焦的區域中,而非聚焦區域的圖像信息是不易被人眼直接觀測到的[1]。因此,多聚焦圖像融合技術的關鍵在于準確提取多聚焦源圖像中的有用信息,來獲得一張精度更高、更加清晰、更利于人眼觀察的圖片。
多聚焦圖像融合技術有效地消除了現代光學鏡頭景深有限的缺陷,提高了圖像的精度,并能夠消除圖像像素間的冗余信息。目前,在該領域使用較多的方法是基于多尺度變換的圖像融合方法,如基于金字塔變換[2]、離散小波變換[3]、基于非下采樣輪廓波變換(Non-Subsampled Contourlet Transform, NSCT)[4]和非下采樣剪切波變換(Non-Subsampled Shearlet Transform, NSST)[5]的圖像多尺度分解算法。其中,金字塔變換缺乏方向性,離散小波變換也不能有效地反映圖像的曲線與邊緣信息[6],NSCT和NSST又忽略了圖像的空間一致性[7]。為了獲得更好的視覺感知并充分利用圖像空間信息,一些結合脈沖耦合神經網絡(Pulse Coupled Neural Network, PCNN)的方法得到廣泛的應用,如NSCT-PCNN[8]、NSST-PCNN[9]等,然而這些方法在對圖像不同區域的像素進行處理時,容易受到噪聲的影響并且不能很好地保留源圖像的一些邊緣與細節結構信息。
針對上述的一些算法缺陷,本文提出了一種在NSCT域內通過計算空間頻率(Spatial Frequency, SF)和相位一致性(Phase Congruency, PC)來驅動PCNN神經元進行多聚焦圖像融合的算法。相位一致性作為圖像的一種特征,其值不會因為圖像的亮度、對比度和光照強度的變化而受到影響,這一特點符合人類視覺特性。有研究表明,人類眼睛感覺到的圖像特征往往位于PC值高的點處[10],同時,相位一致性對噪聲有較強的魯棒性,可以減少噪聲和平滑圖像,而且在同一階段的圖像特征中包含許多頻率成分,如邊緣狀和角狀特征。空間頻率作為圖像的梯度特征,它反映了一幅圖像的總體活躍程度,圖像空間頻率特征的值越大,表明圖像越活躍、越清晰[11]。因此,本文提出的根據圖像高低頻特性來分別計算其SF和PC值的融合規則能夠很好地對源圖像的聚焦區域進行高精度的提取,有效地避免了融合圖像中目標邊緣及細節信息缺失的現象,達到了一個較好的融合效果。
為了簡化計算過程,一種簡化的脈沖耦合神經網絡模型(Simplified PCNN, S-PCNN)[12]被用于本文方法中。與傳統PCNN模型相同,S-PCNN模型由接收域(receptive field)、調制域(modulation field)和脈沖發生器(pulse generator)三部分組成,如圖1所示,在S-PCNN模型中,每一個神經元都唯一對應著一個圖像像素點。S-PCNN的數學模型可由式(1)~(5)來表示:
Fij(n)=Sij
(1)
(2)
Uij(n)=Fij(n)(1+βLij(n))
(3)
θij(n)=exp(-αθ)θij(n-1)+VθYij(n-1)
(4)
(5)
其中:i和j表示神經元(或圖像像素點)的位置。神經元(i,j)在接收域中接收到來自其鄰域神經元(k,l)的輸入脈沖,并通過反饋通道Lij進行傳輸,該通道的衰減幅度為VL,相鄰的神經元之間以突觸鏈接權Wijkl相鏈接,輸入通道Fij僅與外部激勵Sij有關;在調制域中,通過雙通道的內部調制得到神經元的內部狀態Uij,其鏈接強度為β;在脈沖發生器中,當Uij的值大于閾值θij時,觸發神經元點火產生脈沖,然后閾值會以指數方式進行衰減,αθ為其衰減指數,Yij為輸出脈沖。基于PCNN的圖像融合算法步驟[13]如下:
1)當Uij>θij時,觸發PCNN神經元點火,此時,Yij=1;
2)一旦位于(i,j)處的神經元點火成功,閾值θij的值會立即增大,然后隨著時間的流逝呈現指數級的衰減;
3)當Uij≤θij時,神經元停止點火,同時,在神經元點火過程中會產生一個脈沖序列信號;
4)由于PCNN中每個神經元都與其周圍相鄰的神經元相互聯系,因此一個已被點火的神經元會驅動其相鄰的神經元進行點火。
這樣一來,當PCNN中的神經元被其相鄰的神經元觸發點火,整個神經網絡中的神經元將會處于激活狀態,來進行圖像融合的處理。

圖1 S-PCNN 模型Fig. 1 S-PCNN model
近年來,利用NSCT對圖像進行多尺度分解,在圖像融合領域的優越性已被國內外許多學者的研究證明。NSCT作為一個由輪廓波變換(Contourlet Transform, CT)改進而來的二維圖像處理工具,其中包含了非下采樣金字塔濾波器(Non-Subsampled Pyramid, NSP)和非下采樣方向濾波器(Non-Subsampled Directional Filter Bank, NSDFB),如圖2所示。與傳統的輪廓波變換相比,經NSCT得到的融合圖像能夠避免不必要的失真,并且能獲得更好的頻率選擇性、規律性和位移不變性。其中:NSP是一個雙通道濾波器組,NSDFB是一個扇形濾波器組,源圖像經過這兩個濾波器組,將被分解為與源圖像同大小的低頻子帶圖(低頻系數)和帶通子帶圖(高頻系數)[14],源圖像中有效信息的近似分量和大量的細節與結構特征分量信息分別包含在低頻和高頻子帶中。

圖2 基于NSCT的圖像多尺度分解框架Fig. 2 Decomposition framework of NSCT
因此,不同的融合規則將分別應用于低頻系數和高頻系數的融合,最后通過逆NSCT對融合后的低頻系數和高頻系數進行處理,以得到一幅包含兩幅源圖像有效信息并且所有對象都清晰的融合圖像。
圖像空間頻率是與圖像梯度值相關的一種圖像特征,它反映了圖像的活躍程度[15],其值越大,圖像越清晰;反之圖像越模糊。本文將計算高頻子帶的空間頻率值,作為PCNN的外部激勵輸入,以獲得PCNN神經元點火脈沖序列,對高頻子帶進行融合,其值可由圖像行頻率(Row Frequency, RF)與列頻率(Column Frequency, CF)計算而來:
(6)
(7)
(8)

圖3 本文算法框架Fig. 3 Framework of the proposed image fusion algorithm
圖像相位一致性是圖像低水平的不變形屬性,同時,相位一致性特征還為相位校準模式的協議提供了一種量化方法[16]。Oppenheim等[17]通過大量實驗已經證明圖像的許多重要特征在相位圖中可以明確地被識別出來,然而這些特征卻不能在頻譜圖中被很好地識別,由此還發現圖像傅里葉相位包含了關于圖像結構和特征的重要信息。Kovesi等[18]指出,圖像的特征往往出現在圖像相位一致性值最大的點處,同時,考慮到圖像相位一致性特征對圖像像素強度映射和光照對比度變化具有不變性,本文將圖像PC值作為PCNN的外部激勵輸入以進行圖像低頻系數的融合,Kovesi[19-20]提出了一種改進的相位一致性計算方法來避免可能出現的缺點:
(9)
其中:
(10)

(11)
Wo(x)是濾波響應權重函數;N是涉及到的總的尺度數;Amax(x)是濾波器組在點x處響應的最大幅度值;Ano(x)為尺度n處的振幅,當符號“?」”中的值為正時,其結果等于自己本身,否則結果為0;ε是一個極小的常數,用于避免分母為零的情況;To是對噪聲響應的估計。相位偏差值表示為:
(12)
在這個改進的相位一致性模型中,Kovesi[20]利用了log Gabor函數來計算一幅圖像的相位一致性值[21],與傳統的Gabor函數不同,log Gabor函數在對數頻率尺度上是一個高斯函數,因此log Gabor函數在對數頻率尺度上是對稱的,并且它在構造出任意大帶寬濾波器的同時,能夠始終保持在偶對稱濾波器中有一個零直流分量,這是Gabor函數不具備的功能,此外,log Gabor函數符合人類視覺系統在對數頻率尺度下細胞反應對稱的特性[22]。由文獻[23]可知,log Gabor函數的一維數學表達式為:

(13)
其中:ω0為中心頻率;β/ω0根據不同的ω0值取不同的常數以獲得不同頻程帶寬。
SF-PCNN與PC-PCNN分別作為高頻系數與低頻系數的融合規則來驅動PCNN神經元,利用PCNN神經元點火后閾值自動設置的特性來激活整個神經網絡以進行多聚焦圖像融合。本文算法中,分別計算兩幅源圖像分解后同一位置處像素點的高頻分量的SF值與低頻分量的PC值,選取值較大的點作為PCNN外部激勵以獲得融合后的低頻和高頻圖像,即:
(14)
(15)
其中:上標1和2分別表示源圖像1和2的高低頻分量。本文算法結構如圖3所示。


表1 對比實驗結果客觀評價指標Table.1 Performance comparison of different fusion algorithms

圖4 多聚焦圖像融合實驗源圖像Fig. 4 Three couples of multi-focus fusion source images

圖5 Clock融合對比實驗結果Fig. 5 Experimental result of Clock fusion

圖6 Pepsi融合對比實驗結果Fig. 6 Experimental result of Pepsi fusion
實驗環境為:Windows 10,Intel Corel CPU 3.00 GHz,RAM 4 GB, Matlab R2016a。
在表1所示的客觀評價指標數值中,本文算法的各項指標幾乎全部大于4種基于多尺度變換的經典算法,與近年來的新算法相比,3組多聚焦實驗數據共15個測試結果中,近一半的數據結果是優于這3種算法的,其余結果與最大值相接近(如Lab數據集的QAB/F指標:最大值為0.75,本文算法的值為0.73,差值僅為0.02)。同時,如圖8~13的差值圖的方框所示,可以清楚發現對比算法的差值圖中所包含的源圖像的清晰區域的痕跡較多;特別地,實驗數據Lab的左右聚焦區域細節信息相差較大,當對Lab的左聚焦區域(時鐘)進行提取融合后,各算法的融合效果相差無幾,如圖12所示;當對右聚焦區域(人物)進行提取融合后,可以清楚發現所提算法對人物細節信息的提取要明顯優于其余7種對比算法,如圖13所示。

圖7 Lab融合對比實驗結果Fig. 7 Experimental result of Lab fusion

圖8 Clock融合結果與Clock1的差值圖Fig. 8 Difference maps between Fig.5 and Clock1

圖9 Clock融合結果與Clock2的差值圖Fig. 9 Difference maps between Fig.5 and Clock2

圖10 Pepsi融合結果與Pepsi1的值圖Fig. 10 Difference maps between Fig.6 and Pepsi1

圖11 Pepsi融合結果與Pepsi2的值圖Fig. 11 Difference maps between Fig.6 and Pepsi2

圖12 Lab融合結果與Lab1的值圖Fig. 12 Difference maps between Fig.7 and Lab1

圖13 Lab融合結果與Lab2的值圖Fig. 13 Difference maps between Fig.7 and Lab2
綜合相位一致性對圖像亮度、對比度具有不變性,以及空間頻率對圖像梯度信息的表達,利用脈沖耦合神經網絡的生物學特點以及人眼的視覺特性,提出了一種NSCT域內結合相位一致性與空間頻率激勵PCNN的多聚焦圖像融合算法。首先對多聚焦圖像進行多尺度分解,根據圖像高低頻系數的特點,分別選取SF和PC結合PCNN作為圖像高低頻系數的融合準則,最后通過逆NSCT算法,重構得到一幅所有物體都清晰的融合圖像。實驗測得的客觀評價指標和實驗差值圖充分表明所提算法能夠將源圖像的聚焦區域更加完整的、更有效地提取到融合圖像中,其融合效果明顯優于其余對比算法,這意味著本文算法在多聚焦圖像融合方面具有一定的優越性。