馬曉樂(lè), 王志海, 胡紹海
(北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
單個(gè)傳感器獲取到的圖像不能完整、準(zhǔn)確地描述目標(biāo)場(chǎng)景。圖像融合作為一種有效的圖像處理方法,可以將多源傳感器采集到的關(guān)于同一場(chǎng)景的互補(bǔ)信息進(jìn)行融合,可以更加準(zhǔn)確、可靠地描述場(chǎng)景信息,被廣泛應(yīng)用于醫(yī)療診斷、計(jì)算機(jī)視覺(jué)和軍事偵察等領(lǐng)域[1-3]。
圖像融合[4]可分為像素級(jí)融合、特征級(jí)融合和決策級(jí)融合。基于像素級(jí)融合的方法直接對(duì)源圖像像素進(jìn)行處理,可以保留最詳細(xì)的信息,為其他類(lèi)型的圖像融合奠定基礎(chǔ)[5]。因此,默認(rèn)的圖像融合方法是基于像素級(jí)融合的方法,包括基于空間域的方法、基于多尺度變換的方法、基于稀疏表示的方法和基于深度學(xué)習(xí)的方法。
近年來(lái),基于深度學(xué)習(xí)的圖像處理方法在圖像融合領(lǐng)域得到了廣泛應(yīng)用[6-8]。將人工神經(jīng)網(wǎng)絡(luò)作為判別器來(lái)判別源圖像的信息是否屬于融合后的圖像[9],再利用建立的網(wǎng)絡(luò)提取圖像特征,最后采用傳統(tǒng)的融合方法對(duì)提取的特征進(jìn)行融合[10]。這類(lèi)方法雖然提高了融合性能,但是無(wú)法避免人工設(shè)計(jì)融合規(guī)則的缺點(diǎn),往往需要標(biāo)準(zhǔn)參考圖像和融合參考圖像等先驗(yàn)知識(shí)。
隨著小波及其衍生物的發(fā)展[11],多尺度變換(MST)在圖像處理中得到了廣泛應(yīng)用,特別是在圖像融合領(lǐng)域,如基于多尺度特征分解的紅外與視覺(jué)圖像融合[12]、基于非下采樣域局部差分的多模態(tài)傳感器醫(yī)學(xué)圖像融合[13]、基于遺傳算法快速曲波變換的多模態(tài)醫(yī)學(xué)圖像融合[14]。
近年來(lái),壓縮感知技術(shù)和稀疏表示理論快速發(fā)展,基于稀疏表示的圖像融合方法越來(lái)越受到關(guān)注,如基于稀疏表示的高光譜和多光譜圖像融合[15]、基于幾何稀疏表示的多聚焦圖像融合[16]。這類(lèi)方法的融合過(guò)程為:首先對(duì)源圖像進(jìn)行塊處理,然后采用過(guò)完備冗余字典對(duì)得到的塊進(jìn)行稀疏編碼,接著利用融合規(guī)則對(duì)稀疏系數(shù)進(jìn)行融合,最后通過(guò)稀疏重建得到融合后的圖像。通過(guò)對(duì)稀疏字典進(jìn)行分類(lèi),聯(lián)合稀疏表示(JSR)可以將多源圖像分解為互補(bǔ)分量和冗余分量,形態(tài)學(xué)成分分析(MCA)則將圖像分解為卡通分量和紋理分量[17]。因此,形態(tài)學(xué)成分分析不僅繼承了過(guò)完備稀疏表示和信號(hào)重建的優(yōu)異性能,能夠以最少的原子捕獲圖像中的高維奇異性特征,還提供了良好的圖像結(jié)構(gòu)和紋理自適應(yīng)處理機(jī)制,在圖像處理中具有潛在優(yōu)勢(shì)。
不同傳感器的成像機(jī)理不同,同一傳感器的成像條件也不同,因此傳感器獲取的圖像不僅包含冗余信息,還包含互補(bǔ)信息。現(xiàn)有的圖像融合方法大多忽略了信息之間的互補(bǔ)和冗余關(guān)系,在對(duì)源圖像進(jìn)行融合時(shí)沒(méi)有進(jìn)行區(qū)分,導(dǎo)致融合結(jié)果不完善。此外,直接對(duì)源圖像進(jìn)行處理,將增加冗余信息處理的計(jì)算量。因此,提出了一種基于多形態(tài)學(xué)成分分析的圖像融合方法,不僅保留了多尺度變換提取特征信息的能力并避免了固定的正交基函數(shù),還可以更好地應(yīng)用于隨機(jī)多樣的多模態(tài)圖像融合。
根據(jù)形態(tài)學(xué)結(jié)構(gòu),形態(tài)學(xué)成分分析[17-19]作為一種基于稀疏表示的圖像分解方法,將圖像I分解為紋理子圖像It和卡通子圖像Icar,表達(dá)式如下所示:
式中:Dt、Dcar和αt、αcar分別表示紋理子圖像和卡通子圖像對(duì)應(yīng)的冗余字典和稀疏系數(shù)。It只能由Dt稀疏表示,不能由Dcar稀疏表示;Icar只能由Dcar稀疏表示,不能由Dt稀疏表示。相關(guān)的稀疏模型可以表示為
式中:μ表示懲罰因子。
以上模型是非凸的,對(duì)其求解存在一定的困難,而且隨著字典中原子數(shù)的增長(zhǎng)其求解復(fù)雜度也呈指數(shù)增長(zhǎng)。基追蹤(BP)算法作為一種松弛優(yōu)化算法,將l0范數(shù)轉(zhuǎn)化為其他范數(shù),從而非凸優(yōu)化問(wèn)題被轉(zhuǎn)化為一個(gè)可解的優(yōu)化問(wèn)題。因此,將l1范數(shù)引入此優(yōu)化模型,得到以下模型:
基于多形態(tài)學(xué)成分分析的圖像融合算法如圖1所示。首先對(duì)第一幅源圖像I1和第二幅源圖像I2進(jìn)行多形態(tài)學(xué)成分分析,然后對(duì)上一尺度的卡通分量進(jìn)行形態(tài)學(xué)成分分析以提取豐富的圖像特征,最后得到源圖 像1 的卡通子 圖 像I1car,n和紋理子圖 像I1t,n以及源圖像2 的卡通子圖像I2car,n和紋理子圖像I2t,n,其中下標(biāo)n表示分解層數(shù)。采用不同的融合方法實(shí)現(xiàn)不同子圖像的融合,最終的融合圖像IF可以通過(guò)融合后的卡通子圖像IFcar,n和紋理子圖像IFt,n相加重建得到。
圖像融合的目的是充分利用源圖像信息之間的互補(bǔ)性,解決冗余信息之間的矛盾并增加源圖像的可解釋性和清晰度,為原始場(chǎng)景提供更全面、可靠、準(zhǔn)確的描述。因此,圖像可以被分解為冗余分量Ir和互補(bǔ)分量Icom[20]。類(lèi)似式(1),聯(lián)合稀疏表示模型為
式中:Dr、Dcom和αr、αcom分別表示冗余分量和互補(bǔ)分量各自對(duì)應(yīng)的冗余字典和稀疏系數(shù)。當(dāng)源圖像的數(shù)量為2的時(shí)候,式(4)所代表的模型可以簡(jiǎn)化為
式中:下標(biāo)1、2 表示源圖像的序列號(hào);Dcom1、Dcom2和αcom1、αcom2分別表示源圖像1、2各自對(duì)應(yīng)的互補(bǔ)字典和稀疏系數(shù);Bk1和Bk2分別表示第一幅源圖像和第二幅源圖像的第k個(gè)圖像塊;K表示每幅源圖像中圖像塊的總數(shù)。基于式(4)的圖像融合流程如圖2 所示。圖2 中,Ic1、Ic2、IFc表示源圖像1、源圖像2 以及融合后的互補(bǔ)分量。

圖2 基于聯(lián)合稀疏表示的圖像融合Fig.2 Image fusion based on joint sparse representation
紋理子圖像中包括更多的紋理信息、精細(xì)的細(xì)節(jié)和一些自然噪聲。為了更有效地保留這些精細(xì)的紋理并抑制不必要的噪聲,提出了一種基于方向特征(DF)的紋理子圖像融合方法,通過(guò)比較源圖像的圖像塊中4 個(gè)不同方向(包括水平、垂直、左對(duì)角線和右對(duì)角線方向)的信息差來(lái)實(shí)現(xiàn)。如圖3 所示,4個(gè)方向的24個(gè)不同子方向包括5個(gè)水平、5個(gè)垂直、7個(gè)左對(duì)角線和7 個(gè)右對(duì)角線子方向。以pm,d(i,j)為中心的大小為n×n的窗口在子方向上的最大值和最小值之間的差由下式得到:

圖3 圖像塊的不同方向Fig.3 Different directions of image blocks
式中:m表示源圖像的序列號(hào);d表示圖像塊的方向。
通過(guò)對(duì)比源圖像中同一方向特征的差,方向權(quán)重wm,d(i,j)可以通過(guò)下式得到:
式中:M表示源圖像的總數(shù);T表示閾值。與周?chē)南袼叵啾龋肼暿遣幌∈璧牟⒕哂型蛔兲匦裕瑢?dǎo)致Dm,d(i,j)非常大。因此,通過(guò)對(duì)比Dm,d(i,j)與閾值T可以抑制或消除噪聲。融合后的像素p(i,j)可以通過(guò)下式加權(quán)求和得到:
式中:N表示方向特征的總數(shù)。如圖3 所示,當(dāng)窗口的大小為5×5時(shí),N=24。
為了驗(yàn)證提出的圖像融合算法的性能,將該算法與一些經(jīng)典、先進(jìn)的圖像融合算法進(jìn)行對(duì)比,包括基于向?qū)V波(GFF)的圖像融合算法[21]、基于稀疏表示(SR)的圖像融合算法[22]、基于小波變換(DWT)的圖像融合算法[6]、基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像融合算法[11]、基于多尺度加權(quán)梯度(MWGF)的圖像融合算法[23]、基于多尺度分解和稀疏表示(MST(NSCT)-SR)的圖像融合算法[24]、基于非下采樣剪切波變換(NSST-max)的圖像融合算法[25]以及當(dāng)下比較流行的基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的圖像融合算法[10]。其中,對(duì)于NSST-max算法,采用基于取最大的融合規(guī)則。
為了評(píng)價(jià)上述圖像融合算法的性能,采用主觀評(píng)價(jià)和客觀評(píng)價(jià)相結(jié)合的方法。客觀評(píng)價(jià)指標(biāo)[26]包括QMI、QNCIE、QG、QP、QY、QCB。QMI和QNCIE是基于信息論的指標(biāo),分別測(cè)量源圖像與融合圖像的互信息和非線性相關(guān)信息,分別由下式得到:
式中:RMI(A,F(xiàn))、RMI(B,F(xiàn))分別表示源圖像A、B與融合圖像F的互信息;H(A)、H(B)、H(F)分別表示圖像A、B、F的熵;λi表示非線性相關(guān)矩陣的特征值;b表示圖像的強(qiáng)度等級(jí),通常b=256。QG和QP是基于圖像特征的指標(biāo),分別測(cè)量轉(zhuǎn)移的邊緣信息和圖像特征,表達(dá)式如下所示:
式中:QAF(i,j)、QBF(i,j)分別表示在位置(i,j)處源圖像A、B到融合圖像F的邊緣信息保留值;wA(i,j)、wB(i,j)表示對(duì)應(yīng)的權(quán)重;Pp、Pmax、Pmin分別表示相位一致性、最大矩和最小矩;α、β、γ表示系數(shù),可以根據(jù)對(duì)應(yīng)分量的重要性調(diào)整。QY是基于圖像結(jié)構(gòu)相似度的指標(biāo),根據(jù)結(jié)構(gòu)相似度區(qū)別地對(duì)待冗余和互補(bǔ)區(qū)域,由下式得到:
式中:SSSIM表示圖像的結(jié)構(gòu)相似度;wW表示在窗口W中的局部權(quán)重。QCB是基于人類(lèi)視覺(jué)感知的指標(biāo),與人類(lèi)的視覺(jué)感知一致,由下式得到:
式中:QGQM(i,j)表示全局質(zhì)量圖中的元素。這些指標(biāo)的值越大,對(duì)應(yīng)的融合圖像越好。
圖4 顯示了取自Lytro 數(shù)據(jù)集的典型彩色多聚焦源圖像,融合結(jié)果如圖5所示。圖4中第一行的源圖像與融合圖像的差圖顯示在圖5對(duì)應(yīng)融合圖像的右側(cè),反映了融合算法將信息從源圖像傳遞到融合圖像的能力。

圖4 多聚焦源圖像Fig.4 Multi-focus source images

圖5 融合圖像和差圖Fig.5 Fused images and difference images
圖5的第四列和第六列的差圖中存在明顯的殘差信息,即對(duì)應(yīng)源圖像的失焦區(qū)域被另一源圖像相同位置的聚焦區(qū)域替代。基于向?qū)V波的空間域融合算法在由同一傳感器得到的具有更多冗余信息的圖像融合方面具有更好的能力,尤其是多聚焦源圖像融合。雖然由CNN 得到的融合圖像具有不錯(cuò)的視覺(jué)效果,但是基于深度學(xué)習(xí)的算法在無(wú)法提取圖像特征時(shí)可能無(wú)效,并且需要可用的數(shù)據(jù)庫(kù)。對(duì)比結(jié)果表明,所提出的圖像融合算法對(duì)于多聚焦源圖像融合更為有效,具有更為滿(mǎn)意的視覺(jué)效果。
使用客觀指標(biāo)對(duì)Lytro 數(shù)據(jù)集中的20對(duì)多聚焦源圖像得到的融合圖像進(jìn)行客觀評(píng)價(jià),每個(gè)指標(biāo)的客觀值如表1 所示。可以看到,所提出的算法優(yōu)于其他圖像融合算法,得到的融合圖像在Lytro數(shù)據(jù)集中的整體視覺(jué)效果較好。

表1 Lytro數(shù)據(jù)集中融合圖像指標(biāo)值Tab.1 Index values of fused image in Lytro dataset
進(jìn)行對(duì)比實(shí)驗(yàn)以驗(yàn)證所提算法的有效性和泛化能力,以紅外和可見(jiàn)光圖像為例。紅外圖像通過(guò)紅外感知目標(biāo)表面溫度生成,如圖6a所示;可見(jiàn)光圖像基于反射特性生成,如圖6b所示。圖6c、d為醫(yī)學(xué)源圖像。

圖6 多模態(tài)源圖像Fig.6 Multi-modal source image
圖7和圖8為圖6的融合圖像。與圖4中單模態(tài)的源圖像相比,多模態(tài)源圖像包含著更多的互補(bǔ)信息和一些冗余信息。因此,差圖包含的信息越少,對(duì)應(yīng)的融合圖像越好,融合圖像中包含的轉(zhuǎn)移信息則越多。可以發(fā)現(xiàn),幾乎每種圖像融合算法在多聚焦源圖像上的融合效果都優(yōu)于其他種類(lèi)的源圖像。這種現(xiàn)象可以歸因于多聚焦源圖像具有更多的相似性和冗余信息,易于融合在一起。與之相反,醫(yī)學(xué)圖像、紅外和可見(jiàn)光圖像產(chǎn)生于不同的傳感器,具有更多的互補(bǔ)信息,需要更精確的算法。

圖7 紅外和可見(jiàn)光融合圖像與差圖Fig.7 Infrared and visible fused images and difference images

圖8 醫(yī)學(xué)融合圖像與差圖Fig.8 Medical fused images and difference images
由于一些算法如CNN 和MWGF 是針對(duì)多聚焦源圖像提出的,因此由它們得到的融合圖像的視覺(jué)效果較差。GAN算法是針對(duì)紅外和可見(jiàn)光圖像融合而設(shè)計(jì)的,得到的融合圖像更適合人類(lèi)視覺(jué)系統(tǒng)。對(duì)于如圖8所示的醫(yī)學(xué)圖像融合,基于變換域的算法(如DWT、NSST-max)得到的融合圖像的視覺(jué)效果更好。通過(guò)對(duì)比差圖可以發(fā)現(xiàn),MST(NSCT)-SR、NSSTmax 融合圖像的信息是不完整的。
表2、3 為圖7 和圖8 中融合圖像的客觀評(píng)價(jià)指標(biāo)值。結(jié)果表明,所提出的算法具有更好的融合結(jié)果。

表2 紅外和可見(jiàn)光圖像融合圖像的客觀指標(biāo)值Tab 2 Objective index value of infrared and visible fused images

表3 醫(yī)學(xué)圖像融合圖像的客觀指標(biāo)值Tab 3 Objective index value of medical fused images
結(jié)合多尺度分解和形態(tài)學(xué)成分分析,提出了一種多形態(tài)學(xué)成分分析算法來(lái)實(shí)現(xiàn)圖像融合。綜合考慮源圖像中同時(shí)存在的冗余和互補(bǔ)信息以及不同子圖像的信息特征,還提出了一種基于聯(lián)合稀疏表示和方向特征的融合規(guī)則。對(duì)單模態(tài)和多模態(tài)源圖像的一系列對(duì)比結(jié)果表明,所提出的算法對(duì)于多樣化的圖像融合是有效的,可以實(shí)現(xiàn)更完整的信息轉(zhuǎn)移并得到更適合人類(lèi)視覺(jué)系統(tǒng)的融合圖像。由于采用了包括形態(tài)學(xué)成分分析和聯(lián)合稀疏表示的稀疏表示,相比傳統(tǒng)的圖像融合算法,需要大量的字典訓(xùn)練和稀疏編碼計(jì)算,算法整體復(fù)雜度偏高,在一定程度上影響了算法的實(shí)時(shí)性。在未來(lái)的研究中,計(jì)劃對(duì)字典獲取方式和稀疏編碼進(jìn)行進(jìn)一步的改進(jìn)與優(yōu)化。
作者貢獻(xiàn)聲明:
馬曉樂(lè):論文初稿撰寫(xiě),調(diào)試相關(guān)實(shí)驗(yàn)。
王志海:校核論文,參與論文的修改。
胡紹海:指導(dǎo)論文思路和框圖,參與論文的修改。