

































摘 要:多聚焦圖像融合(MFIF)是從不同源圖像中獲取聚焦區(qū)域,以形成全清晰圖像的一種圖像增強(qiáng)方法。針對目前MFIF方法主要存在的兩個(gè)方面問題,即傳統(tǒng)的空間域方法在其融合邊界存在較強(qiáng)的散焦擴(kuò)散效應(yīng)(DSE)以及偽影等問題;深度學(xué)習(xí)方法缺乏還原光場相機(jī)生成的數(shù)據(jù)集,并且因需要大量手動(dòng)調(diào)參而存在訓(xùn)練過程耗時(shí)過多等問題,提出了一種基于目標(biāo)圖像先驗(yàn)信息的無監(jiān)督多聚焦圖像融合方法。首先,將源圖像本身的內(nèi)部先驗(yàn)信息和由空間域方法生成的初始融合圖像所具有的外部先驗(yàn)信息分別用于G-Net和F-Net輸入,其中,G-Net和F-Net都是由U-Net組成的深度圖像先驗(yàn)(DIP)網(wǎng)絡(luò);然后,引入一種由空間域方法生成的參考掩膜輔助G-Net生成引導(dǎo)決策圖;最后,該決策圖聯(lián)合初始融合圖像對F-Net進(jìn)行優(yōu)化,并生成最終的融合圖像。驗(yàn)證實(shí)驗(yàn)基于具有真實(shí)參考圖像的Lytro數(shù)據(jù)集和融合邊界具有強(qiáng)DSE的MFFW數(shù)據(jù)集,并選用了5個(gè)廣泛應(yīng)用的客觀指標(biāo)進(jìn)行性能評價(jià)。實(shí)驗(yàn)結(jié)果表明,該方法有效地減少了優(yōu)化迭代次數(shù),在主觀和客觀性能評價(jià)上優(yōu)于8種目前最先進(jìn)的MFIF方法,尤其在融合邊界具有強(qiáng)DSE的數(shù)據(jù)集上表現(xiàn)得更有優(yōu)勢。
關(guān)鍵詞:多聚焦圖像融合; 深度圖像先驗(yàn); U-Net; 散焦擴(kuò)散效應(yīng)
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2024)06-044-1901-09
doi:10.19734/j.issn.1001-3695.2023.09.0444
Unsupervised multi-focus image fusion based on target image prior information
Abstract:Multi-focus image fusion(MFIF) is an image enhancement method that combines the focused regions from different source images to form a fully sharp image. Currently, in the context of MFIF methods, there are two main challenges. First, traditional methods such as spatial domain approaches produce fusion images with high objective scores, but they suffer from strong defocus spread effects(DSE) and artifacts at the fusion boundaries. Second, deep learning methods lack a dataset generated from plenoptic cameras and require extensive manual parameter tuning, resulting in time-consuming training processes. To address these challenges, this paper proposed an unsupervised multi-focus image fusion method based on target image prior information. Firstly, it utilized the internal prior information of the source image itself and the external prior information of the initial fusion image generated by a spatial domain method as inputs for the G-Net and F-Net, respectively, both the G-Net and F-Net were components of the UNet-based deep image prior(DIP) network. Then,it introduced a reference mask generated by a spatial domain method to assist G-Net network for generating a guiding decision map. Finally, it used the decision map and the initial fusion image to jointly optimize the F-Net, producing the final fusion image. It conducted validation experiments on the Lytro dataset with real reference images and the MFFW dataset with strong DSE exhibiting in the fusion boundaries, and employed five widely used objective metrics for performance evaluation. The experimental results demonstrate that the proposed method significantly reduces the number of optimization iterations, and outperforms eight state-of-the-art MFIF approaches in terms of the subjective and objective performance evaluation, and especially shows superior performance on the datasets with strong DSE exhibiting in the fusion boundaries.
Key words:multi-focus image fusion; deep image prior; U-Net; defocus spread effect
0 引言
多聚焦圖像融合在計(jì)算機(jī)視覺和圖像處理領(lǐng)域是一項(xiàng)重要和充滿挑戰(zhàn)的研究工作。在場景攝影中,景深導(dǎo)致了同一場景中的不同物體或目標(biāo)呈現(xiàn)出聚焦或散焦?fàn)顟B(tài)。由于硬件設(shè)備以及光學(xué)透鏡的限制,通過單一傳感器或者單獨(dú)拍攝很難捕捉到包含所有物體的全聚焦圖像。通常,在景深范圍內(nèi)獲取的場景保持清晰,而在景深之外的區(qū)域往往是模糊的。為了解決這一問題,多聚焦圖像融合(MFIF)技術(shù)應(yīng)運(yùn)而生。MFIF作為一種圖像增強(qiáng)技術(shù),可以有效地融合多源圖像的不同聚焦區(qū)域,從而生成一幅全聚焦的圖像。目前,MFIF方法在圖像恢復(fù)、顯微成像、醫(yī)學(xué)影像以及機(jī)器視覺等領(lǐng)域得到了廣泛應(yīng)用[1]。
隨著多聚焦圖像融合技術(shù)數(shù)十年來的發(fā)展,研究人員提出了許多圖像融合方法。總體而言,這些方法可以分為變換域、空間域和深度學(xué)習(xí)三類。其中,基于變換域的方法主要是將源圖像分解成不同的變換系數(shù),并按照預(yù)設(shè)的融合規(guī)則對系數(shù)進(jìn)行融合,最后通過逆變換得到融合圖像。在多聚焦圖像融合領(lǐng)域,隨著多尺度分解(MSD)理論的發(fā)展,涌現(xiàn)出了多種基于多尺度變換的圖像融合方法[2]。同時(shí),基于稀疏表示(SR)方法[3]、基于梯度域方法[4]以及基于其他一些變換域的方法[5]也在多聚焦圖像融合領(lǐng)域得到了廣泛應(yīng)用。通常,變換域方法在多聚焦圖像融合領(lǐng)域具有顯著優(yōu)勢,因?yàn)樗鼈兣c人類視覺系統(tǒng)感知處理信息的方式相匹配,并能夠生成較為自然的視覺效果,尤其是在聚焦和散焦區(qū)域的邊界(FDB)附近。然而,分解、融合和重構(gòu)的每個(gè)步驟都可能引入像素強(qiáng)度誤差,并且相對于原始圖像,通過變換域方法得到的融合圖像往往會失去一定的清晰度。
在空間域方法中,通常使用源圖像的某些空間特征來進(jìn)行融合。相較于變換域方法,空間域方法最顯著的特點(diǎn)是不需要進(jìn)行圖像重建融合的逆變換階段。在空間域方法中,可以將其分為基于像素、基于塊和基于區(qū)域的方法。其中,基于像素的方法一直是空間域方法中的一個(gè)熱點(diǎn),該方法依賴于焦點(diǎn)測量,能夠更好地比較多聚焦圖像中像素的清晰度,從而能夠獲取精確的像素權(quán)重圖(或決策圖)。然而,由于基于像素的融合算法只考慮單個(gè)像素或使用局部鄰域中的信息,這可能會導(dǎo)致融合邊界出現(xiàn)偽影以及噪聲等問題。相比之下,基于塊的方法通常采用經(jīng)驗(yàn)性設(shè)置的固定大小的塊,并需要測量每個(gè)塊的活動(dòng)水平。然而,在基于固定塊的方法中,由于塊中可能同時(shí)包含散焦區(qū)域和聚焦區(qū)域,從而使這種方法往往會產(chǎn)生塊效應(yīng)[6]。與基于塊的方法不同,基于區(qū)域的方法中,活動(dòng)水平測量(或焦點(diǎn)測量)是在大小不規(guī)則的分段區(qū)域中進(jìn)行的。然而,這種方法若對區(qū)域的分割不準(zhǔn)確,容易在融合結(jié)果中引入一些錯(cuò)誤信息。
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺、圖像處理和模式識別等領(lǐng)域的廣泛應(yīng)用和卓越表現(xiàn),其在多聚焦圖像融合領(lǐng)域日益得到關(guān)注和應(yīng)用。基于深度學(xué)習(xí)的方法主要分為有監(jiān)督和無監(jiān)督[7]兩種類型。其中,有監(jiān)督方法使用標(biāo)注的多聚焦圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,并通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)源圖像和融合圖像之間的映射關(guān)系,生成高質(zhì)量的融合圖像。相比之下,無監(jiān)督方法則通過自動(dòng)學(xué)習(xí)源圖像的相關(guān)性和差異性,實(shí)現(xiàn)多聚焦圖像的融合。特別地,無監(jiān)督方法通過無監(jiān)督學(xué)習(xí)算法利用大量未標(biāo)注的多聚焦圖像數(shù)據(jù)進(jìn)行訓(xùn)練。這種方法能夠方便學(xué)習(xí)源圖像到焦點(diǎn)圖或融合圖像之間的直接映射,即通過訓(xùn)練網(wǎng)絡(luò)可以聯(lián)合生成活動(dòng)水平測量和融合規(guī)則。目前,由于光學(xué)相機(jī)生成的源圖像缺乏真實(shí)參考圖像、生成的訓(xùn)練數(shù)據(jù)集很難去還原相機(jī)產(chǎn)生的離焦區(qū)域、缺乏相關(guān)基于深度學(xué)習(xí)的MFIF算法的標(biāo)記數(shù)據(jù)集以及網(wǎng)絡(luò)訓(xùn)練困難且復(fù)雜,使得有監(jiān)督方法實(shí)現(xiàn)理想的融合效果變得比較困難。盡管無監(jiān)督的深度學(xué)習(xí)方法能有效地解決上述問題,但其需要更復(fù)雜的訓(xùn)練策略以更好地提取圖像特征,并且相對于有監(jiān)督方法,其融合效果仍有待于改善和提高。
最近,基于深度圖像先驗(yàn)(DIP)的無監(jiān)督圖像處理方法[8]的成功問世及應(yīng)用引起了廣大研究者的關(guān)注。DIP是一種基于深度神經(jīng)網(wǎng)絡(luò)迭代優(yōu)化學(xué)習(xí)的圖像恢復(fù)框架。與傳統(tǒng)的圖像恢復(fù)方法不同,DIP利用深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)來實(shí)現(xiàn)對退化圖像的恢復(fù)。它不需要額外的訓(xùn)練數(shù)據(jù),而是通過獲取深度網(wǎng)絡(luò)中的隱式先驗(yàn)并采用適當(dāng)?shù)牡螖?shù)來恢復(fù)圖像。目前,DIP已開始用于多聚焦圖像融合領(lǐng)域[9]。然而,基于DIP的圖像處理方法仍面臨許多問題與挑戰(zhàn)。一方面,DIP方法對迭代次數(shù)的選擇非常敏感,選擇過少可能無法充分恢復(fù)圖像的細(xì)節(jié),而選擇過多可能導(dǎo)致過度恢復(fù)和噪聲的引入。另一方面,由于以受到噪聲或失真影響的退化圖像為目標(biāo)圖像,DIP方法的性能還遠(yuǎn)沒有達(dá)到最先進(jìn)的程度。
為了解決上述問題,本文提出了一種基于內(nèi)外先驗(yàn)信息的MFIF方法。具體地,首先將多聚焦圖像融合視為圖像恢復(fù)問題;然后,將目標(biāo)圖像的外部先驗(yàn)和內(nèi)部先驗(yàn)信息用于深度網(wǎng)絡(luò)輸入,其中所采用的深度網(wǎng)絡(luò)為U-Net;最后,擬合出合適的損失函數(shù)并通過初始引導(dǎo)的掩膜幫助網(wǎng)絡(luò)縮短優(yōu)化迭代次數(shù),從而有效地獲得高質(zhì)量的融合圖像。本文的主要貢獻(xiàn)有以下三個(gè)方面:
a)在網(wǎng)絡(luò)輸入方面,本文采用了一種新的策略。該策略利用源圖像本身豐富的內(nèi)部先驗(yàn)信息和通過空間域方法生成的初始融合圖像中包含的外部先驗(yàn)信息作為U-Net的輸入。由于這些先驗(yàn)信息能夠?yàn)閁-Net提供最有價(jià)值的引導(dǎo),并用于對清晰融合圖像的先驗(yàn)進(jìn)行建模,從而優(yōu)化網(wǎng)絡(luò)的收斂速度并提高融合性能。
b)本文采用一種新的生成引導(dǎo)U-Net的初始掩膜的空間域方法。它可以有效地縮短優(yōu)化迭代時(shí)間,并提升融合效果。
c)為了有效解決源圖像聚焦和散焦區(qū)域邊界周圍的散焦擴(kuò)散效應(yīng)(DSE),本文特別選取具有強(qiáng)DSE的MFFW數(shù)據(jù)集作為主要的實(shí)驗(yàn)數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效地解決融合邊界處的偽影、噪聲以及光環(huán)等問題。
1 相關(guān)工作
1.1 典型的MFIF方法
1.1.1 基于變換域的方法
為了更好地保留源圖像的細(xì)節(jié)、減少融合過程中產(chǎn)生的偽影等問題,Li等人[2]首次在圖像融合領(lǐng)域引入了離散小波變換(DWT)。該方法使用最大選擇規(guī)則,通過在局部小窗口內(nèi)選取具有最大絕對值的小波系數(shù)來測量活動(dòng)水平,并據(jù)此將這些小波系數(shù)進(jìn)行融合。另一方面,Yang等人[3]首次在多聚焦圖像融合領(lǐng)域引入了稀疏表示(SR)。該方法首先使用過完備字典將源圖像表示為稀疏系數(shù),然后利用最大選擇融合規(guī)則將這些系數(shù)組合起來,最后通過組合的稀疏系數(shù)和字典重構(gòu)融合圖像。類似地,Liu等人[10]提出了一種基于卷積稀疏表示的MFIF方法。此外,Bavirisetti等人[11]提出了一種基于引導(dǎo)圖像濾波器的通用、簡單且快速的MFIF算法。具體地,該方法通過多尺度圖像分解、結(jié)構(gòu)傳遞屬性、視覺顯著性檢測和權(quán)重圖構(gòu)建,能夠?qū)⒂杏玫脑磮D像信息很好地融合到多聚焦融合圖像中。目前,變換域方法在處理圖像邊緣和細(xì)節(jié)時(shí)容易引入偽影,以及產(chǎn)生模糊效應(yīng),從而可能導(dǎo)致融合結(jié)果的失真。
1.1.2 基于空間域的方法
基于像素的融合方法是空間域中最流行的方法,因?yàn)樗鼈兡軌颢@得精確的像素決策圖。其中,Li等人[7]于2003年提出了一種基于像素的MFIF方法,該方法對每個(gè)像素計(jì)算其可見度,并根據(jù)像素的可見度進(jìn)行融合。Kumar等人[12]提出了一種通過加權(quán)平均融合源圖像的方法,其中權(quán)重是使用交叉雙邊濾波器(CBF)從源圖像中提取的細(xì)節(jié)圖像計(jì)算得出。此外,基于塊的方法也在多聚焦圖像融合領(lǐng)域得到了廣泛應(yīng)用,如Bai等人[13]提出了一種基于四叉樹的MFIF方法,該方法采用改進(jìn)的四叉樹分解策略和基于修正拉普拉斯能量和(SML)的焦點(diǎn)度量。然而,這些基于像素或者塊的方法,往往會導(dǎo)致細(xì)節(jié)丟失以及邊界產(chǎn)生偽影和噪聲等問題。
1.1.3 基于深度學(xué)習(xí)的方法
Liu等人[14]首次引入了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的MFIF方法,為多聚焦圖像融合領(lǐng)域帶來了一種新的解決方案。隨后,Zhang等人[15]提出了一種通用的圖像融合框架IFCNN,它同樣基于CNN進(jìn)行多聚焦等圖像的融合。Wang等人[16]采用生成對抗網(wǎng)絡(luò)MFIF-GAN,提出了一種新的基于自適應(yīng)和梯度聯(lián)合約束的MFIF方法。其中,通過引入自適應(yīng)決策塊,并根據(jù)重復(fù)模糊的差異判斷源像素是否聚焦,從而有效地提高了具有較強(qiáng)DSE的多聚焦圖像的融合性能。此外,Xu等人[17]提出了一種全新的無監(jiān)督端到端的圖像融合網(wǎng)絡(luò)U2Fusion,其通過特征提取和信息度量,能夠自動(dòng)估計(jì)對應(yīng)源圖像的重要性,并自適應(yīng)地確定信息保留的程度,從而在同一框架內(nèi)處理不同的融合任務(wù)。然而,由于大多數(shù)基于深度學(xué)習(xí)的多聚焦圖像融合方法缺乏大規(guī)模的訓(xùn)練數(shù)據(jù)集以及訓(xùn)練模型泛化能力一般等問題,在圖像融合的性能和效率方面仍存在著很大的提升空間。
1.2 深度圖像先驗(yàn)
通常,圖像恢復(fù)中的逆問題,如去噪、融合、超分辨率和修復(fù)等,都可以通過能量最小化的形式進(jìn)行求解。用公式可以概括為
其中:x為待恢復(fù)圖像(或目標(biāo)圖像);x0為給定的退化圖像;E(x;x0)為面向任務(wù)的數(shù)據(jù)項(xiàng),例如E(x;x0)=‖x-x0‖2等;R(x)為顯式的正則項(xiàng),它用于捕捉真實(shí)圖像中的一般先驗(yàn)信息,引導(dǎo)最終的輸出結(jié)果向著更合理的方向發(fā)展。
在式(1)中,設(shè)計(jì)有效的正則項(xiàng)通常是比較困難的,而通過深度卷積神經(jīng)網(wǎng)絡(luò)自身的結(jié)構(gòu)獲取圖像的先驗(yàn)信息,不失為研究逆問題的一種有效的無監(jiān)督方法。為此,在2018年,Ulyanov等人[8]提出了深度圖像先驗(yàn)(DIP)框架。其中,DIP是一種基于深度學(xué)習(xí)的圖像恢復(fù)方法,它利用深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和特性來恢復(fù)退化圖像。DIP模型用公式可以描述為
其中:x為待恢復(fù)圖像;x0為已知的退化圖像;θ為網(wǎng)絡(luò)參數(shù);z為一個(gè)隨機(jī)向量(或圖像);x=fθ(z)為深度神經(jīng)網(wǎng)絡(luò)的參數(shù)化表示;E(fθ(z);x0)為面向任務(wù)的數(shù)據(jù)項(xiàng),例如E(fθ(z);x0)=‖fθ(z)-x0‖2等。
由式(2)可見,在DIP模型中,正則項(xiàng)由深度神經(jīng)網(wǎng)絡(luò)本身的結(jié)構(gòu)信息隱含表征。DIP模型中使用的骨干網(wǎng)絡(luò)為具有“沙漏”結(jié)構(gòu)的U-Net。此網(wǎng)絡(luò)本身可交替進(jìn)行卷積、上采樣和非線性激活等濾波操作。通常,U-Net具有常用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),所含有的編碼器和解碼器具有結(jié)構(gòu)的對稱性,這樣有助于在恢復(fù)圖像過程中保留輸入圖像的細(xì)節(jié)信息。具體地,U-Net的編碼器(encoder)由多個(gè)卷積層和池化層組成,它通過逐漸降低特征圖的尺寸和通道數(shù),從而有效地提取圖像的抽象特征;其解碼器(decoder)由多個(gè)卷積層和上采樣層組成,它通過逐漸恢復(fù)特征圖的尺寸和通道數(shù),使得恢復(fù)圖像的分辨率與輸入圖像相同;此外,U-Net還采用跳躍連接(skip connection)將編碼器中不同層的特征圖與解碼器中對應(yīng)層的特征圖進(jìn)行連接,從而有助于傳遞更多底層的細(xì)節(jié)信息。
通常,原始DIP框架把圖像恢復(fù)問題看作一個(gè)逆問題,并且根據(jù)生成器網(wǎng)絡(luò)的結(jié)構(gòu)在沒有任何學(xué)習(xí)的情況下可以捕捉到大量的底層圖像統(tǒng)計(jì)信息。隨后,Gandelsman等人[18]通過耦合多個(gè)DIP網(wǎng)絡(luò),為圖像分解成基本組成部分提供了強(qiáng)大的工具,并適用于各種相關(guān)的應(yīng)用。例如,Xu等人[19]將包含豐富外部先驗(yàn)信息的去噪圖像與多個(gè)標(biāo)準(zhǔn)DIP框架內(nèi)給定的噪聲圖像一起作為額外的目標(biāo)圖像,實(shí)現(xiàn)了高效的無監(jiān)督圖像去噪過程。最近,Ma等人[20]提出了一種將DIP擴(kuò)展到圖像融合領(lǐng)域的新型方法,并將DIP表述為求逆問題的融合任務(wù)。值得一提的是,該方法是在經(jīng)典DIP網(wǎng)絡(luò)的基礎(chǔ)上采用多通道方法進(jìn)一步增強(qiáng)DIP的圖像融合效果,但限于網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)單一等問題,其融合效果欠佳。Hu等人[9]提出了一種零樣本學(xué)習(xí)的方法,并用于多聚焦圖像的融合。它既不需要采用收集耗時(shí)的數(shù)據(jù)集進(jìn)行訓(xùn)練,又避免了由于人工生成的多聚焦圖像與真實(shí)圖像不一致而引起的領(lǐng)域遷移問題。然而,目前將DIP框架用于多聚焦圖像融合仍存在一些問題,如難以確定迭代中止次數(shù)、網(wǎng)絡(luò)輸入的噪聲圖像所含有的融合圖像先驗(yàn)信息有限等,從而導(dǎo)致多聚焦圖像融合效率低、性能較差。
1.3 本文研究的動(dòng)機(jī)
目前,基于DIP框架的圖像處理方法性能差的主要原因是它將退化圖像(例如含噪圖像、多聚焦源圖像等)作為目標(biāo)圖像。這樣,如果將DIP框架用于多聚焦圖像融合,由于目標(biāo)圖像自身不完善的先驗(yàn)信息質(zhì)量,就可能影響到優(yōu)化迭代的有效收斂和融合性能。為了解決上述問題,本文使用具有外部先驗(yàn)信息的、較高質(zhì)量的初始融合圖像和具有內(nèi)部先驗(yàn)信息的源圖像作為DIP框架的目標(biāo)圖像。通常,圖像的外部先驗(yàn)信息是指通過基于空間域、變換域或深度學(xué)習(xí)等的方法獲取的融合圖像信息。目前,目標(biāo)圖像的內(nèi)部和外部先驗(yàn)信息在圖像去噪、多光譜圖像融合等領(lǐng)域得到了越來越多的應(yīng)用,并取得了較好的效果[21,22]。
另一方面,目前在基于深度學(xué)習(xí)的多聚焦圖像融合領(lǐng)域,廣泛地存在著缺乏逼近真實(shí)參考圖像的訓(xùn)練數(shù)據(jù)集以及訓(xùn)練需要較多耗時(shí)等問題;同時(shí),傳統(tǒng)的基于變換域與空間域方法所生成的融合圖像邊界存在著較強(qiáng)的DSE和偽影等問題。為了有效地解決上述兩方面的問題,本文提出了一種基于目標(biāo)圖像的外部和內(nèi)部先驗(yàn)信息的無監(jiān)督MFIF方法。該方法能有效地提高DIP框架的融合質(zhì)量,并且能夠縮短迭代次數(shù)以提高融合效率,同時(shí)它也能夠有效解決融合邊界的DSE、偽影及噪聲等問題。
2 基于內(nèi)外部先驗(yàn)信息的無監(jiān)督多聚焦圖像融合
本文方法的框架如圖1所示,它將改進(jìn)的DIP框架用于實(shí)現(xiàn)多聚焦圖像的融合。
圖中,IA、IB為G-Net輸入的一對源圖像;M1、M2為由空間域方法生成的初始掩膜;MG1、MG2為IA、IB對應(yīng)的G-Net輸出掩膜;IF0為由空間域方法生成的初始融合圖像,并作為F-Net輸入;IF為F-Net輸出的最終融合圖像。兩個(gè)具有U-Net結(jié)構(gòu)[20]的G-Net和F-Net構(gòu)成了一個(gè)聯(lián)合學(xué)習(xí)的過程。其中,G-Net用于生成一對源圖像IA、IB對應(yīng)的決策圖MG1和MG2;然后,這些決策圖將在F-Net中引導(dǎo)融合圖像的生成。具體地,首先采用包含豐富內(nèi)部先驗(yàn)信息的源圖像對IA、IB作為G-Net的輸入,同時(shí)引入一對由空間域方法生成的初始掩膜M1和M2,該掩膜對能夠高效引導(dǎo)G-Net生成源圖像對應(yīng)的決策圖MG1和MG2;然后,利用空間域方法生成初始融合圖像IF0;最后,將包含外部先驗(yàn)信息的IF0作為F-Net的輸入,同時(shí)使用決策圖MG1和MG2引導(dǎo)F-Net生成最終的融合圖像IF。需要說明的是,在圖1中只使用一對源圖像作為示例,本文多聚焦圖像融合方法可以擴(kuò)展到多個(gè)源圖像。
2.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置
鑒于一些主流DIP網(wǎng)絡(luò)采用的編碼器-解碼器結(jié)構(gòu)存在一些常見問題,比如深度通常較淺(常見的是3×3網(wǎng)絡(luò)),以及上采樣和下采樣采用對稱設(shè)計(jì)等,本文采用了一種不同的結(jié)構(gòu)。具體而言,本文通過增加編碼器-解碼器網(wǎng)絡(luò)的深度,并采用了非對稱的結(jié)構(gòu)設(shè)計(jì)。此外,本文還引入了跳躍連接U-Net,以便解碼器能夠充分利用編碼器中的底層特征信息,從而提高了融合結(jié)果的準(zhǔn)確性。 如圖1所示,本文網(wǎng)絡(luò)由G-Net和F-Net兩部分組成。考慮到U-Net能夠更好地提取圖像中的高頻和低頻信息,因此本文使用由U-Net構(gòu)成的G-Net和F-Net作為主干網(wǎng)絡(luò)。這兩種網(wǎng)絡(luò)的編碼器和解碼器在結(jié)構(gòu)上是相同的,但層數(shù)不同。其中,兩種網(wǎng)絡(luò)編碼器部分的結(jié)構(gòu)為Conv-UpSample- BatchNorm-LeakyReLU;而其解碼器部分的結(jié)構(gòu)為Conv-BatchNorm-LeakyReLU-DownSample。此外,這兩種網(wǎng)絡(luò)采用的跳躍連接部分的結(jié)構(gòu)為Conv-BatchNorm-LeakyReLU。具體地,F(xiàn)-Net和G-Net的主要結(jié)構(gòu)參數(shù)信息如表1和2所示。
2.2 采取的內(nèi)外部先驗(yàn)信息
在原始的DIP框架中,通常會選擇隨機(jī)噪聲圖像作為深度網(wǎng)絡(luò)的輸入。與有監(jiān)督的網(wǎng)絡(luò)模型相比,這種框架中僅包含有限的外部先驗(yàn)信息用于圖像融合,這可能對DIP融合框架優(yōu)化迭代過程的收斂性和融合圖像的質(zhì)量產(chǎn)生不良影響。為了改善這些情況,一方面通過利用簡單的空間域方法生成融合圖像作為深度網(wǎng)絡(luò)的輸入,可提供一種更有效的替代方案。這種方案不僅能夠快速且相對準(zhǔn)確地生成較高質(zhì)量的初始融合圖像,還可以充分利用此融合圖像中包含的外部先驗(yàn)信息。另一方面,鑒于源圖像對中包含著豐富的內(nèi)部先驗(yàn)信息,在DIP融合框架優(yōu)化迭代過程中可顯著地減少圖像空間的搜索范圍,從而有效地提高收斂的效率。綜上所述,為了提高DIP融合框架優(yōu)化迭代的收斂速度和融合圖像的性能,本文選擇使用多聚焦圖像數(shù)據(jù)集中的源圖像對代替隨機(jī)噪聲圖像作為深度網(wǎng)絡(luò)的輸入,以豐富目標(biāo)圖像的內(nèi)部先驗(yàn)信息;同時(shí),本文引入一種簡單的空間域方法[23],用于為G-Net和F-Net兩個(gè)深度網(wǎng)絡(luò)提供包含豐富的外部先驗(yàn)信息的一對互補(bǔ)的二值初始掩膜M1、M2以及初始融合圖像IF0。
具體而言,本文采用空間域法進(jìn)行多聚焦圖像融合的過程為:首先獲取由源圖像與均值濾波后的源圖像相減所得到的絕對差值圖像;再通過導(dǎo)向?yàn)V波并根據(jù)局部標(biāo)準(zhǔn)差檢測得到聚焦區(qū)域;然后根據(jù)像素最大化原則形成決策圖;最后由決策圖得到初始融合圖像IF0。其中,該空間域方法生成的決策圖為G-Net提供初始掩膜M1和M2,而生成的初始融合圖像用作F-Net的輸入。在圖2中,給出了在Lytro數(shù)據(jù)集[24]上的部分示例,它們包括由所采用的空間域方法得出的決策圖M1和對應(yīng)的初始融合圖像。
2.3 優(yōu)化實(shí)驗(yàn)細(xì)節(jié)
為了引導(dǎo)本文采用的網(wǎng)絡(luò)模型學(xué)習(xí)如何從輸入圖像中有效提取信息,并將這些信息綜合成高質(zhì)量的融合圖像,在本文中引入重建損失來反映深度網(wǎng)絡(luò)的隱式先驗(yàn)。結(jié)合圖1中所采用的深度網(wǎng)絡(luò)及其輸入特點(diǎn),定義重建損失為
另一方面,本文通過引入空域法生成的決策圖,可以幫助G-Net更好地學(xué)習(xí)源圖像對中包含的內(nèi)部先驗(yàn)信息。因此,為了給G-Net提供更好的引導(dǎo)信息,以幫助生成有效的引導(dǎo)決策圖MG1和MG2,在本文中引入了引導(dǎo)決策損失,用公式可表示為
由式(4)可以看出,初始掩膜M1和M2的質(zhì)量對于G-Net的輸出性能有著重要的影響。由圖2(a)可以看出,空間域方法生成的掩膜M1中還存在著一些黑白像素誤差。盡管如此,M1及其對應(yīng)的M2仍可以為G-Net輸出的源圖像決策圖提供關(guān)鍵的先驗(yàn)引導(dǎo)信息,從而產(chǎn)生有效的引導(dǎo)決策圖。值得說明的是,在聚焦和散焦區(qū)域的邊界處,本文方法綜合了焦點(diǎn)圖估計(jì)和融合圖像生成方法的優(yōu)點(diǎn),可以有效地減少因像素錯(cuò)誤分類帶來的問題。
由式(4)還可以得出,G-Net初始輸出的掩膜將盡可能接近于掩膜M1和M2。鑒于M1和M2存在著一些瑕疵,而本文旨在獲得更加出色的輸出掩膜,因此需要進(jìn)一步探索G-Net初始輸出的掩膜向M1和M2趨近的迭代次數(shù)閾值。本文為了更直觀、準(zhǔn)確地展現(xiàn)融合圖像質(zhì)量隨著迭代次數(shù)的變化規(guī)律,選擇采用PSNR曲線進(jìn)行說明。由于本文所采用的Lytro和MFFW數(shù)據(jù)集缺乏參考圖像,而在Real-MFF[25]和MFI -WHU[16]數(shù)據(jù)集中提供了參考圖像,所以在圖3中,本文呈現(xiàn)了在真實(shí)數(shù)據(jù)集Real-MFF中獲得的MG1與M1的PSNR曲線。從式(4)和圖3中可以看出,當(dāng)?shù)螖?shù)達(dá)到某一閾值時(shí),G-Net生成的掩膜無限接近于M1、M2,L2會趨于0;而當(dāng)?shù)螖?shù)繼續(xù)增加,L2會變差,可能無法生成最終理想的決策圖。
具體地,從圖3中還可以觀察到,在Real-MFF數(shù)據(jù)集上,當(dāng)?shù)螖?shù)超過150次時(shí),PSNR曲線基本趨于穩(wěn)定;然而,當(dāng)?shù)螖?shù)超過220次后,PSNR曲線開始出現(xiàn)下降趨勢。對于MFI-WHU數(shù)據(jù)集,也呈現(xiàn)出類似的趨勢。PSNR曲線趨于穩(wěn)定的迭代次數(shù)約為160次。考慮到本文所采用實(shí)驗(yàn)數(shù)據(jù)集的特點(diǎn),結(jié)合這兩個(gè)數(shù)據(jù)集的PSNR曲線變化規(guī)律,本文最終確定初始迭代次數(shù)為160次。
當(dāng)?shù)螖?shù)大于160次之后,為了進(jìn)一步提高F-Net輸出的融合圖像性能以及G-Net和F-Net的迭代效率,本文將重構(gòu)損失替換為
其中:SSIM[26]代表兩幅圖像的結(jié)構(gòu)相似度,其對應(yīng)的公式如下:
另一方面,為了使得到的融合圖像具有更好的視覺感知效果,在本文方法中引入了感知損失,其具體公式如下:
綜上所述,為了保證有效地提高圖像融合的性能,本文采用的損失函數(shù)根據(jù)迭代次數(shù)iteration的閾值(160次)分為兩個(gè)階段,具體如式(8)和(9)所示。
a)當(dāng)iteration≤160時(shí),
L=L1+λ1L2+λ2L3(8)
b)當(dāng)iteration>160時(shí),
其中:λ1和λ2為加權(quán)系數(shù),用于折中不同損失之間的權(quán)重。
類似地,本文也測試了最終融合圖像IF與Real-MFF數(shù)據(jù)集和MFI-WHU數(shù)據(jù)集上相應(yīng)真實(shí)圖像的PSNR曲線,并最終實(shí)驗(yàn)確定中止迭代次數(shù)Iters為600次。具體地,本文算法如下所示。
算法1 本文方法流程
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)參數(shù)設(shè)置和數(shù)據(jù)集選擇
本文實(shí)驗(yàn)使用PyTorch,在配置為NVIDIA RTX3060 12 GB GPU的計(jì)算機(jī)上完成。主要實(shí)驗(yàn)參數(shù)如表3所示,其中:實(shí)驗(yàn)學(xué)習(xí)率設(shè)為0.001;λ1設(shè)置為10,λ2設(shè)置為0.01,并且通過多組實(shí)驗(yàn)發(fā)現(xiàn),在性能和效率方面,這兩個(gè)參數(shù)的調(diào)整對結(jié)果影響不敏感;優(yōu)化迭代閾值設(shè)為160次,總迭代次數(shù)設(shè)為600次。
為了對本文方法進(jìn)行綜合評估,在實(shí)驗(yàn)中使用了兩個(gè)MFIF數(shù)據(jù)集,即Lytro數(shù)據(jù)集和MFFW數(shù)據(jù)集[28]。其中,Lytro數(shù)據(jù)集包含20對多聚焦圖像,這些圖像都是使用光場相機(jī)捕捉的。特別地,考慮到Lytro數(shù)據(jù)集的散焦擴(kuò)散效應(yīng)(DSE)并不明顯,本文實(shí)驗(yàn)還選取了DSE更加明顯且場景更加復(fù)雜的MFFW數(shù)據(jù)集,它包含13對多聚焦源圖像。圖4給出了Lytro和MFFW數(shù)據(jù)集中的一些示例,通過示例比較可以明顯地看出MFFW數(shù)據(jù)集的源圖像對具有較強(qiáng)的DSE。
3.2 采用的客觀評價(jià)指標(biāo)
本文在實(shí)驗(yàn)中使用了五個(gè)被廣泛應(yīng)用于MFIF方法的客觀指標(biāo)進(jìn)行評估。它們包括歸一化互信息(QMI)[29]、非線性相關(guān)信息熵(QNICE)[30]、基于梯度的度量(QG)[31]、Yang等人提出的基于結(jié)構(gòu)相似性的度量(QY)[32]以及Chen等人提出的基于人類感知的度量(QCB)[25]。本文將根據(jù)這些客觀指標(biāo)的實(shí)驗(yàn)值來評估不同方法融合結(jié)果的質(zhì)量和性能,并進(jìn)行深入的分析。其中,歸一化互信息(normalized mutual information)QMI定義為
其中:H(·)表示圖像的熵;MI為兩幅圖像間的互信息。QMI值越大,表示融合性能越好。
非線性相關(guān)信息熵(nonlinear correlation information entropy)QNICE用于測量源圖像A、B和融合圖像F之間的非線性相關(guān)性。首先,基于源圖像和融合圖像之間的非線性相關(guān)系數(shù)(nonlinear correlation coefficient,NCC)構(gòu)建非線性相關(guān)矩陣R,即
然后,QNICE 可以計(jì)算為
其中:λi為矩陣R的特征值。QNICE值越大,表示源圖像和融合圖像間的非線性相關(guān)性越強(qiáng)。
基于邊緣的相似性度量(edge based similarity measurement)QG表示從源圖像傳輸?shù)饺诤蠄D像的邊緣信息量。它可以由下式計(jì)算得到。
其中:QA,F(xiàn)(i,j)為邊緣信息保持值;ω表示每個(gè)源圖像對融合圖像的重要性。通常,較大的QG值表示較良好的融合性能。
楊的度量(Yang’s metric)QY是一種基于結(jié)構(gòu)相似度SSIM的融合質(zhì)量度量。它表示來自兩個(gè)源圖像的融合圖像F中保留的結(jié)構(gòu)信息量。QY定義為
其中:ω是一個(gè)局部窗口,而λ(w)表示為
其中:s是ω窗口內(nèi)圖像的局部方差度量。QY值越大,則融合圖像中保留的源圖像信息越多,融合性能越好。QY的最大值為1。
基于人類視覺感知的度量QCB定義為
其中:WA,F(xiàn)(i,j)和WB,F(xiàn)(i,j)分別表示從源圖像轉(zhuǎn)換到融合圖像的對比度;βA 和βB分別為WA,F(xiàn)(i,j)和WB,F(xiàn)(i,j)的顯著性圖。QCB值越大,表示融合圖像中保留的源圖像信息越多,表明融合性能越好。QCB 的值在[0,1]內(nèi)。
3.3 模型選擇
為了驗(yàn)證本文提出的網(wǎng)絡(luò)優(yōu)化模型的有效性和可行性,實(shí)驗(yàn)選用DIP網(wǎng)絡(luò)(即G-Net和F-Net)作為主干網(wǎng)絡(luò),并在Lytro數(shù)據(jù)集上完成多聚焦圖像的融合。在Lytro數(shù)據(jù)集上獲得的平均實(shí)驗(yàn)結(jié)果如表4和圖5所示。其中,表4和圖5中的MFF-GAN*表示由MFF-GAN生成參考掩膜的方法;M*表示本文生成參考掩膜的方法;Ii表示使用源圖像對作為G-Net的輸入;IF0表示使用由空間域方法生成的初始融合圖像作為F-Net的輸入。
具體地,首先選取DIP+MFF-GAN*模型作為評價(jià)基準(zhǔn)。然后,進(jìn)行不同的模型選擇嘗試和比較。由表4中的數(shù)據(jù)以及圖5中代表DIP+M*+Ii+IF0模型的紅色曲線與另外三種方案曲線之間的縱向差距比較可以更加直觀地看出,DIP+M*+Ii+IF0組合模型為最優(yōu)方案。因此,本文選用DIP+M*+Ii+IF0模型作為最終的模型。此外,通過比較表4中的不同模型方案在Lytro數(shù)據(jù)集上的平均耗時(shí)可以看出,隨著模型選擇方案的優(yōu)化,融合效率也在不斷提高,其中DIP+M*+Ii+IF0模型的耗時(shí)最少,它相對于其他三種模型方案的融合效率也得到了明顯的提高。
3.4 用于對比的MFIF方法
本文方法與八種先進(jìn)的MFIF方法進(jìn)行了比較,如表5所示。其分別是CBF[12]、MGFF[11]、CSR[10]、MFF-GAN[15]、U2Fusion[17]、IFCNN[15]、U-DIP[20]以及ZMFF[9]方法。這些方法幾乎包含了常見的全部類型的MFIF方法。具體而言,一種空域方法為CBF方法;兩種變換域方法為MGFF和CSR方法;三種深度學(xué)習(xí)方法為MFF-GAN、U2Fusion和IFCNN方法;兩種DIP方法為ZMFF和U-DIP方法。
3.5 在Lytro數(shù)據(jù)集上的性能比較
3.5.1 主觀評價(jià)
為了更直觀地比較不同方法的融合性能,本文選擇了Lytro-17源圖像對作為示例,實(shí)驗(yàn)結(jié)果如圖6所示。在圖6中,本文將不同方法生成的融合圖像中位于相同融合邊界位置的區(qū)域用紅色方框標(biāo)出,并將放大后的區(qū)域顯示在各自融合圖像的右下方。同時(shí),為了更好地評估不同方法的融合質(zhì)量,本文還提供了相應(yīng)的差值圖像(即通過用融合圖像減去源圖像A來獲取差值圖像),并在融合圖像下方列出。通常,如果生成的融合圖像接近于真實(shí)圖像,那么對應(yīng)的差值圖像中不應(yīng)該包含源圖像A聚焦區(qū)域的相關(guān)細(xì)節(jié)。此外,相同的分析方法也適用于下述示例MFFW-02和MFFW-04。
通過觀察圖6中不同融合圖像的放大區(qū)域可以看出,MFF-GAN、U2Fusion以及U-DIP方法的“小熊”放大區(qū)域呈現(xiàn)出明顯的模糊;而在CBF、IFCNN和MGFF方法的放大區(qū)域也出現(xiàn)了或多或少的模糊。相比較而言,ZMFF、CSR和本文方法則表現(xiàn)出較高的清晰度。另一方面,通過比較各種方法的差值圖像可以更加清晰地看出CBF、IFCNN、MGFF以及U-DIP方法最下方的紅色框圈出的區(qū)域中出現(xiàn)了地板的細(xì)節(jié),這說明源圖像A中的聚焦區(qū)域細(xì)節(jié)并沒有完全遷移到融合圖像中;CSR方法最下端的整個(gè)區(qū)域中出現(xiàn)了地板細(xì)節(jié);而MFF-GAN和U2Fusion方法在地板處也出現(xiàn)了模糊區(qū)域。相對而言,ZMFF方法幾乎沒有呈現(xiàn)源圖像A的聚焦區(qū)域細(xì)節(jié),但是在紅色圓圈的區(qū)域出現(xiàn)了一定程度的模糊和地板細(xì)節(jié)。與其他方法相比較,本文方法對應(yīng)的差值圖像中基本上沒有呈現(xiàn)源圖像A的聚焦區(qū)域細(xì)節(jié),這說明其能夠有效地保留聚焦信息,并且在融合圖像的邊界清晰度較高、偽影和噪聲相對較少。綜上這些觀察結(jié)果表明,本文方法在Lytro數(shù)據(jù)集上的融合效果具有明顯的優(yōu)勢,它能夠較好地保持源圖像對的聚焦信息,并能有效地減少模糊、偽影以及噪聲等問題。
3.5.2 客觀評價(jià)
本文對不同的融合方法分別在Lytro數(shù)據(jù)集上進(jìn)行客觀指標(biāo)測試,實(shí)驗(yàn)結(jié)果如表6所示。其中,對于每種方法,表中的數(shù)據(jù)是在實(shí)驗(yàn)數(shù)據(jù)集中每個(gè)樣本上所進(jìn)行的客觀指標(biāo)度量的平均值。對于每個(gè)客觀指標(biāo),性能表現(xiàn)最好的結(jié)果用黑體字體顯示。
由表6的數(shù)據(jù)可以清楚地看出,針對Lytro彩色圖像數(shù)據(jù)集,CSR和本文方法獲得了較高的指標(biāo)值。相對而言,本文方法表現(xiàn)更佳,其中在5個(gè)指標(biāo)中有4個(gè)指標(biāo)位列第1名,而僅在QG指標(biāo)上排名第4。ZMFF方法也出現(xiàn)了在QG這一指標(biāo)下值較低的情況。這是因?yàn)椋贒IP的方法在圖像融合過程中對邊緣信息進(jìn)行了自適應(yīng)的平滑處理,從而導(dǎo)致邊緣梯度信息下降,進(jìn)而使得QG值降低。然而,另一方面,當(dāng)處理融合邊界具有較強(qiáng)DSE的數(shù)據(jù)集(例如,MFFW數(shù)據(jù)集)時(shí),本文方法可以有效地平滑或減少融合邊界的偽影、噪聲和顏色失真等,從而將降低融合邊界的DSE效應(yīng)、改善QG指標(biāo)的性能(表7)。
3.6 在MFFW數(shù)據(jù)集上的性能比較
3.6.1 主觀評價(jià)
為了評估本文方法在融合邊界具有強(qiáng)DSE效應(yīng)的數(shù)據(jù)集上的融合性能,本文選擇了MFFW數(shù)據(jù)集進(jìn)行測試。為了充分展示本文方法在降低融合邊界DSE方面的有效性,選取了MFFW-04和MFFW-02作為示例,并通過主觀視覺效果驗(yàn)證融合性能,實(shí)驗(yàn)結(jié)果如圖7和8所示。在圖7和8中,本文使用紅色方框標(biāo)出了位于融合圖像邊界處的區(qū)域,并將放大后的區(qū)域顯示于融合圖像的右下角。另一方面,在圖7的差值圖像中,本文用紅框分別標(biāo)注融合邊界和背景區(qū)域的“花”。同樣地,在圖8的差值圖像中,本文用紅框分別標(biāo)注了老者手腕部分的細(xì)節(jié)以及其他殘留的較為明顯的細(xì)節(jié)。
首先,由圖7中不同方法的融合圖像的局部放大區(qū)域可以看出,CBF、MFF-GAN、MGFF、U2Fusion以及U-DIP方法中“腳”的放大區(qū)域呈現(xiàn)出程度不一的模糊、偽影以及光環(huán)現(xiàn)象。對于IFCNN和CSR方法的放大區(qū)域,融合圖像相對較為清晰,但在放大區(qū)域周圍仍存在光環(huán)現(xiàn)象。而ZMFF方法在放大區(qū)域邊界部分表現(xiàn)較為平滑,但與本文方法相比,其清晰度相對較低。另一方面,由差值圖像還可以更加直觀地看出,CBF方法不僅邊界處模糊,而且背影中殘留了大量源圖像A中聚焦區(qū)域的細(xì)節(jié)信息;IFCNN、MFF-GAN以及U2Fusion方法的邊界存在偽影,背景細(xì)節(jié)信息也有殘留,甚至背景的“花”也出現(xiàn)了不同程度的顏色殘留;CSR方法相對較好,但邊界處出現(xiàn)光環(huán)和偽影;觀察發(fā)現(xiàn),U-DIP得到的差值圖像中沒有出現(xiàn)顏色細(xì)節(jié),但是出現(xiàn)了許多源圖像A的細(xì)節(jié)。ZMFF方法和本文方法表現(xiàn)較好,然而,在標(biāo)注的方框區(qū)域中,ZMFF方法仍然保留了源圖像A中聚焦區(qū)域的一些細(xì)節(jié)。綜合比較示例融合圖像和差值圖像的結(jié)果可見,本文方法的整體融合效果最佳。
同樣地,由圖8可以看出,放大區(qū)域里面IFCNN、MFF-GAN、MGFF、U2Fusion、CBF和U-DIP方法的融合圖像邊界呈現(xiàn)出較模糊的特征,特別是MGFF方法出現(xiàn)了明顯的偽影;而CSR、ZMFF以及本文方法的放大區(qū)域較為清晰,沒有出現(xiàn)明顯的偽影及噪聲。此外,通過差值圖像的比較也能更加直觀地評估融合效果。具體而言,IFCNN、MFF-GAN、U2Fusion和CBF方法出現(xiàn)了源圖像A聚焦區(qū)域中的“老者”細(xì)節(jié),而且衣領(lǐng)處出現(xiàn)了或多或少的顏色細(xì)節(jié);MGFF方法表現(xiàn)得相對也較差,出現(xiàn)了“老者”很多細(xì)節(jié),并且伴隨出現(xiàn)了顏色信息和偽影光環(huán)等問題;CSR和ZMFF方法整體較好,然而,CSR方法的“老者”手臂部位出現(xiàn)了顏色細(xì)節(jié)紋理。U-DIP方法的差值圖像的紅色方框區(qū)域沒有出現(xiàn)相應(yīng)的顏色細(xì)節(jié),但是“老者”的整體輪廓細(xì)節(jié)仍然能夠觀測到。而ZMFF方法與本文方法相比,在紅色圓圈中的區(qū)域出現(xiàn)了少許源圖像A聚焦區(qū)域的細(xì)節(jié),說明源圖像A的細(xì)節(jié)信息沒有完全轉(zhuǎn)移到其融合圖像之中。綜上分析,無論是融合圖像還是差值圖像,針對MFFW數(shù)據(jù)集中的這兩個(gè)示例的實(shí)驗(yàn)結(jié)果都充分說明,本文方法在具有較強(qiáng)DSE現(xiàn)象的數(shù)據(jù)集上進(jìn)行融合的主觀視覺效果較為突出,它能夠有效地降低融合圖像邊界DSE的不良影響。
3.6.2 客觀評價(jià)
本文在MFFW數(shù)據(jù)集的13對源圖像上,針對上述8種用于對比的融合方法進(jìn)行了評價(jià)測試,所得到的五個(gè)客觀指標(biāo)的平均值如表7所示。
對于MFFW數(shù)據(jù)集,由表7中的數(shù)據(jù)可以清楚地看出,與其他方法相比,本文方法在該數(shù)據(jù)集上的融合性能具有顯著的優(yōu)勢。具體地,與目前最先進(jìn)的其他八種方法相比,本文方法在所有五個(gè)客觀指標(biāo)上均位列第1位。尤其值得注意的是,對于QG指標(biāo),本文方法雖然在Lytro數(shù)據(jù)集上排名第4(參見表6),但在MFFW數(shù)據(jù)集上卻以較大的優(yōu)勢位居第1。這說明,在數(shù)據(jù)集的源圖像邊界存在強(qiáng)DSE的情況下,本文方法能夠較好地平滑融合邊界、過濾掉多余的噪聲,從而有效地降低融合邊界的DSE影響、改善融合圖像的質(zhì)量。
3.7 計(jì)算效率分析
為了綜合評估不同融合方法的計(jì)算效率,表8列出了九種方法在兩個(gè)數(shù)據(jù)集上針對每對源圖像對融合的平均運(yùn)行時(shí)間。其中,CBF、CSR和MGFF方法是在處理器為AMD Ryzen 7 5800H with Radeon Graphics的CPU 上進(jìn)行測試(軟件平臺為MATLAB);而IFCNN、U2Fusion、MFF-GAN、ZMFF、U-DIP和本文方法是在NVIDIA RTX3060 GPU 12 GB上進(jìn)行測試(軟件平臺為PyTorch)。根據(jù)實(shí)驗(yàn)結(jié)果顯示,MGFF、IFCNN、MFF-GAN和U2Fusion方法在每對源圖像上的平均運(yùn)行時(shí)間相對較短;CBF方法的運(yùn)行時(shí)間相對適中;而U-DIP方法因?yàn)樵谠糄IP上增加通道數(shù),損失函數(shù)較為單一,所以很難確定合適的迭代次數(shù),導(dǎo)致該方法運(yùn)行時(shí)間顯著延長。而CSR、ZMFF和本文方法的運(yùn)行時(shí)間相對較長。這是因?yàn)椋珻SR方法采用變換域的融合策略進(jìn)行融合,所以需要更多的處理時(shí)間;而ZMFF和本文方法雖然無須進(jìn)行訓(xùn)練或構(gòu)建“真實(shí)”數(shù)據(jù)集,但基于深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化迭代往往需要較多的耗時(shí)。然而,如果考慮深度學(xué)習(xí)方法的訓(xùn)練時(shí)間,這些方法的整體耗時(shí)也會相對較長。此外,深度學(xué)習(xí)方法在構(gòu)建“真實(shí)”數(shù)據(jù)集和進(jìn)行有效訓(xùn)練方面都存在較多的耗時(shí),這是不能忽視的。因此,考慮到本文方法既是零樣本訓(xùn)練方法,又能有效地降低融合邊界的DSE,其綜合性能就具有較強(qiáng)的競爭力。特別地,本文方法通過充分利用多聚焦圖像的內(nèi)外先驗(yàn)信息來確定最優(yōu)的迭代次數(shù),相較于同類的ZMFF方法在效率上有了顯著提升。
3.8 擴(kuò)充到多源圖像融合
當(dāng)需要融合多于兩個(gè)多聚焦源圖像時(shí),本文方法同樣適用。為了驗(yàn)證這一點(diǎn),本文在一個(gè)包含三個(gè)多聚焦源圖像的序列上進(jìn)行了實(shí)驗(yàn)。具體地,本文首先將其中兩個(gè)源圖像進(jìn)行融合,然后將這個(gè)中間融合結(jié)果與最后一個(gè)源圖像進(jìn)行融合,最后得到最終的融合圖像。在圖9中,本文示例了使用Lytro數(shù)據(jù)集提供的兩組三個(gè)多聚焦源圖像進(jìn)行融合的結(jié)果。值得指出的是,本文方法也可以擴(kuò)充到同時(shí)對兩個(gè)以上的源圖像進(jìn)行融合。由圖9的實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效地將輸入多源圖像中的所有聚焦區(qū)域綜合到融合圖像中,且沒有引入明顯的空間偽影。此外,考慮到多源圖像本身特征的復(fù)雜性,并且需要兩兩進(jìn)行融合,所以使用本文方法優(yōu)化處理時(shí)會尤為耗時(shí)。因此,將來的研究有必要進(jìn)一步改進(jìn)和提高本文方法的效率。
4 結(jié)束語
本文提出了一種基于目標(biāo)圖像先驗(yàn)信息的無監(jiān)督MFIF方法。該方法首先利用目標(biāo)圖像的內(nèi)部和外部先驗(yàn)信息作為網(wǎng)絡(luò)輸入,并使用F-Net和G-Net兩個(gè)U-Net網(wǎng)絡(luò)分別作為融合和決策圖形成的主干網(wǎng)絡(luò);然后,通過選擇適當(dāng)?shù)膬?yōu)化迭代次數(shù)和損失函數(shù),使得F-Net能夠生成高質(zhì)量的最終融合圖像。本文方法的融合性能驗(yàn)證實(shí)驗(yàn)基于真實(shí)數(shù)據(jù)集Lytro和具有強(qiáng)DSE的MFFW數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,本文方法在綜合融合性能方面優(yōu)于目前最先進(jìn)的方法,并且它能夠有效地降低或消除融合圖像的邊界DSE、偽影和噪聲。
然而,在本文方法中仍然存在一些問題。例如,針對多聚焦圖像融合領(lǐng)域如何為DIP網(wǎng)絡(luò)設(shè)計(jì)出更合適的迭代終止策略,以及如何確定最優(yōu)的DIP網(wǎng)絡(luò)等問題,都是筆者在后續(xù)工作中需要進(jìn)一步研究和改進(jìn)的內(nèi)容。
參考文獻(xiàn):
[1]Ma Jiayi, Ma Yong, Li Chang. Infrared and visible image fusion methods and applications: a survey[J]. Information Fusion, 2019,45: 153-178.
[2]Li Hui, Manjunath B S, Mitra S K. Multisensor image fusion using the wavelet transform[J]. Graphical Models and Image Proces-sing, 1995,57(3): 235-245.
[3]Yang Bin, Li Shutao. Multi-focus image fusion and restoration with sparse representation[J]. IEEE Trans on Instrumentation and Measurement, 2009,59(4): 884-892.
[4]Petrovic V S, Xydeas C S. Gradient-based multiresolution image fusion[J]. IEEE Trans on Image Processing, 2004,13(2): 228-237.
[5]Liu Wei, Wang Zengfu. A novel multi-focus image fusion method using multiscale shearing non-local guided averaging filter[J]. Signal Processing, 2020,166: 107252.
[6]De I, Chanda B. Multi-focus image fusion using a morphology-based focus measure in a quad-tree structure[J]. Information Fusion, 2013,14(2): 136-146.
[7]Li Zhenhua, Jing Zhongliang, Liu Gang, et al. Pixel visibility based multifocus image fusion[C]//Proc of International Conference on Neural Networks and Signal Processing. Piscataway,NJ:IEEE Press, 2003:1050-1053.
[8]Ulyanov D, Vedaldi A, Lempitsky V. Deep image prior[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 9446-9454.
[9]Hu Xingyu, Jiang Junjun, Liu Xianming, et al. ZMFF: zero-shot multi-focus image fusion[J]. Information Fusion, 2023, 92: 127-138.
[10]Liu Yu, Chen Xun, et al. Image fusion with convolutional sparse representation[J]. IEEE Signal Processing Letters, 2016, 23(12): 1882-1886.
[11]Bavirisetti D P, Xiao Gang, Zhao Junhao, et al. Multi-scale guided image and video fusion: a fast and efficient approach[J]. Circuits, Systems, and Signal Processing, 2019,38(12): 5576-5605.
[12]Kumar B K S. Image fusion based on pixel significance using cross bilateral filter[J]. Signal, Image and Video Proces-sing, 2015,9(5): 1193-1204.
[13]Bai Xiangzhi, Zhang Yu, Zhou Fugen, et al. Quadtree-based multi-focus image fusion using a weighted focus-measure[J]. Information Fusion, 2015, 22: 105-118.
[14]Liu Yu, Chen Xun, Peng Hu. et al. Multi-focus image fusion with a deep convolutional neural network[J]. Information Fusion, 2017,36: 191-207.
[15]Zhang Yu, Liu Yu, Sun Peng, et al. IFCNN: a general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118.
[16]Wang Yicheng, Xu Shuang, Liu Junmin, et al. MFIF-GAN: a new generative adversarial network for multi-focus image fusion[J]. Signal Processing: Image Communication, 2021, 96: 116295.
[17]Xu Han, Ma Jiayi, Jiang Junjun, et al. U2Fusion: a unified unsupervised image fusion network[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2020,44(1): 502-518.
[18]Gandelsman Y, Shocher A, Irani M. “Double-DIP”: unsupervised image decomposition via coupled deep-image-priors[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 11026-11035.
[19]Xu Shaoping, Cheng Xiaohui, Luo Jie, et al. Boosting deep image prior by integrating external and internal image priors[J]. Journal of Electronic Imaging, 2023, 32(1): 013021.
[20]Ma Xudong, Hill P, Anantrasirichai N, et al. Unsupervised image fusion using deep image priors[C]//Proc of IEEE International Conference on Image Processing. Piscataway,NJ:IEEE Press, 2022: 2301-2305.
[21]Xu Shaoping, Chen Xiaojun, Luo Jie, et al. A deep image prior-based three-stage denoising method using generative and fusion strategies[J]. Signal, Image and Video Processing, 2023, 17: 2385-2393.
[22]Li Shutao, Dian Renwei, Liu Haibo. Learning the external and internal priors for multispectral and hyperspectral image fusion[J]. Science China Information Sciences, 2023, 66(4): 140303.
[23]謝明, 曲懷敬, 張志升,等. 基于導(dǎo)向?yàn)V波和聚焦區(qū)域局部標(biāo)準(zhǔn)差的多聚焦圖像融合[J]. 計(jì)算機(jī)與數(shù)字工程, 2023, 51(2): 348-354. (Xie Ming, Qu Huaijing, Zhang Zhisheng,et al. Multi-focus image fusion based on local standard deviation of focus region[J]. Computer and Digital Engineering, 2023,51(2): 348-354.
[24]Li Heng, Zhang Liming, Jiang Meirong, et al. Multi-focus image fusion algorithm based on supervised learning for fully convolutional neural network[J]. Pattern Recognition Letters, 2021,YfBCQH3jQkeyRSXzgYthFQ== 141: 45-53.
[25]Zhang Juncheng, Liao Qingmin, Liu Shaojun, et al. Real-MFF: a large realistic multi-focus image dataset with ground truth[J]. Pattern Recognition Letters, 2020,138: 370-377.
[26]Wang Zhou, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Trans on Image Processing, 2004,13(4): 600-612.
[27]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014). https://arxiv.org/abs/1409.1556.
[28]Xu Shuang, Wei Xiaoli, Zhang Chunxia, et al. MFFW: a new dataset for multi-focus image fusion[EB/OL]. (2020). https://arxiv.org/abs/2002.04780.
[29]Hossny M, Nahavandi S, Creighton D. Comments on′Information measure for performance of image fusion′[J]. Electronics Letters, 2008, 44(18): 1066-1067.
[30]Wang Qiang, Shen Yi, Jin Jing. Performance evaluation of image fusion techniques[J]. Image Fusion: Algorithms and Applications, 2008,19: 469-492.
[31]Wang Qiang, Shen Yi,Zhang Jianqiu. A nonlinear correlation mea-sure for multivariable data set[J]. Physica D: Nonlinear Pheno-mena, 2005, 200(3-4): 287-295.
[32]Di Gai, Shen Xuanjing, Chen Haipeng, et al. Multi-focus image fusion method based on two stage of convolutional neural network[J]. Signal Processing, 2020, 176: 107681.