李 揚,楊海濤,孔 卓,張長弓,王晉宇
1.航天工程大學 研究生院,北京 101400
2.航天工程大學 航天信息學院,北京 101400
圖像融合作為一種圖像增強技術,通過將不同傳感器或者不同位置、時間、亮度等的同一場景的兩幅或者多幅圖像的所有信息疊加互補,形成對于人類視覺或者后續圖像處理更有用的融合圖像[1]。傳統圖像融合方法發展成熟,已經實現了很多優秀的融合算法。深度學習的發展推動了圖像融合技術的發展,神經網絡強大的特征提取和重構能力使融合結果具有廣闊的前景。
隨著圖像融合技術的研究呈不斷上升的趨勢,應用領域也遍及遙感圖像處理、可見光圖像處理、紅外圖像處理、醫學圖像處理等,此外還有多曝光圖像融合在攝影中的應用、紅外與可見光融化在視頻監控中的應用、MRI和PET的融合、MRI與CT的融合在醫學中的應用等等。
國內外學者專家在該領域已發表多篇綜述,例如北方民族大學的周濤等[2]將多尺度融合算法分為多尺度分解和子帶融合算法兩部分,并對其分別進行了歸納總結。沈英等[3]對紅外與可見光方向的論文進行了歸納整理,并根據場景對不同方法進行了實驗總結。湖南大學的李樹濤等[4]將圖像融合按照源圖像來源劃分為九類典型獲取方式,并分別進行了歸納總結。
除了綜述性文章,專家學者發表了許多對算法評價的指標的總結性文章。華中科技大學的王海暉等[5]將圖像融合質量總結為圖像的可檢測性、可分辨性和可測量性三方面,并提出一些有意義的建議。Zhang在2020年總結性地對2011年以后發表的算法以信息論指標CE、EN、圖像融合指標AG、EI等共十三個指標進行了整體評價[6]。
圖像融合技術是20世紀70年代被提出的一種圖像處理方法[7]。此后該技術得以快速發展。圖像融合的基本邏輯是利用算法將兩幅或多幅圖像融合作為一幅新的圖像,融合結果能利用兩幅(或多幅)圖像在時空上的相關性及信息上的互補性,并使得融合后得到的圖像對場景有更全面、清晰的描述,從而更有利于人眼的識別和高級任務的分類或者識別。
目前普遍認為,圖像融合存在三個基本規則[7]:第一,融合后的圖像必須保持源圖像的明顯特征仍然突出;第二,融合過程不可加入人為信息;第三,對噪聲等無價值的信息盡可能抑制。
圖像的融合根據層級可以劃分為三類,以認知為基礎的決策級融合、需要提取特征信息的特征級以及以像素為處理單元的像素級融合,如圖1。

圖1 圖像融合層級Fig.1 Image fusion hierarchy
像素級的圖像融合是最基礎的融合類型,如圖2,其對輪廓邊緣、紋理和色彩變化的融合能力強,融合圖像有利于圖像的后續處理分析、判讀解譯。

圖2 像素級融合流程Fig.2 Pixel-level fusion process
像素級融合存在如下問題:融合時間長。由于需要對圖像像素處理,算法實現實時融合困難。源圖像質量要求高。融合結果對源圖像的噪聲敏感,源圖像過曝或欠曝同樣會導致融合結果欠佳。配準要求高。配準精度直接影響融合效果。
特征級融合是將源圖像中邊緣、建筑、人物等明顯特征分離提取,通過分析處理,融合得到新的特征融合圖像,如圖3。融合時只考慮特征部分區域,因此融合結果的目標識別強度高于源圖像。且融合中不處理特征之外的環境細節信息,所以處理速度快、實時性好,且融合過程對像素的依賴性不強,所以對于配準要求不高。但是也存在丟失大量細節特征的問題。

圖3 特征級融合流程Fig.3 Feature-level fusion process
決策級圖像融合是一種具有層次高、抽象性強的基于認知的融合類型,如圖4。決策層的融合計算量相對于其他兩個是最小的,且不受源圖像的噪聲影響。缺點是圖像清晰度相對特征級與像素級較差,且對特征級融合有較強的依賴性,由于對此方向研究較少,程序實現困難。

圖4 決策級融合流程Fig.4 Decision level convergence process
圖像數據集是圖像處理的基礎,選擇合適的數據集對算法的研究十分關鍵。對于紅外與可見光融合算法,常用的數據集如表1所示。
圖像融合算法發展迅速,基本可以分為傳統方法和基于深度學習的方法兩大類。
傳統的圖像融合算法發展成熟、衍生方法多。大致可以總結為三步:將源圖像分解;將分解的圖像按照預定的融合規則分別融合;對分層融合的圖像進行分解逆變換,得到最終融合圖像。

表1 常用融合數據集Table 1 Commonly used fused data sets
圖像分解算法是圖像融合的第一步,圖像分解是為了將源圖像分割為包含不同特征的幾幅圖像,進而通過圖像融合規則分別進行融合,保證生成的融合圖像既有明顯的紅外特征,也能保留可見光圖像中的細節與紋理。
2.1.1 基于空間域的圖像分解
其一是加權平均方法。加權平均方法通過對源圖像所有像素的灰度值加權平均的方法來產生新的融合圖像,這也是最簡單直接的一種融合方法,其優點是融合算法簡單速度快速且圖像的信噪比高于源圖像,缺點是最終融合圖像對比度低、融合圖像對目標凸顯明顯。
其二是基于最大最小值選取的圖像融合方法。在融合過程中,通過比較源圖像對應位置處像素的灰度值大小作為依據,按照需要選擇其大值或者小值作為融合圖像對應位置的像素灰度值。此方法應用場景有限,很少使用。
其三是基于PCA的圖像融合方法。這一方法可以簡要分為三步。第一步是通過三個或以上波段數據求出源圖像之間對應像素的相關系數矩陣,以相關系數矩陣為基礎計算對應的特征值與特征向量,最后求出主分量圖像;第二步是把高分辨率圖像對比度進行拉伸,并將其與第一分量圖像比較,將其均值與方差保持一致;第三步是將拉伸后的高分辨率圖像作為第一分量,將其加上其他分量進行PCA逆變換。通過三步即可實現融合。
PCA圖像融合方法相對于其他空間域方法更適用于多光譜圖像融合,但是由于其不會考慮圖像各波段的光譜信息,所以會損失一部分低分辨率圖像的信息。
2.1.2 基于多尺度變換的圖像分解
基于多尺度變換的圖像融合方法在眾多融合方法中,最受關注和歡迎。多尺度變換的融合規則如圖5,第一,對源圖像進行多尺度分解,將圖像分為一系列尺度不同的子圖像;第二,設計一種基于多尺度變換的融合規則,對不同尺度的圖像進行融合,使得該尺度下的特征能夠被保留;第三,對復合的多尺度圖像逆變換操作,最終得到融合后的圖像。

圖5 多尺度分解示意Fig.5 Multiscale decomposition
多尺度融合主要由金字塔分解方法、小波變換、多尺度幾何分解三種方法組成,本文梳理了三類方法的主要發展并進行了對比分析。
(1)基于金字塔變換的圖像分解
金字塔變換最早由Burt等于1984年提出,他使用的拉普拉斯金字塔和基于像素最大值的融合方法實現了人眼立體視覺的融合[11]。基于像素最大值的方法實際上是指選取局部亮度差異較大的部分作為融合重點。初期的拉普拉斯金字塔變換融合結構受噪聲影響過大、分層沒有考慮方向性的問題、塔中的各層存在較多冗余等問題,但為圖像融合提出了一種行之有效的方法。
Toet[12]根據拉普拉斯金字塔提出的對比度金字塔,解決了拉普拉斯金字塔得到融合圖像對比度降低的問題,其核心思想是先通過高斯變換得到多層金字塔,再求出各層之間的比率得到對比度金字塔,從而提升融合圖像的對比度。
Burt[13]提出的一種基于梯度金字塔的融合算法,通過對高斯金字塔的各層進行梯度方向濾波,提高了融合算法對噪聲的抗性。陳錦等提出一種拼接(Splice)金字塔融合算法[14],該算法在濾波的同時加入了采樣的操作,融合圖像的清晰度得到提升。胡學龍等[15]將中值濾波運用到圖像融合算法當中,由于中值濾波本身具有較高的魯棒性和自適應性,所融合的圖像更加光滑,對噪聲抗性更高。2011年,崔顥[16]提出一種基于方向可控金字塔的圖像融合方法,加入了遞歸卷積與抽樣的步驟,使得此方法具有了平移不變性和旋轉不變性。
近年來,劉斌等[17]改進了對比度金字塔提出一種方向對比度金字塔,該方法通過加入對高頻分量的方向濾波操作從而保留了更多的融合圖像的細節和方向信息,但也使得算法復雜度上升。Kou等[18]提出了混合平滑金字塔,后者在降低偽影現象的同時很好地處理了算法復雜度和性能之間的關系,但整體融合效果和先進算法相比略微不足。
劉斌等[19]提出一種基于不可分拉普拉斯金字塔的融合算法,該方法首先建立圖像的非采樣不可分小波塔形分解,根據不可分小波金字塔建立非采樣不可分拉普拉斯金字塔。從而解決了拉普拉斯金字塔不能實現平移不變性的問題。以上方法的優點與不足總結如表2。

表2 金字塔變換方法對比Table 2 Comparison of pyramid transformation methods
基于金字塔分解的圖像融主要步驟為:對源圖像金字塔濾波得到尺度不同的分解圖像,再依據融合規則分別融合不同層的分解圖像,最后使用金字塔逆分解的方法將圖像重構,得到最后的融合圖像。該類融合算法優點是考慮了不同空間分辨率下圖像的重要部位和特征,并能夠相應地融合和保留。缺點是會造成圖像的冗余分解,并且在金字塔底端的高頻信息在分解后信息損失較大,最終的融合結果細節損失較多。
(2)基于小波變換的圖像分解
小波變換具有良好的方向選擇性、正交性、可變的時頻域分辨率等優點而廣受關注,并成為圖像融合領域一種十分有用的理論。相對于其他方法,小波變換的特性在直觀上更便于理解也更符合人的視覺。
小波變換總結來說可以分為三步:首先對源圖像進行小波分解,得到各個方向和頻率的金字塔結構;其次根據不同融合策略分別融合子頻帶;最后對融合好的子頻帶做小波重構,得到的重構圖像就是最終的融合圖像。
小波變換是由Mallat[20]在1989年提出的一種方法,方法提出以后受到了廣泛關注和應用。1995年,Li等[21]在小波變換基礎上提出一種離散小波(DWT)變換的圖像融合方法,通過對小波變換的尺度和位移以2的冪次實現離散化,從而降低了圖像中噪聲的不良影響,但離散的特性也使得其特征表達能力不足[22]。Uytterhoeven和Bultheel[23]提出一種Red-Black小波變換,該方法是一種基于五株型采樣的不可提升小波,相對于小波變換算法它不僅能夠消除行和列方向的相關性,還能消除對角線方向的相關性,劉斌基于此方法提出一種圖像融合方法,融合結果表示光譜質量和空間信息均有較體現,但由于Red-Black小波分解時特征方向受限,使得特征提取不充分。
Kingsbury[24]為了解決離散小波變換不具有平移不變性和方向性的問題,在離散小波的基礎上提出了一種雙樹復小波(dual-tree complex wavelet transform,DT-CWT)變換,該方法具有計算效率高、數據冗余有限的特點,相較于小波變換,DT-CWT可以對圖像在多個方向上分解,從而提升了分解能力[25]。Ioannidou基于DT-CWT設計了一種圖像融合算法,結合全色圖像高頻部分和多光譜圖像低頻部分求得融合圖像,取得了良好效果。
Lee等[26]提出一種提升靜態小波變換(lifting stationary wavelet transform,LSWT),該方法刪除了傳統提升小波的奇偶分解部分,并在濾波器系數中加入一定個數的零來延展濾波器。因此,該方法不僅具有初始的低通濾波特性并且具有了平移不變性,對源圖像的紋理和細節信息的提取能力也得到了提升。但該方法需要將數據分為兩個子集,使得變換后子帶信號減半,改變了原數值而不是平移,由此導致了融合結果的失真,降低了準確性[27]。
Bayro-Corrochano[28]提出了四元樹小波變換(quaternion wavelet transform,QWT),該方法基于四元數代數、四元數傅里葉變換以及Hibert變換,相較于離散小波和雙數復小波變換,具有近似平移不變性、豐富的相位信息和有限數據冗余的優點,用于圖像融合中,能夠進一步改善融合圖像的對比度、細節和邊緣結構。Chai等[29]基于QWT分解圖像得到高頻和低頻部分,并以一種基于低頻子帶相位和幅度以及空間方差的加權平均融合規則來融合低頻子帶,以一種基于系數對比度和能量的choose-max融合規則來融合高頻子帶。最后在多焦點圖像、醫學圖像、紅外可見圖像和遙感圖像上進行了算法的有效性驗證。
王衛星、曾基兵[30]提出冗余提升不可分離小波變換,該算法將快速提升算法中的分裂轉化為復制,避免了數據量變化導致的失真。融合結果的整體效果相對于快速提升算法得到了優化。
Gilles[31]提出一種協同經驗小波變換方法,該方法的特點是根據數據的傅里葉特性,對數據的頻譜自適應地劃分,構造相應的濾波器組。在用于解決多源圖像融合時自適應分解不協同的問題時,融合結果得到了較好的改善[32],但仍存在一定的虛假模態現象和混頻現象。
宮睿等[33]提出了一種基于可協調經驗小波變換(CEWT)的圖像融合算法,該算法同時利用兩個生成濾波器保證融合圖像的譜帶和頻譜劃分相同,避免了頻譜混疊現象。該算法在融合結果的邊緣以及細節處相對于其他算法有更好的表現。
小波變換方法總結如表3。

表3 小波變換方法對比Table 3 Comparison of wavelet transform methods
(3)多尺度幾何分解
多尺度幾何分解相對于小波變換和金字塔變換最大的優勢在于,多尺度分解在原理上具有方向性和各向異性。對應高維數據有更強的分析能力,缺點是算法復雜度更高。
脊波(Ridgelet)變換是一種適合分析高維奇異性的數學工具,由Candès[34]在1999年時提出。與小波變換比較,脊波有以下幾個優勢:能夠通過Radon變換將線性特征轉化為點狀奇異特征,克服了小波變換無法提取圖像沿邊特征的問題;在保持小波變換的頻域和空域特性的同時,有很強的方向性,對于圖像的邊緣有更強的提取能力,可以在融合圖像中體現更清晰;并且脊波具有更好的稀疏性,能夠把特征集中在較少從的維度中,變換后的信息更加集中。
曲線波(Curvelet)變換由Candes和Donoho[35]在1998年提出,這是一種基于Ridgelet變換改進的分解算法,Curvelet對邊緣結構的表示能力更強,從而間接地提高了融合圖像的分辨率,并且Curvelet相對于Ridgelet有更小的分析冗余度。Curvelet首次被用于圖像融合是由Choi等[36]提出,他們在多光譜圖像和全色圖像的融合使用了Curvelet變換并得到了較好的結果,融合圖像有了更豐富的空間信息和光譜信息。張強等[37]提出的基于Curvelet變換的算法降低了高頻噪聲對融合圖像的影響,最終的融合指標和直觀效果相比小波變換更優。
條帶波(Bandelet)變換是Pennec和Mallat[38]在2005年提出的一種基于邊緣的圖像表示方法,該方法的優點是可以自動適應圖像的幾何正則方向。Bandelet變換的主要思想是將圖像的幾何特征看作矢量場,通過矢量場描述圖像空間結構的灰度變化。楊揚等[39]基于非下采樣的Bandelet的方法提出一種圖像融合方法,該方法刪除了原算法的下采樣操作,變換結果包含了部分冗余數據,因此可以為融合步驟提供更豐富的信息。該實驗效果相對于WT和NSWT有更好的視覺效果和量化標準,并且降低了偽吉布斯效應的影響。
輪廓波(Contourlet)由Laplacian pyramid(LP)和directional filter bank(DFB)兩部分組成。其中,LP處理低頻帶通信號,避免頻率混亂;DFB用于處理高頻信號,檢測圖像的方向信息。由于輪廓波變換缺少平移不變性這一重要特點,da Cunha等[40]提出了非下采樣輪廓波變換(nonsubsampled contourlet,NSCT),NSCT的分解過程如圖6所示,先利用非下采樣金字塔濾波(not sampling pyramid,NSP)對源圖像分解得到低頻子帶和高頻子帶,低頻子帶繼續用NSP處理分解,高頻子帶則使用非下采樣方向濾波器組(non-downsampling direction filter bank,NSDFB),得到不同方向和尺度的子帶系數。
NSCT將Contourlet中方向濾波器的下采樣替換為非下采樣金字塔結構(NSP),將方向濾波器中的下采樣轉換為非下采樣的方向濾波器(NSDFB),從而使算法具有了平移不變性,修復了融合圖像出現偽吉布斯效應的問題。
NSCT在圖像融合領域應用頗多,Goyal等[41]設計了一種基于NSCT的醫學圖像融合算法,實現了較高的融合效率和融合效果。與其他方法相結合也是研究人員廣泛嘗試的融合方法。裴高樂等[42]將NSCT與脈沖耦合神經網絡(AR-PCNN)相結合,應用于圖像融合處理,得到了質量較高的結果。

圖6 NSCT分解流程Fig.6 NSCT decomposition process
但NSCT中使用了固定的方向濾波器,對于復雜的空間結構的處理能力較弱。Guo和Labate[43]在2007年提出了剪切波(Shearlet)變換,剪切波變換的算法復雜度較低,計算效率相對于其他算法較高,且不限制剪切的支撐大小和方向個數,有較強的應用價值。但是剪切波在處理圖像后會出現偽吉布斯現象[44]。
針對剪切波的缺點,Easley等[45]于2008年提出了非下采樣剪切波變換(non-subsampled Shearlet transform,NSST)變換,NSST的分解過程如圖7所示,首先通過NSP分解得到L′個高頻子帶和1個低頻子帶,再將得到的高頻子帶通過改進剪切波濾波(shear filtering,SF)處理得到相應頻帶的多個分量,NSST將剪切波變換中的下采樣變更為卷積,從而有效地抑制了偽吉布斯現象。Wei等[46]基于NSST和魯棒主成分分析(RPCA)設計了一種圖像融合算法應用于紅外與可見光圖像融合。首先通過RPCA分解源圖像得到稀疏矩陣,再通過NSST分解得到子帶,將子帶融合得到目標圖像。實驗結果取得了目標更明顯、背景更豐富的融合結果。

圖7 NSST分解流程Fig.7 NSST decomposition process
Krommweh[47]提出了一種Tetrolet變換,這是一種自適應的四格拼板的Haar小波變換,Tetrolet變換首先把源圖像分解為4×4的塊,對其分解得到4個低頻部分和12個高頻部分;再對低頻部分進行分解為4×4的小塊,以此類推。Tetrolet變換不僅具有哈爾小波變換的多分辨率特征,還擁有比哈爾小波變換更豐富的方向分量,因此可以更好地表示圖像的高維特征信息,但會導致融合圖像的分辨率降低。苑玉彬等[48]在通過Tetrolet變換與自適應脈沖神經網絡結合的方式,解決了融合圖像色彩對比度低的問題。
以上總結如表4。

表4 多尺度幾何分解方法對比Table 4 Comparison of wavelet transform methods
圖像融合的第二部是分層融合,這一步需要根據高頻和低頻子帶不同特征設計合適的融合規則。圖像融合規則設計與算子選擇對于圖像融合的結果十分重要,會直接影響融合效果,本節將圖像融合規則按照方法歸為像素融合規則、區域融合規則以及其他融合規則。
2.2.1 基于像素的融合規則
基于像素的融合方法是通過計算圖像中各個像素點來融合圖像的,優點是計算速度快、算法簡單容易實現,缺點是不考慮相鄰像素的關系,容易出現振鈴現象等問題。
(1)低頻子帶融合
基于像素的低頻子帶融合規則有以下幾種。第一,平均融合或加權平均規則,對兩幅源圖像的每個像素點求平均值或者加權平均值,作為融合圖像的值。通常情況下,低頻部分的圖像都會采用這一方法,但是會導致圖像對比度降低,效果較差,Chavan等[49]和Dogan等[50]在融合時采用了該方法。第二是像素絕對值最大融合規則,這一方法關注了源圖像的邊緣特征,提高了融合后圖像的對比度、降低了邊緣模糊的問題,相對于平均融合規則,能夠保留更豐富的紅外與可見光圖像的信息,Jin等[51]和沈瑜等[52]在算法中使用了該方法。第三是自適應加權平均規則,會根據給出的規則自動調整像素點的融合權重,這一方法相對于加權平均更加靈活,融合效果更好。Cheng等[53]在論文中使用顯著圖作為權重融合低頻子帶,取得了較好的融合結果。
(2)高頻子帶融合
相對于只需要平滑特征的低頻子帶融合規則不同的是,高頻子帶融合時需要保留和融合高頻子帶中豐富的特征和細節信息。平均融合、加權平均以及自適應平均等方法不能處理相鄰像素之間的關系,不能夠很好地處理高頻子帶。
基于像素的高頻子帶一般的處理方法一般有以下幾種方法。第一,系數最大值規則,通過保留圖像像素值變化最大的邊緣特征來融合高頻子帶。這一方法對圖像邊緣信息可以較好地保留,Meng等[54]、Aishwarya和Thangammal[55]、Cheng等[56]和Chen等[57]均在處理高頻信息時使用了系數最大值規則,實現了較好的融合效果。第二,像素最大SML值,拉普拉斯能量和(sum of modified Laplacian,SML)是一種能夠較好地體現圖像的高頻特征的值,Liu等[58]使用了該規則融合了高頻子帶,實驗效果較好。第三,像素最大NSML值,是改進的拉普拉斯能量和。Ullah等[59]選擇分解圖像中NSML值高的子帶作為融合圖像,這一方法提高了圖像的對比度,實現了更好的融合效果。
2.2.2 基于區域的融合規則
基于區域的融合規則相比于基于像素的融合規則加入了對相近像素的區別的考慮,在融合時加入了臨近像素點的相關性,提高了融合的效果。
(1)低頻子帶融合
對于低頻子帶融合,基于區域的融合規則有以下幾種。第一,主成分分析法。PCA的主要作用是突出特征,將源圖像數據壓縮到更少的維度,通過減少維度提取層數,增大方差,提高特征分量。第二,區域方差最大值。區域方差最大值算法是利用區域方差求取融合圖像的像素值,計算兩幅源圖像低頻子帶的區域方差,取大作為融合圖像該點的像素灰度值,這一方法可有效提高融合質量。Ding等[60]采用了PCA算法融合低頻信息,能夠在融合圖像中較好地體現源圖像中特征的輪廓信息。第三,局部能量最大值。Meng等[61]針對平均融合方法導致的偽影問題,使用局部能量最大值的規則融合低頻信息,有效地避免了融合圖像中出現偽影的問題。第四,Canny邊緣檢測器。Canny邊緣檢測器是一種檢測圖像邊緣信息的算法。使用該算法融合低頻子帶可以保留更多的圖像細節信息。Vishwakarma等[62]使用尺度相乘的Canny邊緣檢測器和Hessian特征疊加的方法來融合低頻信息,實驗效果較好。
(2)高頻子帶融合
基于區域的高頻子帶融合規則主要關注融合圖像中重要特征的邊緣,通過加強特征邊緣強度,達到提高高頻特征和融合效果的目的。此類方法主要有以下幾種。第一,最大邊緣強度融合規則。最大邊緣強度融合規則通過保留源圖像中高對比度的邊緣特征可以在融合圖像中體現盡可能多的細節和邊緣特征。Anandhi和Valli[63]首先通過NSCT進行分解源圖像,然后使用了最大邊緣強度融合規則處理分解得到的高頻部分,融合結果較好,保留了源圖像大部分的邊緣信息和紋理信息。第二,導向濾波器。導向濾波器是Liu等[64]基于冗余提升不可分剪切波改進提出的一種保邊濾波器,作為融合規則可以較好地保留圖像細節并且可以一定程度地避免偽影現象。第三,平均梯度及其改進規則。平均梯度的優勢在于能夠保留圖像的邊緣結構,且算法簡單快速。但是平均梯度會造成振鈴現象,影響最終的融合效果。Cheng等[65]在平均梯度的基礎上增加了對角梯度變換,改進后的平均梯度算法可以提取更多的邊緣并保留它們。第四,反銳化掩膜融合規則。這一方法通過提高高頻子帶系數來提高邊緣高對比度特征信息,比平均梯度的規則更加簡潔。該規則由Vishwakarma等[62]提出,并在該論文中應用,融合效果較好,算法復雜度低。
在深度學習的發展歷程中,許多有價值的深度學習方法都被應用到圖像融合算法當中。例如深度神經網絡DNN(deep neural network)、卷積神經網絡(convolutional neural network,CNN),以及生成對抗網絡(generative adversarial net,GAN)等。深度學習的方法在圖像融合領域展現了良好的性能。
DenseNet是一種具有密集連接的卷積神經網絡。Li等[66]在DenseNet基礎上提出了DenseFuse網絡模型。這是一種基于殘差網絡的圖像融合算法,能夠將圖像特征傳入更深層的網絡中,避免過快地出現梯度爆炸。網絡設計了更優的規則以及兩個融合層,能夠從源圖像中繼承更多有用的feature,最后通過解碼層重構融合圖像,得到融合結果。殘差塊(dense block)可以在編解碼網絡中保留更多的深度特征,以及在最終融合時保留所有顯著特征。此方法相對于現有的算法,在主觀評價于客觀評價兩個方面均有較好的水平。
Huo等[67]提出一種紅外和可見圖像融合的無監督框架,該架構通過兩個共享權重的dense network取得源圖像的深層特征,并直接將深層特征疊加作為融合層,最后對融合結果進行五次卷積重建融合圖像。這一網絡相對于其他融合網絡,計算復雜度不高,融合結果與DenseFuse類似,但更著重于Vis和Ir的融合。
生成對抗網絡是Goodfellow在2014年提出的一種深度學習網絡,GAN網絡強大的生成能力是它廣受關注的主要原因。2019年,Wei等[68]提出了FusionGAN網絡模型,這是首個使用GAN網絡完成紅外和可見光圖像融合任務,其中生成器旨在生成具有主要紅外信息和更多可見梯度的融合圖像,而判別器旨在強制融合更多可見圖像中的細節。這使得最終的融合圖像能夠同時保持紅外圖像中的熱輻射和可見圖像中的紋理。FusionGAN作為一個端到端模型,避免了傳統算法設計復雜的活動水平測量和融合規則。融合結果具有清晰的突出目標和豐富的細節,整體結果優于先進的算法。
2020年,Xu等[69]提出一種具有雙判別器的DDcGAN,該網絡用其中一個鑒別器判斷生成圖像與Vis圖像的真偽,用另一個鑒別器判斷Ir與降采樣以后的生成圖像的真偽。算法效果較好,但訓練過程時間長、難度大。
同年Yu等[70]針對現有算法在多光譜與全色圖像融合中對全色圖像空間信息保留度低的問題,提出一種Pan-GAN網絡,這是一種無監督全色圖像銳化框架,這一框架由生成器、光譜判別器、空間判別器組成,算法結果優秀,提高了融合圖像的空間信息。
Zhang等[71]提出了一種新的融合框架,具有多分類約束的生成對抗網絡(GANMcC),該融合框架將圖像融合轉化為多分布同時估計問題,以更合理的方式融合紅外和可見圖像。并且采用具有多分類的生成對抗網絡來同時估計可見光和紅外域的分布,其中多分類判別博弈會使融合結果的分布更加平衡,從而具有顯著的對比度和豐富的紋理細節。該融合框架對質量較差的源圖像,例如過曝光圖像,仍能夠取得較好的融合結果。
Zhang等[72]提出了一種壓縮分解網絡(SDNet)用于多模態數字圖像的即時融合。該網絡將圖像融合分解為強度項和梯度項,使用自適應的決策塊,依據像素尺度上的細節豐富度來決定梯度項分布的優化程度,通過強度損失權重值,改變圖像不同部位強度信息的大小。該網絡具有較好的即時性。
Ma等[73]提出一種基于顯著目標檢測的紅外和可見圖像融合網絡,稱為STDFusionNet,它可以較好地保留紅外圖像中的熱目標和可見圖像中的紋理結構。STDFusionNet作為一種端到端模型,可以以隱式方式完成顯著目標檢測和關鍵信息融合。算法的速度更快,并且融合結果看起來像高質量的可見光圖像,且具有清晰的高亮紅外目標。
NestFuse[74]是一種基于通道注意力和空間注意力的融合模型。算法首先對源圖像進行多尺度特征提取,通過融合策略來分別融合每個尺度下的特征,最后通過nest-connection解碼器重構融合圖像。實驗表示對于一般源圖像,融合結果在可見光的細節部分和紅外的目標特征部分均表現良好,但對低質量圖像的融合能力不足。
SeAFusion[75]是一種高級視覺任務驅動的圖像融合框架。由一個輕量級的融合網絡和一個語義分割網絡組合而成。融合網絡同時接受內容損失和語義損失的調整。整體網絡結構較為簡單,但提供了一種全新的融合思路,并且實現了較好的融合結果。
以上深度學習類方法總結對比如表5。

表5 深度學習算法對比Table 5 Deep learning algorithm comparison
根據以上綜述內容可以總結得到,紅外與可見光圖像融合在各方面的研究及應用中仍有很大發展潛力,存在以下問題亟待研究和解決:
(1)即時圖像融合
融合效果與融合時間始終是相互矛盾的,在實際應用中,視頻融合的需求對融合速度的要求嚴格,因此,實時處理是圖像融合未來發展的重要趨勢。
(2)結合融合目的的融合方法
目前,大部分算法在嘗試提升基于評價指標的融合效果,高評價指標和是否利于后續圖像處理,例如語義分割、目標檢測、目標識別并不是線性相關的。通過融合目的直接指導圖像融合的方法是一個有意義的發展方向。
(3)惡劣條件下的圖像融合
目前的圖像融合算法對于極端條件的源圖像處理能力不高,針對此類圖像研究不多。通常需要先進行曝光修正再進行圖像融合。因此,如何實現極端條件的快速圖像融合是一個需要解決的問題。
(4)跨分辨率的圖像融合
在工程應用中,通常紅外與可見光的分辨率是不同且相差較大的。目前大部分算法難以勝任。若先對紅外進行超分辨率重構則會延長算法運行時間。因此如何直接融合不同分辨率的圖像在實際應用中十分重要。
(5)全面、普適的評估準則
恰當、準確的評估準則對于圖像融合的算法性能的評估至關重要,目前的算法研究中,作者缺少合適、權威的準則來對比不同算法的性能。