












摘" 要:針對現有的圖像融合方法在特征提取和融合策略上的不足,提出了一種基于頻域分解的近紅外與可見光圖像自適應融合模型STAFuse。通過引入Transformer與CNN的特征提取模塊,以及自適應融合模塊,實現不同模態圖像特征的有效融合。在多模態圖像的獲取上,為解決傳統多傳感器系統體積大、校準復雜等問題,設計了一種新型多模態傳感器,可同時獲取高分辨率的可見光圖像和低分辨率的近紅外圖像。實驗結果表明,STAFuse在多個指標上優于現有模型,在結構相似性上比DenseFuse模型提升了102.7%,在視覺信息保真度上比DIDFuse模型提升了25%,在保持視覺質量和圖像細節方面表現突出。
關鍵詞:近紅外與可見光融合;自適應融合;Transformer;CNN;多模態傳感器;頻域分解
中圖分類號:TP212;TP183" 文獻標識碼:A" 文章編號:2096-4706(2024)24-0163-08
Adaptive Fusion Model for Near-infrared and Visible Light Images Based on Multimodal Sensors
LI Zhenwei1,3,4,5, SHI Wenzao1,3,4,5, FU Qiang2, YUAN Junru1,3,4,5
(1.College of Photonic and Electronic Engineering, Fujian Normal University, Fuzhou" 350117, China; 2.Tucsen Photonics Co., Ltd., Fuzhou" 350003, China; 3.Fujian Provincial Engineering Technology Research Center of Photoelectric Sensing Application, Fujian Normal University, Fuzhou" 350117, China; 4.Key Laboratory of Optoelectronic Science and Technology for Medicine (Ministry of Education), Fujian Normal University, Fuzhou" 350117, China; 5.Fujian Provincial Key Laboratory for Photonics Technology, Fujian Normal University, Fuzhou" 350117, China)
Abstract: Aiming at the shortcomings of feature extraction and fusion strategies in the existing image fusion methods, this paper proposes an adaptive fusion model for near-infrared and visible light images, called STAFuse, based on frequency domain decomposition. It realizes the effective fusion of different modal image features, by introducing feature extraction modules of Transformer and CNN and the adaptive fusion modules. To address the issues of large size and complex calibration in traditional multi-sensor systems on the acquisition of the multimodal images , a novel multimodal sensor is designed, capable of simultaneously capturing high-resolution visible light images and low-resolution near-infrared images. Experimental results demonstrate that STAFuse outperforms existing models in multiple metrics, which improves by 102.7% compared with DenseFuse model in Structural Similarity (SSIM), improves by 25% compared with DIDFuse model in Visual Information Fidelity (VIF), and is outstanding in maintaining visual quality and image details.
Keywords: near-infrared and visible light fusion; adaptive fusion; Transformer; CNN; multimodal sensor; frequency domain decomposition
0" 引" 言
圖像融合在各個領域都有著廣泛的應用[1-3]。由于硬件設備的限制,單一傳感器成像常面臨信息不完全的問題,影響圖像質量和應用[4]。可見光傳感器雖然分辨率較高,但容易受到光照和天氣的影響;近紅外傳感器則能在惡劣光照下工作,但其空間分辨率較低,紋理和細節信息匱乏。圖像融合技術通過結合兩者優勢,生成的融合圖像不僅具備了更加全面的場景信息,還提高了視覺感知的準確性。
為了解決圖像融合的問題,這些年來學者們已經提出了許多方法。這些方法大致可以分為傳統方法[5-6]和深度學習方法[7-11]。盡管現有方法已經取得了不錯的效果,但仍存在特征提取效率低、融合策略復雜等問題。此外,多模態圖像通常來自捕獲不同波段信息的雙傳感器,但在體積和成本受限的應用場景(如微型無人機)中,雙傳感器配置會增加系統復雜性和維護成本。針對目前方法存在的缺點,我們提出了一個基于頻域分解的近紅外與可見光圖像自適應融合模型STAFuse。我們的方法的主要功能如下:
1)針對現有方法在圖像特征提取方面的局限性,引入了一種結合Transformer與CNN的模塊,用于增強圖像的全局特征提取能力。
2)針對現有方法在融合策略上的不足,我們引入了Pag(Pixel-attention-guided fusion module)模塊[12]。Pag模塊通過自適應地調整不同特征圖之間的權重分配,能夠根據特征圖的語義信息有效融合,從而避免了傳統方法中人工設計策略的復雜性。
3)針對多傳感器系統在體積、重量和維護成本上的問題,在獲取多模態源圖像的途徑上,提出了一種多模態傳感器的改進方案。該傳感器可以在同一塊芯片上同時獲取高分辨率的可見光圖像和低分辨率的近紅外圖像。這種多模態傳感器的設計不僅降低了系統的體積和重量,還減少了對多傳感器校準的需求,從而降低了維護成本。
1" 相關工作
1.1" 基于頻域分解的圖像融合原理
頻域分解是圖像處理中的一種重要方法,通過將圖像從空間域轉換到頻域,能夠有效地分離圖像中的不同特征。在頻域中,圖像被分解為低頻、中頻和高頻分量,分別代表圖像中的不同信息:低頻分量通常包含全局結構和亮度信息,中頻分量包含邊緣和紋理等細節信息,而高頻分量則主要是噪聲及微小的細節[13]。對于一幅圖像I(x,y),通過二維傅里葉變換可以得到其頻域F(u,v):
(1)
在頻域中,圖像可以進一步分解為低頻、中頻和高頻分量:
(2)
其中Fl(u,v)表示低頻部分,Fm(u,v)表示中頻部分,Fh(u,v)表示高頻部分。通過對圖像有霧圖像和無霧圖像的觀察發現:在一小塊無霧圖像中,RGB圖像和近紅外圖像的高頻分量相似;相比之下,在模糊圖像的一小塊區域中,它們彼此不同[14]。基于這一點,我們將圖像的分解為相似的低中頻部分和不相似的高頻部分,再通過自適應的融合策略進行融合。
1.2" 多模態傳感器的設計
在源圖像的獲取上,本文采用了多模態傳感器的設計,在一個傳感器上同時得到了可見光和近紅外光的信息,再通過后續的處理得到可見光和近紅外光圖像對。
為了模擬這種多模態傳感器得到的圖像,我們設計了一個軟件模擬流程,在MATLAB上完成了模擬,該流程的核心步驟如下:
1)多模態傳感器像素排列定義。本文設計的多模態傳感器的像素排列方式為以四個像素為一組,右下角像素為近紅外像素,其他三個像素為可見光像素,如圖1所示。
2)獲得多模態傳感器的模擬圖像。為了模擬得到圖1所示的多模態傳感器的圖像,選取RGB-NIR Scene Dataset[15]下的若干對近紅外和可見光圖像對,通過循環遍歷可見光和近紅外圖像,將可見光圖像和近紅外圖像的像素按多模態傳感器的像素排列方式重新組合。以多模態傳感器的一組四個像素為例,右下角的像素來自近紅外圖像,其余三個像素來自可見光圖像,模擬圖像的成長過程如圖2所示,模擬圖像的生成結果如圖3所示。
3)對多模態傳感器圖像的處理。為了適應圖像融合模型的輸入,對模擬生成的多模態傳感器圖像進行處理。將可見光像素和近紅外像素分離。近紅外像素直接提取出來,組成一個低分辨率的近紅外圖像。在多模態傳感器的像素排列中,已經提取了近紅外像素組成了低分辨的近紅外圖像,因此剩下的像素排列中,原本近紅外像素的位置為空,采取插值法進行了填充,得到了一個高分辨的可見光圖像。最終得到了一個低分辨率的近紅外圖像和高分辨率的可見光圖像,對多模態傳感器圖像的處理過程如圖4所示,處理得到的圖像如圖5所示。
1.3" 特征提取模塊
近年來,Vision Transformer在圖像處理領域中取得了顯著的成功,尤其是在分類[16]、目標檢測[17]和分割[18]等任務中表現出色。然而其對局部信息的捕捉能力相對較弱,且由于其對空間自注意力機制的依賴,計算開銷較大。
為了克服傳統方法在圖像特征提取方面的局限性,受到ConvFormer模塊[19]的啟發,本文提出了MultiScaleTransformer模塊,該模塊結合了Transformer與CNN的優勢,在標準Transformer架構中引入了多尺度特征提取機制,使得模型能夠在不同尺度上提取特征,增強了對圖像局部和全局信息的捕捉能力,尤其適合處理高分辨率圖像。相比傳統的CNN和Vision Transformer,MultiScaleTransformer在結構上更好地平衡了計算效率與特征提取能力,不僅能捕捉圖像中的全局依賴關系,還能有效保留空間細節信息。
在高頻特征提取模塊上,本文提出了DEN模塊,該模塊在INN模塊[20]的基礎上引入了動態特征處理節點和批歸一化層,增強了特征提取的靈活性和穩定性,提高了對不同輸入數據的適應能力和細節特征的捕捉精度。
1.4" Pag模塊
在多模態圖像處理任務中,傳統的融合策略如簡單的加法或加權平均,往往未能充分挖掘不同模態特征之間的互補性,導致融合效果不佳。針對這一問題,本文引入了Pag模塊。
Pag模塊的核心思想是利用特征圖之間的語義信息,動態調整每個特征圖的權重,以提高融合結果的準確性。與傳統的固定融合策略不同,Pag模塊通過計算特征圖的相似度,自適應地調整每個特征圖的權重,使得模型能夠根據輸入數據動態優化融合方式,避免了固定策略的局限性。此外,Pag模塊還可以選擇性地引入通道注意力機制,進一步提升特征融合的精度,充分挖掘不同模態特征的互補性。更重要的是,Pag模塊能夠與模型的其他部分一起參與訓練,使得融合策略在訓練過程中自動優化,簡化了手動調整參數的復雜性,并顯著提升了多模態圖像融合任務的表現。
2" 近紅外與可見光圖像自適應融合模型
本節詳細介紹了所提出的近紅外與可見光圖像自適應融合模型STAFuse的細節,包括編碼器的中低頻特征和高頻特征提取模塊、自適應融合模塊、損失函數。這里為了表示方便,將中低頻特征和高頻特征分別用結構特征和紋理特征來表示。首先分別將可見光圖像和近紅外圖像輸入編碼器得到結構特征和紋理特征,通過自適應融合模塊得到融合特征,再將融合特征輸入到解碼其中得到輸出,其中將特征提取模塊中的多尺度特征與注意力融合后的特征在特征重建模塊中進行連接,來補償卷積操作后的信息丟失,從而保留更多的圖像細節信息,提高圖像融合的質量。
2.1" STAFuse模型結構
在STAFuse中,受到Li等[21]提出的RFN-Nest模型的啟發,模型訓練過程采用二階段訓練法,并在兩階段中加入了跳躍連接以充分利用編碼器、Pag自適應融合模塊和解碼器的能力。在第一階段主要集中于優化編碼器和解碼器的性能。編碼器從輸入的近紅外和可見光圖像中提取多尺度的特征,并通過跳躍連接將低層次特征直接傳遞到解碼器。解碼器負責從編碼器傳遞的特征中重建出圖像。第一階段訓練的結構如圖6所示。
第二階段訓練中,自適應融合模塊Pag與編碼器和解碼器共同參與訓練,并且繼續利用跳躍連接以保留多尺度特征。Pag模塊負責動態調整不同模態圖像的特征權重,結合這些特征生成融合圖像。在此階段,編碼器繼續優化其特征提取能力,解碼器則通過跳躍連接增強其對低層次細節特征的重建能力。第二階段訓練的結構如圖7所示,測試階段的結構如圖8所示。
2.2" 編碼器模塊
如圖6所示,本文的編碼器模塊由三個主要部分構成:公共卷積層、中低頻特征提取模塊MultiScale Transformer和高頻特征提取模塊DEN。
首先,公共卷積層有兩個卷積層Conv1和Conv2,卷積核大小為3,使用零填充。如圖1在第一階段的訓練中,對于可見光圖像的輸入,公共卷積層的計算過程可以表示:
(3)
其中,Fshared表示公共卷積層的輸出,Ivis表示輸入的可見光圖像。
之后,在編碼器中的第二部分引入了MultiScale Transformer模塊和DEN模塊。如圖1在第一階段的訓中,對于可見光圖像的輸入,MultiScale Transformer和DEN的計算過程可以表示:
(4)
其中,表示經過MultiScale Transformer得到的結構特征,表示經過DEN得到的紋理特征。
2.3" 融合策略
在多模態圖像融合任務中,本文引入了Pag模塊作為融合策略的核心組件,實現了更加有效的特征融合。如圖7所示,在第二階段訓練中,Pag模塊的計算過程如下:
對于輸入的特征圖x和y,分別通過卷積層進行特征變換:
(5)
其中,fx和fy分別表示特征圖x和y的卷積變換。
之后通過逐通道求和計算特征圖xk和yq的相似度:
(6)
其中,σ表示Sigmoid激活函數,sim_map表示求得的權重圖。
最后根據求得的相似度映射,將兩個特征圖進行加權融合:
(7)
其中,xfused表示最后融合得到的特征圖。
2.4" 解碼器模塊
在STAFuse模型中,解碼器模塊的作用是將編碼器和自適應融合模塊Pag處理后的特征圖進行上采樣和重建,以生成最終的融合圖像。如圖6所示的第一階段的訓練中,解碼器模塊由三個卷積層構成分別為Conv3、Conv4和Conv5。Conv3、Conv4和Conv5都采用3×3的卷積核和邊緣填充,Conv3的目的是對融合的特征圖進行初步的上采樣和特征融合,為后續的重建過程提供基礎。Conv4進一步處理經過Conv3層的特征圖,增強圖像的細節和紋理信息,同時通過跳躍連接接收來自編碼器的Conv2層的輸出,增強圖像的全局結構信息。Conv5負責最終的圖像重建,該層通過跳躍連接接收來自編碼器的Conv1層的輸出,確保最終輸出的融合圖像能夠保留豐富的細節和紋理信息。
2.5" 損失函數
如圖6所示,在第一階段的訓練中,第一步將近紅外和可見光圖像對Inir和Ivis分別輸入共享的公共卷積層中得到初始特征fnir和fvis。第二步將得到的初始特征分別輸入獨立的特征提取模塊中,這個特征模塊由MultiScale Transformer和DEN組成,fnir經過MultiScale Transformer和DEN分別得到結構特征和紋理特征,fvis經過MultiScale Transformer和DEN得到結構特征和紋理特征。第三步將和、和分別在通道上做拼接之后送入解碼器得到輸出Onir和Ovis。第一階段的損失函數:
(8)
其中Lvis表示:
(9)
其中表示圖像之間的L2范數,表示兩個圖像在像素值上的差異。SSIM(Ivis,Ovis)表示結構相似度函數,用于衡量兩個圖像在結構、亮度和對比度上的相似性。Lgrad表示梯度損失:
(10)
其中∥?Ivis-Ovis∥使用的是L1范數,?表示梯度算子,這一項的作用是度量Ivis和Ovis在邊緣和細節上的相似性。
如圖7所示,在第二階段的訓練,將近紅外圖像的結構特征和可見光圖像的結構特征作為Pag模塊的輸入,得到融合的結構特征,將近紅外圖像的紋理特征和可見光圖像的紋理特征作為Pag模塊的輸入,得到融合的紋理特征,最后將和在通道上做拼接后作為解碼器的輸入得到融合圖像。第二階段訓練的損失函數表示為:
(11)
其中表示:
(12)
表示:
(13)
代表融合模塊的損失,表示:
(14)
3" 實驗及結果分析
在本節中對所提出的模型進行了實驗驗證。首先介紹對多模態傳感器分離后得到的圖像對的預處理,接著介紹了訓練階段的參數設置,之后將融合網絡和現有的其他算法進行了定性比較和定量分析,最后提出了幾項消融實驗,用于研究融合網絡中一些因素的影響。
本文所提出的融合網絡是使用PyTorch作為編程環境,在NVIDIA GeForce RTX 3060上實現的。
3.1 圖像預處理
在2.3小節中提到,為了適應融合網絡的輸入,對多模態傳感器的圖像進行了預處理得到了低分辨率的近紅外圖像和高分辨率的可見光圖像,且可見光圖像的分辨率是近紅外圖像的4倍。本文設計的STAFuse需要相同分辨率的圖像對輸入,為了解決這個問題,引入了預訓練的超分辨模塊VDSR[22],該模塊可以實現多種尺度的圖像超分辨,本文選擇了將低分辨的近紅外圖像分辨率變為原來的4倍,實驗結果如圖9所示。
3.2" 參數設置
在訓練階段,使用了RGB-NIR Scene Dataset的477對近紅外和可見光圖像對中的380對圖像對。在2.3節中先將這380對圖像對用于多模態傳感器模擬圖像的生成,在4.1節中將多模態傳感器生成的低分辨率近紅外圖像和高分辨的可見光圖像進行預處理得到380對圖像對。對著380對圖像對進行裁剪,裁剪的大小為256×256,得到4 128對近紅外和可見光的圖像對。
在第一階段的訓練中,設λ1 = 5,訓練輪次為60輪,學習率設置為10-4且每隔20輪學習率降低為原來的一半,batch_size = 8。在第二階段的訓練中,設λ2 = 1,λ3 = 1,λ4 = 2,訓練輪次為80輪,學習率也設置為10-4且每隔20輪學習率降低為原來的一半。
3.3" 實驗結果
在測試階段中,使用了RGB-NIR Scene Dataset中來自不同場景的97對近紅外和可見光圖像對作為測試集用于測試STAFuse的性能,并將融合結果與最先進的方法進行比較,包括Shallow CNN[10]、DenseFuse[9]、DIDFuse[4]和DDcGAN[11]。
3.3.1" 定性比較和定量分析
本節中將STAFuse模型的融合結果與幾種最先進的圖像融合方法進行了定性比較和定量比較。
在圖10中展示了多對近紅外和可見光源圖像及其通過不同方法生成的融合圖像,并將部分關鍵區域進行了放大比較。從圖10中可以看到,Shallow CNN在細節保留上表現欠佳,特別是在復雜場景中,生成的圖像較為模糊。DenseFuse在細節和對比度上有一定提升,但在邊緣處理上仍顯不足。DIDFuse雖然在邊緣清晰度和全局結構還原上表現較好,但細節豐富度和對比度仍有所欠缺。相比之下,STAFuse能夠更好地結合近紅外圖像在低光或復雜環境中的表現和可見光圖像的細節信息。特別是復雜場景下的細節,例如樹木的紋理或人行道的細微特征,STAFuse生成的融合圖像在亮度、對比度和邊緣清晰度方面均有顯著提升,呈現出更好的視覺效果。
為了評估STAFuse模型的融合性能,本文采用了熵(EN)、標準差(SD)、互信息(MI)、差值相關總和(SCD)、視覺信息保真度(VIF)、邊緣保持指數(Qabf)和結構相似性指數(SSIM)這7個指標進行評估。定量比較結果如表1所示,STAFuse模型在多數指標上均表現出色,尤其是在EN、SD、MI和VIF方面,取得了明顯的提升。
表1" 定量比較結果及消融實驗分析
具體而言,STAFuse在熵值和標準差上表現優異,分別達到了7.29和51.97,這表明其融合圖像包含了較多信息量,并且保留了豐富的細節。相比之下,DenseFuse和DDcGAN在標準差上的得分分別為63.76和51.76,雖然稍高,但STAFuse在其他指標上的優勢更加明顯。例如,STAFuse的VIF達到了1.10,相比于DenseFuse的0.72和DDcGAN的0.88,提升了約53%和25%。這表明STAFuse生成的融合圖像在視覺質量上更接近于人類的視覺感知。在Qabf和SSIM上,STAFuse也表現突出,分別取得了0.67和0.75的較高得分。相較于DIDFuse的0.49和DenseFuse的0.37,STAFuse的Qabf提升了約37%和81%。同樣,STAFuse在SSIM上也有顯著提升,達到了0.75,較DenseFuse的0.37提高了102.7%。這些結果表明,STAFuse不僅能在融合過程中保持圖像結構的一致性,還能更好地保留邊緣信息和關鍵特征。此外,盡管DDcGAN在熵值上達到了7.43,略高于STAFuse的7.29,但其在MI和SSIM上的表現欠佳,無法充分結合來自不同模態圖像的互補信息。
綜上所述,STAFuse在多個關鍵指標上優于現有方法,特別是在細節保留、視覺質量和融合圖像的結構完整性方面表現出色。這證明了STAFuse自適應融合策略的有效性和魯棒性。
3.3.2" 消融實驗
為了驗證STAFuse中自適應融合策略的有效性,本文設計了消融實驗,分別將自適應融合模塊替換為平均融合(Average)和殘差融合策略(RFN)。表1展示了不同融合策略下模型的性能。結果表明,自適應融合策略能夠顯著提升融合圖像的質量,尤其在VIF和SSIM等關鍵指標上表現更佳。具體來說,使用自適應融合策略時,模型的VIF指標達到1.10,相較于平均融合策略(1.08)提升了約1.9%,相較于殘差融合策略(1.09)提升了約0.9%。此外,SSIM從平均融合策略的0.72提升到0.75,增幅為4.2%;相較于殘差融合策略(0.72),SSIM也提升了約4.2%。這些結果證明了自適應融合策略在不同模態圖像融合中的優勢,能夠更好地保留圖像的結構和細節信息,顯著提升了融合圖像的整體質量。
4" 結" 論
本文提出了一種基于頻域分解的近紅外與可見光圖像自適應融合模型STAFuse,利用結合Transformer與CNN的特征提取模塊,以及自適應融合模塊Pag,實現了不同模態圖像特征的有效融合。在多模態數據的獲取上,提出了一種多模態傳感器的改進方案,為圖像融合技術的發展提供了新的思路。實驗結果表明,STAFuse在多個評估指標上均取得了較為優異的成績,能夠在復雜環境下生成具有高細節保留、良好對比度和視覺質量的融合圖像。此外,通過消融實驗驗證了自適應融合策略在提升融合圖像質量方面的有效性。
在未來的工作中,計劃將STAFuse模型部署到FPGA上,結合新型多模態傳感器,構建一個集成化的圖像采集和處理系統。通過將模型部署到FPGA上,一方面可以充分利用硬件加速的優勢,提升圖像融合處理的實時性和效率,特別是在低功耗和資源受限的場景下。另一方面,FPGA作為獨立的硬件平臺,可以實現系統的高度集成,使圖像處理系統不再依賴PC端的GPU處理器,從而具備更高的可移植性和靈活性,適合于嵌入式應用場景,特別是在無人機、自動駕駛、智能監控等對體積、功耗和實時性要求嚴格的應用中,FPGA的硬件加速特性將為此類產品提供更具競爭力的解決方案。
參考文獻:
[1] LAHOUD F,SUSSTRUNK S. Ar in VR: Simulating Infrared Augmented Vision [C]//2018 25th IEEE International Conference on Image Processing (ICIP).Athens:IEEE,2018:3893-3897.
[2] HU H M,WU J W,LI B,et al. An Adaptive Fusion Algorithm for Visible and Infrared Videos Based on Entropy and the Cumulative Distribution of Gray Levels [J].IEEE Transactions on Multimedia,2017,19(12):2706-2719.
[3] MA J Y,ZHOU Y. Infrared and Visible Image Fusion Via Gradientlet Filter [J].Computer Vision and Image Understanding,2020,197/198:12.
[4] ZHAO Z X,XU S,ZHANG C X,et al. DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion [J/OL].arXiv:2003.09210 [eess.IV].[2024-10-08].https://arxiv.org/abs/2003.09210?context=eess.
[5] LI S T,YANG B,HU J W. Performance Comparison of Different Multi-Resolution Transforms for Image Fusion [J].Information Fusion,2011,12(2):74-84.
[6] ZONG J J,QIU T S. Medical Image Fusion Based on Sparse Representation of Classified Image Patches [J].Biomedical Signal Processing and Control,2017,34:195-205.
[7] LI H,WU X J,KITTLER J. Infrared and Visible Image Fusion Using A Deep Learning Framework [C]//2018 24th international conference on pattern recognition (ICPR).Beijing:IEEE,2018:2705-2710.
[8] MA J Y,YU W,LIANG P,et al. FusionGAN: A Generative Adversarial Network for Infrared and Visible Image Fusion [J].Information Fusion,2018,48:11-26.
[9] LI H,WU X J. DenseFuse: A Fusion Approach to Infrared and Visible Images [J].IEEE Transactions on Image Processing,2019,28(5):2614-2623.
[10] LI L,XIA Z Q,HAN H J,et al. Infrared and Visible Image Fusion Using a Shallow CNN and Structural Similarity Constraint [J].IET Image Processing,2020,14(14):3562-3571.
[11] MA J Y,XU H,JIANG J J,et al. DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion [J].IEEE Transactions on Image Processing,2020,29:4980-4995.
[12] XU J C,XIONG Z X,BHATTACHARYYA S P. PIDNet: A real-time Semantic Segmentation Network Inspired by PID Controllers [C]//2023 IEEE/CVF conference on computer vision and pattern recognition.Vancouver:IEEE,2023:19529-19539.
[13] XU L L,LIANG P X,HAN J,et al. Global Filter of Fusing Near-Infrared and Visible Images in Frequency Domain for Defogging [J].IEEE Signal Processing Letters,2022,29:1953-1957.
[14] JANG D W,PARK R H. Colour Image Dehazing Using near-Infrared Fusion [J].IET Image Processing,2017,11(8):587-594.
[15] ROWN M,SüSSTRUNK S. Multi-Spectral SIFT for Scene Category Recognition [C]//CVPR 2011.Colorado Springs:IEEE,2011:177-184.
[16] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].[2024-10-08].https://arxiv.org/abs/2010.11929v2.
[17] CARION N,MASSA F,SYNNAEVE G,et al. End-to-End Object Detection with Transformers [C]//16th European conference on computer vision.Glasgow:Springer,2020:213-229.
[18] ZHENG S X,LU J C,ZHAO H S,et al. Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers [C]//2021 IEEE/CVF conference on computer vision and pattern recognition.Nashville:IEEE,2021:6877-6886.
[19] LIN X,YAN Z Q,DENG X B,et al. Conv Former: Plug-and-play CNN-style transformers for improving medical image segmentation [C]//26th International Conference on Medical Image Computing and Computer-Assisted Intervention.Vancouver:Springer,2023:642-651.
[20] ARDIZZONE L,KRUSE J,WIRKERT S,et al. Analyzing Inverse Problems with Invertible Neural Networks [J/OL].arXiv:1808.04730 [cs.LG].[2024-10-09].https://arxiv.org/abs/1808.04730.
[21] LI H,WU X J,KITTLER J. RFN-Nest: An end-to-End Residual Fusion Network for Infrared and Visible Images [J].Information Fusion,2021,73:72-86.
[22] KIM J,LEE J K,LEE K M. Accurate Image Super-Resolution Using Very Deep Convolutional Networks [C]//2016 IEEE conference on computer vision and pattern recognition.Las Vegas:IEEE,2016:1646-1654.
作者簡介:李振偉(2000—),男,漢族,福建福鼎人,碩士在讀,研究方向:深度學習、圖像融合。