基于頻譜特征混合Transformer的紅外和可見光圖像融合

2024-11-04 00:00:00陳子昂黃珺樊凡

計算機(jī)應(yīng)用研究 2024年9期

摘要：為了解決傳統(tǒng)紅外與可見光圖像融合方法對細(xì)節(jié)與頻率信息表征能力不足、融合結(jié)果存在模糊偽影的問題，提出一種基于頻譜特征混合Transformer的紅外和可見光圖像融合算法。在Transformer的基礎(chǔ)上，利用傅里葉變換將圖像域特征映射到頻域，設(shè)計了一種新的復(fù)數(shù)Transformer來提取源圖像的深層頻域信息，并與圖像域特征進(jìn)行混合，以此提高網(wǎng)絡(luò)對細(xì)節(jié)與頻率信息的表征能力。此外，在圖像重建前設(shè)計了一種新的令牌替換模塊，動態(tài)評估Transformer令牌的顯著性后對消除得分較低的令牌，防止融合圖像出現(xiàn)偽影。在MSRS數(shù)據(jù)集上進(jìn)行的定性和定量實驗結(jié)果顯示，與九種最先進(jìn)的算法相比，該算法具有較好的融合效果。

關(guān)鍵詞：圖像融合； Transformer；頻譜特征；紅外圖像；可見光圖像

中圖分類號：TP391.41 文獻(xiàn)標(biāo)志碼：A

文章編號：1001-3695（2024）09-043-2874-07

doi：10.19734/j.issn.1001-3695.2023.11.0599

Infrared and visible image fusion based on spectral feature hybrid Transformer

Chen Zi’ang， Huang Jun， Fan Fan

（Electronic Information School， Wuhan University， Wuhan 430072， China）

Abstract：Aiming at the problem of insufficient representation capability for details and frequency information in traditional infrared and visible image fusion methods， this paper proposed a fusion algorithm based on spectral feature hybrid Transformer. The algorithm utilized the Fourier transform to map image domain features to the frequency domain. Then the novel complex Transformer extracted deep-frequency information from the source images and mixed them with the features of the image domain to enhance the representation capability for edges and details. Additionally， the algorithm used a token replacement module to evaluate the saliency of Transformer tokens and eliminate the tokens with lower scores to prevent the presence of artifacts in the fused image. Qualitative and quantitative experiments conducted on the MSRS dataset demonstrated that the proposed algorithm exhibits superior fusion performance compared to nine state-of-the-art methods.

Key words：image fusion; Transformer; spectral feature; infrared image; visible image

0 引言

由于成像理論的限制，單一傳感器難以全面地捕獲場景信息，常需要多個模態(tài)的傳感器協(xié)同工作。紅外傳感器能捕捉場景中的熱輻射，可以輕易地檢測到場景中的熱目標(biāo)，但其空間分辨率有限、受熱噪聲影響較大。可見光傳感器捕捉場景中的反射光，能記錄豐富的紋理和結(jié)構(gòu)信息，但在低光條件下生成的圖像質(zhì)量會顯著降低。它們的天然互補(bǔ)性質(zhì)使得紅外與可見光雙模態(tài)傳感器在軍事偵察、安防監(jiān)控、自動駕駛等領(lǐng)域得到了廣泛應(yīng)用［1］。紅外與可見光圖像融合的目標(biāo)是整合兩種模態(tài)圖像的互補(bǔ)信息，生成一張紋理豐富、目標(biāo)顯著的融合圖像，利于人眼觀察的同時，對目標(biāo)檢測、語義分割等高級計算機(jī)視覺任務(wù)起到促進(jìn)作用［2］。

在過去幾十年里已經(jīng)出現(xiàn)了許多紅外和可見光圖像融合方法。它們可以被分為傳統(tǒng)方法［3，4］和基于深度學(xué)習(xí)的方法兩類。傳統(tǒng)方法利用傳統(tǒng)圖像處理技術(shù)或統(tǒng)計方法來建立融合框架。由于深度學(xué)習(xí)的快速發(fā)展，基于卷積神經(jīng)網(wǎng)絡(luò)（con-volutional neural network，CNN）［5，6］、自編碼器（auto encoder，AE）［7，8］和生成對抗網(wǎng)絡(luò)（generative adversarial network，GAN）［9，10］的框架在圖像融合領(lǐng)域得到了廣泛的研究。近年來，Vision-Transformer［11］在計算機(jī)視覺領(lǐng)域取得了巨大的成功，一些學(xué)者也探索了其在圖像融合中的應(yīng)用［12，13］。基于CNN的紅外與可見光融合算法大多采用CNN模塊替換傳統(tǒng)融合框架的一些部分。Xu等人［5］提出了一個名為U2Fusion的統(tǒng)一融合網(wǎng)絡(luò)，可以同時解決多種圖像融合任務(wù)。Zhang等人［6］設(shè)計了一個提取-分解網(wǎng)絡(luò)將梯度信息和亮度信息解耦并分別優(yōu)化。文獻(xiàn)［14］將特征編解碼和特征融合網(wǎng)絡(luò)分離開，采用兩階段方式進(jìn)行訓(xùn)練，充分發(fā)揮空間-通道注意力融合網(wǎng)絡(luò)的潛力。Wang等人［15］引入了一個多級配準(zhǔn)網(wǎng)絡(luò)用于處理源圖像中的輕微誤匹配，并在此基礎(chǔ)上進(jìn)行特征融合。由于圖像融合是一個無監(jiān)督任務(wù)，基于CNN的融合方法的性能強(qiáng)烈依賴于損失函數(shù)的特定設(shè)計。受傳統(tǒng)融合算法的啟發(fā)，基于自編碼器的圖像融合方法使用編碼器和解碼器替代傳統(tǒng)的特征提取和重構(gòu)函數(shù)。Li等人［16］探索了具有稠密連接的自編碼器［8］和多尺度嵌套連接的自編碼器，并嘗試使用可學(xué)習(xí)的融合網(wǎng)絡(luò)替換手工設(shè)計的融合規(guī)則來提高嵌套結(jié)構(gòu)的性能［7］。Zhao等人［17］將圖像分解為背景和細(xì)節(jié)特征圖，然后通過自編碼器網(wǎng)絡(luò)將它們合并成一幅融合圖像。生成對抗網(wǎng)絡(luò)架構(gòu)在無監(jiān)督視覺任務(wù)中也展現(xiàn)出了強(qiáng)大的潛力。Ma等人［9］首次將生成器和鑒別器之間的對抗訓(xùn)練引入圖像融合領(lǐng)域。GANMcC［18］借助多類別鑒別器來維持兩種分布的平衡。Liu等人［10］提出了一種面向目標(biāo)的對抗學(xué)習(xí)網(wǎng)絡(luò)TarDAL，可以在實現(xiàn)融合的同時促進(jìn)目標(biāo)檢測任務(wù)。

自2020年Dosovitskiy等人［11］成功將Transformer應(yīng)用到計算機(jī)視覺領(lǐng)域以來，Transformer在目標(biāo)檢測［19］、跟蹤［20］等視覺任務(wù)中都取得了巨大成功。由于Transformer具有強(qiáng)大的長程建模能力，近年來也已出現(xiàn)基于Transformer的圖像融合方法。Rao等人［12］將Transformer模塊與對抗學(xué)習(xí)相結(jié)合，設(shè)計了空間和通道Transformer以關(guān)注不同維度的依賴關(guān)系。Tang等人［13］設(shè)計了一個包含CNN和動態(tài)Transformer的Y型網(wǎng)絡(luò)，能同時融合局部特征和上下文信息。

雖然以上算法都實現(xiàn)了圖像融合的基本功能，但其中還存在兩個被忽視的問題。a）現(xiàn)有方法對細(xì)節(jié)與頻率信息的表征能力仍存在不足，在一些可見光紋理變化迅速的區(qū)域，融合結(jié)果會被紅外噪聲污染而導(dǎo)致失真。許多研究表明，自然圖像的特性可以很容易地用傅里葉頻譜來捕捉。圖像傅里葉變換后的幅度譜能描述各個方向上重復(fù)結(jié)構(gòu)出現(xiàn)的強(qiáng)度，而局部相位能提供物體在形狀、邊緣和方向上的詳細(xì)信息［21］。但結(jié)合傅里葉變換的復(fù)數(shù)域Transformer在紅外與可見光圖像融合中的應(yīng)用還尚未被探索。b）在特征融合階段，現(xiàn)有算法僅考慮了顯著特征的整合，卻忽略了源圖像中有害信息的去除。導(dǎo)致一些算法的融合結(jié)果中存在模糊或偽影。在圖1所示的場景下，由于光照不足，可見光圖像無法提供關(guān)于行人目標(biāo)的任何有效信息，導(dǎo)致FusionGAN［9］、UMF-CMGR［15］和YDTR［13］的融合結(jié)果出現(xiàn)了熱目標(biāo)模糊或暗淡的問題。除此之外，受紅外熱噪聲的影響，F(xiàn)usionGAN和UMF-CMGR的融合結(jié)果在綠色框所示區(qū)域出現(xiàn)了較嚴(yán)重的偽影。

為了解決上述問題，本文提出了一種基于頻譜特征混合Transformer的紅外和可見光圖像融合算法，稱為FTMNet。與傳統(tǒng)的Transformer架構(gòu)不同，F(xiàn)TMNet在多頭自注意力結(jié)構(gòu)的基礎(chǔ)上增加傅里葉變換及其反變換的復(fù)數(shù)通路，并將圖像域和頻域的令牌（token）進(jìn)行混合。復(fù)數(shù)操作并不等同于簡單的雙維實值操作，而是通過實部和虛部之間的相互作用編碼了具有正則化效應(yīng)的隱式連接。由于復(fù)數(shù)表征的冗余性，復(fù)數(shù)網(wǎng)絡(luò)具有更好的泛化能力和信息提取能力［22］。對于圖像融合任務(wù)來說，增強(qiáng)細(xì)節(jié)與頻率信息能讓融合圖像的邊緣與紋理清晰度提高，故可以通過給網(wǎng)絡(luò)補(bǔ)充復(fù)數(shù)頻譜信息的方式達(dá)到此目的。此外，在融合兩模態(tài)的深度特征之前，設(shè)計了令牌替換機(jī)制對兩個模態(tài)中顯著性較低的令牌進(jìn)行替換，以消除源圖像中包含的潛在有害信息，提高融合圖像的信息量。從圖1可以看出，F(xiàn)TMNet生成的融合圖像紅外目標(biāo)清晰，對比度高，且在背景區(qū)域克服了偽影的問題。本文貢獻(xiàn)可以總結(jié)如下：

a）提出了一種用于紅外和可見光圖像融合的頻譜特征混合Transformer，設(shè)計了復(fù)數(shù)通路將傅里葉頻譜信息引入特征提取網(wǎng)絡(luò)，有效地提高了方法對細(xì)節(jié)與頻率信息的表征能力。

b）設(shè)計令牌替換機(jī)制，動態(tài)評估令牌信息的顯著性得分并替換低分令牌，消除圖像源中包含的無效信息，減少融合結(jié)果中的噪聲和偽影。

c）主觀與客觀實驗證明了本文方法相對于先進(jìn)的對比算法具有優(yōu)勢。目標(biāo)檢測實驗驗證了本文方法能夠有效地促進(jìn)高級計算機(jī)視覺任務(wù)。

1 視覺Transformer

2017年，Vaswani等人［23］首次提出了Transformer的概念，采用了多頭自注意力（multi-head self-attention， MSA）機(jī)制來捕捉自然語言處理（natural language processing， NLP）中的長距離依賴關(guān)系。自此，Transformer在NLP領(lǐng)域取得了廣泛的應(yīng)用。Dosovitskiy等人［11］成功將Transformer應(yīng)用到計算機(jī)視覺領(lǐng)域，稱為視覺Transformer（vision Transformer，ViT）。為了適應(yīng)Transformer編碼器的輸入要求，ViT將圖像分割為16×16的小塊，經(jīng)過線性變換和位置信息嵌入后形成一個圖像塊序列，再將這個圖像塊序列像NLP中的詞序列一樣輸入Transformer網(wǎng)絡(luò)執(zhí)行目標(biāo)檢測。由于其強(qiáng)大的全局上下文特征探索能力，研究者對ViT進(jìn)行了各種改進(jìn)以適應(yīng)其他計算機(jī)視覺任務(wù)。Wang等人［24］設(shè)計了金字塔結(jié)構(gòu)的視覺Transformer（PVT）以增強(qiáng)特征提取能力，同時引入了空間歸約注意力機(jī)制以減少深度網(wǎng)絡(luò)引起的計算成本。除了網(wǎng)絡(luò)結(jié)構(gòu)的探索，研究人員還致力于提高Transformer的計算效率。Xie等人［25］提出了一種具有輕量級MLP解碼器的分割框架。通過去除位置編碼，該方法避免了由于位置編碼的插值而引起的性能退化。在目標(biāo)檢測領(lǐng)域，MSG-Transformer提出了一種信使令牌，用于提取本地窗口的信息并實現(xiàn)跨區(qū)域信息交換，從而滿足檢測跨越多個窗口的大型目標(biāo)的需要［26］。Wang等人［27］提出了一種名為TokenFusion的多模態(tài)特征對齊和融合方法，該方法動態(tài)識別并替換不具信息的令牌，進(jìn)而對跨模態(tài)特征進(jìn)行聚合。

視覺Transformer的結(jié)構(gòu)可以被分為編碼器和解碼器兩部分，編碼器和解碼器都由多個Transformer塊組成。編碼器中的Transformer塊通常執(zhí)行特征降維和提取，而解碼器中的Transformer塊通常執(zhí)行特征升維和恢復(fù)。在圖像輸入網(wǎng)絡(luò)之前，首先要通過分塊嵌入層將它切分為小塊，并通過線性變換轉(zhuǎn)換為特征令牌，記為X=linear（crop（I））。其中I為原始圖像，linear為線性變換。對于每個Transformer塊來說，輸入令牌通過三個可學(xué)習(xí)的線性變換被分解為query（Q）、key（K）和value（V）三個向量。隨后，為了捕獲像素間的長距離依賴，可通過式（1）計算自注意力權(quán)重。

3 實驗

3.1 實驗配置

3.1.1 數(shù)據(jù)集

實驗在MSRS數(shù)據(jù)集上進(jìn)行。MSRS數(shù)據(jù)集［29］提供了1 444對已配準(zhǔn)的紅外和可見光圖像。數(shù)據(jù)已經(jīng)被創(chuàng)建者分為訓(xùn)練集和測試集，分別包含1 083和361對圖像。其中的80個樣本還具有車輛和行人的檢測標(biāo)簽。

3.1.2 訓(xùn)練細(xì)節(jié)

在輸入端，本文將640×480×3的RGB可見光圖像轉(zhuǎn)換到Y(jié)CbCr色彩空間，并將Y通道歸一化到［0，1］作為網(wǎng)絡(luò)的輸入。紅外圖像是單通道的灰度圖，所以無須進(jìn)行色彩轉(zhuǎn)換，經(jīng)歸一化后直接輸入網(wǎng)絡(luò)。在輸出端，本文再將單通道的融合結(jié)果與可見光的Cb、Cr色彩通道結(jié)合，反變換得到RGB彩色圖像。本文采用Python語言和PyTorch平臺對所提深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行實現(xiàn)。所有的實驗都在NVIDIA TITAN RTX GPU和3.50 GHz Intel Core i9-9920X CPU上進(jìn)行，CUDA版本為10.1，PyTorch版本為1.7.1，圖像預(yù)處理和后處理采用OpenCV 3.4.2實現(xiàn)。訓(xùn)練的batch size設(shè)為1，epoch設(shè)為160。參數(shù)由Adam優(yōu)化器進(jìn)行更新，學(xué)習(xí)率為2×10-4。本文模型的超參數(shù)包括消除閾值θ以及損失函數(shù)中的平衡參數(shù)。實驗中λ=0.2，α=10，β=1，θ=0.02。

3.1.3 評估指標(biāo)

為了客觀地評估融合性能，本文采用了熵（EN）、空間頻率（SF）、標(biāo)準(zhǔn)差（SD）、平均梯度（AG）、差異相關(guān)性和（SCD）和視覺信息保真度（VIF）六種指標(biāo)［30］。EN源自信息論，用于衡量信息量，屬于基于信息熵的指標(biāo)。SD反映了像素分布的離散程度，SF和AG分別用于衡量圖像的頻率和梯度信息的豐富度，它們屬于基于圖像特征的指標(biāo)。SCD是一種基于相關(guān)的指標(biāo)，利用融合圖像與源圖像之間的差異來評估融合方法傳遞的互補(bǔ)信息量。VIF是一種基于自然場景統(tǒng)計理論的高級圖像融合質(zhì)量指標(biāo)，用于衡量視覺保真度，屬于基于人類感知的指標(biāo)。這些指標(biāo)在評估融合圖像質(zhì)量時具有互補(bǔ)性，可以從多個方面提供有關(guān)融合圖像細(xì)節(jié)、對比度、視覺保真度等方面的信息，所有上述指標(biāo)都是正向指標(biāo)。

3.1.4 對比算法

本文選擇了近年來的9種方法進(jìn)行定性和定量比較。其中GTF［3］是傳統(tǒng)方法；DenseFuse［8］、DIDFuse［17］、RFN-Nest［7］、SDNet［6］、U2Fusion［5］和 UMF-CMGR［15］基于CNN設(shè)計；FusionGAN［9］采用了GAN結(jié)構(gòu)；YDTR［13］是基于Transformer的方法。對比實驗中的9種對比算法均通過開源的代碼和算法模型獲取它們的融合圖像。

3.2 MSRS數(shù)據(jù)集上的對比實驗

3.2.1 定性比較

為了直觀評估本文方法和對比算法的融合性能，本文展示各算法在四個典型場景下的融合結(jié)果，如圖6～9所示。

在每幅圖中，用紅色框突出顯示熱目標(biāo)區(qū)域，用綠色框突出顯示包含豐富紋理的區(qū)域。在圖6中，只有DensFuse和本文方法能同時保留紅色框中的行人及其背后車輛的亮度。而在綠色框標(biāo)記的密集地磚區(qū)域，只有本文方法能很好地保留該重復(fù)結(jié)構(gòu)，其他算法則出現(xiàn)了不同程度的模糊。一方面，本文設(shè)計的頻譜特征混合網(wǎng)絡(luò)能提取頻率特征，對地磚的重復(fù)結(jié)構(gòu)具備更強(qiáng)的表征能力。另一方面，紅外圖像在該區(qū)域信息量極低，本文的令牌替換模塊會丟棄這部分信息并用可見光的令牌將其替換，故FTMNet能提高融合圖像的信息量，進(jìn)而取得更好的視覺效果。圖7 展示了一個白天的場景。可以發(fā)現(xiàn)，GTF、FusionGAN和RFN-Nest在紅外目標(biāo)周圍出現(xiàn)了明顯的模糊和偽影。雖然SDNet的結(jié)果中的紅外目標(biāo)亮度最為突出，但它在背景區(qū)域的色彩失真嚴(yán)重影響了視覺效果。FTMNet在保證紅外目標(biāo)顯著性的同時能在綠色框標(biāo)記的區(qū)域取得最強(qiáng)的對比度。由于細(xì)節(jié)與頻率信息的增強(qiáng)，對應(yīng)融合圖像的邊緣與紋理清晰度的提高，所以在該場景下地面裂紋清晰可見，沒有受到紅外噪聲污染。在較黑暗的場景00726N中，F(xiàn)TMNet能更好地保持車輛區(qū)域的對比度。在圖9所展示的場景下，F(xiàn)TMNet融合結(jié)果中的行人目標(biāo)不僅亮度最高，還具備自然的色彩，沒有出現(xiàn)模糊或失真。此外，在綠色框所標(biāo)識的區(qū)域，背景樹木的紋理細(xì)節(jié)清晰，和可見光圖像的觀感一致。通過無效令牌的消除，本文模型可以動態(tài)評估兩種模態(tài)特征的重要性，進(jìn)而消除源圖像中包含的潛在有害信息。因此，本文融合結(jié)果中不會出現(xiàn)顏色失真、熱目標(biāo)暗淡和紋理模糊等常見問題。

3.2.2 定量比較

在MSRS數(shù)據(jù)集上的定量指標(biāo)比較結(jié)果如表1所示，表中數(shù)值是在全部361張測試數(shù)據(jù)上的平均值。本文方法在EN、SF、SD、AG指標(biāo)上獲得第一，在SCD指標(biāo)上取得第二，在VIF指標(biāo)上取得第三。EN的優(yōu)勢代表了本文方法的融合結(jié)果能保留最大的信息量。SD的優(yōu)勢表明融合結(jié)果的像素離散程度最高。最高的AG說明融合結(jié)果的梯度信息豐富，紋理清晰。值得一提的是，本文方法在SF上取得了較明顯的優(yōu)勢，超越第二名20%，相比最差的方法提升了252%。這與本文理論分析一致，因為本文方法引入了傅里葉變換并設(shè)計了復(fù)數(shù)通路來補(bǔ)充頻率信息，所以融合結(jié)果的空間頻率得到了大幅提高。在VIF指標(biāo)上，本文方法落后第一名0.08。得益于DenseFuse和RFN-Nest在網(wǎng)絡(luò)中引入的稠密連接和多尺度嵌套連接，其方法的視覺保真度更高。在SCD指標(biāo)上，本文方法以0.007的微弱優(yōu)勢落后于RFN-Nest，意味著本文方法從源數(shù)據(jù)中轉(zhuǎn)移的信息占比較高，對融合圖像的噪聲和偽影有一定抑制效果。總的來說，F(xiàn)TMNet的客觀指標(biāo)具有較強(qiáng)的競爭力。

3.3 運(yùn)行效率

圖像融合的后續(xù)計算機(jī)視覺應(yīng)用對實時性能有很高的需求，例如目標(biāo)檢測和目標(biāo)跟蹤。運(yùn)行效率是評估圖像融合方法優(yōu)劣的一個關(guān)鍵指標(biāo)。本文從模型參數(shù)量、浮點運(yùn)算次數(shù)（FLOPs）和運(yùn)行時間三個角度評估算法的時間復(fù)雜度和空間復(fù)雜度。除了GTF是傳統(tǒng)算法以外，其他所有深度學(xué)習(xí)算法都經(jīng)過GPU加速。

評估在MSRS數(shù)據(jù)集上進(jìn)行，輸入圖像的尺寸為640×480。評估結(jié)果總結(jié)在表2中。本文方法具有最小的FLOPs，但在執(zhí)行速度方面僅排名第三。SDNet算法的運(yùn)行速度最快，達(dá)到了實時應(yīng)用的要求。由于本文方法設(shè)計了頻譜特征混合網(wǎng)絡(luò)，在復(fù)數(shù)運(yùn)算相關(guān)的部分運(yùn)算量都為原本的兩倍，所以實時性沒有達(dá)到最優(yōu)。此外，通過進(jìn)一步探究發(fā)現(xiàn)，式（8）（9）中與令牌替換策略相關(guān)的令牌索引尋址和令牌替換操作耗時較長。如果禁用替換過程，平均運(yùn)行時間將減少到0.040。這表明與令牌替換的時間成本不容忽視，運(yùn)行效率仍有優(yōu)化的空間。

3.4 目標(biāo)檢測性能

本節(jié)探究FTMNet在高級計算機(jī)視覺任務(wù)中的積極作用。配合MSRS數(shù)據(jù)集中的目標(biāo)檢測標(biāo)簽，本文采用流行的檢測模型YOLOv7對不同圖像融合算法的紅外、可見光和融合圖像進(jìn)行檢測。如圖10所示，該場景包含一個行人和兩輛汽車，其中有一輛汽車在圖像中較小且距離較遠(yuǎn)。由于模態(tài)的限制，單憑紅外或可見光圖像都無法識別出全部目標(biāo)。然而，DenseFuse、RFN-Nest、U2Fusion、YDTR和FTMNet的融合結(jié)果可以有效促進(jìn)目標(biāo)檢測任務(wù)，同時檢測出三個目標(biāo)。圖11展示了一個白天的場景。可以看出，只有FTMNet能檢測出遠(yuǎn)處的兩個小目標(biāo)。總的來說，大多數(shù)算法生成的融合圖像都能取得比單張紅外或可見光圖像更好的檢測效果，這證明了圖像融合是有意義的，且本文方法能對高級計算機(jī)視覺任務(wù)起到較好的促進(jìn)作用。

3.5 消融實驗

本文方法的有效性主要依賴于頻譜特征混合網(wǎng)絡(luò)中的復(fù)數(shù)通路和令牌替換策略。本文進(jìn)行了一系列消融實驗來驗證特定設(shè)計的有效性。定性結(jié)果展示在圖12中，定量評估結(jié)果報告在表3中。

3.5.1 復(fù)數(shù)通路的消融實驗

本文去除了頻譜特征混合網(wǎng)絡(luò)中的復(fù)數(shù)通路，不再執(zhí)行FFT和IFFT，同時將所有復(fù)數(shù)層用普通的層替換，只保留原始的多頭注意力和前饋網(wǎng)絡(luò)。如圖12（c）所示，融合結(jié)果在紅外目標(biāo)附近出現(xiàn)了較明顯的模糊，這是因為去除了復(fù)數(shù)通路后頻率信息捕獲能力不足，導(dǎo)致梯度變化較大的位置無法重現(xiàn)紅外圖像的銳利邊緣。完整模型的SCD比去除復(fù)數(shù)通路后的模型略低，這是因為SCD衡量的是融合圖像與源圖像的差異，而復(fù)數(shù)通路為模型補(bǔ)充了額外的細(xì)節(jié)和頻率信息，導(dǎo)致融合圖像中的信息并不完全忠于源圖像。去除復(fù)數(shù)通路后模型的參數(shù)量降低約30%，浮點運(yùn)算量大幅下降，這是因為本文在頻譜特征混合網(wǎng)絡(luò)中引入的復(fù)數(shù)運(yùn)算計算量為普通運(yùn)算的兩倍。綜合來看，完整模型犧牲了運(yùn)行效率，但主觀和客觀表現(xiàn)都是最佳的。

3.5.2 令牌替換的消融實驗

本文關(guān)閉令牌替換過程，直接將Tlir和Tlvi的加和送入重建模塊。可以發(fā)現(xiàn)，關(guān)閉令牌替換后有害信息無法被去除，融合結(jié)果中的紅外目標(biāo)亮度不如完整的模型，同時可見光紋理也出現(xiàn)對比度降低的情況。關(guān)閉令牌替換后的模型VIF略高于完整模型，但絕對差距僅有0.012，相對差距為1.7%，可認(rèn)為是訓(xùn)練中的隨機(jī)性導(dǎo)致。令牌替換策略相關(guān)的令牌索引尋址和令牌替換操作耗時較長，但這些操作不屬于浮點運(yùn)算，故size和FLOPs沒有變化。

3.5.3 損失函數(shù)的消融實驗

去除替換損失后的模型表現(xiàn)出更高的EN，這是因為去除替換損失后網(wǎng)絡(luò)執(zhí)行令牌交換的頻率降低，而令牌替換在執(zhí)行時會將網(wǎng)絡(luò)認(rèn)為的無效信息用對立模態(tài)的信息覆蓋，該覆蓋操作會在一定程度上降低數(shù)據(jù)通路中的總信息量，導(dǎo)致信息熵EN略微下降。雖然去除替換損失后EN指標(biāo)更高，但其余指標(biāo)都低于完整模型。

4 結(jié)束語

本文提出了一種基于頻譜特征混合Transformer的紅外和可見光圖像融合方法，名為FTMNet。通過引入傅里葉變換及其反變換的復(fù)數(shù)通路，給網(wǎng)絡(luò)補(bǔ)充復(fù)數(shù)頻譜信息，提高了算法對細(xì)節(jié)和頻率信息的表征能力。此外設(shè)計了令牌替換機(jī)制對紅外與可見光模態(tài)中顯著性較低的令牌進(jìn)行替換，從而消除圖像中包含的潛在有害信息，防止融合圖像中出現(xiàn)模糊和偽影。實驗證明了本文方法在視覺效果、客觀指標(biāo)和運(yùn)行效率上都具有一定的優(yōu)越性。此外，目標(biāo)檢測實驗表明FTMNet的融合結(jié)果對高級視覺任務(wù)有促進(jìn)作用。

參考文獻(xiàn)：

［1］Zhang Hao， Xu Han， Tian Xin， et al. Image fusion meets deep learning： a survey and perspective［J］. Information Fusion， 2021， 76： 323-336.

［2］Tang Linfeng， Yuan Jiteng， Ma Jiayi. Image fusion in the loop of high-level vision tasks： a semantic-aware real-time infrared and visible image fusion network［J］. Information Fusion， 2022， 82： 28-42.

［3］Ma Jiayi， Chen Chen， Li Chang， et al. Infrared and visible image fusion via gradient transfer and total variation minimization［J］. Information Fusion， 2016， 31： 100-109.

［4］周怡，馬佳義，黃珺. 基于互導(dǎo)濾波和顯著性映射的紅外可見光圖像融合［J］. 遙感技術(shù)與應(yīng)用， 2021， 35（6）： 1404-1413. （Zhou Yi， Ma Jiayi， Huang Jun. Infrared and visible image fusion based on mutual conductivity filtering and saliency mapping［J］. Remote Sensing Technology and Application， 2021， 35（6）： 1404-1413.）

［5］Xu Han， Ma Jiayi， Jiang Junjun， et al. U2Fusion： a unified unsupervised image fusion network［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2020， 44（1）： 502-518.

［6］Zhang Hao， Ma Jiayi. SDNet： a versatile squeeze-and-decomposition network for real-time image fusion［J］. International Journal of Computer Vision， 2021， 129： 2761-2785.

［7］Li Hui， Wu Xiaojun， Kittler J. RFN-Nest： an end-to-end residual fusion network for infrared and visible images［J］. Information Fusion， 2021， 73： 72-86.

［8］Li Hui， Wu Xiaojun. DenseFuse： a fusion approach to infrared and visible images［J］. IEEE Trans on Image Processing， 2018， 28（5）： 2614-2623.

［9］Ma Jiayi， Yu Wei， Liang Pengwei， et al. FusionGAN： a generative adversarial network for infrared and visible image fusion［J］. Information Fusion， 2019， 48： 11-26.

［10］Liu Jinyuan， Fan Xin， Huang Zhanbo， et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2022： 5792-5801.

［11］Dosovitskiy A， Beyer L， Kolesnikov A， et al. An image is worth 16x16 words： transformers for image recognition at scale ［EB/OL］. （2021-06-03）. https：//arxiv.org/abs/2010.11929.

［12］Rao Dongyu， Xu Tianyang， Wu X J. TGFuse： an infrared and visible image fusion approach based on transformer and generative adversarial network［J/OL］. IEEE Trans on Image Processing. （2023-05-10）. http：//doi.org/10.1109/tip.2023.3273451.

［13］Tang Wei， He Fazhi， Liu Yu. YDTR： infrared and visible image fusion via Y-shape dynamic Transformer［J］. IEEE Trans on Multimedia， 2023， 25： 5413-5428.

［14］陳伊涵，鄭茜穎. 基于注意力機(jī)制的紅外與可見光圖像融合網(wǎng)絡(luò)［J］. 計算機(jī)應(yīng)用研究， 2022，39（5）： 1569-1572，1585. （Chen Yihan， Zheng Qianying. Infrared and visible image fusion network based on attention mechanism［J］. Application Research of Computers， 2022， 39（5）： 1569-1572，1585.）

［15］Wang Di， Liu Jinyuan， Fan Xin， et al. Unsupervised misaligned infrared and visible image fusion via cross-modality image generation and registration［C］//Proc of the 31st International Joint Conference on Artificial Intelligence. 2022： 3508-3515.

［16］Li Hui， Wu Xiaojun， Durrani T. NestFuse： an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models［J］. IEEE Trans on Instrumentation and Measurement， 2020， 69（12）： 9645-9656.

［17］Zhao Zixiang， Xu Shuang， Zhang Chunxia， et al. DIDFuse： deep image decomposition for infrared and visible image fusion［C］//Proc of the 29th International Joint Conference on Artificial Intelligence. 2020： 970-976.

［18］Ma Jiayi， Zhang Hao， Shao Zhenfeng， et al. GANMcC： a generative adversarial network with multiclassification constraints for infrared and visible image fusion［J］. IEEE Trans on Instrumentation and Measurement， 2021， 70： 1-14.

［19］Sun Zhiqing， Cao Shengcao， Yang Yiming， et al. Rethinking Transformer-based set prediction for object detection ［C］//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway， NJ： IEEE Press， 2021： 3591-3600.

［20］Lin Liting， Fan Heng， Zhang Zhipeng， et al. Swintrack： a simple and strong baseline for transformer tracking［J］. Advances in Neural Information Processing Systems， 2022， 35： 16743-16754.

［21］Oppenheim A V， Lim J S. The importance of phase in signals［J］. Proceedings of the IEEE， 1981， 69（5）： 529-541.

［22］Danihelka I， Wayne G， Uria B， et al. Associative long short-term memory［C］//Proc of the 33rd International Conference on International Conference on Machine Learning.［S.l.］： JMLR.org， 2016： 1986-1994.

［23］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［C］//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2017： 6000-6010.

［24］Wang Wenhai， Xie Enze， Li Xiang， et al. Pyramid vision Transfor-mer： a versatile backbone for dense prediction without convolutions［C］//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway， NJ： IEEE Press， 2021： 548-558.

［25］Xie Enze， Wang Wenhai， Yu Zhiding， et al. SegFormer： simple and efficient design for semantic segmentation with Transformers［C］//Proc of the 35th Conference on Neural Information Processing Systems. 2021： 12077-12090.

［26］Fang Jiemin， Xie Lingxi， Wang Xinggang， et al. MSG-Transformer： exchanging local spatial information by manipulating messenger tokens［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2022： 12053-12062.

［27］Wang Yikai， Chen Xinghao， Cao Lele， et al. Multimodal token fusion for vision Transformers［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2022： 12176-12185.

［28］Quan Yuhui， Lin Peikang， Xu Yong， et al. Nonblind image deblurring via deep learning in complex field［J］. IEEE Trans on Neural Networks and Learning Systems， 2021， 33（10）： 5387-5400.

［29］Tang Linfeng， Yuan Jiteng， Zhang Hao， et al. PIAFusion： a progressive infrared and visible image fusion network based on illumination aware［J］. Information Fusion， 2022， 83： 79-92.

［30］唐霖峰，張浩，徐涵，等. 基于深度學(xué)習(xí)的圖像融合方法綜述［J］. 中國圖象圖形學(xué)報， 2023， 28（1）： 3-36. （Tang Linfeng， Zhang Hao， Xu Han， et al. Deep learning-based image fusion： a survey［J］. Journal of Image and Graphics， 2023， 28（1）： 3-36.）

收稿日期：2023-11-24；修回日期：2024-01-17 基金項目：國家自然科學(xué)基金資助項目（62075169，62003247，62061160370）；湖北省重點研發(fā)計劃項目（2021BBA235）

作者簡介：陳子昂（1999—），男，湖北武漢人，碩士，主要研究方向為圖像融合與計算機(jī)視覺；黃珺（1985—），男（通信作者），湖南祁陽人，教授，博士，主要研究方向為紅外圖像處理（junhwong@whu.edu.cn）；樊凡（1989—），男，江西南昌人，副教授，博士，主要研究方向為紅外成像預(yù)處理與高光譜圖像預(yù)處理．

計算機(jī)應(yīng)用研究2024年9期

計算機(jī)應(yīng)用研究的其它文章: 基于全局頻域池化的行為識別算法; 融合雙目信息的隊列姿態(tài)檢測; 基于集中注意力接受場網(wǎng)絡(luò)的偏振成像偽裝目標(biāo)檢測; 抗惡意敵手的線性門限隱私集合交集協(xié)議; 基于上下文感知的自適應(yīng)訪問控制模型; 車聯(lián)網(wǎng)基于稀疏用戶環(huán)境的LBS隱私保護(hù)方案