基于注意力與殘差級聯的紅外與可見光圖像融合方法

2022-07-14 13:11:38李晨李金彪陳子銳

計算機工程 2022年7期

李晨，侯進，李金彪，陳子銳

（西南交通大學信息科學與技術學院，成都 611756）

0 概述

紅外圖像通過物體的熱輻射信息成像得到，具有顯著區別于周圍環境的目標信息。可見光圖像通過物體反光成像得到，具有較豐富的背景細節信息。紅外與可見光圖像的融合能夠克服單一傳感器獲得的圖像信息不足的缺點。因此，紅外與可見光圖像融合廣泛應用在人臉識別、遙感、目標檢測、目標跟蹤［1-3］等領域。

傳統的紅外與可見光圖像融合方法主要有多尺度變換、稀疏表示、混合模型等。文獻［4］提出基于目標增強的多尺度變換分解模型，該方法使用拉普拉斯變換將配準的源圖像分解為高頻和低頻成分后，根據分解后的紅外低頻信息確定融合權重，通過正則化參數控制紅外特征的比例，同時利用拉普拉斯逆變換重建融合圖像。文獻［5］提出一種混合模型驅動的融合方法，將源圖像分解為顯著子帶和基礎子帶后，根據子帶的特點采用不同的融合方法得到融合圖像，具有較優的融合效果。隨著深度學習的發展，越來越多的深度學習方法應用于圖像融合領域。文獻［6］提出一種基于神經網絡CNN 的融合方法。該方法利用訓練好的卷積神經網絡提取源圖像的特征，通過手動設計融合規則得到融合圖像。文獻［7］提出基于生成對抗網絡（Generative Adversarial Network，GAN）的融合方法Fusion GAN，將各源圖像一起作為GAN 的輸入，生成器提取特征并生成初步融合圖像，判別器調整生成器，使得融合圖像中有更多的可見光信息。Fusion GAN生成的融合圖像中包含紅外圖像的目標信息和可見光圖像的背景信息，但是缺少細節信息，并且清晰度較低。文獻［8］提出一種基于Wasserstein 距離的融合網絡D2WGAN。在D2WGAN 中，使用2 個判別器使得訓練過程變得復雜。融合圖像雖然具有較高的對比度，但是視覺效果較差，且圖像比較模糊。

注意力機制能夠充分利用圖像的關鍵信息，并忽略不相關的信息。本文提出基于注意力與殘差級聯的紅外與可見光圖像融合方法。采用層次特征融合模塊提取源圖像中的層次特征，通過特征解碼融合模塊融合層次特征并生成融合圖像，使用譜歸一化技術提高GAN 訓練穩定性，生成具有紅外圖像顯著目標和可見光圖像豐富背景細節的融合圖像。

1 相關工作

1.1 注意力機制

近年來，注意力機制廣泛應用于圖像處理領域。針對圖像分類問題，文獻［9］提出一種SE（Squeeze-and-Excitation）的網絡結構，通過Squeeze和Excitation這2個部分來學習并加權特征。SE 結構的原理是通過增大有用特征的權重值并抑制無用特征的權重值來提高網絡提取特征的能力。文獻［10］提出一種殘差注意力的網絡結構，在每個注意力模塊中都增加掩膜分支。主干分支使用殘差網絡結構提取特征，掩膜分支將降采樣和上采樣相結合，并將其與高低維度的特征組合，得到掩膜權重，以提升網絡提取高頻特征的能力。在紅外與可見光圖像融合的過程中需要提取大量的細節信息，因此，本文依據這2 種網絡結構，并在文獻［11］的基礎上構建新的模塊。

1.2 譜歸一化生成對抗網絡

針對傳統GAN 在訓練中存在模式崩潰和不收斂的問題，文獻［12］提出基于Wasserstein 距離的GAN，增大GAN 訓練時的穩定性，其主要原理是使用Wasserstein 距離代替GAN 的JS（Jensen Shannon）距離來求得2 個分布的距離，因此經過改進后的GAN 稱為WGAN。WGAN 的計算如式（1）所示：

WGAN 在判別器的參數矩陣上增加了Lipschitz約束，但是該方法容易破壞參數之間的比例關系，導致網絡的梯度丟失。SNGAN［13］（Spectral Normalization GAN）設計既滿足Lipschitz 約束，又不破壞矩陣結構。多層神經網絡可以看成是多個復合函數的嵌套，因此神經網絡可以簡寫為：

激活函數均滿足1-Lipschitz 條件，要使整個網絡滿足1-Lipschitz 條件，只需讓每層的矩陣W滿足即可。因此，對每層矩陣W進行譜歸一化操作即可滿足1-Lipschitz，譜歸一化操作如式（3）所示：

其中：σ(W)為整個W矩陣的最大特征值。σ(W)如式（4）所示：

通過對神經網絡進行譜歸一化操作后，神經網絡的梯度被限制在一個范圍內，從而增強GAN 的訓練穩定性。

2 基于注意力與殘差級聯的融合方法

本文網絡架構基于GAN 原理，分為生成器和判別器2 個網絡結構。本文的網絡架構如圖1 所示。

圖1 本文網絡架構Fig.1 Framework of the proposed network

在模型訓練中，紅外圖像、可見光圖像、調節圖像及這3 個圖像的梯度一起作為生成器的輸入，生成器得到輸入圖像后直接生成初始融合圖像。得到調節圖像的方法如式（5）所示：

其中：R為調節圖像；I和V分別為紅外圖像與可見光圖像；w為權重，在本文中w設置為0.4；(x,y)為對應像素點。生成初始融合圖像的生成器將與輸入預融合圖像的判別器進行對抗，同時在訓練中計算初始融合圖像與紅外圖像的梯度損失和可見光圖像的結構強度損失。在生成器與判別器的對抗中，向生成圖像補充源圖像的信息，使得最終的融合圖像既具有紅外圖像顯著目標，又具有可見光圖像豐富的背景細節。

2.1 生成器結構

傳統的融合網絡通過卷積神經網絡直接融合特征，但是在網絡結構過深時，存在丟失信息的問題。針對該問題，文獻［14］提出一種新的改進嵌套連接結構。本文生成器網絡主要由提取淺層特征的卷積塊、基于注意力與殘差級聯的層次特征提取模塊（Hierarchical Feature Extract Block，HFEB）、特征解碼融合的模塊（Decoder ConvBlock，DCB）組成。整體生成器結構如圖2 所示。

圖2 生成器結構Fig.2 Generator structure

2.1.1 層次特征提取模塊

在深層神經網絡傳遞的過程中不斷損失特征信息，最后的特征融合部分會丟失源圖像的信息。為解決該問題，本文構建一種殘差連接結構。每層HFEB 得到的輸入都是前面HFEB 模塊的輸出與淺層提取特征的級聯，每層HFEB 的計算如式（6）所示：

其中：fHFEB為HFEB模塊；C為連接操作；Xn-1為每個HFEB 的輸出。在每個HFEB 中，輸入特征先經過一個3×3 的卷積層，再輸入到EM（Extract and Mask）模塊中提取高頻特征。

受文獻［11］啟發，在超分辨率重建任務中，采用掩碼注意力網絡提取圖像的細節信息。本文對掩碼注意力網絡進行改進，用于提取紅外和可見光圖像中的高頻信息。在每個EM 模塊中，輸入圖像的信息先經過一次通道注意力SE 模塊，以加權重要通道的信息，并且減小不重要信息的比重。經過加權的特征信息再分別輸入到特征提取模塊和基于注意力的掩碼模塊，其結構如圖3 所示。

圖3 特征提取與掩碼模塊Fig.3 Feature extraction and mask module

特征提取模塊主要用于提取源圖像中的高頻信息。本文借鑒文獻［11］的結構來提取紅外與可見光源圖像中的高頻信息。輸入的中間特征x經過上采樣得到再經過卷積后得到，如式（7）和式（8）所示：

經過2 次上采樣和卷積后，紅外與可見光圖像的高頻細節信息被最大限度提取。

EM 模塊的另一個分支是掩碼注意力模塊，其設計思路基于文獻［15］，其結構如圖4 所示。

圖4 掩碼注意力模塊Fig.4 Mask attention module

在掩碼注意力模塊內，輸入的特征通過3×3 卷積和PReLU 函數激活后，再經過平均池化對通道信息進行壓縮，經過2 次1×1 的卷積，在每個卷積層后都有一個PReLU 層，最后使用Softmax 函數加權特征通道。

2.1.2 特征解碼融合模塊

特征解碼融合模塊由卷積層組成，每個DCB 模塊由2 個卷積層組成，每個卷積層后面都利用ReLU函數進行激活。

2.2 判別器結構

判別器是一個二分類網絡，其網絡結構如表1所示。表中I（Input）表示輸入通道數，O（Output）表示輸出通道數，K（kernel_size）表示卷積核尺寸，S（stride）表示步長，P（padding）表示填充大小。

表1 判別器結構Table 1 Discriminator structure

判別器是用于判別輸入圖像是生成圖像還是預融合圖像的概率，由8 個卷積層組成，在每個卷積層的后面都使用LeakyReLU 函數進行激活，并保持梯度，在網絡的最后一層采用PatchGAN 綜合考慮圖像中不同部分的影響，使得模型的感受野更大，判別器的準確率更高。

2.3 損失函數

生成器的損失由對抗損失、融合圖像與預融合圖像的內容損失、融合圖像與可見光圖像的結構強度損失、融合圖像與紅外圖像的梯度損失4 個部分組成，如式（11）所示：

1）生成器的對抗損失采用SNGAN 的損失計算方法，其計算公式如式（12）所示：

其中：If為融合圖像；PIf為融合圖像的分布。

2）融合圖像與預融合圖像的內容損失如式（13）所示：

3）通過SSIM 損失計算融合圖像與可見光圖像之間的結構強度損失，如式（14）所示：

其中：F為融合圖像；P為預融合圖像。本文采用多尺度結構強度損失計算結構強度損失。

4）融合圖像與紅外圖像之間的損失是梯度損失，如式（15）所示：

其中：?If和?Ii分別為融合圖像和紅外圖像的梯度。

損失函數的參數設置為：α為0.005，γ為100，β1和β2為5。

3 實驗與結果分析

本文從公開數據集INO［16］和TNO［17］中選取配準的紅外與可見光圖像進行實驗。基于文獻［16］，本文選取INO 數據集中具有紅外和可見光的視頻，并進行幀拆分得到295 對紅外與可見光圖像，通過STDFusionNet［18］方法得到預融合圖像，并將其作為訓練數據集。針對數據量不足的問題，在訓練中每次都從源圖像中隨機截取128×128 像素的圖像進行訓練。由于源圖像中可見光圖像的對比度較低，因此本文在訓練中使用對比度受限的直方圖均衡［19］（Contrast Limited Adaptive Histogram Equalization，CLAHE）對可見光圖像進行處理，得到對比度分明的可見光圖像。本文實驗環境：CPU 為Intel I7-6 800K 處理器，主頻為3.4 GHz，內存為32 GB，顯卡為 NVIDIA GeForce GTX1080Ti，操作系統為ubuntu16.04，Pytorch 框架。本文的訓練參數設置如下：優化器為Adam，學習速率為0.000 2，Batch Size為32，Epoch 為2 000。

本文從TNO 數據集中選取21 對紅外與可見光圖像進行實驗，并與其他5 種方法得到的圖像進行對比。所有對比實驗的代碼和參數都基于公開的實驗代碼。

3.1 主觀評價

本文方法與 FusionGAN、LP［20］（Laplacian Pyramid Transform）、GANMcc［21］、NestFuse［14］和STDFusionNet［18］方法的紅外與可見光融合結果對比如圖5～圖7 所示。

圖5 不同方法的融合結果對比1Fig.5 Fusion results comparison 1 among different methods

圖6 不同方法的融合結果對比2Fig.6 Fusion results comparison 2 among different methods

圖7 不同方法的融合結果對比3Fig.7 Fusion results comparison 3 among different methods

從圖5 可以看出，基于FusionGAN 得到的融合圖像缺乏細節信息，對于可見光圖像的細節紋理完全缺失，只有輪廓信息。基于LP 方法得到的融合圖像對比度較低，并且圖像的噪聲較多。基于GANMcc 得到的融合圖像與FusionGAN 相似，提取較少的可見光圖像細節信息，沒有地面和樹葉的紋理信息。基于NestFuse 得到的融合圖像的整體亮度不夠，圖像的細節紋理稀少。基于STDFusionNet 得到的融合圖像亮度較低，圖像的整體視覺效果較差。本文方法能夠有效提取可見光圖像的亮度和細節信息，其融合圖像具有明顯的樹葉地面等細節信息，視覺效果顯著提升。

從圖6 可以看出，基于FusionGAN 得到的融合圖像較灰暗，對比度不夠鮮明，且較為模糊。基于LP、GANMcc、NestFuse 得到的融合圖像較接近，但是這三者對可見光圖像提取的信息都較少且路邊的障礙物也沒有表現出來；基于STDFusionNet 得到的融合圖像整體亮度較低，與本文方法的融合結果相比，缺少較多的可見光細節紋理信息。

從圖7 可以看出，基于FusionGAN 和GANMcc的融合圖像整體偏暗，圖像背景區域缺少紋理。基于LP 和NestFuse 的融合圖像整體視覺效果較灰暗，其背景區域同樣缺少紋理。基于STDFusionNet 的融合圖像對比度鮮明，其目標較為顯著，但是與本文方法的融合結果相比，人物旁邊樹葉的清晰度較低，缺失樹葉的紋理等細節信息。

3.2 客觀評價

本文選取信息熵（EN）、標準差（SD）、互信息（MI）、空間頻率（SF）和多尺度結構相似度（MS-SSIM）這5 個指標對得到的融合圖像進行客觀評價。EN 越大說明融合圖像中的信息量越大，保留的圖像細節越多。SD 和SF 越大說明圖像的質量越高。MI 衡量圖像之間的相似程度，MI 越大說明融合圖像保留源圖像的信息越多，圖像質量越好。MS-SSIM 衡量圖像與源圖像的相似性。所有指標為融合圖像的平均評估結果。不同融合方法的評價指標對比如表2所示。

表2 不同融合方法的評價指標對比Table 2 Evaluation indexs comparison among different fusion methods

從表2 可以看出，本文方法在EN、SD、MI 和SF這4 個指標上明顯優于其他融合方法，表明本文方法保留了較豐富的源圖像信息，并且生成圖像的視覺效果較優。本文方法的MS-SSIM 指標較低，其原因為源圖像中可見光圖像整體亮度和對比度較低，而融合圖像的圖像對比度較高，整體細節紋理信息較多，因此圖像與源圖像的結構相似度較低。

本文通過計算網絡參數的數量來評估各融合方法的空間復雜度，由于各方法使用的網絡架構不同，基于生成對抗網絡的方法在測試時只需要生成器，因此本文僅計算測試時各方法的性能參數。在2 種數據集上，不同融合方法的測試時間和參數量對比如表3 所示。時間復雜度通過計算各方法的實際運行時間進行評估，所有方法的運行時間都是測試集上的平均時間。本文方法能夠改善融合效果，并且提高運行效率。

表3 不同融合方法的測試時間和參數量對比Table 3 Test time and parameter quantity comparison among different fusion methods

4 結束語

本文提出基于生成對抗網絡的紅外與可見光圖像融合方法。通過構建結合注意力與殘差機制的生成器，融合從源圖像中提取的層次特征，同時利用注意力機制提高網絡提取特征的能力，采用譜歸一化技術提高生成對抗網絡訓練的穩定性。實驗結果表明，相比FusionGAN、LP、STDFusionNet 等融合方法，該方法能夠充分提取源圖像的信息，改善融合效果，并且生成高質量的融合圖像。后續將研究更有效的損失函數，以降低網絡的復雜度，使本文方法適用于實際場景。