甄有恒
(1.四川大學計算機學院,成都610065;2.中國人民解放軍95876部隊,張掖)
紅外成像技術利用目標熱源信息差生成圖像空間數值,能夠有效克服可見光圖像無法實現穿透檢測的缺陷,已經在軍事、工業、遙感、醫學等領域有著廣泛應用。然而,受紅外傳感器工藝限制,紅外成像質量明顯低于可見光成像,主要表現在成像分辨率低以及各類非均勻性噪聲顯著[1]。因此,提升紅外圖像分辨率具有重要的應用價值。面對硬件性能研發困難的問題,算法設計更能節約研發成本。
圖像超分辨率重建是圖像退化的反過程,其本質是回歸問題[2]。從機器學習過程看,超分辨率重建方法可以分為人工傳授、自主學習和半自主學習3種形式。人工傳授基于傳統算法模型設計,需要扎實的學科理論基礎,但是設計過程需要具備豐富的圖像處理先驗知識;自主學習形式以深度學習為典型代表,依靠高維復雜的映射函數實現端到端的學習,但是往往需要高算力和海量數據。半自主學習形式融合人工傳授和自主學習兩種形式的優點,通常采用傳統算法優化輸入端,然后再自主映射學習,但是對模型設計能力要求高。
利用深度學習技術實現圖像超分辨率重建的模型中,基于重構[3]、殘差[4-5]、生成對抗[6]等的卷積神經網絡方法處理可見光圖像效果明顯。受此啟發,文獻[7]首次將卷積神經網絡用于紅外圖像增強處理,采用4層網絡對圖像進行端到端的重構。文獻[8]對MNIST數據集進行伽馬變換和高斯濾波方法實現紅外數據仿真,利用多尺寸卷積核提取不同規模特征來實現增強對比度、突出紅外弱小目標和抑制背景雜波。以上兩種方法均采用小型網絡結構,有利于低運算量條件下的部署,但是網絡層數太淺導致模型對特征的非線性映射能力變得較差,無法提取更高頻的紅外圖像特征信息。文獻[9]在可見光圖像亮度域完成特征提取、映射和重建過程的模型訓練,通過遷移學習將訓練模型用于初始化紅外測試模型。
以上方法均取得了一定的效果,但是在高倍數重建任務中,網絡模型缺少從低頻特征向高頻特征的信息補充,對細節特征的處理能力較低。因此,本文在VDSR網絡模型基礎上進行改進,提出一種級聯重建網絡模型CCNSR(Cascaded Convolutional Network for Super-Resolution)學習全局殘差特征。該模型第一級網絡利用卷積和反卷積操作進行編解碼學習,第二級網絡對編解碼后的特征圖進行遞歸殘差學習,兩個網絡級聯后,利用全局跳躍連接使得兩級網絡學習端到端的整體殘差。實驗驗證了本文模型在VDSR模型基礎上的改進效果,同時,對其他模型進行性能分析。
設ILR表示紅外低分辨率圖像,IHR表示高分辨率圖像,ISR表示重建圖像。重建模型描述如下:

其中ILR表示低分辨率圖像,ISR表示超分辨率重建圖像,(F)表示重構映射函數,υ表示(F)的參數集。
全局殘差學習的主要優勢在于:網絡模型只需要學習輸入輸出之間的殘差信息,充分利用殘差特征的稀疏性用以實現訓練過程的快速收斂。殘差學習模型描述如下:

其中(R)表示殘差映射函數,ω表示殘差映射參數集。
模型目標函數如下:

其中N表示樣本容量,通過對參數集ω的迭代訓練,達到殘差學習模型優化的目的。
本文前饋卷積神經網絡結構主要由編解碼子網絡和遞歸殘差子網絡級聯組成。網絡結構及流程見圖1。

圖1 CCNSR網絡結構及流程圖
編解碼子網絡的設計主要參照UNet模型[10]。該模型在圖像語義分割中有很好的表現,有利于快速提取圖像輪廓特征。編解碼結構設計中需要計算卷積操作后的特征圖尺寸,其計算公式:

其中K表示卷積核尺寸,P表示邊緣填充數,S表示卷積核步長;Fx表示卷積前的特征圖尺寸,Fy表示卷積后的特征圖尺寸,表示向下取整。反卷積計算公式如下:

在網絡內部,卷積核和反卷積核參數均設為K=3,S=1,P=0。對稱設置確保了特征圖先降采樣后升采樣的編解碼功能。子網絡首位兩端跳躍連接確保了低語義局部殘差特征的快速學習。
遞歸殘差子網絡受DRRN模型[5]啟發,在編解碼子網絡提取的初級殘差特征基礎上深度提取高頻殘差信息。該子網絡內部全部采用卷積操作,卷積核統一設為K=3,S=1,P=1,用以保證特征圖在輸入輸出前后始終保持一致。遞歸跳躍連接實現低頻殘差特征逐步向高頻殘差特征做補充,同時豐富的連接數量有利于反向傳播梯度更新。文獻[11]解釋了批量正則化層(Batch Normalization,BN)對重建任務較為敏感,因此本文去除BN層。同時,取消遞歸部分連續三層卷積中最后一層的傳遞函數,用以消除網絡結構冗余。
另外,除了兩級子網絡特征融合層卷積核數量設為1,其余層卷積核數量均設為15。激活函數統一采用Leaky ReLU函數,特點是在ReLU激活函數基礎上對負向輸出添加激勵因子λ,適度更新神經元抑制參數。
本文采用L2損失函數用以最小化圖像均方誤差。定義如下:

其中W、H分別表示單個樣本的寬和高,I(i)(j,k)Ii(j,k)表示圖像某像素點的值。
參數優化采用目前主流的Adam算法[12],其在梯度更新方向和更新幅度方面很好的做到了自適應性。更新公式如下:

其中l表示網絡層序號,k表示迭代次數,α表示學習率,β1(k)、β2(k)表示學習率衰減參數。
在式(7)中,O(l)(k,ω)表示從輸入層到第l層的映射函數,ω(l)(k)表示第l層參數,g(l)(k)表示迭代計算到k次時O(l)(k,ω) 的梯度,并且當l為輸出層時,O(l)(k,ω)=loss;式(8)表示帶有動量的梯度下降迭代計算,用于控制梯度更新的方向,式(9)表示均方根梯度下降迭代計算,用于控制梯度更新的幅度。式(8)、式(9)分母用于修正數值;式(10)利用式(8)和式(9)調整后的新梯度進行權值參數更新。根號是對式(9)中各維度的梯度分別求平方根,ε保持分母數值穩定。
鑒于可見光圖像集訓練紅外圖像超分辨率重建模型的方法較為成熟[7-9],本文采用General-100[13]和Urban-100[13]兩個可見光圖像數據集,為紅外圖像提供豐富的細節特征。同時,高倍數差能夠為擬合訓練提供更高頻的殘差特征,因此設置高倍數訓練條件。
構建訓練集,首先對數據集進行數據增強處理,得到1600張圖像,并分割成32×32的圖像塊;然后,利用雙三次插值(Bicubic)對原始高分辨率圖像進行8倍降采樣和升采樣,得到相同尺寸的低分辨率圖像;最后,配對圖像塊后構成高-低分辨率訓練集。測試集取自公開的LTIR紅外數據集[14]和FLIR熱紅外數據集[15],共隨機挑選24張圖像,測試集組成方法同訓練集。
下面介紹兩種常用的評價指標:
峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)從全局衡量圖像重建效果。峰值信噪比公式如下:

其中MSE表示均方誤差,Pmax表示圖像像素最大值,對于8位圖像取Pmax=255;PSNR值越高,圖像重建質量越好。
結構相似性(Structural SIMilarity,SSIM)[16]基于人眼視覺感受,從圖像亮度、對比度和結構三個方面全面評價圖像整體復原質量。SSIM值處于0到1之間,越接近1越好.結構相似性公式如下:

其中μHR表示IHR的平均像素強度;μSR表示ISR的平均像素強度;σHR表示IHR的像素標準差;σSR表示ISR的像素標準差;σHR,SR表示協方差;C1、C2取常數用于穩定分母。
本文采用Caffe深度學習框架下的CPU訓練模式,借助MATLAB和MatConvNet對實驗結果進行分析。選取TEN、VDSR和DRRN三種典型超分辨率重建模型進行對照實驗,具體操作如下:
(1)按照網絡結構編寫*.prototxt文件,將訓練batch_size設為128,測試batch_size設為2,數據集保存成HDF5數據格式。
(2)編寫Caffe網絡訓練配置*_solver.prototxt文件并初始化訓練參數。卷積層權值參數初始化采用MSRA方法,初始學習率α=10-4,Leaky ReLU激活函數負向激勵因子λ=0.2。參數優化選擇Adam方法,其中學習率衰減參數β1=0.9、β2=0.999,衰減系數ε=10-8,最大迭代訓練次數Iteration=50000。
(3)訓練模型,迭代訓練50000次后讀取Blobs數據塊并保存權值參數。輸入測試集,使用MatConvNet框架讀取訓練好的權值參數并按照前饋流程生成重建圖像,計算評價指標。
(4)對TEN、VDSR和DRRN模型分別按照(1)到(3)依次操作。調整VDSR和DRRN的卷積核數量為每層15個,得到VDSR(15)和DRRN(15),用以保證實驗相對公平。
實驗重點測試本文模型在VDSR基礎上改進后的性能提升,并對實驗中各個模型的網絡結構屬性進行了相關統計,見表1。

表1 各模型網絡結構主要參數
其中TEN是基于重構的紅外圖像超分辨率重建代表模型;VDSR算法是本文方法的模型基礎;DRRN算法用于驗證BN層對重建任務的影響。本文模型的網絡權值參數量是TEN的42%,是VDSR(15)和DRRN(15)的72%,網絡結構參數量少。
實驗分別對兩組測試集進行測試,分別得到4倍和8倍放大倍數下的平均評價指標值,統計結果見表2,其中橫向最優值加粗顯示。圖2、圖3分別表示對應重建倍數的性能變化曲線。
由表2統計數據,結合圖2、圖3曲線分析可以得出:①本文方法在參數量減少的訓練條件下,擬合PSNR和SSIM比VDSR模型稍有提升,但是在泛化能力上表現不足,這與編解碼子網絡中的卷積和反卷積操作過多有關,使得邊緣分割嚴重。②傳統的雙三次差值方法和基于重構的TEN算法對低倍數下的圖像重建效果較好,但是隨著重建倍數的上升,重構方法的性能下降明顯;基于殘差學習的方法在不同倍數的重建任務中的影響,因此殘差學習可以有效克服對模型參數量的需求。③帶有BN層的DRRN模型在本文實驗條件下的重建能力不太突出,原因之一是訓練數據量少導致模型欠擬合,并從側面印證了添加BN層的操作不一定適用于圖像重建任務。

表2 各模型分別在4倍、8倍重建下迭代訓練50000次的平均PSNR/SSIM值

圖2 各模型對4倍重建的性能測試曲線

圖3 各模型對8倍重建的性能測試曲線
圖4展示了LTIR測試集中13號圖像的局部重建效果。可以看出,對于8倍重建測試,本文模型的重建效果與其他較優模型相比性能相當;在4倍重建測試中,本文模型重建能力不太理想,說明參數量對網絡模型的表達能力影響明顯。

圖4 重建效果展示
本文提出一種級聯卷積神經網絡的紅外圖像超分辨率重建模型。該模型利用典型模型的優勢,通過將整體重建任務拆分為輪廓特征重建和紋理特征重建兩部分,在VDSR模型的基礎上對網絡結構進行了改進,實現了網絡結構的優化。實驗在低數據量訓練條件下進行,本文模型能夠在參數量較少的情況下實現PSNR和SSIM指標以及擬合能力的提升,達到了相應的實驗目的。