陳世紅,陳榮軍
(1.廣東生態工程職業學院信息工程系,廣東 廣州 510520;2.廣東技術師范大學計算機科學學院,廣東 廣州 510665)
為了提高紅外圖像的視覺效果,使其更符合人眼或計算機處理的要求,國內外學者從軟硬件方向展開了科研攻關。在硬件領域,隨著大面陣、小間距的集成電路技術的發展,紅外圖像的分辨率也逐漸提升[1-3]。以昆明211所為代表的國產科研機構已經研制成功高分辨的探測器陣列[4]。由于制造工藝和材料性能的限制,單純依靠增加紅外焦平面陣列密度來提升成像質量是非常困難的。同時,降低像元尺寸也會導致的探測靈敏度下降,信號噪聲增大。因此,在紅外探測器硬件性能提升有限的情況下,采用軟件技術提升圖像質量是目前最經濟可靠的方式。
紅外圖像增強是指從給定的低質量圖像中恢復高清晰的圖像的過程。現有的紅外增強算法大致可以分為基于模型驅動的信號處理方法與基于數據驅動的機器學習方法[4]。模型驅動主要是利用數學模型方法重建出高質量的紅外圖像,其關鍵技術是如何構造基于先驗正則的目標函數[5-6],雖然在一定程度上改善了圖像的質量,但實際采集的紅外圖像的受到各種干擾因素的影響。往往并不服從某種單一的假設先驗。文獻[7]假定紅外圖像中存在大量自相似區域,提出了基于低秩和鄰域嵌入的單幀紅外圖像增強算法,確保了重建圖像均勻區域的一致性,又保留了圖像的細節信息和邊緣輪廓的完整性,但該算法只適用于具有明顯邊界的面目標場景,對于需要探測點目標的對空紅外圖像的效果不理想。
相比之下,基于數據驅動的機器學習方法不受成像模型的影響,這種方法在很大程度上主要針對大數據樣本學習潛在的隱藏特征,而不是對具體模型進行了優化[8]。2015年,Dong等人首次將卷積神經網絡(CNN)應用于圖像增強重建,提出了SRCNN增強模型[9],通過將使用CNN模型來擬合低質量圖像和高質量圖像的映射關系,并使用大量的高/低圖像對訓練模型,其結果優于鄰域嵌入[7]和稀疏編碼。然而,SRCNN的三層結構并不能滿足更高重建精度的要求,主要是由于低層卷積只能得到圖像的淺層紋理信息。為了獲得更準確的深度特征并提升重建效果,有必要使用更深的卷積網絡,Kim等人在VGG網絡和ResNet網絡的基礎上,設計了20層權值網絡的VDSR模型[9],解決了網絡深度增加引起的梯度爆炸問題。所有這些重建方法中的低質量圖像都是先雙三次插值,再輸入網絡進行增強。文獻[10]提出了一種基于生成性對抗網絡(GAN)的圖像增強模型,通過引入感知損失函數提升重構圖像細節。針對非盲影像去模糊問題,文獻[11]設計出多層感知網絡來去除重建偽影;文獻[12]采用DCNN進行非盲影像去模糊,并利用遷移學習理論,提升了深度網絡的學習效率。近年來,基于深度學習的紅外圖像增強算法取得了很好的增強性能,但大多數算法是將圖像增強問題當作去噪問題來處理,通過將多層感知網絡級聯起來,并沒有探索圖像的固有特征,同時也忽略了觀測模型。
針對現有基于深度網絡的紅外增強應用忽略了觀測模型,以及可解釋性較弱的問題,提出了一種改進紅外圖像深度增強模型,該模型將圖像增強任務嵌入到一個深度網絡中,通過增強網絡模塊和反投影模塊交錯優化,實現紅外數據一致性約束。實驗結果也表明,該模型重建出的高質量圖像在點目標等弱小區域也能獲得清晰的效果。
紅外圖像增強模型的數學本質是一個NP難的數學優化問題,其模型如下所示:
E=f(θ,x,y)+J(x)
(1)
其中,E表示目標函數;x,y分別表示需要重構恢復的信號及其相應的觀測信號;保真項f描述了x與y之間的約束關系,正則項J表征了先驗知識。大多數情況下式(1)的求解采用變量分離技術,并將其分解為兩個子問題交替優化。若新增一個輔助變量z,式(1)可以改寫為:
E=f(θ,x,y)+J(z),s.t.z=x
(2)
為了求解式(2),最常用的方法就是將z=x轉換成誤差項,增加到目標函數中。也就是說,在實際應用中式(2)可以進一步改寫:
(3)
根據交替方向乘子法思想,該模型可以通過交替求解兩個子問題來實現優化:
(4)
(5)
可以看出,式(4)具有閉式解,一般表示為x(t+1)=W-1b,其中W通常是與退化矩陣A相關。然而,實際應用中W的逆矩陣無法直接計算,只能采用經典共軛梯度算法[13]求解x(t+1),其解如下所示:
x(t+1)=xt-δ(AT(Ax(t)-y)+η(x(t)-v(t)))
(6)



圖1 圖像增強模型框架
現有的圖像增強優化問題被分解為兩個單獨的子問題:一個用于處理數據保真項,另一個用于正則化項,通過交替求解獲得最優的圖像質量。具體地說,與正則化相關的子問題是一個純去噪問題,因此也可以采用其他無法表示為正則化項的更復雜的去噪方法,例如BM3D[14],Low-Rank和Sparse-learning方法[15]。本文選用的圖像增強模塊是一種基于深度卷積網絡的學習模塊,旨在降低圖像的退化干擾,并盡可能地保留圖像的細節信息,尤其是保留弱小點目標。
受DCNN在影像去噪應用的啟發,本文采用的增強網絡結構如圖2所示,該網絡結構類似于U-net網絡,可以分為特征提取與圖像重建模塊,其中特征提取部分采用多個3×3卷積,每個卷積后跟一個RELU和一個步長為2的用于下采樣的2×2最大池化操作,有助于增加神經元的感受野大小,并降低提取到的特征圖的分辨率。本文設計了多個卷積層以提取不同層次下的深度特征,灰色箭頭所表示的特征編碼層如圖3(a)所示。每個特征編碼層包含4個3×3核的卷積層和ReLU非線性激活函數,每次卷積過程將生成64通道特征映射。本文設計的結構在前四個編碼層后面添加了一個以2為采樣因子的下采樣層,沿垂直/水平方向降低特征映射的空間分辨率。圖像重建模塊與特征提取模塊是相對應的結構,重建模塊是由卷積層,上采樣層構成,其中卷積層對應著特征解碼,如圖3(b)所示。特征重建階段每個解碼塊由五個卷積層組成,第一層采用利用1×1卷積和ReLU控制卷積核的數量達到通道數大小的放縮,同時實現跨通道的交互和信息整合,將特征提到從128降到64。剩下的卷積層采用3×3核的卷積層和ReLU非線性激活函數重構出64個通道的特征圖,并采用縮放因子2的反卷積獲取最終重構特征。由于卷積層、池化層、上采樣層實現端到端的圖像增強,不可避免存在空間信息的丟失,導致重建圖像的細節不完整。因此,直接通過逐層特征提取與特征重構,最終重構得到的紅外圖像丟失了大量的空間信息,不能完全恢復出精細的圖像細節。為了保留特征空間的細節信息,受U-net網絡啟發,本文將特征編碼階段生成的深度特征與特征解碼階段對應的同大小的上采樣特征進行融合,以獲得表征能力更強,細節更豐富的特征。為了操作方便,本文采用的特征融合是基于級聯實現。本文設計的增強網絡模塊主要恢復圖像中丟失的細節,即高頻信息,具有更加魯棒的重建性能。

圖2 網絡增強模塊

圖3 編解碼模塊
使用變量分離技術,強大DCNN去噪器可以為模型優化帶來圖像先驗。值得注意的是,文獻[11]提出的DCNN網絡不必預先訓練,而本文提出的網絡結構是需要通過端到端訓練。為了減少參數個數且避免過擬合,本文強制每次迭代運行的增強模塊共享相同的參數,并采用最小均方誤差和感知損失函數共同優化網絡,其總損失函數表示為:
L=LMSE+λLp
(7)
其中,LMSE,Lp分別表示像素級歐氏距離與感知損失;λ是權值參數。感知損失更符合自然圖像分布規律,使重建結果具有非常逼真的細節效果。感知損失函數可以表示為:
(8)
其中,wi,hi分別表示特征映射圖的尺寸;Ci表示第i個卷積層;R(Y)=Y-X表示高頻殘差,理想情況下R(Y)≈N;式(8)可以采用隨機梯度下降算法優化求解。
為了驗證本文提出的深度網絡圖像重構算法的有效性,本章設計了紅外圖像去模糊與紅外圖像去噪任務,并為不同的任務訓練了對應的模型。
為了訓練增強網絡模塊,實驗構造了一個具有1000張圖像的訓練樣本庫,所有的圖像都有制冷型紅外熱像儀采集,其默認為高清晰圖像,其中圖像大小是640×480。同時,我們也構造了一個50張不同場景的非制冷熱像儀采集的低質量圖像作為測試庫。
本文提出的增強網絡采用Python3.5進行開發,以TensorFlow作為深度學習框架實現,所有實驗均在均在相同硬件平臺上進行。采用ADAM優化器來訓練網絡,其參數設置為β1= 0.9,β2=0.999和ε= 10-8,并采用Xavier初始化方法對所提的網絡的卷積層進行初始設置,使得每一層輸出的方差盡量相等。另外,與退化矩陣A相關的線性層則由退化模型A進行初始化,參數δ與η則分別經驗設置為0.1和0.9。實驗結果表明,圖1所示的處理流程僅僅需要6次迭代就可以得到滿意的增強效果。圖像質量評價主要采用峰值信噪比(PSNR)和結構相似性度量(SSIM)對各算法進行定量描述。
由于圖像增強問題可以表示為y=Ax+n。對于A的不同設置,可以表示不同的圖像增強問題。本文提出的算法能夠應用于紅外圖像去噪、去模糊等任務中。為了便于定性定量的分析,本章將對不同任務進行針對性分析。
4.2.1 圖像去噪
對于圖像去噪任務,退化矩陣A=I,因此圖像增強問題就裝換成y=x+n。本文所提出的去噪網絡嵌入變量分析優化模型,通過逐漸迭代增強紅外圖像的清晰度。
為了客觀公正的分析本文提出的模型在去噪任務上的性能,實驗選用幾種常用的對比算法進行比較,即BM3D方法[14]、EPLL方法[15]、TNRD方法[16]、DnCNNs方法[17]和MemNet方法[18]。BM3D是一種經典的去噪算法,該算法利用圖像中的自相似性構建相似性矩陣,并在變換域上實現軟閾值去噪。EPLL是一種采用最大似然估計算法對高斯混合模型進行訓練的去噪模型。TNRD是一種非線性反應擴散模型,該模型通過展開固定數量的梯度下降推斷步驟來學習出無噪圖像;DnCNNs是利用前饋去噪卷積神經網絡來實現去噪;MemNet是一種基于限制的長期記憶網絡的圖像增強算法。表1展示了所有對比算法的平均PSNR和SSIM結果。對于低噪聲水平,MemNet方法與DnCNNs方法的增強效果類似,但指標上都不如本文提出的算法;對于高噪聲水平,MemNet方法,DnCNNs方法與本文方法在噪聲方差50下的SSIM分別是0.783,0.625與0.798,因此本文所提模型能夠重構出更多的圖像細節信息,去噪性能優于MemNet方法。非均勻噪聲是紅外圖像中不同位置的噪聲服從不同分布,實驗采用文獻[19]的非均勻噪聲仿真方法。表2展示了非均勻噪聲下的圖像增強的定量指標。本文的模型是在迭代優化中引入了深度網絡,提升了去噪的性能。
為了進一步驗證該方法的有效性,實驗選用了多幅圖像做定性比較,如圖4與圖5所示。可以看出,基于模型的方法(即BM3D和EPLL)恢復的圖像邊緣和紋理被過度平滑。基于深度學習的方法:TNRD、DnCNNs、MemNet和本文方法,的重構圖像具有更加清晰的細節信息,尤其是圖4(a)中樹叢,一些紋理信息很明顯,而BM3D方法則過度平滑。雖然BM3D在樹干區域的效果很清晰,但對于很難找到自相似塊的空天背景的區域,重建效果較差,且存在較多劃痕。MemNet采用不同的記憶單元實現密集連接,由于卷積核為1×1的卷積層,負責將所有記憶單元的存儲信息分別輸出,大大耗費運算資源,且上采樣恢復過程會引入偽影噪聲。從重構結果也可以看出,圖4(b)中水渠大壩處存在一些條紋,這就是在上采樣過程增加的偽影。DnCNNs是采用單個殘差單元來預測殘差圖像,并采用批量歸一化加快訓練效率。由于DnCNNs要求端到端的訓練,實現輸入輸出大小保持一致,需要在卷積過程中補0填充,這使得重建結果存在邊界偽影;圖4(c)是把公路上的車輛都去除,而本文算法不僅增強了弱小目標,還盡可能還原了細節信息;圖4(d)與4(e)在同質區域仍然存在一些噪聲。圖5是非制冷紅外采集圖像的一個小區域的重建結果對比,其中BM3D、EPLL方法則過度平滑,深度學習算法的結果優于傳統算法。本文的算法在去除噪聲的同時,也能保持好細節信息。因此,與TNRD、DnCNN-S和MemNet方法相比,本文提出的方法在恢復圖像細節方面取得了更好的效果。

圖4 不同算法的去噪性能對比

圖5 非制冷紅外采集圖像的一個小區域的重建結果對比
4.2.2 紅外圖像去模糊
對于去模糊任務,退化矩陣A是模糊卷積核。為了訓練去模糊網絡,首先將訓練圖像與模糊核卷積,生成模糊圖像,然后從模糊圖像中提取128×128大小的訓練圖像塊,并在模糊樣本中加入隨機方差的高斯噪聲。清晰圖像與對應模糊圖像的對比圖如圖6所示。訓練樣本也通過翻轉和旋轉等操作對數據集進行擴充,總共生成300000個圖像塊樣本用于訓練。為了便于定量分析,本文選用的模糊核分別是標準差為1.6的25×25高斯模糊核與文獻[20]給出的運動模糊核。本文選用的對比算法分別是EPLL[20]、IDDBM3D[21],NCSR[22]和MemNet,其中MemNet需要模糊圖像塊對和原始圖像塊組成的樣本對進行訓練。為了進行公平的比較,所有的深度學習模型都采用相同的訓練樣本與測試樣本。

表1 部分測試圖像的PSNR與SSIM結果對比

表2 非均勻噪聲下的重構質量

圖6 模糊圖像對比
所有對比算法的去模糊結果如表3所示。可以看出,本文提出的方法與MemNet算法的去模糊性能優于EPLL、IDDBM3D和NCSR[24],而本文所提方法的平均性能比MemNet方法高出0.58 dB。對于噪聲方差超過20的運動模糊核圖像,本文提出的模型比MemNet方法稍差,但后者需要更多的迭代(最多30次迭代)才能得到滿意的結果。圖7展示了所有對比方法的去模糊結果。與其他去模糊方法相比,本文所提出的方法不僅獲得了更銳利的邊緣,而且恢復了更多的細節信息。圖7(a)的原始模糊圖像邊緣模糊,細節不清楚,經過EPLL、IDDBM3D和NCSR處理后,所有的結果都能獲得相對清晰的邊緣。EPLL是一種利用圖像塊似然概率先驗信息的對數期望實現圖像去模糊。從圖7(b)可以看出,該方法對高斯模糊的效果較好,但對運動模糊下的重建效果較差,主要歸咎于先驗信息對運動模糊的擬合精度較差。IDDBM3D是基于BM3D的改進算法,主要用于圖像去模糊。從處理結果可以看出,IDDBM3D對勻質區域的處理效果較好,尤其是圖中的路面結果非常平滑。NCSR是基于中心稀疏的迭代型去模糊算法,該算法的去模糊效果優于IDDBM3D與EPLL,細微的紋理和邊界保留的較完整,但其重構結果不如基于深度學習的MemNet與本文提出的模型。由于非制冷紅外熱像儀采集的紅外圖像存在大量噪聲,且細節模糊,從圖7(e)可以看出本文提出的改進的深度神經網絡能夠提升圖像恢復的質量。尤其是對于空天背景的小目標圖像,本文提出的算法考慮了保真項的約束,增強了原始圖像的弱小目標的細節。表3的定量結果也表明了本文提出的去模糊算法的PSNR與SSIM分別高于MemNet 0.43 dB與0.1定性定量實驗結果表明,本文研究方法取得了優于其他對比算法的復原效果。

表3 去模糊算法的平均PSNR與SSIM

圖7 去模糊對比
由于基于深度模型的圖像恢復算法忽略了觀測模型,導致了重構的圖像存在虛假的紋理,尤其是對于紅外圖像中的弱小目標,大多數算法也并不能增強弱小目標的細節。本文提出了一種改進的深度神經網絡用于提升圖像恢復的質量,該網絡將圖像增強模塊嵌入到基于迭代優化模型中,通過圖像增強模塊和反投影模塊交錯而成,增強數據的一致性,保留紋理細節。實驗結果表明,本文提出的方法可以在圖像去噪和去模糊任務上獲得非常有競爭力的恢復結果。下一步,本文將著重對算法性能進行優化,并將其移植到嵌入式智能平臺,實現工程化應用。