趙 斌,王春平,付 強
(陸軍工程大學石家莊校區電子與光學工程系,石家莊 050003)
紅外成像系統具有結構輕巧、隱蔽性好、不易受煙霧塵埃干擾、全天候全天時工作等優點,被廣泛應用于軍事、民用的無源探測中。但由于探測環境及紅外成像器件本身的影響,紅外圖像往往會受到多重噪聲干擾,這會干擾到目標特征提取、檢測識別和分割等工作的效果。特別在軍事上,存在惡意的敵對干擾,嚴重影響對戰場態勢的判斷。因此,對復雜噪聲的有效抑制是紅外圖像處理中的重要環節,是提高紅外探測系統性能的重要手段。
傳統的紅外圖像降噪主要利用噪聲高頻的特性,通過低通濾波、擴散濾波等方法實現降噪。中值濾波[1]、均值濾波[2]等方法通過平滑圖像來緩解噪聲干擾,但會損失細節信息;文獻[3-5]利用不同的擴散策略平滑圖像,在抑制噪聲的同時保留了圖像的邊緣特征;文獻[6]提出能自適應調節拉格朗日乘子和懲罰參數的Split Bregman 算法,具有更快的收斂速度;文獻[7]針對紅外圖像中的條紋噪聲干擾問題,提出利用相鄰行之間灰度值的繼承性完成圖像校正。
上述提到的方法將重點集中在處理某一種或某一類噪聲上,缺乏同時處理多種噪聲干擾的能力。然而,實際環境中的紅外圖像噪聲干擾多種多樣,要求降噪算法應具備更強的魯棒性和普適性。為此,本文借助深度卷積神經網絡在自動提取圖像特征上的優勢,提出一種具有多尺度細節增強能力的卷積自編碼器網絡,用于剔除紅外圖像中的混合噪聲干擾。該方法通過在自編碼器模型中堆疊卷積神經網絡,實現圖像特征的自動提取,避免了復雜的人工特征設計過程,一旦確定好編碼器結構后,僅需在其前后端分別給定噪聲圖像和原始圖像作為模型的訓練數據即可,完全由網絡自主學習,去噪性能與網絡結構相關,不受噪聲類型限制。
在實際的紅外圖像中,各種噪聲混雜在一起,不同噪聲呈現出不同的概率密度分布規律,因此,為了豐富樣本、方便實驗研究,建立了噪聲生成模型,通過在圖像上生成噪聲來模擬含噪圖像[8]。
由紅外背景輻射的光子起伏、紅外探測器光電轉換和信號讀出與處理電路等引起的噪聲在時間和空間上都呈現隨機分布的特點。它們相互之間獨立分布,如果將這些噪聲疊加起來,可簡單將其建模成高斯噪聲。通過生成與圖像矩陣大小相同且服從正態分布的灰度值數據作為噪聲,直接疊加到原圖像上模擬產生受高斯噪聲污染的圖像。噪聲的概率密度分布函數為

其中,x 表示每個像素點上的灰度值,μ 和σ 分別是所有像素灰度值的期望和標準差。
在凝視型成像器件產生紅外圖像時,器件直接讓焦平面上的感光元器件發生光電反應,在某些像素點上會出現盲元,這在圖像上呈現出亮暗點噪聲,其表現類似于椒鹽噪聲,因此,可將其建立成椒鹽噪聲模型,其概率分布密度可表示為

其中,a、b 都是灰度值,當a<b 時,a 在圖像中就會呈現成一個暗點,b 將顯示為一個亮點,在紅外圖像中,一般將它們設為飽和值,即圖像允許的最小和最大灰度等級值;Pa和Pb表示亮暗點的出現概率。
條紋噪聲是紅外圖像中另一種較為常見的噪聲,多存在于掃描型成像器件產生的紅外圖像中。掃描型成像器件的焦平面呈現一維的線狀分布,在成像時,只能同時采集一行數據,然后按照一定頻率移動焦平面來產生多組數據,最終拼組完整的圖像。當掃描型成像器件存在盲元時,會在圖像中產生沿掃面方向的亮暗線。其構造原理類似于椒鹽噪聲,只是將其中的點換成整行。
自編碼器[9]是一種神經網絡,其設計理念為:通過對比網絡的輸入輸出差異,實現網絡參數的自動調整,最終使輸入輸出近似相等。它屬于無監督學習,不需要標注樣本,實現起來也十分簡單。最簡單的自編碼器由3 層網絡組成,如下頁圖1 所示。在訓練期間,每個樣本經由輸入層傳遞給中間層并在此對數據進行壓縮,相當于一個編碼過程;再將中間層的數據傳遞給輸出層進行還原,相當于解碼過程,那么為了收斂,網絡必須學習到可以表征輸入數據最重要的特征。
假設輸入為x,輸入層到中間層的權值矩陣為W,偏置為b,非線性激活函數為f(·),那么中間層的輸出可表示為

同理,可得到輸出層的輸出為

通常,權值矩陣W2是W1的轉置,即W2=W1T,優化目標就是通過調整網絡權值來改變輸出z,使得它與輸入x 之間的差異最小化。假設將歐式距離作為它們差異的衡量標準,則目標函數為


圖1 自編碼器
基本的自編碼器各網絡層之間采用了全連接的形式,雖然網絡層數少,但參數量卻十分龐大,無法處理圖像數據。卷積自編碼器[10]綜合了卷積神經網絡與自編碼器的優點,采用了局部連接和權值共享的策略,大幅削減了網絡參數量,使得網絡能夠處理大尺度圖像數據,并集成了自編碼器的無監督學習特性,符合圖像預處理簡單高效的需求。
2.2.1 卷積模塊
卷積模塊由二維卷積層、批歸一化層和非線性激活層組成。卷積層用于提取圖像特征,該過程中最重要的是卷積核大小、步長的設計以及數量的選擇。卷積核的大小影響網絡結構的識別能力;步長決定了卷積后特征圖的大小;數量關乎特征提取的豐富程度,但數量越多,網絡的復雜度也會隨之增加。
批歸一化層[11]與卷積層相連,用于將數據歸一化至均值為0、方差為1,然后再輸入下一層。在訓練深度網絡時,網絡參數必然會發生變化,如果不進行歸一化處理,那么除了輸入層外,網絡后面每一層的輸入數據分布都會一直發生變化。神經網絡的本質就是為了學習數據的分布特性,一旦每批訓練數據的分布各不相同,網絡在每次迭代中都要去學習適應不同的分布,這會大大降低網絡的訓練速度,這也是需要歸一化預處理數據的原因。
對每批訓練數據神經元輸出數據使用下面的公式進行預處理:

非線性激活函數用于增強網絡非線性描述能力,建立輸入與輸出之間復雜的非線性映射關系。模型中采用的激活函數——修正線性單元(Rectified Linear Unit,ReLU)。
2.2.2 Inception 模塊
考慮到圖像與噪聲的多樣性與復雜性,在構造卷積特征提取網絡時,借鑒了Inception[12]結構的優點,設計了一個簡化版的Inception 模塊,其結構展示在下頁圖2 右邊的虛線框Inception Block 中。該模塊包含3 條并聯的支路,分別由平均池化層(Avg Pooling)與1×1 卷積模塊串聯、1×1 卷積模塊與3×3 卷積模塊串聯以及單個1×1 卷積模塊構成。這樣設計的好處是能增加網絡的深度和寬度,通過融合不同分支的特征圖,可以提高對特征的收集能力。加入更多1×1 卷積模塊的目的是調整特征圖維度及提高網絡的非線性描述能力,雖然1×1 卷積直觀上幾乎不改變輸入的值,但每次卷積計算都會經過一個非線性激活函數(文中采用了Relu),那么每經過一次卷積計算,都能在一定程度上提高一些非線性表達能力。在整個網絡中總共加入了18個1×1 卷積模塊,因此,能有效增強網絡應付多樣復雜圖像和噪聲的能力,提高魯棒性。
2.2.3 跳躍連接

圖2 去噪卷積自編碼器結構
在解碼器重構圖像過程中存在多次上采樣(即Deconv,通過反卷積擴大特征圖尺度,直到與輸入圖像尺度相同),導致最終的降噪圖像存在較嚴重的平滑問題,很多細節信息隨同噪聲一起被剔除了,因此,在對稱的不同尺度高低特征層之間構建了跳躍連接,將編碼器中的特征信息與解碼器相應尺度的特征圖進行融合,實現不同尺度上的細節增強。低層特征圖中包含大量邊緣紋理等細節特征,高層特征圖中包含的則是抽象的語義信息,僅利用高層特征圖重構圖像顯然不利于恢復圖像的細節信息,因此,利用了Skip connection 補償解碼器中的細節特征。
圖2 展示了融入Inception 模塊和跳躍連接的去噪卷積自編碼器(Inception and Skip Cone Denoising Convolutional AutoEncoder,IS-DCAE)的網絡結構。為了處理高效,統一將訓練集圖像調整為200×200 的原始參考圖像。訓練時,在參考圖像上疊加混合噪聲作為網絡的輸入數據,經卷積和池化操作后,將分辨率為200×200 的輸入圖像經3 次池化后處理成一組分辨率為25×25 的特征圖,其中,卷積層實現特征的自動提取,池化層實現下采樣及增強局部不變性。這是一個輸入圖像不斷被壓縮的過程,因此,可將其視為編碼過程。同理,在解碼過程中,通過反卷積上采樣和卷積整合后,特征圖被不斷放大,直至與輸入圖像尺度相同,然后利用輸出圖像與原始圖像之間的差異計算網絡損失,調整卷積核參數至符合訓練終止條件。
為了增強網絡對不同噪聲的魯棒性,在訓練時,隨機生成每個批次訓練圖像的噪聲強度。測試時,直接將測試集數據作為輸入圖像,送入網絡進行處理,輸出圖像則是經過降噪重構后的圖像。
為了驗證降噪卷積自編碼器在降噪方面的有效性,實驗選取了2 000 張以天空為背景、以飛機為目標的紅外圖像作為訓練集,實驗環境為Tensorflow,編程語言為Python 3.6,計算機配置為64 G 內存、Inter(R)Xeon(R)CPU E5-2630 v3@2.4 GHz、NVIDIA GeForce GTX TITAN X GPU。
本文對高斯噪聲、椒鹽噪聲和條紋噪聲這3 類在紅外圖像中比較有代表性的噪聲進行了建模仿真,其流程如圖3 所示。高斯噪聲在圖像中表現為一種加性噪聲,通過在原始圖像上直接疊加一個同等大小、元素呈正態分布的噪聲矩陣來模擬仿真,噪聲的強度由噪聲矩陣的系數α 決定。圖4(a)是一個仿真產生高斯噪聲的實例。

圖3 噪聲建模流程
不同于高斯噪聲可能影響每個位置像素點的值,椒鹽噪聲只改變了圖像中某些像素點的值,在實驗中,設置了“椒”數m 和“鹽”數n 兩個參數來決定產生椒鹽噪聲的強度,通過隨機選取m 個點將其值置為0、選取n 個點將其值置為1(已經將圖像的像素值歸一化0 到1 范圍內)來模擬椒鹽噪聲。圖4(b)展示了在200×200 圖像中m,n 分別為100 時的椒鹽噪聲。

圖4 噪聲仿真
條紋噪聲是紅外圖像中的一種特殊噪聲,在仿真時,設置了條紋數s 作為強度參數,通過隨機選擇s 行像素并將整行像素置為1 來模擬條紋噪聲。圖4(c)是s=5 時的條紋噪聲,圖4(d)是3 種噪聲疊加在一起的情況。
實驗利用去噪卷積自編碼器對訓練集所有圖片進行20 輪訓練,學習率為0.01,梯度下降優化算法為A dam,每個批次選取16 張圖片同時訓練。選取了5 幅不同目標狀態和背景條件下的測試圖像展示模型的去噪效果,并將傳統去噪算法中性能優異的BM 3D 方法作為對比算法,其結果如圖5 所示。測試圖像的高斯噪聲強度參數α 為0.2,椒鹽噪聲強度m、n 都為500,條紋數s 為5。圖中第1 列是原始圖像,第2 列是噪聲圖像,第3 列是利用BM 3D[13]算法去噪的結果,第4 列是本文所提的去噪卷積自編碼器(IS-DCAE)的去噪效果。
雖然輸入圖像受到多種混疊噪聲的嚴重干擾,圖像中目標的大小和姿態各異,并且背景也不盡相同,但所提的IS-DCAE 方法都能有效地降低噪聲干擾、重構出清晰干凈的圖像。BM 3D 算法雖然能濾除大部分的高斯噪聲和椒鹽噪聲,但清除條紋噪聲能力較差,此外,BM 3D 算法在重度噪聲干擾條件下的圖像細節保存能力也不足。得益于Skip connection在不同尺度上對特征信息的補充以及Inception 模塊更強大的特征收集能力,IS-DCAE 可以更好地保留圖像的邊緣和紋理信息,得到更接近原始圖像的去噪結果。

圖5 不同目標和背景條件下的去噪結果
為了定量衡量模型的去噪效果,采用了均方誤差(Mean Square Error,MSE)、峰值信噪比(Peak Signal Noise Ratio,PSNR) 和 結 構 相 似 性(Structural SIMilarity,SSIM)作為定量實驗評價指標,實驗中使用的噪聲參數依然為α=0.2,s=5,m=n=500。表1 給出了噪聲圖像、BM 3D 去噪后圖像和所提IS-DCAE方法去噪后圖像相對于原始干凈紅外圖像的評價結果。從結果上看,IS-DCAE 方法在各個指標上都明顯優于BM 3D,有兩方面的原因:一是之前針對圖像去噪的研究大多假設噪聲是高斯分布且噪聲強度相對較低,導致傳統方法在高強度混合噪聲圖像上的去噪性能急劇退化;二是IS-DCAE 方法能自主學習數據分布特性,提取圖像不變特征能力突出,加之細節信息得到了補償,因此,表現出更優異的去噪性能。

表1 測試圖像去噪性能指標對比
此外,在相同處理平臺上,分別對BM 3D 和IS-DCAE 的處理時間進行了統計。BM 3D 對于5 幅測試圖像的平均處理時間約為35.82 s(CPU),IS-DCAE 對5 幅圖像處理完成后的平均時間約為0.43 s(GPU),這相比于NL-Means[14]和BM 3D 動輒幾十秒的處理速度具有明顯優勢。當然,這一優勢主要得益于GPU 以及卷積神經網絡在處理圖像問題上的高并行性,還可以通過增大每個批次的圖像數量進一步降低IS-DCAE 的平均處理時間。
在樸素卷積自編碼器的基礎上,加入了Inception 模塊與Skip connection 改善去噪性能,為了驗證各模塊對于整個去噪網絡的貢獻,實驗分別對各個模塊進行了性能評價。結果如表2 所示,從上到下依次為樸素DCAE、僅加入Inception 模塊的DCAE、僅加入Skip connection 的DCAE,以及同時加入Inception 和Skip connection 的DCAE(即IS-DCAE)在5 張測試圖像上的去噪性能指標值。整體上看,IS-DCAE 性能最優,Inception 和Skip connection 從不同側面改善了去噪性能。
為了可視化各模塊去噪性能,選取了包含細節更為豐富的測試圖像img2 進行展示。圖6(a)是原始干凈圖像,圖6(b)~(e)是利用不同方法的去噪結果。樸素DCAE 雖然優于BM 3D,但重構后的圖像存在較為嚴重的平滑問題,細節信息缺失較多。加入Inception 模塊后雖然有所改善,但圖像細節仍得不到有效補償。Skip connection 能明顯提高圖像細節恢復能力,但直觀上與原始干凈圖像仍有一定差異。通過綜合利用Inception 模塊與Skip connection的不同能力,可以有效增強DCAE 的去噪性能,得到更優的重構圖像。

表2 不同模塊去噪性能指標對比

圖6 不同模塊去噪效果對比
為了進一步驗證算法的魯棒性和處理重度噪聲的能力,在實驗中增加了測試圖像的噪聲強度,圖7 展示了不同噪聲強度下IS-DCAE 的去噪效果。其中,圖7(a)是噪聲強度為α=0.2,s=10,m=n=500時的兩幅測試圖像及其去噪結果,該實驗檢驗模型對高強度條紋噪聲干擾的處理能力;圖7(b)對應的噪聲強度為α=0.2,s=5,m=n=2 000,檢驗模型對高強度椒鹽噪聲干擾的處理能力;圖7(c)對應的噪聲強度為α=0.4,s=5,m=n=500,檢驗模型對高強度高斯噪聲干擾的處理能力;圖7(d)對應的噪聲強度為α=0.4,s=10,m=n=2 000,檢驗模型對高強度混合噪聲干擾的處理能力。

圖7 不同噪聲強度下的去噪效果
表3 是IS-DCAE 和BM 3D 在不同噪聲強度下對5 幅測試圖像的去噪性能評價結果對比情況,表中每個指標的值都是對5 幅測試圖像評價結果取平均得到的。

表3 不同噪聲強度下的去噪性能指標平均值
從去噪效果來看,雖然噪聲對圖像造成了極大的干擾,特別是小目標圖像,幾乎被淹沒在噪聲中,但本文設計的模型仍然能在一定程度上還原出原始圖像,重構出圖像的主要成分,這說明了所提方法魯棒性較強,能夠用于處理重度混合噪聲污染的圖像,而如此低信噪比的噪聲環境是其他文獻[3-6,15-16]所沒有采用的。進一步對比3 種噪聲對重構圖像的影響,發現高斯噪聲對重構結果影響最大,這是因為高斯噪聲會對每個像素點的像素值都產生影響,而椒鹽噪聲和條紋噪聲只影響圖像中的部分點。
本文提出一種利用卷積自編碼器實現紅外圖像去噪的方法,針對自編碼器結構單一、細節缺失等問題,引入了簡化Inception 模塊和Skip connection 構造了一個新的IS-DCAE 模型,在實現紅外圖像特征無監督學習的同時,拓寬了網絡結構、增強了網絡的非線性描述能力,并且在多個尺度上補充圖像細節,提高了去混合噪聲能力。在表2 的噪聲條件下能平均提高測試圖像的峰值信噪比約18.18 dB。在面臨表3 的惡劣噪聲環境時,該模型依然取得了明顯的去噪效果,證明了模型具有較好的魯棒性。未來還可以在數據集豐富性、噪聲模型和網絡結構上作進一步優化。