甄 誠,楊永勝,李元祥,鐘娟娟
(1.上海交通大學 航空航天學院,上海 200240;2.中國航空工業集團公司雷華電子技術研究所,江蘇 無錫 214063)
大氣湍流是自然界中一種常見的空氣無規則運動現象。在光波傳輸路徑中,大氣折射率受到大氣湍流的影響而發生隨機變化,導致光學成像系統所捕獲的圖像質量降低[1-2]。圖像的視覺退化效果主要表現為幾何形變與像素模糊,其將嚴重影響對目標圖像進行特征識別與信息提取的后續操作[3]。因此,對湍流退化圖像進行復原以改善圖像質量,是一項具有重要實際意義的圖像處理任務。
在基于數字圖像處理的湍流退化圖像復原方法中,同時移除大氣湍流造成的形變與模糊難度較高。LI 等[4]將多通道圖像反卷積作為主成分分析問題來解決,提出一種基于頻譜的方法,但其并不能完全糾正形變。HIRSCH 等[5]提出一種EFF 方法,采用多幀盲反卷積算法來緩解湍流畸變問題,但由于局部點擴散函數估計不足導致偽影嚴重。幸運區方法[6-7]通過圖像選擇和融合技術復原高質量的潛在圖像,該類方法利用銳度作為圖像質量的度量指標,從短曝光的視頻流中選擇質量最好的幀,并將它們融合成一幅圖像。ZHU 等[8]提出一種減少空間模糊和幾何失真的方法,使用基于對稱約束的B 樣條非剛性配準算法來抑制幾何形變。上述方法大多存在一些限制條件:經典的基于數字圖像處理的湍流消除算法需要多幀靜態退化圖像來重建一幅高質量圖像,這對采集設備和目標場景提出了較為嚴格的要求;復原方法采用迭代的計算方式,收斂性不穩定,難以滿足實時處理的需求。
基于單幅圖像的復原方法對圖像捕獲條件要求較低,處理速度較快,具有更加廣泛的應用范圍。單幅圖像復原方法的目標是從觀察到的單幀退化圖像中獲得高質量的清晰圖像。在模糊先驗未知的情況下,單幅圖像復原是一個不適定問題。傳統的非線性畸變圖像校正方法需要建立畸變數學模型,算法復雜度高,且存在很大的數值計算誤差。深度學習復原方法采用數據驅動的方式學習圖像重建所需要的重要信息,不需要對退化因素進行大量限定,比依賴于退化假設模型的方法更適合解決單幅圖像復原問題[9]。近年來,基于深度學習的圖像復原算法廣泛應用于超分辨重建、圖像去噪和去模糊等計算機視覺任務中,并取得了較好的效果,尤其是生成對抗網絡(Generative Adversarial Network,GAN)進一步促進了圖像復原效果的提升。使用深度生成模型消除幾何畸變并恢復高質量圖像為解決湍流圖像復原問題提供可能。LAU 等[10]提出一種生成式單幀復原算法,該算法將湍流引起的畸變分解為模糊和形變分量并分別利用去模糊生成器和變形矯正生成器進行復原,最后通過融合函數輸出復原圖像,但是該算法在模型訓練過程中需要準備復雜的訓練數據,在模糊分解與特征融合的過程中引入了額外損失。
本文提出一種基于多尺度GAN 的大氣湍流退化圖像復原方法。GAN 生成器在U-Net 網絡結構中添加多尺度注意力特征提取單元和多層次特征動態融合單元。多尺度注意力特征提取單元嵌套在U-Net網絡的全卷積部分,以對退化圖像實現特征提取與編碼,然后在上采樣部分對特征圖進行重建,并使用從粗到細的特征融合單元實現湍流退化圖像復原。
大氣湍流退化效果主要包括湍流畸變算子和傳感器光學模糊,描述湍流退化過程的數學模型為[11]:

其中:I(u)為需要復原的清晰圖像;f(u)為成像設備獲取的湍流退化圖像;u=(x,y)T為圖像中像素的空間位置;H為傳感器光學模糊算子;Du為湍流畸變算子,其包含局部形變和空間模糊;Eu為加性噪聲。由于湍流畸變算子同時包含模糊和形變2 種模糊核,因此使用卷積神經網絡提取像素特征時需要設計足夠大的感受野來覆蓋像素區域,對提取到的特征進行動態權重調節有助于模型關注重要信息。
GAN[12]定義了 生成器G 和鑒別器D 這2 個競爭網絡的博弈。生成器學習生成一幅和目標圖像接近的樣本,鑒別器負責區分真實圖像和生成樣本。生成器的目標是通過生成與真實樣本無法區分的令人信服的樣本來欺騙鑒別器。GAN 極大極小博弈的目標函數可描述為:

其中:Ex~pdata為輸入清晰圖像時的期望;x~pdata(x)為真實圖像分布;Ez~p(z)為輸入生成圖像時的期望;z~p(z)為生成圖像分布。在應用經典GAN 的方法[13]中,對抗損失采用Sigmoid 交叉熵損失函數,容易出現梯度歸零的飽和狀態,導致訓練過程中出現模型坍塌、梯度消失、梯度爆炸等問題。最小二乘GAN(LSGAN)[14]的判別器使用L2 損失函數衡量輸入x到決策邊界的距離,提供了與該距離成比例的梯度,有助于進一步減小損失以生成更高質量的圖像。同時,LSGAN 不容易達到飽和狀態,具有更好的訓練穩定性。
在訓練過程中,將湍流退化圖像作為生成器G的輸入,并將生成圖像與訓練數據中的清晰圖像共同作為判別器D 的輸入。判別器與生成器采取單獨交替訓練的訓練方式,通過誤差回傳更新網絡參數,直至達到設定的迭代次數。
針對湍流圖像復原任務需要同時去除幾何畸變和模糊的問題,本文提出多尺度GAN 模型,其結構如圖1 所示。生成器是一個對稱的U-Net 網絡結構[15],判別器采用PatchGAN 結構[16],由4 個卷積核尺寸為4×4 的卷積層構成。

圖1 多尺度GAN 模型結構Fig.1 Multi-scale GAN model structure
多尺度網絡模型表現為:1)在圖像特征提取上,多尺度注意力特征提取單元使用不同尺寸的卷積核在更大的感受野范圍內提取多尺度特征信息;2)在模型結構上,多層次特征融合單元對不同比例的特征圖進行權重調節,以挖掘不同級別的語義信息。
生成器網絡結構如圖2 所示,U-Net 網絡全卷積部分由預訓練卷積模塊和多尺度注意力特征提取單元組成,預訓練卷積模塊使用Inception-ResNet-v2骨干網絡[17]中的卷積層與最大池化層,多尺度注意力特征提取單元提供多尺度特征信息并使用特征注意力來挖掘通道的相關性。上采樣部分由卷積層與上采樣層組成,插入多比例特征動態融合單元將不同比例的特征圖上采樣到相同的輸入大小,并動態調節權重以連接成一個張量,加強不同尺度特征圖的信息共享。輸入圖像經過全卷積層后轉變為具有更小空間尺寸和更多壓縮語義信息的特征圖,獲得的特征圖在上采樣部分經過融合映射,從語義豐富的特征層重構更高的空間分辨率,逐漸恢復到目標圖像的尺寸。在U-Net 網絡執行編碼解碼過程中會損失圖像的細節特征,本文增加跳躍連接作為分層語義指導,將具有更多局部信息的淺層網絡與對應的深層網絡相結合,更加充分地利用高層特征的語義信息和底層特征的細粒度特征,從而提升重建圖像的視覺細節特征。生成器引入一個直接從輸入到輸出的跳躍連接,以促使模型重點學習殘差。

圖2 多尺度GAN 的生成器網絡結構Fig.2 Generator network structure of multi-scale GAN
在湍流圖像復原算法中,幾何畸變與模糊具有不同尺度的結構信息,使用常規卷積進行特征提取難以完全恢復圖像,因此,本文提出多尺度注意力特征提取模塊,其可以在不同尺度的感受野上處理特征信息,通過通道注意力機制關注通道特征間的關系,挖掘和學習圖像的關鍵內容。如圖3 所示,多尺度注意力特征提取單元由多分支卷積層和注意力層連接而成。多分支卷積層對應不同尺寸的感受野,能夠提取到多種特征[18],注意力層[19]充分學習退化圖像中的重要信息,以保證重建圖像準確清晰。多分支卷積層由不同尺寸的空洞卷積并列組成,3 條支路的感受野分別為3×3、7×7、15×15,同時對輸入特征圖進行特征提取,在獲得不同尺度的信息特征圖后,通過卷積操作將級聯的特征圖重新調整為輸入尺寸。

圖3 多尺度注意力特征提取單元結構Fig.3 Multi-scale attention feature extraction unit structure
在特征提取過程中,為區別對待圖像的低頻部分(平滑或平坦的區域)和高頻部分(如線、邊、紋理),從而關注和學習圖像的關鍵內容,本文引入注意力機制對每個通道特征產生不同的注意力。首先利用每個通道的全局上下文信息,采用全局平均池化來壓縮每個通道的空間信息,表達式為:

其中:Xc表示聚合卷積特征圖,其尺寸為H×W×C;zc表示壓縮后的全局池化層,其尺寸減小為1×1×C。使用ReLU 和Sigmoid 激活函數實現門控原理來學習通道間的非線性協同效應和互斥關系,注意力機制可表示為:

其 中:δ和σ分別表示ReLU 和Sigmoid 激活函 數;rc為激勵權重;Xc代表注意力機制調整后的特征圖。全局池化層zc依次經過下采樣卷積層和ReLU 激活函數,并通過上采樣卷積層恢復通道數,最后由Sigmoid 函數激活,獲得通道的激勵權重rc。將聚合卷積層Xc通道的值乘上不同的權重,從而得到自適應調整通道注意力的輸出Xc。
在生成器網絡的上采樣部分,不同層次的特征圖蘊含著不同的實例信息[20]。為了加強不同層次特征圖之間的信息傳遞,本文提出多層次特征融合單元。不同層次特征圖對應區域的激活程度存在較大差異,在進行多層次特征圖融合時,不同層次特征圖之間的沖突會干擾信息傳遞,降低特征融合的有效性。針對該問題,本文設計動態融合的網絡結構,其對特征圖的空間位置分配不同權重,通過學習篩選有效特征和過濾矛盾信息,將不同尺度的特征圖上采樣調整到相同的尺寸,并在融合時對不同層次的特征圖設置空間權重,尋找最優融合策略。上述過程具體可表示為:

其中:Fi↑代表第i個特征圖經過上采樣調整到統一尺寸后的標準特征圖。所有層次的特征圖經過自適應權重分配的動態融合后輸出最后的特征圖F*。
權重ωi的學習方式如圖4 所示,標準特征圖的空間信息經過下采樣卷積層被壓縮,將對應的4 個不同層次特征圖的壓縮卷積層相級聯,使用1×1 的卷積映射同一位置的特征信息,最后通過Softmax 函數標準化網絡參數以得到空間權重信息,如下:

圖4 多層次特征動態融合單元結構Fig.4 Multi-level features dynamic fusion unit structure

經過學習得到的特征圖自適應空間權重ωi∈[0,1]且其總和為1。
在訓練過程中,損失函數衡量生成圖像與真實圖像的差別,GAN 損失函數包括對抗損失與內容損失。其中,對抗損失采用LSGAN 中的對抗損失:

其中:Igt代表真實圖像;Igen代表生成圖像。在圖像重建的內容損失上,選擇生成圖像和目標圖像的均方差損失LMSE以獲得較高的峰值信噪比,同時為了消除偽影,促進圖像高頻細節的恢復,使得重構圖像具有較高的視覺逼真度,本文引入視覺損失Lperc。感官損失是通過預訓練的VGG19 網絡[21]而實現,將生成圖像和目標圖像分別輸入到VGG 網絡中,然后計算經過VGG 網絡后對應特征圖的歐氏距離。LMSE和Lperc的計算分別如下:

其中:?代表預訓練的VGG19 網絡。因此,總的損失函數定義為:

基于多尺度GAN 的大氣湍流圖像復原算法的具體步驟如下:
輸入合成湍流退化圖像和標簽數據集
輸出訓練后的生成器G
1)初始化網絡模型參數。
2)反向傳播訓練模型參數。
3)訓練后的生成器網絡用于湍流圖像復原。
網絡模型的訓練過程如下:
1)對每一批數據分別從合成圖像和標簽數據中進行采樣。
2)根據對抗損失LGAN,采用Adam 優化判別器D和生成器G。
3)生成圖像Igen,結合均方誤差損失LMSE與視覺損失Lperc進一步優化生成器G。
重復上述訓練過程,直至滿足預先設定的迭代次數。
本文實驗使用NVIDIA Tesla-V100 GPU 顯卡、Linux 系統及Pytorch 深度學習框架,相關配置為CUDATookit10.0、Cudnn7.5。損失函數中的超參數設置為:α=0.5,β=0.01,γ=0.01。訓練過 程采用Adam 進行參數優化,batch_size 設置為1。早期訓練固定學習率為0.000 1,使用較大的步長保證網絡在足夠的搜索空間中尋優;后期訓練中學習率線性衰減,減少訓練中的振蕩,從而保證網絡的穩定性。
本文使用湍流合成方法[22]擴充訓練數據。合成湍流效應基于模糊算子和變形算子,可選擇不同的參數來生成具有不同嚴重程度的湍流退化圖像。模糊算子是高斯核濾波,對像素進行高斯平滑。對于圖像上的每個像素點(x,y),變形算子生成一個隨機運動向量場。以(x,y)為中心、尺寸為N×N的圖像塊,隨機運動向量場在該圖像塊區域內定義為:

其中:Gσ是高斯核;標準差η是強度值;N1和N2從高斯分布中隨機選取。湍流圖像數據集收集了300 幅真實的戶外建筑物場景圖像,為擴充訓練數據,對每個圖像進行裁剪處理。使用Unity 軟件平臺實現上述像素扭曲操作,設置用于調節模糊算子和變形算子的參數,如強度、周期、退化核半徑,對不同參數進行組合,模擬大氣湍流對圖像產生的復雜影響。使用上述湍流合成方法共生成1 200 幅訓練圖像,圖像分辨率為600像素×320像素,隨機選取其中1 000 幅作為訓練集,200 幅作為測試集。
訓練結束后的生成器網絡被用于湍流圖像復原,本文選用標準GAN 模型和圖像復原領域先進的SIU-Net[23]模型進行對比分析。在相同的實驗環境下使用湍流退化數據集對標準GAN 和SIU-Net 模型進行訓練與測試。
除了將傳統模型與改進模型進行復原實驗對比外,本文還設置一組消融實驗:在U-Net 網絡中僅添加多尺度注意力特征提取單元(GAN+提取單元);在U-Net 網絡中僅添加多層次特征動態融合單元(GAN+融合單元);在U-Net 網絡中同時添加2 種單元(多尺度GAN)。
為驗證本文方法的有效性,采用峰值信噪比(PSNR)和結構相似性(SSIM)作為客觀評價指標,以評估生成圖像的質量。PSNR 反映2 幅圖像對應像素點間的誤差,PSNR 越大,表明重建圖像失真越少,效果越好。SSIM 表示2 幅圖像的相似度,其值越接近1,說明重建圖像越接近原始圖像。PSNR 計算公式如下:

其中:I為真實參考圖像;Igen為生成的復原圖像;μ為圖像均值;δ為圖像方差;δ為協方差。
采用上述指標對復原模型進行客觀評價,實驗中取PSNR 和SSIM 的平均值,結果如表1 所示。由表1 可以看出:使用標準GAN 進行圖像復原能夠改善圖像質量,評價指標大幅提高;SIU-Net 利用精巧的多尺度迭代網絡結構設計,在PSNR 評價指標上取得了和標準GAN 相近的結果,但SSIM 評價指標卻表現一般,主要原因是SIU-Net 只使用了均方差損失,且沒有針對復雜空間畸變進行網絡結構設計;相比于標準GAN,本文多尺度GAN 的PSNR 平均提升約1.1 dB,SSIM 相對提高約2.6%,在PSNR 和SSIM評價指標上同樣優于SIU-Net,這是因為多尺度注意力特征提取單元提供的多尺度感受野可以提取并整合不同尺寸的輸入特征,多層次特征動態融合單元通過學習可以有效利用不同層次的特征語義信息,使多層次GAN 復原效果更好。如表2 所示,消融實驗結果反映了各模塊對湍流圖像復原的提升效果。

表1 湍流圖像復原中不同模型的PSNR 和SSIM 結果Table 1 PSNR and SSIM results of different models in turbulence image restoration

表2 消融實驗中的PSNR 和SSIM 結果Table 2 PSNR and SSIM results in ablation experiment
采用不同模型生成復原圖像以及消融實驗的圖像復原結果分別如圖5、圖6 所示。其中:圖5(a)為湍流退化圖像,其作為網絡模型的輸入;圖5(b)是原始GAN 處理后的輸出圖像;圖5(c)是SIU-Net 處理后的輸出圖像;圖5(d)是本文多尺度GAN 處理后的輸出圖像;圖5(e)是真實清晰圖像。
從圖5 可以看出,本文多尺度GAN 獲得的復原圖像形變情況明顯改善,整體圖像清晰,同時圖像的邊緣細節也有所提升,更接近參考的真實圖像。圖5、圖6 的主觀效果與表1、表2 中的客觀評價結果基本一致。

圖5 不同模型的復原實驗結果對比Fig.5 Comparison of restoration experimental results of different models

圖6 消融實驗的復原結果對比Fig.6 Comparison of restoration results of ablation experiment
圖7 所示為真實場景下湍流退化圖像復原的實驗結果,其中:圖7(a)為相機捕獲的湍流退化圖像;圖7(b)為經過多尺度GAN 處理后的圖像。

圖7 真實場景湍流圖像復原結果Fig.7 Restoration results of real scene turbulence images
從圖7 可以看出,湍流退化圖像復原后在整體清晰度和局部結構細節2 個方面均有提升,實驗結果進一步驗證了本文模型的復原性能,即多尺度GAN 可有效移除湍流效應,提升圖像質量。
針對單幅湍流退化圖像,本文提出一種基于多尺度GAN 的圖像復原方法,該方法根據數據驅動的方式,解決了傳統復原方法依賴先驗信息、復原效果差等問題。網絡模型基于GAN,通過多尺度特征提取單元強化底層特征提取,并在上采樣重建部分使用動態特征融合單元,利用多層次特征圖進行特征融合。實驗結果表明,該方法能夠改善圖像質量,解決圖像中的物體形變問題,復原后的圖像清晰度較高。下一步將設計輕量化模型并提高模型的魯棒性,以擴大復原方法在實際場景中的應用范圍。