王彩云, 李陽雨, 李曉飛, 王佳寧, 魏文怡
(1.南京航空航天大學航天學院, 江蘇 南京 210016; 2.北京電子工程總體研究所, 北京 100854)
隨著無人機技術研究的飛速發展,航拍圖像成像效果要求也日益嚴格。圖像超分辨(super-resolution, SR)重構技術旨在從低分辨(low-resolution, LR)圖像中恢復高分辨(high-resolution, HR)圖像,HR圖像具備邊緣銳化、無塊狀模糊等特點,便于后續的圖像處理、分析與理解等工作。
目前圖像SR重構方法可分為基于重構和基于學習這兩類方法?;谥貥嫷姆椒╗1-3]被廣泛研究,其核心在于利用已知的圖像退化模型,約束SR產生的HR圖像與輸入LR圖像間的映射關系[4-5];基于學習的方法是近年來的熱點,高、低分辨率圖像間的映射關系通過學習獲取,這種方法能獲取更多高頻細節,因此圖像重構效果更好。該方法根據利用的圖像特征不同分為基于機器學習和基于深度學習兩類。2002年,Freeman[6]等人首次將機器學習應用于圖像重構任務,但重構圖像質量較低。Dang[7]等人提出了一種基于局部HR補丁流形切線空間估計的圖像SR方法,同樣具有計算復雜度較高的問題?;谙∈璞硎镜臋C器學習重構方法受壓縮感知理論啟發,楊學峰[8]等人對訓練圖像在小波域的不同頻帶建立不同的字典,利用全局限制求取HR圖像的初始解,最后在小波域對初始解進行多字典稀疏求解,能夠重建出質量更高的圖像,并且計算復雜度有所下降,但是基于稀疏表示的重構需要求解超完備字典的稀疏表示[9-10]。Timofte[11]與Yang[12]同樣研究基于稀疏字典的圖像SR重構方法,均存在當字典規模或待重構圖像的尺寸較大時,計算復雜度仍較高的問題。Dong[13]等人首次將深度學習應用于圖像SR,通過不同的神經網絡學習方法獲取LR圖像特征與HR圖像特征映射關系并進行圖像重建,獲得更高質量的圖像。吳磊[14]等人在神經網絡中引入多尺度思想,優化圖像SR效果。
深度學習在數學上擁有更加簡單的表達,具有很強的泛化學習能力,在分類任務、自然語言處理、目標檢測、運動建模等領域[15-16]的應用已取得成效,因此本文利用深度學習方法進行SR重構。另外,在硬件條件一般的情況下,基于深度學習方法的訓練階段耗時較大,而本文方法通過構建一種稀疏卷積神經網絡SR(SR based on sparse convolutional neural network, SRSCNN)重構方法,顯著縮短訓練時間,能夠在更短時間內實現圖像重構,滿足實時性要求。
常見的圖像退化過程X→Y可表示為
Y=HX+n
(1)
式中:H為退化因子,表征退化模型的形變、模糊和降采樣等過程;n為噪聲。
退化模型如圖1所示。

圖1 圖像退化模型
圖像SR是圖像退化的逆過程,求解過程是不適定問題?;谏疃葘W習的SR重構能夠學習高、低分辨圖像之間的端到端映射關系,其算法框架如圖2所示。

圖2 基于深度學習的SR重構算法框架
圖像質量評價在圖像處理系統中,對算法分析比較和系統性能提供度量指標[17]。圖像質量評價存在主觀評價與客觀評價兩個分支。主觀評價是觀察者對圖像的主觀定性評價。客觀評價一般為借助特定數學模型計算的圖像質量量化值,同時也常用圖像質量量化值與主觀觀測值的一致性來評估圖像質量。常用的客觀評價標準有峰值信噪比(peak signal to noise ratio, PSNR)、信息熵(information entropy, IE)和結構相似度(structure similarity, SSIM)[18]。
假設原始圖像I與測試圖像K像素為m×n,則
(2)
(3)
式中:MSE表示圖像均方誤差;MAX表示圖像的灰度值極大值,在8 bit的灰度圖中,MAX為255。
PSNR表征圖像失真度,單位為dB,PSNR值越大表示測試圖像與參考圖像之間的失真度越小,圖像質量越高。這種方法從圖像的全局統計角度衡量圖像質量,未考慮人眼的局部視覺因素特征,故PSNR的評價結果與人眼主觀不一致。相對于PSNR,SSIM是一種符合人眼視覺系統特征的圖像質量客觀評價指標,根據圖像像素間的相關性構造測試圖像與參考圖像之間結構相似性,并由圖像的均值、標準差和協方差定義亮度、對比度和結構相似度。3個相似度綜合就是SSIM指標:
SSIM(i,j)=[l(i,j)]α[c(i,j)]β[s(i,j)]γ
(4)
式中:l(i,j)為亮度相似度;c(i,j)為對比度相似度;s(i,j)為結構相似度;參數α、β、γ一般取值為1。
由于航拍圖像的SR重構是自動目標識別的預處理部分,顯著性區域的質量比全圖質量更為重要,因此本文將梯度模相似性偏差(gradient magnitude similarity deviation, GMSD)[19]與顯著圖檢測融合,提出一種新的圖像質量評價方法,即基于顯著性區域的GMSD(saliency-map-based GMSD, SGMSD)。流程如圖3所示。

圖3 SGMSD流程框圖
具體步驟為:首先檢測輸入圖像的顯著性區域,得到顯著圖Vs(i);接著計算圖像的梯度模相似圖GSM(i);然后引入顯著圖,得到基于顯著圖檢測的梯度相似圖SGSM(i);最后計算其相似性偏差即為SGMSD圖像質量評價指標。流程可以簡單描述如下。
步驟 1采用FT算法計算圖像顯著性圖Vs(i)。
步驟 2計算圖像的梯度模相似圖GSM(i)。
步驟 2.1Sobel梯度算子
設水平和豎直方向的Sobel算子Gx、Gy為
(5)
步驟 2.2梯度模相似圖計算
由式(6)和式(7)計算輸入圖像I與參考圖像R的梯度模mI與mR分別為
(6)
(7)
式中:I(i)與R(i)表示以i為中心位置的圖像區域。
接著由式(8)計算梯度模相似圖GSM(i)為
(8)
式中:c為極小正常數,以防分母為0。
步驟 3計算基于顯著圖的梯度模相似圖SGSM(i):
SGSM(i)=GSM(i)Vs(i)
(9)
步驟 4最后計算SGSM(i)的相似度偏差SGMSD,即為所求評價指標:
(10)
(11)
式中:SGMSD的值越大,表明梯度相似度越高。
Dong[20]等人提出的加速圖像SR卷積神經網絡(convolutional neural network, CNN)(fast SR CNN, FSRCNN)是一種緊湊的沙漏形CNN結構,相比于最早的SRCNN[7],其SR重構效果更好,并且可以在通用CPU上實現實時性能。同時,神經網絡模型的稀疏技術能優化神經網絡性能,提高模型的泛化能力。代表性的稀疏方法有參數剪枝、低秩分解、參數量化和知識蒸餾4種[21]。相關研究發現,人體的腦部結構網絡的連接密度會隨著年齡增長反而逐漸減小,但是腦部學習能力卻不斷增強。推理可得,若刪除神經網絡中較小的連接,減少神經網絡的連接密度,將能夠加速網絡的推理和訓練過程,有效降低計算成本。因此,本文采用參數剪枝的模型稀疏方法,優化FSRCNN網絡。
本文基于FSRCNN的網絡結構,提出SRSCNN,包含7個卷積層和1個反卷積層,每個卷積層的激活函數均選擇PReLU函數,損失函數采用歐氏距離。SRSCNN網絡結構如圖4所示。

圖4 SRSCNN網絡結構
為減少網絡參數,本文提出的SRSCNN網絡結構中各卷積層的和反卷積層的參數設置如表1所示。

表1 SRSCNN網絡參數設置
常見的通用圖像數據集有Set 5、Set 91、General-100、CIFAR-10、ImageNet等。本文選用Set91和General-100作為訓練集,選用Set 5作為測試集。為提高模型的泛化能力,采用數據增強的方式擴充樣本:將樣本庫內圖像均旋轉90°、180°、270°。對樣本庫中的HR圖像進行3倍下采樣處理,并將得到的高、低分辨率圖像進行分塊,每個圖像塊的大小為7×7。
SRSCNN的訓練過程類比傳統神經網絡訓練方法,包含前向傳播、損失計算、后向傳播、權重更新4個階段。
初始化卷積核的權重W和偏置b,那么,前向傳播過程可表示為
(12)
式中:f為非線性激活函數,用于解決線性不可分的問題,提高神經網絡分類能力。
前向傳播后,由輸出計算損失函數L,并由梯度下降法更新權重和偏置:
(13)
SRSCNN稀疏化的具體步驟為:假設第t層有N個神經元,根據當前層權重W大小,對權重進行排序,丟棄權重較小的部分連接,保留權重較大的連接,依次對中間6個隱含層的權重進行選擇性篩選,達到稀疏網絡的目的,篩選策略如算法1所示。

算法1 SR重構網絡權重篩選策略 設置S=sort(|W(t)|);k=N×s;λ=S(k);以λ為閾值選擇權重Mask=(|W(t)|>λ);while當前為隱藏層W(t)=W(t-1)-η(t)Δf(W(t-1),x(t-1));W(t)=W(t)·Mask;t=t+1;end
其中,s為設定的稀疏度,本文設為0.7。
稀疏連接的神經網絡能夠減少參數個數,降低運算復雜度。
本文實驗在inter core i7-8750H @2.20 GHz內存為8 GB的Win10環境下進行,使用Caffe深度學習框架。將原網絡訓練0.5×105次的模型取出進行稀疏化,稀疏化后的新網絡繼續訓練。本文實驗選擇圖像質量評價以及算法運行時間作為算法性能評判標準,對實驗結果進行分析。
以尺寸為457×343的航拍圖像為例,從主觀視覺效果看,SRSCNN具有較好的重構效果,如圖5所示。

圖5 航拍圖像SR重構效果
SRSCNN能夠大大縮短訓練時間,如圖6所示。以航拍圖像為例,SRSCNN迭代1×105次時,PSNR值為28.2;而原網絡FSRCNN需要迭代約2.1×105次才能夠得到相同的PSNR值。

圖6 PSNR隨迭代次數變化
選取兩種網絡訓練3×105次的模型與Bicubic方法進行對比驗證實驗,將Set 14數據集中的lenna、baboon、comic、flowers和face 5張自然圖像作為實驗對象。表2~表4分別是3種重構算法下的重構圖像的PSNR,SSIM,SGMSD評價指標對比結果。

表2 重構圖像PSNR值

表3 重構圖像SSIM值

表4 重構圖像SGMSD值
可以看到,在相同情況下,SRSCNN算法輸出圖像的PSNR、SSIM、SGMSD評價指標值普遍更高,圖像重構效果更好。
為對比算法的實時性能,分別將不同重構方法對相同的圖像重復運行500次,計算平均重構時間。表5所示為各方法的平均重構時間。

表5 平均重構時間
由表5所示可看到,對于尺寸約300×300~500×500的圖像,SRSCNN的重構速度約7~16 fps,達到實時性能。SRSCNN可以在不影響重構效果的情況下縮短訓練時間。
深度學習理論以其強大的學習能力,在圖像處理領域逐漸流行,其優越的數據處理能力有助于降低硬件設備要求。為加快網絡模型學習能力,本文提出了一種稀疏化的神經網絡SRSCNN,包含7個稀疏連接的卷積層和一個反卷積層,實驗通過PSNR、SSIM、SGMSD這3種圖像質量評價方法證明該網絡結構能夠避免過擬合,并且在不影響重構效果和計算速度的情況下縮短訓練時間。SRSCNN的重構速度較快,能夠達到實時性的要求,符合航拍圖像的處理環境。