祁成曉, 劉 芳, 孫 策, 曲振方, 朱福珍
(1.黑龍江大學 電子工程學院, 哈爾濱150080;2.黑龍江東方學院 信息工程學院, 哈爾濱150086)
圖像超分辨率重建技術在許多場景中有著廣泛應用,該技術可以實現從退化圖像中恢復高頻信息。傳統算法主要是基于插值和基于重建的方法[1-4]。隨著深度學習的發展,基于深度學習的方法在該領域中占據著主導地位。2014年,Dong等首次提出超分辨率技術(Super-resolution convolutional neural network, SRCNN)算法,該模型用一個3層的網絡結構,實現了低分辨率圖像特征提取、映射關系學習以及圖像重建的過程,取得了很好的效果。Kim基于此進行改進,提出了VSDR[5]和DRCN[6]模型,通過加深網絡模型深度,實現了重建質量更好的高分辨率圖像目標。隨著殘差塊[7]的提出,研究圍繞著如何提升網絡深度,Zhang等提出了一種密集連接的網絡,通過加入注意力機制的方式提升殘差塊的性能[8-9]。2017年,Ledig等首次提出基于生成對抗網絡的SRGAN算法,使用判別對抗的訓練方式,使得重建圖像在視覺上更接近人眼感知效果[10-15]。本文在SRGAN的基礎上進行改進,提出一種以對抗生成網絡為主體的更加輕量的網絡結構。
本文構建的級聯殘差對抗生成網絡(Cascading residual generative adversarial network,CRGAN)描述如下:在生成網絡中,提取的特征信息進入殘差塊(Residual block,RB)前首先進行分組卷積,實現降低參數量的目的,每3個殘差塊組成一個級聯塊(Cascading block,CB),信息流進入每一個級聯塊前,對上一級的輸出利用1×1的卷積核進行融合壓縮。殘差塊進行局部(級聯塊內和殘差塊間)和全局的融合(級聯塊間),實現特征信息在這種連接中傳遞到更加深層的網絡。接著生成網絡的重建圖像輸入到判別網絡進行判別,并且研究了對抗損失和感知損失對超分辨重建圖像的影響。
對抗生成網絡結構示意圖如圖1所示。這種網絡生成的圖像更加接近人眼感知效果,具有更加豐富的紋理細節。該網絡模型包括生成器子網絡G和判別器子網絡D,生成器G用于重建圖像的過程,而判別器D是二分類的過程,對生成器G生成的圖像和真實高分辨率圖像進行判別。

圖1 對抗生成網絡結構
將該網絡用于圖像超分辨領域,低分辨率圖像ILR輸入到生成器網絡,輸出為生成的超分辨率圖像ISR,超分辨率圖像ISR和原始高分辨率圖像IHR作為判別網絡的輸入,輸出判別概率,函數式為:
(1)
網絡架構圖如圖2所示。在生成網絡中,將殘差塊進行密集連接,每3個殘差塊組成一個級聯塊,特征信息進入每一個級聯塊前,對前級的聯塊輸出信息利用1×1的卷積核進行融合壓縮,殘差塊包含跳躍連接的部分,可以將特征信息傳遞到更深層網絡。

圖2 CRGAN整體網絡結構圖
引用SRGAN網絡的思想,通過對原有的生成器網絡結構進行改進,在生成網絡中,對內部殘差塊結構改進,同時改變殘差塊之間的連接方式。殘差塊每3個分為一組,每3個殘差塊通過級聯的方式構成一個級聯塊,信息流在進入每一個級聯塊前,都要對之前的級聯塊的輸出利用1×1的卷積核進行融合壓縮,級聯塊內的3個殘差塊也采用相同的連接方式,實現圖像的超分辨重建。下面具體介紹級聯塊和改進后的殘差塊。
2.1.1 級聯塊
每個級聯塊包含3個殘差塊,3個殘差塊通過本文設計的連接方式構成一個級聯塊,級聯塊結構如圖3所示,灰色的模塊表示本文提出的一種新的殘差塊,同時級聯塊中殘差塊的數量確定,文中實驗部分在保證其他條件完全相同的條件下,用1~5個殘差塊分別構造級聯塊,用于分析殘差塊數量對模型最終重建能力的影響,最終選定每個級聯塊中包含3個殘差塊。

圖3 級聯塊結構
2.1.2 新的殘差塊
使用一種新的殘差塊結構(Residual-E)[16-18],如圖4所示,首先分組卷積用來降低參數量,考慮到BN層產生的偽影問題,所以Residual-E結構去掉BN層,同時修改激活函數,加入分組卷積。傳統的激活函數Relu會導致負區間梯度消失的現象,其表達式為:

圖4 殘差塊結構對比
(1)
因此,使用LeakyReLU作為非線性激活函數,可表示為:
(3)
式中a是一個(0,1)區間內的實數,這種激活函數可以保證不會丟失負樣本信息。
設K為核大小;Cin和Cout分別為輸入和輸出通道數;F表示輸入特征大小和輸出特征大小。單個殘差塊的計算量為(忽略激活和累加)2×(K·K·Cin·Cout·F·F)。設G為分組大小,那么改進后的殘差塊計算量為:
(4)
則新的殘差塊的計算量和原殘差塊的比例為:
(5)
因此,可以通過調節分組數目和輸入、輸出的通道數目來減少計算量,提升效率。本文使用的通道數恒為64,所以k值不作考慮,文中設置的分組數目為4,計算量降低了約3.998倍。
生成網絡的具體實現過程如下:
(1)卷積層提取低頻圖像特征;
(2)特征進入殘差塊前進行分組卷積,降低參數量;
(3)隨著網絡深度加深,學習高頻圖像特征;
(4)通過對每個外部級聯塊的輸出進行一次1×1的卷積,聚合不同級聯塊圖像的特征;
(5)將聚合不同級聯塊的特征通過亞像素卷積層,實現對低分辨圖像2倍的上采樣;
(6)最后通過3×3卷積,實現圖像超分辨重建的過程。
生成模塊包括3個外部級聯塊、9個內部殘差塊和亞像素卷積層。多層級聯連接作為多層快捷連接,實現了將信息從較低層快速傳播到較高層的目標。
傳統超分辨率卷積神經網絡模型基于像素損失函數生成重建圖像,這類方法對圖像的細節生成效果不佳,對于圖像的局部區域銳化程度不夠。本文采用對抗訓練的方式,判別網絡模型結構如圖5所示,該網絡以生成的超分辨圖像和原始高分辨圖像作為輸入,用VGG-16模型作為判別網絡,首先8個卷積層用來提取圖像的512維特征,最后輸入到兩個全連接層和Sigmoid激活函數,判定圖像來源。

圖5 判別器子網絡結構
損失函數對于重建任務十分重要,如果僅僅選擇均方誤差損失作為優化的目標,可以獲得較高的客觀評價指標,但是恢復的圖像信息過于平滑,丟失了邊界信息[19-21]。為此本文模型優化感知損失函數lp、并行優化像素損失函數lMSE和對抗損失函數la。三者以加權的形式集成,損失函數可表示為:
l=lp+λ1lMSE+λ2la
(6)
式中λ1和λ2分別為調節各個損失項權重的正則因子。
2.3.1 像素損失
在圖像的超分辨重建領域,常用最小均方誤差(Mean square error,MSE)作為損失函數,MSE越小,超分辨出的圖像和原圖像相似度就越高,其對應的損失函數定義為:
(7)
2.3.2 感知損失
基于MSE損失函數重建結果的峰值信噪比(Peak signal to noise ratio, PSNR)較高,但結果會因缺乏高頻細節使得圖像過于平滑,為了解決這一問題,在模型損失項中加入感知損失,感知損失的定義為:
(8)
式中:Di是判別器子網絡的第i層;Ci是第i層對應的通道數;Hi和Wi分別是第i層特征圖的長和寬。
引入獨一無二的文化主題特色,結合不同區域文化特色打造實體經濟,是目前傳統實體經濟防御電商沖擊的不可缺少的因素。像我們現在身邊出現的主題餐廳、主題圖書館,都是吸引顧客到實體店消費的因素。
2.3.3 對抗損失
根據生成對抗網絡的思想,對抗損失的公式為:
la=-Exr[log(1-DRa(xr,xf))]-Exf[log(DRa(xf,xr))]
(9)
實驗在Intel Core Xeon E3 3.30 GHz,NVIDIA GTX 2080Ti GPU硬件環境下進行,選擇PyTorch深度學習框架訓練網絡。圖像預處理過程主要包含兩個方面:(1)對圖像進行以下位置變換,如平移、轉置、鏡像、旋轉和縮放等處理方式,可以增加數據集的數量,提高模型的泛化性;(2)突出樣本中的有用信息,強調某些區域的特征,擴大不同物體的特征差別,加強圖像訓練效果,滿足某些特殊分析的需要[9-12]。基于深度學習的方法需要大量數據支撐,樣本量越大,模型的泛化性越好。目前,可供選擇的公開遙感數據集較少,本文選擇了200幅自建大尺寸高清遙感圖像,為了實現樣本增強,對選取圖像進行裁剪,變成128×128的尺寸,再分別進行旋轉和平移,實現擴大訓練樣本的目的。對高清圖像進行雙三次插值,通過這種下采樣的方式得到低分辨率圖像數據集。
重建圖像客觀評價主要參考兩項指標:圖像的PSNR和結構相似性(Structural similarity,SSIM)。
(10)
(11)
3.2.1 殘差塊數量對模型性能的影響

表1 不同數量殘差單元測試
3.2.2 CRGAN與SRGAN實驗效果對比
為了驗證所提出的CRGAN在測試集上的重建效果,與原SRGAN算法進行對比。

(a)真實值
放大重建圖像,由重建的效果圖可以看出,本算法重建的圖像高頻信息更加豐富,更接近原圖效果。本次實驗過程中,選取8張遙感圖像進行測試,計算兩種算法的網絡模型重建出的2倍的高分辨率圖像與真實高清圖像相比的PSNR和SSIM,結果如表2所示。由結果可知,所提出算法的兩個定量評估指標都明顯優于SRGAN,峰值信噪比較SRGAN算法提升0.48 dB,結構相似度提升0.023。

表2 測試遙感圖像SR的PSNR對比/dB

表3 遙感圖像SR的SSIM對比
構建了以生成對抗網絡為主體框架的CRGAN算法,在生成網絡中,將殘差塊進行密集連接,每3個殘差塊組成一個級聯塊,特征信息進入級聯塊前,對前級聯塊的輸出利用1×1的卷積核進行融合壓縮。殘差塊進行了局部(級聯塊內和殘差塊間)和全局的融合(級聯塊間),使得特征信息在這種連接中傳遞到深處。引入對抗訓練的方式,融合感知損失函數,無論是主觀視覺效果還是客觀評價指標都有較大的提升,提升遙感地物細節信息的同時,改善了遙感圖像視覺效果,在軍用和民用領域有很大的參考價值。后續將繼續優化網絡結構,提高對模型細節特征重構的能力,加快重建速度,并且增加多幀圖像超分辨的研究。