曹春萍, 李 昂
(上海理工大學光電信息與計算機工程學院, 上海 200093)
遙感圖像是通過使用遙感技術(包括飛機、火箭、衛星或其他空間平臺)從空中遠距離對地面目標物進行觀測而獲取到的圖像。目前,遙感圖像數據在許多領域都得到有效應用,例如農林業資源調查、環境監測、災害監測和評估、城市規劃等。然而,在遙感圖像獲取的過程中會不可避免地受到外在因素的影響,包括大氣湍流、通道傳輸能力限制、遠距離成像困難等,導致獲取的遙感圖像存在分辨率比較低的問題。綜合考慮硬件成本,可以使用遙感圖像超分辨率技術獲取到更高質量和分辨率的遙感圖像。
傳統的遙感圖像超分辨率技術有基于插值的方法[1]、基于重構的方法[2]和基于深度學習的方法[3]。基于插值的方法雖然計算復雜度較低,但是在進行遙感圖像重建時,只能恢復圖像的低頻信息,圖像效果較差。基于重構的方法通常需要足夠的先驗知識,而且重建速度較慢,在先驗知識不足的情況下重建效果不理想。基于深度學習的方法從低分辨率圖像提取特征圖,再將特征圖與高分辨率圖像之間建立映射,重建高分辨率圖像,通過這種方法重建的圖像在客觀評價指標和視覺效果方面均明顯優于基于插值的方法和基于重構的方法。
DONG等[4]率先提出了經典的超分辨率卷積神經網絡(Super-Resolutional Convolution Neural Networks,SRCNN),利用卷積神經網絡(Convolutional Neural Networks,CNN)學習低分辨率(Low-Resolution,LR)圖像與高分辨率(High-Resolution,HR)圖像進行特征映射。隨后,DONG等[5]在SRCNN的基礎上提出了FSRCNN(Fast Super-Resolutional Convolution Neural Networks)模型,增加了模型的網絡層數,有效重建出更多的高頻細節,但模型的訓練難度也有所增加。KIM等[6]提出深度卷積網絡超分模型(Very Deep Super-Resolutional Neural Networks,VDSR),利用多層CNN連接實現特征級聯,大大提升了學習率,加快了網絡收斂速度,證明了超分模型的網絡深度對超分辨率重建的重要性。隨著網絡深度的增加,網絡在訓練過程中會出現梯度消失和梯度爆炸等問題,研究者們為了避免此問題的發生,開始鉆研新的結構。HE等[7]提出殘差網絡(Residual Network,ResNet),通過在網絡結構中引入殘差單元,避免了梯度問題,保證了模型的順利收斂,為后續的研究者提供了搭建深層卷積網絡的思路。LIM等[8]提出EDSR(Enhanced Deep Super-Resolution Network),通過堆疊殘差塊構建了更深的網絡結構,重建出質量更高的圖像。隨后,在遙感圖像超分辨率重建中,人們不斷構建出越來越深的卷積神經網絡用于捕捉更多圖像的深層信息。然而隨著網絡層數的不斷加深,超分重建再次進入了瓶頸,研究者們發現網絡到達一定的深度后,想通過增加網絡層數提升網絡性能,效果微乎其微。為了重建出更好的圖像,研究者繼續探索新的方法。當前,大多數模型對待通道特征是平等的,然而實際上各通道特征對圖像重建的重要性并不相同,因此充分利用通道特征成為提升重建圖像質量的新的突破點。HU等[9]通過在網絡中加入壓縮-激勵(Squeeze-and-Excitation,SE)模塊構建壓縮-激勵網絡(Squeeze-and-Excitation Network,SENet),計算不同通道之間的權重,將通道注意力用于圖像處理中,重建出更優質的圖像。受通道注意力的啟發,WOO等[10]在網絡中加入通道注意力和空間注意力,并將兩者進行融合,提出了瓶頸注意力模塊(Bottleneck Attention Module,BAM)和卷積注意力模塊(Convolutional Block Attention Module,CBAM),ZHANG等[11]在殘差塊中融入通道注意力,提出殘差通道注意力網絡(Residual Channel Attention Network,RCAN),WOO等和ZHANG等提出的模塊和網絡模型都取得了更好的重建效果。
當前的遙感圖像重建模型大多使用單一尺寸的卷積核,在應用于遙感圖像的重建提取特征時,由于遙感圖像目標物體尺寸差異較大,學習能力有限,捕捉到的特征不足,因此無法重建出高質量的圖像。
為了解決上述問題,本文提出融合多尺度信息和混合注意力網絡(Fusion of Multi-Scale Information and Hybrid Attention Networks,FMSIHAN),設計了兩種多尺度特征提取塊,通過多尺度信息融合和混合注意力塊(Multi-Scale Information Fusion and Hybrid Attention Block,MSIFHAB)和多尺度類金字塔特征提取塊(Multi-Scale Pyramid-Like Feature Extraction Block,MSPLFEB)提取多尺度特征,并通過MSIFHAB中的混合注意力塊對提取的多尺度特征自適應地分配權重,有助于捕捉圖像的高頻和低頻信息,進而獲得更好的重建效果。
融合多尺度信息和混合注意力網絡由淺層特征提取塊、多尺度特征提取塊(Multi-Scale Feature Extraction Block,MSFEB)、全局特征融合塊和重建模塊組成,網絡總體結構如圖1所示。

圖1 網絡總體結構Fig.1 Overall network architecture
淺層特征提取塊為一個3×3的卷積層,用來提取輸入LR遙感圖像的淺層特征,并將特征圖的通道數由3變為64,這個過程可以表示如下:
F0=fConv3×3(ILR)
(1)
其中:ILR代表模型輸入的低分辨率遙感圖像;fConv3×3(·)代表卷積操作,用來提取ILR的淺層特征;F0代表ILR經過淺層特征提取塊提取到的淺層特征圖。
每個MSFEB由若干個多尺度信息融合和混合注意力塊、若干個多尺度類金字塔特征提取塊組成,多尺度特征提取塊結構圖如圖2所示。輸入特征圖經過多尺度特征提取塊的過程可以表示如下:

圖2 多尺度特征提取塊結構圖Fig.2 Structure diagram of multi-scale feature extraction block
Fi=fMSPLFEB1(fMSIFHAB1(fMSPLFEB2(fMSIFHAB2(fMSPLFEB3(Fi-1)))))
(2)
其中:Fi-1代表輸入多尺度特征提取塊的特征圖;fMSPLFEB1(·)、fMSPLFEB2(·)、fMSPLFEB3(·)代表多尺度類金字塔特征提取塊的多尺度特征提取操作;fMSIFHAB1(·)、fMSIFHAB2(·)代表多尺度信息融合和混合注意力塊的多尺度特征提取操作;Fi代表經過多尺度特征提取塊后輸出的特征圖。
2.2.1 多尺度信息融合和混合注意力塊
針對大多數圖像,傳統的卷積神經網絡通常采用單一的卷積層提取圖像特征,重建得到的高分辨率圖像質量可以達到使用者的要求。然而,通過衛星等遙感技術獲取的遙感圖像,其內部包含的物體尺寸差異較大,在對這類圖像進行超分辨率重建時,若使用較小尺寸的卷積核提取特征,由于感受野較小,所以對高頻信息的提取能力不足;若使用較大尺寸的卷積核提取特征,將丟失一部分圖像像素信息。也就是說,使用單一尺寸的卷積核進行特征提取時,學習能力有限,無法重建出高質量的圖像。因此,本文設計了多尺度信息融合和混合注意力塊,通過使用卷積層、下采樣操作和平均池化層提取特征圖中的高頻和低頻特征,再通過混合注意力機制,自適應地調整多尺度特征的權重。多尺度信息融合和混合注意力塊結構圖如圖3所示,圖3中的W、H、C分別代表特征圖的寬度、高度、通道數。

圖3 多尺度信息融合和混合注意力塊結構圖Fig.3 Architecture of MSIFHAB
構建多尺度信息融合和混合注意力塊的步驟所示。
首先,將輸入特征圖分別送入三個不同的卷積層,其中第一個卷積層從下采樣操作后的特征圖中提取低頻特征;第二個卷積層從原始尺寸的特征圖中經過平均池化層提取低頻特征;第三個卷積層從原始尺寸的特征圖中提取高頻特征。經過下采樣操作得到的特征圖經過反卷積恢復到下采樣操作前的原始尺寸。經過三個不同的卷積操作后,得到三種尺度不同的特征信息,這個過程可以表示如下:
FC=ReLU(TConv4×4(Downs(FMSI-in)))+AvgConv3×3(FMSI-in)+
ReLU(fConv3×3(FMSI-in))
(3)
其中:FMSI-in代表輸入特征圖;Downs(·)代表下采樣操作;TConv4×4(·)代表反卷積操作;AvgConv3×3(·)代表平均池化操作;FC為輸出的多尺度特征圖。
其次,為了充分利用多尺度特征信息,本文提出混合注意力機制,混合注意力塊(Hybrid Attention Block,HAB)結構圖如圖4所示,通過對不同的尺度特征自適應地分配不同的權重,使網絡能學習到對圖像重建更有價值的特征,這個過程可以表示如下:
FS=[CA(FC)+FC]+SA(CA(FC))+[SA(FC)+CA(FC)]
(4)
其中:CA(·)代表通道注意力機制,與CBAM中的通道注意力保持一致;SA(·)代表空間注意力機制,和CBAM中的空間注意力保持一致;FS代表輸出的加權多尺度特征圖。
最后,通過一個3×3的卷積層將加權后得到的特征圖和加權前的多尺度特征圖融合為多尺度信息融合特征圖,并且通過跳躍連接避免模型在訓練過程中出現梯度消失等問題,這個過程可以表示如下:
FMSI-out=FMSI-in+FC+fConv3×3(FS)
(5)
其中,FMSI-out為輸出的多尺度信息融合特征圖。
2.2.2 多尺度類金字塔特征提取塊
多尺度類金字塔特征提取塊結構圖如圖5所示,K為卷積核尺寸,N為輸入通道數,D為擴張率。多尺度類金字塔特征提取塊由四個部分組成,第一部分包含四個不同感受野的卷積層,第二部分包含三個不同感受野的卷積層,第三部分是一個將通道數恢復到64的1×1的卷積層,第四部分是一個跳躍連接。

圖5 多尺度類金字塔特征提取塊結構圖Fig.5 Architecture of MSPLFEB
構建多尺度類金字塔特征提取塊的步驟如下。
首先,將輸入特征圖分別送入多尺度類金字塔特征提取塊第一部分的四個不同感受野的卷積層,這四個卷積層的輸入通道數為64,輸出通道數為16,卷積核尺寸分別為1×1、3×3、3×3和3×3,擴張率分別為1、1、2和3,這個過程可以表示如下:

(6)

其次,將FMSP1分別送入多尺度類金字塔特征提取塊第二部分的三個不同感受野的卷積層,這三個卷積層的輸入通道數為16,輸出通道數為32,卷積核尺寸分別為1×1、3×3和3×3,擴張率分別為1、1和2,這個過程可以表示如下:
(7)

最后,將FMSP2送入多尺度類金字塔特征提取塊第三部分的卷積層,并通過跳躍連接將第三部分的輸出結果與多尺度類金字塔特征提取塊的輸入特征圖進行殘差連接,這個過程可以表示如下:
(8)

經過n個多尺度特征提取塊得到多尺度特征圖后,通過一個3×3的卷積層將其整合,這個過程可以表示如下:
FMF=fConv3×3(Fn)
(9)
其中:Fn代表經過n個多尺度特征提取塊得到的多尺度特征圖;FMF代表整合后得到的多尺度特征整合圖。
通過一個跳躍連接,將通過淺層特征提取塊得到的淺層特征圖和多尺度特征整合圖進行融合,得到全局特征融合圖,這個過程可以表示如下:
FGF=F0+FMF
(10)
其中,FGF代表全局特征融合圖。
本文所提模型中重建模塊的作用是將全局特征融合圖映射成超分辨率圖像,由兩個部分組成,包括亞像素卷積層和一個3×3的卷積層。全局特征融合圖經過亞像素卷積層上采樣后,再通過一個3×3的卷積層重建得到高分辨率圖像:
ISR=fConv3×3(Pixel(FGF))
(11)
其中:Pixel(·)代表亞像素卷積操作;ISR代表低分辨率遙感圖像經過本文模型重建得到的高分辨率遙感圖像。
本文模型使用的損失函數是平均絕對誤差(Mean Absolute Error, MAE),它是目前深度學習領域遙感圖像進行超分辨率重建廣泛使用的損失函數:
(12)

本文實驗使用的兩個數據集均是真實遙感數據集,分別為NWPU-RESISC45和UCMerced-LandUse。NWPU-RESISC45數據集是西北工業大學公布的用于遙感圖像場景分類的大規模公開數據集,數據集共有31 500幅圖像,其中包含45個類別,每個類別分別包含700幅圖像。UCMerced-LandUse數據集是由UC Merced計算機視覺實驗室公布的用于遙感圖像場景分類的公開數據集,共有2 100幅圖像,其中包含21個類別,每個類別分別包含100幅圖像。本文從NWPU-RESISC45數據集中airplane類別的700幅圖像中隨機選取500幅圖像作為訓練集,剩余的200幅圖像隨機選取一半設置為驗證集,另一半設置為測試集,命名為NTest[12]。設置UCMerced-LandUse數據集中airplane類別的100幅圖像為第二個測試集,命名為UTest。
通過將圖像進行隨機水平翻轉以及隨機旋轉90°、180°、270°增強數據集,獲得更多的訓練數據。
本文實驗的硬件環境為Intel(R) Xeon(R) Platinum 8255C CPU處理器及NVIDIA RTX 2080TI 11 GB GPU;軟件環境為PyTorch 1.8.1框架、Python 3.8和64位Ubuntu18.04操作系統。本文所提模型采用ADAM算法進行優化,優化器參數設置為beta1=0.9,beta2=0.999,ε=10-8,訓練批大小設置為16。訓練開始時,學習速率設置為10-4,在迭代200個epoch后,學習速率降低一半,總迭代次數為400個epoch。在實驗過程中,使用峰值信噪比(Peak Signal to Noise Ratio, PSNR)和結構相似性(Structural Similarity,SSIM)作為評估指標,PSNR值和SSIM值越大,則重建效果越好。
圖6給出了訓練過程中損失函數的變化趨勢,橫坐標代表迭代次數,縱坐標代表訓練的損失,可以看出當迭代次數達到300個epoch后,損失趨于穩定。

圖6 訓練過程中損失函數的變化趨勢Fig.6 Trend of loss function during training
為驗證本文所提模型中使用的多尺度信息融合和混合注意力塊(MSIFHAB)、多尺度類金字塔特征提取塊(MSPLFEB)及混合注意力塊(HAB)的有效性,通過組合不同的塊設置消融實驗。消融實驗中,本文所提模型中的多尺度特征提取塊(MSFEB)的個數設置為1個,放大因子設置為2,總共迭代200個epoch。不同的塊組合及實驗結果如表1所示。其中:M1模型為去除MSPLFEB塊和MSIFHAB塊中的HAB塊;M2模型為去除MSPLFEB塊;使用和CBAM相同的通道注意力機制(CA)和空間注意力機制(SA)替換MSIFHAB塊中的HAB塊;M3模型為去除MSPLFEB塊;M4模型為去除MSIFHAB塊;M5模型為同時包含MSPLFEB塊和MSIFHAB塊。
從表1中M1、M2、M3模型在測試集上得到的PSNR值不難看出,沒有注意力機制的M1模型重建得到的圖像在兩個測試集上得到的PSNR值均為最低且明顯低于其他模型。加入CA和SA后的M2模型重建得到的圖像在測試集上得到的PSNR值相比M1模型有了明顯提升,而加入HAB的M3模型在兩個測試集上得到的PSNR值比M2模型提高了0.07 dB和0.08 dB。由此可見,注意力機制在遙感圖像超分辨率重建網絡中發揮了重要的作用,而本文提出的HAB相比其他注意力機制表現出更優的性能。從表1中M3、M4、M5模型在測試集上得到的PSNR值可以看出,本文模型單獨保留MSPLFEB塊或MSIFHAB塊后的指標均低于同時包含兩個塊的模型,證明了本文模型各塊的有效性。

表1 不同塊組合在測試集上的平均PSNR值
為了驗證本文模型的有效性,本文選取了7個具有代表意義的重建模型(包括SRCNN、IDN[13]、LGCNet[14]、RCAN、MPSR、IRN[15]和DSSR[16])設置對比實驗,分別從客觀評價指標和主觀視覺效果兩個方面進行分析。
3.4.1 客觀評價指標
表2和表3分別給出了放大因子為2、3、4時,各模型在兩個測試集上的PSNR值和SSIM值,表中的黑體數字表示模型的最佳結果。

表2 各模型在測試集上的PSNR值
從表2和表3中可以看出,出現最早的SRCNN模型在所有場景下得到的PSNR值和SSIM值均為最低。其他模型隨著模型層數的加深以及更加有效的塊的加入,PSNR值和SSIM值相對于SRCNN模型均有明顯增長。在所有場景里,本文提出的模型性能均為最優。
3.4.2 主觀視覺效果
本文選取了兩個測試集中的三幅遙感圖像的重建結果進行展示,圖7、圖8和圖9分別為各模型在放大因子為2、3、4時的重建效果對比圖。在這三幅圖片中,左邊的大圖為高清圖像,在高清圖像中用方框標記了關鍵區域,右邊八個小圖則是不同模型重建后的圖像的標記區域的放大圖。通過仔細對比發現,本文所提模型重建得到的遙感圖像在飛機邊緣和紋理細節等方面,均優于其他模型重建后的遙感圖像。在放大因子為4時可以看到SRCNN、IDN、LGCNET等模型重建后的圖像整體仍比較模糊,無法看到清晰的邊界,而本文所提模型重建后的圖像已經可以清晰地看到飛機的邊緣輪廓。通過主動視覺效果對比實驗,證明了本文所提模型中的多尺度特征提取塊能更清晰地恢復遙感圖像的高頻信息,重建得到的高清遙感圖像擁有更好的主觀視覺效果。

圖7 放大因子為2時各模型重建效果對比Fig.7 Comparison of reconstruction effects among different models when the amplification factor is 2

圖8 放大因子為3時各模型重建效果對比Fig.8 Comparison of reconstruction effects among different models when the amplification factor is 3

圖9 放大因子為4時各模型重建效果對比Fig.9 Comparison of reconstruction effects among different models when the amplification factor is 4
本文提出了一種基于融合多尺度信息和混合注意力的遙感圖像超分辨率重建模型。多尺度信息融合和混合注意力塊能充分提取多尺度特征,并利用混合注意力機制自適應地調整多尺度特征通道之間和空間區域的權重,增強了網絡重建的性能。多尺度類金字塔特征提取塊通過使用不同尺寸、不同擴張率的卷積核增大了網絡的感受野,使網絡可以學習到更多的高頻特征。本文設計了豐富的消融實驗以及對比實驗,并對實驗結果進行了定性、定量分析,證明了本文所提模型的有效性和魯棒性。未來的研究將致力于優化網絡結構和縮短模型的訓練時間及進一步提高圖像重建效果。