郭慧婷 韓波 王雪 譚琨
(1 華東師范大學 河口海岸學國家重點實驗室,上海 200241)(2 中國空間技術研究院遙感衛星總體部,北京 100094)(3 華東師范大學 地理科學學院,上海 200241)(4 華東師范大學 地理信息科學教育部重點實驗室,上海 200241)
隨著我國高分辨率對地觀測系統重大專項(簡稱高分專項)的實施,我國發射了一系列的高分辨率和高光譜遙感衛星,如高分五號、資源一號02D衛星(又稱為5米光學業務衛星)。資源一號02D衛星搭載兩臺相機,其中多光譜相機可獲取115 km幅寬的9譜段多光譜數據,全色譜段空間分辨率可達2.5 m,多光譜為10 m;高光譜相機可獲取60 km幅寬的166譜段高光譜數據,可見近紅外和短波紅外光譜分辨率分別達到10 nm和20 nm,但與多光譜數據相比,其空間分辨率較低,為30 m。如果能對高光譜數據和多光譜數據進行有效融合,得到具有高空間分辨率的高光譜影像,將會進一步擴展資源一號02D衛星的應用場景。
目前,高光譜影像(Hyperspectral Image,HSI)與多光譜影像(Multispectral Image,MSI)融合方法主要包括成分替代法(Component Substitution,CS)[1-2]、多分辨率分析法(Multiresolution Analysis ,MRA)[3-5]、基于模型優化的方法[6-9]以及基于深度學習的方法[10-15]四類。其中,成分替代法和多分辨率分析法最早是為遙感影像泛銳化而設計的,可以將其應用擴展至HSI-MSI融合中。基于模型優化的方法將融合過程看作一個逆問題,根據光譜圖像的退化機理,建立待融合影像(HR-HSI)與觀測影像低空間分辨率高光譜影像(Low Resolution Hyperspectral Image,LR-HSI)和高分辨率多光譜影像(High Resolution Multispectral Image,HR-MSI)之間的關系模型,利用優化算法求解得到融合影像。盡管這些方法在高光譜影像與多光譜影像融合問題上取得了一定的效果,但仍然存在不足。成分替代法會因兩種影像的波長覆蓋范圍不完全一致導致融合后影像光譜失真;而多分辨率分析法只提取高分辨率影像中的高頻部分,融合后影像面臨著空間分辨率提高不足的問題;相比前兩種方法,基于模型優化的融合方法具有更高的融合精度,但模型求解復雜,此外,基于模型優化的融合方法嚴重依賴于人工設計的先驗特征。
與傳統方法相比,深度學習以其端到端的完整性訓練方式以及有效的深層高階特征挖掘方式而被廣泛應用到遙感影像的處理與分析中。在遙感影像融合領域,文獻[10]最早提出了一個泛銳化神經網絡(Pansharpening Neural Network,PNN)用于多光譜影像和全色影像的融合。雖然PNN是為泛銳化問題設計的,但它也可以直接應用于高光譜影像和多光譜影像的融合中。文獻[11]針對高光譜影像與全色影像的融合,提出高光譜泛銳化神經網絡(HyperPNN),通過增加光譜預測層提高了網絡的光譜預測能力。文獻[12]為高光譜影像與多光譜影像融合設計了一個3D-CNN網絡,使用3維卷積提取輸入影像的特征。然而上述方法都將兩種影像視為一個整體,網絡輸入的是兩種影像沿通道維度的拼接,忽略了它們各自的顯著特性。為解決這一問題,越來越多的學者放棄使用單支網絡。如文獻[13]中設計了一個包含兩分支的遙感影像融合神經網絡(RSIFNN)分別提取多光譜影像和全色影像的特征,將兩種特征融合用于影像重建。文獻[14]使用一維卷積和二維卷積分別提取高光譜影像的光譜信息和多光譜影像的空間信息,最后通過全連接層得到融合影像。文獻[15]受到U-net的啟發,將網絡分成編碼-解碼結構,其中特征提取部分使用兩個子網絡分別提取多光譜影像和全色影像的特征。以上實驗結果表明,基于深度學習方法的融合方法效果優于傳統方法。
通過分析已有的研究,本文根據資源一號02D衛星高光譜影像和多光譜影像的特點,提出了一種基于空譜特征分離式網絡(Spatial-Spectral Features Separated Network,SSFSN)的深度學習融合方法,實現端到端的高光譜影像與多光譜影像融合。

(1)
式中:f(·)表示輸入輸出之間的映射,θ表示待優化的參數,‖·‖F表示Frobenius范數。
本文應用深度學習方法進行HSI-MSI融合,提出空譜特征分離式網絡。具體的網絡結構如圖1所示,主要由3部分組成:①特征提取部分;②特征融合部分;③特征重建部分。其中,特征提取部分采用雙分支網絡架構分別提取LR-HSI和HR-MSI的特征,特征融合部分引入層次特征融合結構(Hierarchy Feature Fusion Structure,HFFS),特征重建部分利用通道注意力機制實現特征波段的選擇重建。此外,網絡借鑒了殘差學習的思想,在光譜保真的同時加快了訓練速度。

注:WRB為權重歸一化殘差塊,CA為通道注意力。
遙感影像特征提取是基于深度學習的圖像融合方法的關鍵環節,可以通過使用卷積結構完成自動提取。如圖1所示,每個分支分別使用一個3×3的卷積層提取輸入影像的淺層特征,其過程可以分別表示為
(2)
(3)

σ(x)=max (0,x)
(4)
提取到的淺層特征繼續輸入網絡進行深層特征的挖掘。文獻[16]中提出了殘差塊(Residual Block,RB)結構,并證實了這種結構在影像超分辨率重建任務中的有效性。本文在RB結構基礎上提出權重歸一化殘差塊(Weight Normalization Residual Block,WNRB),通過堆疊WNRB結構提取影像深層特征。RB結構和WNRB結構如圖2所示。

圖2 殘差結構與權重歸一化殘差結構Fig.2 Structures of RB and WRB
在影像融合過程中,充分利用提取到的特征對于影像重建來說是至關重要的。然而,隨著網絡深度的增加,這些特征會在前饋過程中逐漸消失。文獻[17]中提出了一種簡單的HFFS結構,即將每一層提取到的特征都送入網絡末端,并在最后引入了一個1×1卷積層對提取到的特征進行降維,有效避免了信息冗余并降低了計算復雜度,使得網絡可以自適應地從這些層次特征中提取有用的信息。
將HFFS結構引入網絡中,對于特征提取部分的兩分支各自使用一個HFFS結構進行層次特征的融合,得到兩分支中最有用的特征,再將其串聯拼接實現特征融合,表示為
Hhs=[H0,H1,…,Hn]
(5)
(6)
Hms=[M0,M1,…,Mn]
(7)
(8)
F=[Fhs,Fms]
(9)

網絡的最后一部分是從融合特征中重建出預期的高分辨率高光譜影像。由于融合特征的各通道包含了不同的信息,而各通道信息對最終的重建過程貢獻程度不同,因此,在特征重建部分引入CA機制以差異化各通道特征。CA機制可以動態調節不同通道的重要程度,從而更高效地使用網絡提取到的特征,結構如圖3所示。假設U表示輸入特征圖,特征圖的高、寬和通道數分別表示為L、S和C,對每個通道的特征圖進行全局平均池化(Global Average Pool,GAP),并將池化后的值作為每個通道的特征描述符,由此可以得到一個C維向量;其次,通過兩個全連接層和ReLU激活函數組成的門控機制生成通道特征;再次,用Sigmoid函數激活通道特征,得到每個通道的權重;最后,將通道權重與輸入特征相乘,獲得具有通道注意力的學習特征。
表述為
HGAP=Avgglobal(U)
(10)
FU=Sigmoid(WU(WD(HGAP)))
(11)
U′=FU×U
(12)
式中:HGAP為經過全局平均池化后的特征,FU為通道特征,U′為具有通道注意力的學習特征,Avgglobal(·)表示全局平均池化操作,WD(·)表示對通道數目縮減,WU(·)表示對通道數目擴充,Sigmoid激活函數的表達式為
(13)
在網絡的最后,使用一個3×3的卷積層重建融合影像。

圖3 通道注意力機制示意圖Fig.3 An illustration of the channel attention mechanism
為驗證本文方法的有效性,使用資源一號02D衛星采集的高光譜和多光譜數據進行融合試驗,數據介紹見表1。對獲取到的高光譜影像和多光譜影像進行輻射校正、幾何校正、噪聲波段去除、圖像裁剪等預處理操作。由于缺乏真實的高空間分辨率高光譜參考影像,故將融合過程分為兩個階段:第一階段為低分辨率訓練階段,基于Wald’s協議[18],將原始高光譜影像作為參考影像,將多光譜影像下采樣至和原始高光譜影像一樣的尺寸(空間分辨率為30 m),高光譜影像降采樣同等倍數作為低分辨率LR-HSI(空間分辨率為90 m),整體在縮小的比例上進行融合;第二階段為原始分辨率影像融合階段,由于卷積神經網絡具有尺度不變的特性,利用第一階段訓練好的網絡模型對原始高光譜影像和多光譜影像進行融合,最終得到符合需求的高空間分辨率高光譜影像(空間分辨率為10 m)。

表1 資源一號02D衛星數據介紹Table 1 Overview of ZY-1-02D satellite data
此外,采用均方根誤差(Root Mean Square Error, RMSE)、光譜角度映射(Spectral Angle Mapping, SAM)、相對全局綜合誤差(Erreur Relative Globale Adimensionnelle de Synthe’se, ERGAS)和空間相關系數(Spatial Correlation Coefficient, SCC)對融合影像進行定量評價。其中,RMSE、SAM、ERGAS值越接近0,表示融合質量越好;而SCC值越接近1,表示融合質量越好。
對比試驗設置為3個傳統融合方法:自適應施密特正交算法(GSA-HS)、平滑強度調制濾波算法(SFIM-HS)、非負矩陣分解算法(CNMF)以及2個深度學習方法:HyperPNN2、RSIFNN,將這5個方法與本文融合方法進行對比分析。表2顯示了圖像融合第一階段的定量評價結果,從表2可以看出,本文算法在各項指標上都取得了最優結果,同時,使用深度學習算法得到的結果大幅優于傳統算法。

表2 仿真數據融合質量評價指標Table 2 Quantitative evaluation of image fusion quality
圖4(a)和圖4(b)分別為原始多光譜影像和原始高光譜影像,原始分辨率影像融合結果如圖4(c)~4(f)所示。由于缺乏參考影像,僅展示融合影像的目視效果,這里給出了建筑區和植被區的局部放大圖。通過對比融合影像和多光譜影像的空間細節可以看出:本文提出的算法目視效果最優,生成的融合影像能夠很好地學習到多光譜影像的空間紋理特征,邊緣及紋理清晰,與多光譜影像的目視效果最為接近。SFIM-HS算法效果最差,在建筑物上出現了明顯的扭曲變形。CNMF、RSIFNN以及HyperPNN2算法在高亮度的建筑物區域表現較差,存在明顯的局部分界不清晰。GSA-HS算法也存在一定程度的細節模糊。通過指標定量評價結果和目視效果可知,本文提出的融合算法在紋理特征、邊緣細節及整體效果上均優于對比方法。


圖4 圖像融合算法實驗效果對比Fig.4 Experimental comparison of image fusional gorithms
本文針對資源一號02D衛星的高光譜影像與多光譜影像融合問題,提出了一種空譜特征分離式網絡基于深度學習方法,實現了高光譜影像與多光譜影像的有效融合。試驗結果表明:提出的方法在目視效果和評價指標上均優于對比方法。該方法的提出擴展了國產資源一號02D衛星遙感影像的應用場景,為其在農作物精細分類、微小目標異常探測等方面的應用提供了可能。