靳道明,李路沙
(1. 中國鐵路設計集團有限公司,天津 300142)
高分辨率遙感影像具有豐富的細節與地物信息,廣泛應用于地物分類、目標識別、變化檢測等領域[1]。多光譜遙感衛星通過搭載不同波段的傳感器針對不同地物的光譜反射特性獲取相應的影像,但受限于技術或成本,通常提供高分辨率的全色影像和低分辨率的多光譜影像。低分辨率影像會出現像元混淆,無法反映地面真實情況,因此對于高分辨率多光譜影像的需求不斷增加。遙感影像融合技術旨在結合全色影像的分辨率優勢與多光譜影像的光譜優勢得到高分辨率多光譜影像。傳統遙感影像融合方法主要分為分量替換和多分辨率分析[2],分量替換是將低分辨率多光譜影像上采樣后轉換至特定的維度,再將全色影像替換轉換后影像的某一分量,最后對融合影像進行逆轉換得到最終影像,包括強度—亮度—飽和度變換法(將影像中強度分量替換為全色影像)、主成分分析法、Gram-Schmidt分解等,但由于全色波段的光譜范圍和光譜特征與多光譜波段存在差異,引入空間細節的同時會引起光譜失真;多分辨率分析是將提取的全色影像中的高頻特征注入到上采樣后的多光譜影像中,包括抽取或非抽取小波變換[3]、拉普拉斯金字塔等。上述方法均在視覺上有較好的效果,但算法較固定,且在融合過程中易產生光譜信息損失,影響遙感影像質量。相較于傳統方法,機器學習方法具有靈活性和可學習性的優點[4],如壓縮感知、字典學習等方法在遙感領域的成功應用。自2014年有學者利用CNN結構解決遙感影像融合問題[5]以來,CNN 在遙感融合領域的發展不斷加快,Masi G[6]等設計了3層卷積結構的網絡,通過變換不同波段組合的方式提升網絡的訓練效果;Yang J F[7]等構建了分別涵蓋光譜特征和空間特征的雙通道網絡;Scarpa G[8]等通過CNN結構中損失函數、網絡結構和訓練策略的LI-RES-微調最優組合,建立了影像融合網絡A-PNN結構。
相對于影像識別等復雜任務來說,分辨率重建任務的輸出影像與原影像有很高的相似性,因此過于復雜的網絡結構并不利于數據相似特征的傳遞,而僅保留卷積層和激活函數等基本模塊的網絡在影像融合領域具有更強的適用性。本文在設計網絡時,參考了PanNet 結構的雙通道特性,從光譜特征和空間特征兩個角度出發搭建網絡,并在空間通道中加入多尺度模塊,以提高空間通道獲取特征的能力。
CNN作為一種高度依賴于標簽數據的全監督網絡結構,在訓練時需以標簽數據(真值)作為評判網絡輸出結果質量的標準;但在影像融合領域,高分辨率多光譜影像是未知的,如何獲取標簽數據就顯得尤為重要。根據Wald 協議,假定在不同分辨率下進行影像融合過程具有自相似性,根據融合前后分辨率提升的倍率,對影像進行相同倍率的降采樣處理,作為訓練數據;再將原有數據看作標簽數據,即在低分辨率下進行網絡訓練,訓練完成后,在原始分辨率下對未知影像進行融合即可得到結果。在模擬融合過程中,通過損失函數評定網絡輸出值與真值的近似程度,再對網絡中的參數進行調整,經過多次迭代直至網絡收斂并趨于穩定后,網絡訓練完成;預測時將待融合影像輸入網絡,利用訓練好的網絡參數得到融合結果(圖1)。

圖1 深度學習方法實現遙感影像融合過程
遙感影像融合通常分為特征數據提取、非線性映射和影像重構3 個步驟。由于遙感影像的光譜特征與空間特征差異較大,兩種特征的提取過程應獨立進行,因此為在引入高頻空間信息的同時最大程度地保持原影像的光譜信息,本文提出了一種雙通道CNN,分別處理多光譜數據和全色數據。考慮到地物的尺寸差異明顯、空間信息與尺度大小關系密切,在搭建全色通道時引入多尺度模塊,旨在從不同尺度全面獲取全色波段中的高頻空間信息;且高分辨率多光譜影像與低分辨率多光譜影像具有高度相似性,由上述復雜的網絡結構對于光譜特征的傳遞不具有適用性。
本文的網絡結構見圖2,在光譜通道中引入殘差結構,使網絡訓練的目的由學習輸出值變為學習輸出值與輸出值差異,既能降低網絡的學習難度,又能最大限度地避免輸入影像的光譜信息產生損失。為了使光譜影像更好地與高頻空間信息相結合,在光譜數據輸入網絡前對影像進行高斯濾波,剔除低頻信息。本文的網絡中多尺度模塊為特征提取階段;在后續的卷積層中以ReLU 為激活函數獲取影像中的非線性數據,最后結合兩種數據對影像進行重構。

圖2 雙通道影像融合網絡結構示意圖
分辨率重建后的影像質量評價包括全參考和無參考兩種,全參考指數需與參考影像作為比較。均方根誤差(RMSE)能反映融合影像與真值之間的的離散程度,值越小代表越接近真值:
式中,x、y分別為測試影像和參考影像;N為像素數量。
相對全局誤差(ERGAS)是從整幅影像的角度對影像質量進行評價,值越小代表越接近真值:
式中,N為波段數;M為輻射均值;為重建倍率。
Q值通過計算融合結果與真值之間的相關系數判斷影像質量,越接近于1,表示二者差異越小:
式中,σx、σy為x、y的標準差。
光譜角測度(SAM)通過計算融合影像與真值像素向量的絕對差值判斷影像質量,越接近于0,表示二者向量差值越小:
式中,N為像素數量;v為對應像元的列向量。
Dλ通過計算融合影像與原多光譜影像差值的1范數獲取融合影像在光譜分量上的質量,越接近于0,表示影像的光譜質量越好:
Ds與Dλ相似,通過計算融合影像與全色影像差值的1 范數評價影像在空間分量上的質量,越接近于0,表示影像的空間質量越好:
式中,x、X分別為結果影像和LRMS影像;p、P分別為PAN影像和降采樣后的PAN影像。
無參考質量評價(QNR)綜合光譜與空間質量得到融合影像的綜合影像質量評價指數[9],越接近于1,表示二者差異越小:
本文以Landsat8遙感影像為數據源[10],共選取9景影像作為實驗數據,獲取時間均勻分布在一年的4 個季度中;包含森林、城市、鹽堿地、農田等多種地物種類;所有數據均為標準1 級產品,已經過輻射校正和幾何校正(表1)。數據集由18 000 個影像對組成,每個影像對由光譜影像和與之對應的全色影像組成,其中全色影像尺寸為256×256,多光譜影像尺寸為128×128,均由原始分辨率下的影像降采樣而來。網絡訓練時,每批包含64 幅影像,設置學習率為0.001,利用SGD優化器對網絡參數進行迭代更新。

表1 Landsat8衛星影像波段信息
訓練和測試部分是以原始影像為標簽在低分辨率下進行模擬融合,預測部分則是在原始尺度上進行的。本文采用Python3.6 語言和Tensorflow 1.8.0 框架。在計算測試影像質量時,選取2 000 對測試影像用于驗證網絡的性能,取平均數作為最后結果;并與雙三次卷積插值、GS 融合和PanNet 進行比較。測試結果見表2,在4 種全參考指數中,本文方法均表現最好,其次是PanNet,GS 融合在數值上表現最差;在3 種無參考指數中,上采樣方法與原始影像具有相同的光譜信息,因此光譜指數的數值最小,而在空間指數中本文方法表現最好,其次是GS 融合;在整體的QNR指數中,本文方法表現最佳,PanNet次之。

表2 模擬分辨率下不同方法的結果比較
預測階段本文選取一幅原分辨率影像(影像尺寸為800×800)進行預測,以驗證方法對真實影像的有效性。由于可視化一次只顯示3 個波段,選擇3 個波段(B4、B3和B2)進行真彩色合成,結果見圖3,可以看出,雙三次卷積插值的結果影像在視覺上與LRMS相同,即單純的差值并未改善空間信息;GS方法具有良好的視覺性能,但細節圖中白色建筑物在全色圖中是分離式結構,在GS 融合結果中體現并不明顯;兩種深度學習方法不僅有更好的視覺效果,細節圖中的白色建筑物也表現出分離趨勢。

圖3 影像質量主觀評價圖
在原始分辨率下評價影像質量是沒有高分辨率多光譜影像作為真值的,因此在預測階段利用無參考指數評價融合影像的質量,由表3 可知,在原始分辨率下的結果與模擬分辨率下的結果具有相似性,說明降低分辨率獲取標簽數據的訓練方法具有適用性,即在不同分辨率下同倍率影像融合具有相似性。此外,雙三次卷積插值方法在光譜指數中取得最佳表現,歸因于其不引入新的數據也未改變原始影像的光譜特征,而GS 融合在空間分量上表現最好,但在光譜指數中的表現最差,也能體現出該方法會過度引入全色數據的特點。值得注意的是,兩種深度學習方法在光譜和空間分量上的表現雖都未取得最好表現,但在綜合影像質量上的表現往往更好,相較于兩種傳統方法,深度學習能在空間和光譜兩個分量上找到一個平衡,且本文方法在空間和光譜分量上均比PanNet 具有更好的表現,說明加入多尺度模塊可提高網絡提取全色影像特征的能力,也能減弱對融合后影像光譜特征的影響。

表3 原始分辨率下不同方法的結果比較
本文以Landsat8 衛星影像為例,制作影像融合據集;根據遙感影像融合過程,提出了一種雙通道網絡結構,獨立處理多光譜和全色數據,并加入多尺度模塊更加全面地提取全色波段中的高頻空間信息。結果表明,本文中涉及的兩種深度學習網絡兩個分量指數的表現不是最高,而綜合質量表現更好;相較于Pan-Net,本文網絡結構加強了對高頻空間信息的提取,使得光譜和空間分量上的影像質量都有所改善,從而提高了融合影像的綜合影像質量。