胡春霞,聶翔宇,林 聰,3,傅俊豪,儲征偉
(1. 南京市測繪勘察研究院股份有限公司,江蘇 南京 210019; 2. 南京市時空信息智能服務工程研究中心,江蘇 南京 210019; 3. 武漢大學測繪遙感信息工程國家重點試驗室,湖北 武漢 430079)
隨著對地觀測技術的不斷發展,遙感衛星所獲取的影像數據呈高空間分辨率、高光譜分辨率、高時間分辨率和大數據量等特點[1]。具有豐富空間信息的高空間分辨率遙感影像(高分影像)為準確的地物分類、場景識別、目標檢測等相關研究和應用提供了數據基礎[2]。在遙感影像處理領域,土地利用/地表覆蓋分類始終是研究的熱點方向[3],遙感影像分類的最終目的是將遙感影像分為多個同質性區域[4]。根據模型在構建過程中是否需要標記樣本,遙感影像分類可進一步分為監督分類和非監督分類。
高分影像數據量大,場景結構復雜,覆蓋地物類型眾多[5],傳統機器學習算法缺少對于空間特征的有效表征,分類精度普遍較低。因此,這類方法通常先進行人工設計特征,再使用支持向量機(support vector machine,SVM)或隨機森林(random forest,RF)等分類器進行分類[6-7]。近年來,隨著深度學習方法在自然圖像處理領域的興起,眾多研究者嘗試將其應用于遙感影像的分類任務中[8-10]。如,文獻[11]基于卷積神經網絡(convolutional neural network, CNN)構建了一種低維特征提取模型,用于提取高分遙感影像中的判別性語義信息,并使用多核的SVM作為分類器完成分類。為了有效描述影像中的場景信息,文獻[12]使用預訓練的VGG-Net作為特征提取器初步提取抽象特征,基于所提出的相關性判別分析策略進行特征融合。文獻[13]構建了一種由淺層到深層的特征提取網絡,對輸入的高分遙感影像進行多階段的特征提取與融合,最后通過全連接層直接輸出預測結果。然而,現有的面向高分影像分類的深度網絡依然存在一定的不足:①訓練樣本的數量和質量難以滿足深度神經網絡的訓練要求;②高分影像場景信息復雜,現有深度神經網絡難以有效維持影像內在的空間結構。
為此,本文提出一種多特征協同深度網絡(MFCDN)學習算法。該方法的創新和優勢在于:①以多類型淺層特征作為網絡輸入,綜合考慮不同類型特征間的協同作用;②有效獲取不同空間尺度下的地物信息,用于應對不同難度的地物空間關系;③結合通道和空間注意力機制動態捕獲多尺度高維特征的關鍵信息;④構建多個特征提取層和數據下采樣層獲取多尺度特征中的語義信息,并通過逐元素相加的方式得到更具判別意義的融合特征。
如圖1所示,一個典型的CNN分類模型通常由卷積層、標準化層、池化層和全連接層構成。其中,卷積層通過卷積算法能夠將輸入圖像從原始空間維度映射到新的特征維度中;標準化層通過對特征的數值分布進行規范化處理,有效解決了訓練過程中所出現的梯度消失或梯度爆炸問題;池化層的主要作用是進行數據壓縮,在降低參數量的同時緩解模型在訓練過程中所存在的過擬合現象,加快模型的訓練速度;全連接層用于輸出最終的分類結果。
在CNN網絡框架中引入注意力機制,使模型具備動態捕獲關鍵信息的能力。如圖2所示,引入CBAM[14]模塊實現通道和空間自適應加權。其中,通道自適應加權可以看作是一種特征優化方法,而空間自適應加權則是對空間信息的篩選,用于確定關鍵信息的空間位置。
通過數學形態學[15]、擴展屬性剖面[16]和灰度共生矩陣[17]在內的三類淺層特征提取方法獲取更具判別意義的特征圖,將其作為MFCDN輸入,以降低網絡內部的特征提取難度。
(1)數學形態學通過使用多種結構元素有效度量影像中相對應的幾何形態,在保留影像基本形態的同時,去除大量冗余和干擾信息。本文選取的形態特征包括:開運算、閉運算、頂帽運算、底帽運算、重構開運算和重構閉運算。
(2)擴展屬性剖面能夠將影像的處理單位從單個像元擴展為一定鄰域范圍內具有相同或相似屬性的所有像元,有效反映了影像中不同地物類型的空間結構關系。通過擴展屬性剖面方法提取的屬性特征包括:連通區域面積、連通區域外接矩形對角線長度和連通區域內像元灰度值的標準差。
(3)紋理特征是對影像中不同像元之間關系的度量,反映了像元強度值的局部變化信息。在多種紋理特征提取方法當中,灰度共生矩陣的應用最為廣泛。本文基于灰度共生矩陣所構建的紋理特征包括:均值、熵、方差、角二階矩和對比度。
MFCDN的整體架構如圖3所示,共包括5個部分。
(1)線性映射層:每類淺層特征的通道數不同,因此在輸入網絡前通過線性運算將各類特征的通道數進行統一。本文的線性映射運算使用核大小為1×1,步距為1,輸出通道數為16的卷積層實現。
(2)多尺度特征提取模塊:本模塊以并行結構的形式,使用多組不同大小的卷積核并結合組標準化(group normalization, GN)和ReLU函數提取多尺度特征。3個空間尺度對應的卷積核大小分別為3×3、5×5和7×7,步距均為1。完成特征提取后,將輸入特征和所得到的多尺度特征按照通道維度進行疊加。其中,GN的數學表達為
(3)注意力機制加權:首先,將所得到的高維多尺度特征經過通道注意力機制進行特征優化。然后,使用空間注意力機制進行空間維度上的加權。最后,通過核大小為1×1,步距為1,輸出通道數為48的卷積層對數據進行降維。
(4)深度特征融合模塊:本模塊構建4個特征提取層和4個下采樣層以獲取多尺度特征中的語義信息,并通過逐元素相加的方式將下采樣層3和下采樣層4的結果融合。其中,特征層1、4的卷積核大小為3×3,特征層2、3的卷積核大小為5×5,所有特征層的步距均為1。下采樣層1和下采樣層2為平均池化,下采樣層3和下采樣層4為最大池化,所有下采樣層的核大小均為2×2,步距均為2,即經過下采樣層后特征圖的高寬減半。
(5)多層感知機模塊:本模塊作為分類器,用于輸出最終的分類結果。所使用的多層感知機由4個全連接層和ReLU函數構成,前3個全連接層的輸出神經元個數分別為512、256和128,最后一層的神經元個數為類別數,且丟棄率(drop rate)設置為50%。
完成上述5個模塊的運算后,將多層感知機模塊的輸出結果經過 Softmax 函數,使其滿足和為 1 的概率分布。此外,MFCDN以32×32大小的影像塊作為輸入,采用的損失函數為交叉熵損失(CrossEntropy Loss)。MFCDN中最為關鍵的多尺度特征提取模塊和深度特征融合模塊的具體信息見表1。

表1 多尺度特征提取模塊和深度特征融合模塊設置信息
(1)Zurich 17 (ZH17) 測試數據集:由快鳥衛星(QuickBird satellite)于瑞士蘇黎世市區上空獲取。影像大小為1025×1112像素,空間分辨率為0.62 m,包含近紅外在內共4個光譜波段。影像的彩色合成圖及地物標簽如圖4所示,共標記了7類地物,具體信息見表2。

圖4 ZH17數據集
(2)雄安新區測試數據集:由中國科學院上海技術物理研究所研制的高分專項航空系統全譜段多模態成像光譜儀于雄安新區馬蹄灣村上空采集,空間分辨率為0.5 m。如圖5所示,從原影像中選取了大小為1000×1150像素的區域用于測試,且僅使用了其中3個波段的數據(R:120,G:72,B:36)。所選取的影像區域共包含13類地物,具體信息見表3。

表3 雄安數據集樣本數量

圖5 雄安數據集
對比方法包括隨機森林(RF),支持向量機(SVM),深度金字塔殘差網絡[18](deep pyramidal residual networks,DPRN)和空譜特征標記化Transformer網絡[19](spectral-spatial feature tokenization transformer,SSFTT)。
評價標準包括總體精度(over accuracy,OA)、平均精度(average accuracy,AA)和卡帕系數(Kappa statistic,κ)。
訓練過程中,優化器設置為Adam,Batch Size設置為32,GN的組數設置為2,最大迭代次數設置為150,學習率設置為10-4。
(1)ZH17數據集的分類結果見表4,MFCDN方法取得了96.70%的OA、96.53%的AA和0.956 9的κ,較其余對比方法分別提升了2.95%~9.27%、2.89%~15.58%和3.84%~12.08%。針對每類的分類精度,本文方法在6個不同類別上取得了最高的分類精度。各方法的分類如圖6所示,RF和SVM方法的分類中存在明顯的類似椒鹽噪聲的情況,整體的平滑度較差。相較之下,DPRN和SSFTT分類的整體平滑度和準確度都有明顯提升。綜合對比來看, MFCDN的分類結果圖最為準確,證明了本文方法的有效性。

表4 ZH17數據集分類結果 (%)

圖6 ZH17數據集上各個方法分類結果
(2)雄安數據集的分類結果見表5,MFCDN在該數據集上的OA、AA和κ分為98.91%,97.03%和0.987 3,較其余方法提升了5.87%~25.82%、8.09%~36.48%和6.86%~30.49%。從單類別的分類表現來看,MFCDN在12類地物上取得了最高分類精度。從圖7中的分類結果來看,RF和SVM方法的分類表現依舊不佳,分類中存在大量的噪點。基于深度學習的DPRN和SSFTT方法的分類表現雖然有所提升,但仍然存在明顯錯分的情況,分類的準確度和整體平滑度遠低于所提出的MFCDN。

表5 雄安數據集分類結果 (%)

圖7 雄安數據集上各個方法分類結果
訓練樣本對分類精度的影響如圖8所示。從圖中OA的變化趨勢來看,隨著訓練樣本數量的增加,各分類方法的OA也在不斷提高,且MFCDN始終保持著最高的分類精度。當訓練樣本的占比僅為0.2%時,MFCND在ZH17數據集和雄安數據集上的OA分別為90.14%和90.12%,對比其余方法提升了1.5%~6.48%和6.09%~23.65%。當訓練樣本占比為0.6%時,MFCND在兩個數據集的OA分別達到了95.11%和97.05%,此時最具競爭力的SSFTT的OA僅為92.62%和90.79%。綜合來看,本文的MFCND方法在不同占比訓練樣本下的總體精度始終處于領先位置,即使在訓練樣本數量非常有限的情況下也能取得優異的分類結果,證明了該方法具有良好的泛化能力。

圖8 訓練樣本數量對分類精度的影響
通過對比MFCDN與其變體方法的分類精度以驗證各模塊的有效性。①僅使用形態特征,記為V1;②僅使用屬性特征,記為V2;③僅使用紋理特征,記為V3;④去除多尺度特征提取模塊,記為V4;⑤去除深度特征融合模塊,記為V5;⑥去除注意力機制模塊,記為V6。
消融學習的試驗結果如圖9所示,對比V1、V2和V3的OA可以發現,屬性特征具有比紋理和形態特征更強的判別性。對于V4,由于缺少多尺度信息,在ZH17和雄安數據集上的精度分別降低了1.34%和2.29%。V5在兩個數據集上的精度分別下降了3.23%和2.78%,該結果證明了經過深度融合后的特征更具判別性。相較之下,缺少注意力機制的V6在兩個數據集上的精度分別降低0.79%和0.46%,下降幅度最小。綜合來看,MFCDN中各個融合部分都有助于提升分類性能。

圖9 MFCDN不同變體方法的分類精度對比
本文提出了一種新的MFCDN方法用于高分遙感影像分類。該方法綜合考慮了多類型特征間的協同作用,并且通過多尺度特征提取模塊和深度特征融合模塊分別進行多尺度的空間信息提取和深層次的語義特征融合。不同分類方法精度對比的試驗結果證明了本文方法的先進性。訓練樣本影響性分析表明,基于不同數量的訓練樣本,MFCDN始終可以取得較其余對比方法更高的分類精度。消融分析結果證明,各個模塊共同影響最終的分類結果,驗證了本文方法的有效性。