CNN-Transformer 結合對比學習的高光譜與LiDAR 數據協同分類

2024-04-27 13:29:12吳海濱戴詩語王愛麗巖堀祐之于效宇

光學精密工程 2024年7期

吳海濱，戴詩語，王愛麗*，巖堀祐之，于效宇

（1.哈爾濱理工大學測控技術與通信工程學院黑龍江省激光光譜技術及應用重點實驗室，黑龍江哈爾濱 150080；2.中部大學計算機科學學院，日本愛知 487-8501；3.電子科技大學中山學院電子信息學院，廣東中山 528400）

1 引言

高光譜圖像由同一區域數百個連續波段的光譜組成，具有光譜分辨率高、“圖譜合一”的獨特優勢，其豐富的光譜信息可以用于識別不同地物的組成材質與內在結構［1-2］。近年來，深度學習端到端的特征學習框架，如卷積神經網絡（Convolutional Neural Network，CNN）［3-4］，3D CNN［5］等深度模型，能自動學習圖像中的復雜特征表示，為高光譜圖像分類提供了新的方法路徑。

激光雷達（LiDAR）可以生成數字表面模型（Digital Surface Model，DSM），反映地表目標的三維立體信息［6-7］，地物在高程形態特征上的差異被廣泛應用于分類任務中。高光譜圖像和Li-DAR 數據作為兩種不同的遙感模態，存在明顯的異質性。充分利用兩種數據之間的互補信息，提取更豐富的特征表達是當前限制異構遙感數據深層次協同的關鍵難題之一。

相較于使用單傳感器數據源，協同后的高光譜和LiDAR 數據集成了光譜特征、空間結構以及高程信息，能夠從更多維度全面描述地物。具體來說，高光譜數據提供細致的光譜信息，在識別和表達地物光譜差異性方面具有明顯優勢；而LiDAR 數據提供高精度的空間分辨率和高程信息，能夠準確反映地物的空間分布特征。兩種數據源在表征地物方面呈現互補性，深層次協同可以增強地物類別的可分離性，進而提高分類的準確率。

ConvNeXt［8-9］，ViT［10］，DaViT［11］和Spect-Former［12］等網絡架構，通過自注意力機制和全局上下文信息的建模，能夠更好地捕捉圖像的關鍵特征，實現更準確的視覺推理和分析。基于深度學習的CNN 和Transformer 模型，也被引入遙感圖像的多源數據協同分類任務，取得了令人滿意的協同分類效果［13-18］。例如，采用形態學擴展的屬性剖面［13］、IP-CNN［14］，Transformer［15］、雙分支卷積網絡（Two-Branch CNN）［16］、深度編碼器-解碼器網絡（EndNet）［17］、多源特征中間層融合網絡（MDL-Middle）［18］和多注意力分層稠密融合網絡（MAHiDFNet）［19］。

對比學習作為一種自監督表示學習方法，可以學習到具有強大區分能力的特征表達，在多模態領域得到了廣泛的應用［20］。通過使用同一樣本在不同視角下的代理任務進行訓練，對比學習能夠獲得具有語義對齊的特征表達［21-22］。為解決異構多模態數據特征表達能力不足的問題，本文提出了基于對比學習CNN-Transformer 高光譜和LiDAR 數據協同分類網絡（Contrastive Learning based CNN-Transformer Network，CLCTNet），結合ConvNeXt V2 Block 設計了共有特征提取網絡，增強模型對異構多模態數據的表征能力，實現跨模態數據之間的特征對齊。然后，充分發揮CNN 的局部特征學習和Transformer 的全局上下文建模能力，構建了包含空間-通道分支和光譜上下文分支的雙分支HSI 編碼器，以及結合頻域自注意力機制的LiDAR 編碼器，挖掘不同模態數據之間的互補信息。最后，利用集成對比學習進行分類，進一步推動模態特征對齊，提升多模態數據協同分類的精度。

2 原理

2.1 CLCT-Net 模型架構

圖1 展示了CLCT-Net 模型的架構框圖。該模型主要包含以下三個部分：共有特征提取網絡、HSI 編碼器、LiDAR 編碼器和集成對比學習損失函數。CLCT-Net 模型首先經過共有特征提取網絡進行共有特征提取，共有特征提取網絡由ConvNeXt V2 Block 組成，通過全局響應歸一化、深度可分離卷積等實現共性特征提取。提取后的共有特征分別輸入HSI 編碼器和LiDAR 數據編碼器中，HSI 編碼器由空間-通道子分支、光譜上下文子分支組成，其中空間-通道子分支利用局部空間窗口多頭雙注意力（Spatial Window Multi-headed Self-attention，SW-MHSA）機制和通道組多頭雙注意力（Channel Group Multiheaded Self-attention，CG-MHSA）機制，LiDAR編碼器利用頻域注意力機制（Spectrum Former）。HSI 編碼器學習圖像的空間結構和光譜信息，Li-DAR 編碼器學習數據中的高程信息以及其空間結構依賴性。最后，兩種模態特征通過基于集成對比學習的聯合分類器，其中損失函數同時包含對比損失和分類損失，可以增強特征的判別能力，將同源數據特征距離最小化，異源數據特征距離最大化，實現高光譜圖像和LiDAR 數據的協同分類。

圖1 CLCT-Net 模型架構Fig.1 Model architecture of CLCT-Net

2.2 共有特征提取網絡

由于異構多模態特征分布存在差異性，這給模型建模跨模態的相關信息對齊帶來困難，模型難以直接學習到不同模態間隱含的聯系規律。為解決異構多模態特征的對齊問題，本文設計了基于ConvNeXt V2 Block 的共有特征提取網絡，通過深度可分離卷積高效提取兩種模態數據的低頻共性特征，再通過全局響應歸一化（Global Response Normalization，GRN）更好地傳導共有信息，進而實現異構數據的深層協同，從而在多層抽象程度上挖掘不同模態之間的語義關聯信息，實現跨模態數據之間的特征對齊，如圖2 所示。其中，24 維7×7 深度可分離卷積層（d7×7，24）用于聚合全局特征信息，深度可分離卷積將標準卷積操作分解為深度卷積和點卷積，大大減少了計算量而保持了等效的建模能力。在可分離卷積后進行層規范化（Layer Normalization，LN）操作，96 維1×1 卷積層進行通道數升維，GELU 激活函數引入非線性，GRN 層對特征進行校準，增強模型的穩定性。最后，24 維1×1 卷積層負責通道數降維，并通過殘差連接，使網絡更專注于學習兩種異構模態之間的低頻共有特征。其中，GRN 是通過劃分特征圖中的相鄰區域，對區域內特征響應值進行歸一化處理，實現共有信息的傳遞，即有：

圖2 共有特征提取網絡示意圖Fig.2 Schematic diagram of shared feature extraction network

相比直接串聯原始特征或分別單獨訓練，共有特征提取網絡具有更少的參數量、更加緊湊的特征表達能力。因原始HSI 圖像中獨立的光譜通道存在一定程度的冗余性，共有特征提取網絡能夠對HSI 光譜通道信息進行整合，以減少冗余并增強光譜通道間的關聯性。

2.3 雙分支HSI 編碼器

在高光譜圖像中，每個像素都包含多個光譜波段的信息，波段之間存在復雜的空間和光譜關聯。因此，本文設計了基于Transformer 的雙分支HSI 編碼器（Two Branch HSI Encoder，TBHSI），由空間-通道子分支和光譜上下文子分支組成，如圖3 所示。其中，空間-通道子分支專注建模局部光譜-空間依賴，而光譜上下文子分支聚焦于全局光譜特征挖掘。相比單一分支結構，該設計可以同時捕獲局部光譜-空間特征和全局光譜語義信息，全面提高了模型對HSI 特征的理解和表達能力。

圖3 HSI 編碼器示意圖Fig.3 Schematic diagram of HSI encoder

2.3.1 空間-通道特征提取子分支

空間-通道特征提取子分支利用SW-MHSA和CG-MHSA 學習高光譜圖像的空間依賴關系和不同光譜通道之間的關聯性，以增強模型對高光譜圖像空間-通道特征的表達能力。如圖3（a）所示，SW-MHSA 將輸入高光譜圖像分割成多個局部圖像塊，在每個塊周圍定義一個空間窗口，僅計算窗口內塊之間的注意力權重。在多頭結構下，不同的頭學習不同類型的局部空間依賴模式。SW-MHSA 能夠更高效建模局部空間信息，增強對空間信息的學習能力。

設輸入特征矩陣為X∈RN×C，其中N為空間位置數，C為特征維數。對于窗口w，提取局部特征子集Xw，Xw=Xi：i+w，根據線性映射得到Query，Key，Value 矩陣：

這里的WQ，WK，WV表示線性映射的參數矩陣，將輸入X映射到Query，Key，Value 的對角空間中。

對于每個窗口w，計算注意力分數：

其中d表示線性映射的參數矩陣的第二維，也就是映射后的特征維度。計算窗口內Value加權和：

最后，串聯所有窗口輸出得到最終的多頭自注意力輸出。

CG-MHSA 將輸入特征的通道分成多個組，在每個通道組內計算自注意力，學習同組內通道之間的依賴關系。設輸入特征X∈RN×C×H×W，其中N為batch size，C為通道數，H，W為高度和寬度。將X重塑為X∈RN×C'×M，其中M=H×W，g為組數。在通道組維度上計算注意力分數，串聯所有通道組輸出得到最終多頭自注意力輸出。相比全通道的注意力計算，CGMHSA 更高效并可捕捉光譜之間的關聯性，增強對光譜信息的建模能力。

2.3.2 光譜上下文特征提取子分支

光譜上下文子分支使用Transformer 編碼器結構，如圖3（b）所示。通過自注意力機制學習光譜維度之間的依賴，并利用編碼器部分進一步充分捕捉光譜特征之間的上下文語義信息。

設高光譜圖像塊為X∈RH×W×C，其中H，W為高光譜圖像塊的高度和寬度，C為光譜波段數量，提取該光譜特征矩陣中對應中心像素的C維特征向量作為光譜上下文子分支的輸入，進行線性投影生成Query，Key，Value 矩陣。通過多頭自注意力計算獲得中心像素光譜特征的上下文表示，重復該過程進行多層編碼，以學習光譜特征之間的依賴關系，獲得中心像素在光譜全局視角下的上下文表示。

2.4 結合自注意力機制的LiDAR 編碼器

LiDAR 數據有豐富的建筑物邊界、植被形狀等高程信息，充分學習LiDAR 數據的高程特征，能夠極大提升協同分類性能。因此，本文設計基于頻域自注意力機制的LiDAR 編碼器（Spectrum LiDAR Encoder，Spectrum-LiDAR），該編碼器使用Transformer 編碼器結構，采用基于傅里葉變換的自注意力機制，學習LiDAR 的全局依賴關系，聚焦高程信息。

如圖4 所示，設LiDAR 數據經過共有特征提取網絡獲得空間域特征為z(x，y)，進行二維離散傅里葉變換得到其頻域表達Z(u，v)，即：

圖4 LiDAR 編碼器示意圖Fig.4 Schematic diagram of LiDAR encoder

其中u和v是頻率域的變量。

隨后，定義頻域濾波器Wc(u，v)，與Z(u，v)進行逐點乘法，得到加權后的頻域函數：

最后，對Z'(u，v)進行反傅里葉變換，以取得空間域的輸出函數：

z'(x，y)反映了LiDAR 數據在不同頻率下的特征分布，能夠捕獲到不同頻率下豐富的高程信息。

2.5 集成對比學習的損失函數

為實現更加有效的異構多模態特征對齊與模態協同性能，本文構建了包含對比學習損失和分類損失的聯合損失函數。對比學習損失通過拉近同類異構特征之間的距離，著重跨模態數據中的共性信息，為異構數據協同分類提供更統一可靠的特征表示，以提升模型分類性能。

對比損失函數由兩部分構成：HSI 對LiDAR的特征對比損失函數，以及LiDAR 對HSI 的特征對比損失函數。第i個樣本的對比損失函數如下：

HSI 對LiDAR，LiDAR 對HSI 的對比損失函數的計算公式如下：

其中：

其中：fHSI(·)和fLiDAR(·)分別是HSI 和LiDAR 模態的特征提取函數；表示樣本對中HSI 與Li-DAR 特征之間的相似性；τ∈R，表示溫度參數。

總的對比損失函數通過對所有樣本對的對比損失求平均得到：

通過最小化該損失函數，可以學習到語義上對齊的HSI 和LiDAR 表征，從而提升兩者特征的聯合表示能力。

分類損失采用交叉熵損失的形式，用于度量預測類別分布與真實類別分布之間的距離。

其中：yi是樣本i的編碼類別標簽，pi是模型預測的類別分布概率，分類損失能夠優化神經網絡的分類性能。

最終的損失函數為對比學習損失和分類損失的加權結合：

通過聯合訓練兩種損失函數，模型既學習了判別性的特征表示，又獲得了準確的地物分類結果。

3 實驗結果與分析

3.1 實驗數據集

Houston2013 數據集由美國國家科學基金會資助的空中激光雷達制圖中心（NCALM）在2013 年獲取，覆蓋休斯頓大學校園及周邊城市區域。高光譜和LiDAR DSM 數據都包含349×1 905 個像素，具有相同的空間分辨率（2.5 m）。高光譜圖像包含144 個光譜波段，波段為380～1 050 nm，包含15 個類別。表1 列出了不同類別的樣本數量及對應的顏色，圖5 給出了Houston2013 數據集的可視化結果，可在IEEE GRSS網站（http：//dase.grss-ieee.org/）上獲得。

表1 Houston2013 數據集土地類別詳情Tab.1 Land class details in Houston2013 dataset

圖5 Houston2013 數據集的偽彩色圖和真值圖Fig.5 Pseudo color map and ground-truth map of Houston2013 dataset

Trento 數據集中高光譜圖像由AISA Eagle傳感器獲取，LiDAR DSM 利用Optech ALTM 3100EA 傳感器的第一和最后一個點云脈沖生成，兩者均為600×166 像素，空間分辨率均為1 m。高光譜圖像包含63 個波段，覆蓋402.89～989.09 nm，包含6 個類別。表2 列出了不同類別的樣本數量以及對應的顏色，圖6 給出了Trento數據集的偽彩色圖和真值圖。

表2 Trento 數據集土地類別詳情Tab.2 Land class details in Trento dataset

圖6 Trento 數據集的偽彩色圖和真值圖Fig.6 Pseudo color map and ground-truth map of Trento dataset

3.2 實驗平臺及參數

實驗基于Ubuntu 18.04 系統，使用配備Tesla P100 GPU 與Intel（R）Xeon（R）CPU E5-2640 v4 @ 2.40 GHZ 處理器的計算服務器，Python3.7 語言及PyTorch 1.10 深度學習框架構建實驗環境，模型訓練使用的batch size 為64，epoch為200，隨機劃分訓練集和驗證集，訓練集和驗證集的劃分比例為8∶2，采用AdamW 優化器、cosine 學習率調度策略，初始學習率設置為5×10-4，權重衰減系數為1×10-1。CG-MHSA 中組數g設置為1，對比學習損失中超參數τ 設置為0.07，最終聯合損失中的比重超參數，本文設置為λ1=0.5，λ2=1.0。

3.3 實驗對比及分析

3.3.1t-SNE 分析

根據圖7 和圖8 所示的t-SNE（t-Distributed Stochastic Neighbor Embedding）可視化結果，在Houston 2013 和Trento 兩個數據集上僅利用HSI 圖像進行分類，不同類別的數據點分布存在明顯的重疊現象。這表明僅依靠光譜信息進行分類的效果受限。另一方面，僅利用LiDAR數據進行分類時，數據點的分布比較散亂，這表明僅依靠空間結構信息進行分類的性能也較差，且明顯不及僅使用HSI 圖像進行分類的效果。

圖7 Houston2013 數據集的特征可視化Fig.7 Feature visualizations of Houston2013 dataset

圖8 Trento 數據集的特征可視化Fig.8 Feature visualizations of Trento dataset

相較而言，同時利用HSI 圖像和LiDAR 數據進行聯合分類時，不同類別的數據點能夠獲得更好的聚類和區分。由此表明，高光譜和LiDAR協同分類模型能夠更有效地利用兩種數據的互補信息，提高對不同地物類別的判別能力，從而獲得優于單數據源的分類性能。

3.3.2 不同分類方法的對比

為驗證CLCT-Net 模型的聯合分類的有效性，將它與Two-Branch CNN［16］，EndNet［17］，MDL-Middle［18］和MAHiDFNet［19］進行比較。同時，本文還比較了雙分支HSI 編碼器（TB-HSI）、基于頻域信息的LiDAR 編碼器（Spectrum-Li-DAR）兩種單傳感器分類模型。

實驗評價指標為整體精度（Overall Accuracy，OA）、平均精度（Average Accuracy，AA）和Kappa 系數。OA 表示模型在所有測試樣本上的正確預測樣本與總樣本數之間的比例。AA 是每個類別中正確預測數與該類別總數之間的比例，取各類別精度的平均值。Kappa 系數用于評估分類準確性，驗證遙感分類結果圖與地面真實圖之間的一致性。

表3 和表4 給出了不同算法在 Houston2013和Trento 數據集上測試15 次得到的平均分類結果。由表3 可知，雙傳感器協同分類模型的分類精度明顯優于單傳感器分類方法，這一結論與t-SNE 的分析結果一致。與Two-Branch CNN，EndNet，MDL-Middle 和MAHiDFNet 相比，本文提出的方法在OA，AA 和Kappa 系數方面都有明顯改善，尤其對Stressed grass，Road，Railway 和Tennis court 有顯著提升。其中，Stressed grass 的分類精度達到了98.05%，Tennis court 的分類精度為100.00%。

表3 不同方法在Houston2013 數據集上的分類精度對比Tab.3 Comparison of classification accuracy of different methods on Houston2013 dataset（%）

表4 不同方法在Trento 數據集上的分類精度對比Tab.4 Comparison of classification accuracy of different methods on Trento dataset（%）

根據表4，在Trento 數據集上，Spectrum-LiDAR 分類模型的OA 為84.94%，AA 為74.90%，Kappa 為80.56%。TB-HSI 分類模型這三個指標分別為 95.42%，89.28% 和93.89%。聯合使用雙傳感器進行分類時，OA 提高到98.90%，AA 提高到98.10%，Kappa 提高到98.54%。本文方法在Roads 的分類性能方面也有明顯提升，達到了96.28%。

為了直觀驗證所提出的CLCT-Net 模型的效果，在Houston 2013 和Trento 兩個數據集上進行了分類結果的可視化對比，如圖9 和圖10所示。本文提出的CLCT-Net 能夠更準確地描繪出Highway 區域以及Apples 區域的邊緣，呈現更清晰且平滑的輪廓，其他方法獲得的地物邊界存在明顯的鋸齒狀邊界，不夠平滑。這表明CLCT-Net 模型在細粒度特征表示和提取能力方面更為強大，能夠捕捉復雜場景的微小細節，進行更精細和連貫的語義理解，在復雜邊界描繪方面的表現更加出色。

圖9 不同方法在Houston2013 數據集上的分類結果Fig.9 Classification results of different methods on Houston2013 dataset

圖10 不同方法在Trento 數據集上的分類結果Fig.10 Classification results of different methods on Trento dataset

3.3.3 計算復雜性分析

本文采用浮點運算數（FLOPs）和參數量（#param）兩個指標評估不同模型的計算復雜性，如表5 所示。其中，FLOPs 表示模型處理單幅圖像并完成一次前向傳播所需的浮點數運算量，反映了模型的時間復雜性。#param 表示模型的參數總量，決定了模型本身的大小，并直接影響模型在推理時所需的內存占用，反映了模型的空間復雜性。

表5 不同分類模型的FLOPs 和參數數量Tab.5 FLOPs and parameters of different classification models

由于未考慮空間鄰域信息，EndNet 模型的時間和空間復雜度相對較低。僅使用單個像素作為輸入可以降低模型復雜度，忽略鄰域依賴關系也會導致特征表達能力的局限，降低模型的分類準確率。對比Two-Branch，MAHiDFNet模型，本文提出的模型具有更為緊湊和高效的模型結構，可以在模型空間復雜度較低的情況下保持較好的性能。CLCT-Net 采用多個基于Transformer 的編碼器分支，能夠更全面地提取特征。然而，由于多頭自注意力機制的特性，Transformer 常需大量計算資源，這使得模型的浮點數運算量不可避免地增加。考慮到效果和復雜度綜合因素，CLCT-Net 模型雖然需要較多浮點數運算，但占用的內存空間較少。這種權衡使分類準確率顯著提升，達到了性能和復雜度的最佳平衡。

4 結論

本文提出了一種基于CNN-Transformer 的端到端聯合分類網絡CLCT-Net。該網絡應用共有特征提取網絡模塊，通過提取不同模態間的共性特征實現異構傳感數據在語義級別的深層對應。其次，設計了雙分支HSI 編碼器和頻域自注意力LiDAR 編碼器，結合各模態特性分別學習豐富有效的特征表示。最后，引入集成對比學習策略，進一步提升了模型協同跨模態數據的地物分類能力。實驗在Houston 2013 和Trento 數據集上進行，CLCT-Net 的OA 值分別為92.01%和98.90%，AA 值分別為91.78% 和90.10%，Kappa 值分別為91.33%和98.54%，優于其他分類方法。實驗結果表明，基于CNN-Transformer的框架進行異構數據聯合表達和建模是地物分類任務的有效途徑。