999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

CNN-Transformer 結(jié)合對比學(xué)習(xí)的高光譜與LiDAR 數(shù)據(jù)協(xié)同分類

2024-04-27 13:29:12吳海濱戴詩語王愛麗巖堀祐之于效宇
光學(xué)精密工程 2024年7期
關(guān)鍵詞:特征提取模態(tài)分類

吳海濱,戴詩語,王愛麗*,巖堀祐之,于效宇

(1.哈爾濱理工大學(xué) 測控技術(shù)與通信工程學(xué)院 黑龍江省激光光譜技術(shù)及應(yīng)用重點實驗室,黑龍江 哈爾濱 150080;2.中部大學(xué) 計算機科學(xué)學(xué)院,日本 愛知 487-8501;3.電子科技大學(xué) 中山學(xué)院 電子信息學(xué)院,廣東 中山 528400)

1 引言

高光譜圖像由同一區(qū)域數(shù)百個連續(xù)波段的光譜組成,具有光譜分辨率高、“圖譜合一”的獨特優(yōu)勢,其豐富的光譜信息可以用于識別不同地物的組成材質(zhì)與內(nèi)在結(jié)構(gòu)[1-2]。近年來,深度學(xué)習(xí)端到端的特征學(xué)習(xí)框架,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3-4],3D CNN[5]等深度模型,能自動學(xué)習(xí)圖像中的復(fù)雜特征表示,為高光譜圖像分類提供了新的方法路徑。

激光雷達(LiDAR)可以生成數(shù)字表面模型(Digital Surface Model,DSM),反映地表目標(biāo)的三維立體信息[6-7],地物在高程形態(tài)特征上的差異被廣泛應(yīng)用于分類任務(wù)中。高光譜圖像和Li-DAR 數(shù)據(jù)作為兩種不同的遙感模態(tài),存在明顯的異質(zhì)性。充分利用兩種數(shù)據(jù)之間的互補信息,提取更豐富的特征表達是當(dāng)前限制異構(gòu)遙感數(shù)據(jù)深層次協(xié)同的關(guān)鍵難題之一。

相較于使用單傳感器數(shù)據(jù)源,協(xié)同后的高光譜和LiDAR 數(shù)據(jù)集成了光譜特征、空間結(jié)構(gòu)以及高程信息,能夠從更多維度全面描述地物。具體來說,高光譜數(shù)據(jù)提供細致的光譜信息,在識別和表達地物光譜差異性方面具有明顯優(yōu)勢;而LiDAR 數(shù)據(jù)提供高精度的空間分辨率和高程信息,能夠準(zhǔn)確反映地物的空間分布特征。兩種數(shù)據(jù)源在表征地物方面呈現(xiàn)互補性,深層次協(xié)同可以增強地物類別的可分離性,進而提高分類的準(zhǔn)確率。

ConvNeXt[8-9],ViT[10],DaViT[11]和Spect-Former[12]等網(wǎng)絡(luò)架構(gòu),通過自注意力機制和全局上下文信息的建模,能夠更好地捕捉圖像的關(guān)鍵特征,實現(xiàn)更準(zhǔn)確的視覺推理和分析。基于深度學(xué)習(xí)的CNN 和Transformer 模型,也被引入遙感圖像的多源數(shù)據(jù)協(xié)同分類任務(wù),取得了令人滿意的協(xié)同分類效果[13-18]。例如,采用形態(tài)學(xué)擴展的屬性剖面[13]、IP-CNN[14],Transformer[15]、雙分支卷積網(wǎng)絡(luò)(Two-Branch CNN)[16]、深度編碼器-解碼器網(wǎng)絡(luò)(EndNet)[17]、多源特征中間層融合網(wǎng)絡(luò)(MDL-Middle)[18]和多注意力分層稠密融合網(wǎng)絡(luò)(MAHiDFNet)[19]。

對比學(xué)習(xí)作為一種自監(jiān)督表示學(xué)習(xí)方法,可以學(xué)習(xí)到具有強大區(qū)分能力的特征表達,在多模態(tài)領(lǐng)域得到了廣泛的應(yīng)用[20]。通過使用同一樣本在不同視角下的代理任務(wù)進行訓(xùn)練,對比學(xué)習(xí)能夠獲得具有語義對齊的特征表達[21-22]。為解決異構(gòu)多模態(tài)數(shù)據(jù)特征表達能力不足的問題,本文提出了基于對比學(xué)習(xí)CNN-Transformer 高光譜和LiDAR 數(shù)據(jù)協(xié)同分類網(wǎng)絡(luò)(Contrastive Learning based CNN-Transformer Network,CLCTNet),結(jié)合ConvNeXt V2 Block 設(shè)計了共有特征提取網(wǎng)絡(luò),增強模型對異構(gòu)多模態(tài)數(shù)據(jù)的表征能力,實現(xiàn)跨模態(tài)數(shù)據(jù)之間的特征對齊。然后,充分發(fā)揮CNN 的局部特征學(xué)習(xí)和Transformer 的全局上下文建模能力,構(gòu)建了包含空間-通道分支和光譜上下文分支的雙分支HSI 編碼器,以及結(jié)合頻域自注意力機制的LiDAR 編碼器,挖掘不同模態(tài)數(shù)據(jù)之間的互補信息。最后,利用集成對比學(xué)習(xí)進行分類,進一步推動模態(tài)特征對齊,提升多模態(tài)數(shù)據(jù)協(xié)同分類的精度。

2 原 理

2.1 CLCT-Net 模型架構(gòu)

圖1 展示了CLCT-Net 模型的架構(gòu)框圖。該模型主要包含以下三個部分:共有特征提取網(wǎng)絡(luò)、HSI 編碼器、LiDAR 編碼器和集成對比學(xué)習(xí)損失函數(shù)。CLCT-Net 模型首先經(jīng)過共有特征提取網(wǎng)絡(luò)進行共有特征提取,共有特征提取網(wǎng)絡(luò)由ConvNeXt V2 Block 組成,通過全局響應(yīng)歸一化、深度可分離卷積等實現(xiàn)共性特征提取。提取后的共有特征分別輸入HSI 編碼器和LiDAR 數(shù)據(jù)編碼器中,HSI 編碼器由空間-通道子分支、光譜上下文子分支組成,其中空間-通道子分支利用局部空間窗口多頭雙注意力(Spatial Window Multi-headed Self-attention,SW-MHSA)機制和通道組多頭雙注意力(Channel Group Multiheaded Self-attention,CG-MHSA)機制,LiDAR編碼器利用頻域注意力機制(Spectrum Former)。HSI 編碼器學(xué)習(xí)圖像的空間結(jié)構(gòu)和光譜信息,Li-DAR 編碼器學(xué)習(xí)數(shù)據(jù)中的高程信息以及其空間結(jié)構(gòu)依賴性。最后,兩種模態(tài)特征通過基于集成對比學(xué)習(xí)的聯(lián)合分類器,其中損失函數(shù)同時包含對比損失和分類損失,可以增強特征的判別能力,將同源數(shù)據(jù)特征距離最小化,異源數(shù)據(jù)特征距離最大化,實現(xiàn)高光譜圖像和LiDAR 數(shù)據(jù)的協(xié)同分類。

圖1 CLCT-Net 模型架構(gòu)Fig.1 Model architecture of CLCT-Net

2.2 共有特征提取網(wǎng)絡(luò)

由于異構(gòu)多模態(tài)特征分布存在差異性,這給模型建模跨模態(tài)的相關(guān)信息對齊帶來困難,模型難以直接學(xué)習(xí)到不同模態(tài)間隱含的聯(lián)系規(guī)律。為解決異構(gòu)多模態(tài)特征的對齊問題,本文設(shè)計了基于ConvNeXt V2 Block 的共有特征提取網(wǎng)絡(luò),通過深度可分離卷積高效提取兩種模態(tài)數(shù)據(jù)的低頻共性特征,再通過全局響應(yīng)歸一化(Global Response Normalization,GRN)更好地傳導(dǎo)共有信息,進而實現(xiàn)異構(gòu)數(shù)據(jù)的深層協(xié)同,從而在多層抽象程度上挖掘不同模態(tài)之間的語義關(guān)聯(lián)信息,實現(xiàn)跨模態(tài)數(shù)據(jù)之間的特征對齊,如圖2 所示。其中,24 維7×7 深度可分離卷積層(d7×7,24)用于聚合全局特征信息,深度可分離卷積將標(biāo)準(zhǔn)卷積操作分解為深度卷積和點卷積,大大減少了計算量而保持了等效的建模能力。在可分離卷積后進行層規(guī)范化(Layer Normalization,LN)操作,96 維1×1 卷積層進行通道數(shù)升維,GELU 激活函數(shù)引入非線性,GRN 層對特征進行校準(zhǔn),增強模型的穩(wěn)定性。最后,24 維1×1 卷積層負責(zé)通道數(shù)降維,并通過殘差連接,使網(wǎng)絡(luò)更專注于學(xué)習(xí)兩種異構(gòu)模態(tài)之間的低頻共有特征。其中,GRN 是通過劃分特征圖中的相鄰區(qū)域,對區(qū)域內(nèi)特征響應(yīng)值進行歸一化處理,實現(xiàn)共有信息的傳遞,即有:

圖2 共有特征提取網(wǎng)絡(luò)示意圖Fig.2 Schematic diagram of shared feature extraction network

相比直接串聯(lián)原始特征或分別單獨訓(xùn)練,共有特征提取網(wǎng)絡(luò)具有更少的參數(shù)量、更加緊湊的特征表達能力。因原始HSI 圖像中獨立的光譜通道存在一定程度的冗余性,共有特征提取網(wǎng)絡(luò)能夠?qū)SI 光譜通道信息進行整合,以減少冗余并增強光譜通道間的關(guān)聯(lián)性。

2.3 雙分支HSI 編碼器

在高光譜圖像中,每個像素都包含多個光譜波段的信息,波段之間存在復(fù)雜的空間和光譜關(guān)聯(lián)。因此,本文設(shè)計了基于Transformer 的雙分支HSI 編碼器(Two Branch HSI Encoder,TBHSI),由空間-通道子分支和光譜上下文子分支組成,如圖3 所示。其中,空間-通道子分支專注建模局部光譜-空間依賴,而光譜上下文子分支聚焦于全局光譜特征挖掘。相比單一分支結(jié)構(gòu),該設(shè)計可以同時捕獲局部光譜-空間特征和全局光譜語義信息,全面提高了模型對HSI 特征的理解和表達能力。

圖3 HSI 編碼器示意圖Fig.3 Schematic diagram of HSI encoder

2.3.1 空間-通道特征提取子分支

空間-通道特征提取子分支利用SW-MHSA和CG-MHSA 學(xué)習(xí)高光譜圖像的空間依賴關(guān)系和不同光譜通道之間的關(guān)聯(lián)性,以增強模型對高光譜圖像空間-通道特征的表達能力。如圖3(a)所示,SW-MHSA 將輸入高光譜圖像分割成多個局部圖像塊,在每個塊周圍定義一個空間窗口,僅計算窗口內(nèi)塊之間的注意力權(quán)重。在多頭結(jié)構(gòu)下,不同的頭學(xué)習(xí)不同類型的局部空間依賴模式。SW-MHSA 能夠更高效建模局部空間信息,增強對空間信息的學(xué)習(xí)能力。

設(shè)輸入特征矩陣為X∈RN×C,其中N為空間位置數(shù),C為特征維數(shù)。對于窗口w,提取局部特征子集Xw,Xw=Xi:i+w,根據(jù)線性映射得到Query,Key,Value 矩陣:

這里的WQ,WK,WV表示線性映射的參數(shù)矩陣,將輸入X映射到Query,Key,Value 的對角空間中。

對于每個窗口w,計算注意力分?jǐn)?shù):

其中d表示線性映射的參數(shù)矩陣的第二維,也就是映射后的特征維度。計算窗口內(nèi)Value加權(quán)和:

最后,串聯(lián)所有窗口輸出得到最終的多頭自注意力輸出。

CG-MHSA 將輸入特征的通道分成多個組,在每個通道組內(nèi)計算自注意力,學(xué)習(xí)同組內(nèi)通道之間的依賴關(guān)系。設(shè)輸入特征X∈RN×C×H×W,其中N為batch size,C為通道數(shù),H,W為高度和寬度。將X重塑為X∈RN×C'×M,其中M=H×W,g為組數(shù)。在通道組維度上計算注意力分?jǐn)?shù),串聯(lián)所有通道組輸出得到最終多頭自注意力輸出。相比全通道的注意力計算,CGMHSA 更高效并可捕捉光譜之間的關(guān)聯(lián)性,增強對光譜信息的建模能力。

2.3.2 光譜上下文特征提取子分支

光譜上下文子分支使用Transformer 編碼器結(jié)構(gòu),如圖3(b)所示。通過自注意力機制學(xué)習(xí)光譜維度之間的依賴,并利用編碼器部分進一步充分捕捉光譜特征之間的上下文語義信息。

設(shè)高光譜圖像塊為X∈RH×W×C,其中H,W為高光譜圖像塊的高度和寬度,C為光譜波段數(shù)量,提取該光譜特征矩陣中對應(yīng)中心像素的C維特征向量作為光譜上下文子分支的輸入,進行線性投影生成Query,Key,Value 矩陣。通過多頭自注意力計算獲得中心像素光譜特征的上下文表示,重復(fù)該過程進行多層編碼,以學(xué)習(xí)光譜特征之間的依賴關(guān)系,獲得中心像素在光譜全局視角下的上下文表示。

2.4 結(jié)合自注意力機制的LiDAR 編碼器

LiDAR 數(shù)據(jù)有豐富的建筑物邊界、植被形狀等高程信息,充分學(xué)習(xí)LiDAR 數(shù)據(jù)的高程特征,能夠極大提升協(xié)同分類性能。因此,本文設(shè)計基于頻域自注意力機制的LiDAR 編碼器(Spectrum LiDAR Encoder,Spectrum-LiDAR),該編碼器使用Transformer 編碼器結(jié)構(gòu),采用基于傅里葉變換的自注意力機制,學(xué)習(xí)LiDAR 的全局依賴關(guān)系,聚焦高程信息。

如圖4 所示,設(shè)LiDAR 數(shù)據(jù)經(jīng)過共有特征提取網(wǎng)絡(luò)獲得空間域特征為z(x,y),進行二維離散傅里葉變換得到其頻域表達Z(u,v),即:

圖4 LiDAR 編碼器示意圖Fig.4 Schematic diagram of LiDAR encoder

其中u和v是頻率域的變量。

隨后,定義頻域濾波器Wc(u,v),與Z(u,v)進行逐點乘法,得到加權(quán)后的頻域函數(shù):

最后,對Z'(u,v)進行反傅里葉變換,以取得空間域的輸出函數(shù):

z'(x,y)反映了LiDAR 數(shù)據(jù)在不同頻率下的特征分布,能夠捕獲到不同頻率下豐富的高程信息。

2.5 集成對比學(xué)習(xí)的損失函數(shù)

為實現(xiàn)更加有效的異構(gòu)多模態(tài)特征對齊與模態(tài)協(xié)同性能,本文構(gòu)建了包含對比學(xué)習(xí)損失和分類損失的聯(lián)合損失函數(shù)。對比學(xué)習(xí)損失通過拉近同類異構(gòu)特征之間的距離,著重跨模態(tài)數(shù)據(jù)中的共性信息,為異構(gòu)數(shù)據(jù)協(xié)同分類提供更統(tǒng)一可靠的特征表示,以提升模型分類性能。

對比損失函數(shù)由兩部分構(gòu)成:HSI 對LiDAR的特征對比損失函數(shù),以及LiDAR 對HSI 的特征對比損失函數(shù)。第i個樣本的對比損失函數(shù)如下:

HSI 對LiDAR,LiDAR 對HSI 的對比損失函數(shù)的計算公式如下:

其中:

其中:fHSI(·)和fLiDAR(·)分別是HSI 和LiDAR 模態(tài)的特征提取函數(shù);表示樣本對中HSI 與Li-DAR 特征之間的相似性;τ∈R,表示溫度參數(shù)。

總的對比損失函數(shù)通過對所有樣本對的對比損失求平均得到:

通過最小化該損失函數(shù),可以學(xué)習(xí)到語義上對齊的HSI 和LiDAR 表征,從而提升兩者特征的聯(lián)合表示能力。

分類損失采用交叉熵損失的形式,用于度量預(yù)測類別分布與真實類別分布之間的距離。

其中:yi是樣本i的編碼類別標(biāo)簽,pi是模型預(yù)測的類別分布概率,分類損失能夠優(yōu)化神經(jīng)網(wǎng)絡(luò)的分類性能。

最終的損失函數(shù)為對比學(xué)習(xí)損失和分類損失的加權(quán)結(jié)合:

通過聯(lián)合訓(xùn)練兩種損失函數(shù),模型既學(xué)習(xí)了判別性的特征表示,又獲得了準(zhǔn)確的地物分類結(jié)果。

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)集

Houston2013 數(shù)據(jù)集由美國國家科學(xué)基金會資助的空中激光雷達制圖中心(NCALM)在2013 年獲取,覆蓋休斯頓大學(xué)校園及周邊城市區(qū)域。高光譜和LiDAR DSM 數(shù)據(jù)都包含349×1 905 個像素,具有相同的空間分辨率(2.5 m)。高光譜圖像包含144 個光譜波段,波段為380~1 050 nm,包含15 個類別。表1 列出了不同類別的樣本數(shù)量及對應(yīng)的顏色,圖5 給出了Houston2013 數(shù)據(jù)集的可視化結(jié)果,可在IEEE GRSS網(wǎng)站(http://dase.grss-ieee.org/)上獲得。

表1 Houston2013 數(shù)據(jù)集土地類別詳情Tab.1 Land class details in Houston2013 dataset

圖5 Houston2013 數(shù)據(jù)集的偽彩色圖和真值圖Fig.5 Pseudo color map and ground-truth map of Houston2013 dataset

Trento 數(shù)據(jù)集中高光譜圖像由AISA Eagle傳感器獲取,LiDAR DSM 利用Optech ALTM 3100EA 傳感器的第一和最后一個點云脈沖生成,兩者均為600×166 像素,空間分辨率均為1 m。高光譜圖像包含63 個波段,覆蓋402.89~989.09 nm,包含6 個類別。表2 列出了不同類別的樣本數(shù)量以及對應(yīng)的顏色,圖6 給出了Trento數(shù)據(jù)集的偽彩色圖和真值圖。

表2 Trento 數(shù)據(jù)集土地類別詳情Tab.2 Land class details in Trento dataset

圖6 Trento 數(shù)據(jù)集的偽彩色圖和真值圖Fig.6 Pseudo color map and ground-truth map of Trento dataset

3.2 實驗平臺及參數(shù)

實驗基于Ubuntu 18.04 系統(tǒng),使用配備Tesla P100 GPU 與Intel(R)Xeon(R)CPU E5-2640 v4 @ 2.40 GHZ 處理器的計算服務(wù)器,Python3.7 語言及PyTorch 1.10 深度學(xué)習(xí)框架構(gòu)建實驗環(huán)境,模型訓(xùn)練使用的batch size 為64,epoch為200,隨機劃分訓(xùn)練集和驗證集,訓(xùn)練集和驗證集的劃分比例為8∶2,采用AdamW 優(yōu)化器、cosine 學(xué)習(xí)率調(diào)度策略,初始學(xué)習(xí)率設(shè)置為5×10-4,權(quán)重衰減系數(shù)為1×10-1。CG-MHSA 中組數(shù)g設(shè)置為1,對比學(xué)習(xí)損失中超參數(shù)τ 設(shè)置為0.07,最終聯(lián)合損失中的比重超參數(shù),本文設(shè)置為λ1=0.5,λ2=1.0。

3.3 實驗對比及分析

3.3.1t-SNE 分析

根據(jù)圖7 和圖8 所示的t-SNE(t-Distributed Stochastic Neighbor Embedding)可視化結(jié)果,在Houston 2013 和Trento 兩個數(shù)據(jù)集上僅利用HSI 圖像進行分類,不同類別的數(shù)據(jù)點分布存在明顯的重疊現(xiàn)象。這表明僅依靠光譜信息進行分類的效果受限。另一方面,僅利用LiDAR數(shù)據(jù)進行分類時,數(shù)據(jù)點的分布比較散亂,這表明僅依靠空間結(jié)構(gòu)信息進行分類的性能也較差,且明顯不及僅使用HSI 圖像進行分類的效果。

圖7 Houston2013 數(shù)據(jù)集的特征可視化Fig.7 Feature visualizations of Houston2013 dataset

圖8 Trento 數(shù)據(jù)集的特征可視化Fig.8 Feature visualizations of Trento dataset

相較而言,同時利用HSI 圖像和LiDAR 數(shù)據(jù)進行聯(lián)合分類時,不同類別的數(shù)據(jù)點能夠獲得更好的聚類和區(qū)分。由此表明,高光譜和LiDAR協(xié)同分類模型能夠更有效地利用兩種數(shù)據(jù)的互補信息,提高對不同地物類別的判別能力,從而獲得優(yōu)于單數(shù)據(jù)源的分類性能。

3.3.2 不同分類方法的對比

為驗證CLCT-Net 模型的聯(lián)合分類的有效性,將它與Two-Branch CNN[16],EndNet[17],MDL-Middle[18]和MAHiDFNet[19]進行比較。同時,本文還比較了雙分支HSI 編碼器(TB-HSI)、基于頻域信息的LiDAR 編碼器(Spectrum-Li-DAR)兩種單傳感器分類模型。

實驗評價指標(biāo)為整體精度(Overall Accuracy,OA)、平均精度(Average Accuracy,AA)和Kappa 系數(shù)。OA 表示模型在所有測試樣本上的正確預(yù)測樣本與總樣本數(shù)之間的比例。AA 是每個類別中正確預(yù)測數(shù)與該類別總數(shù)之間的比例,取各類別精度的平均值。Kappa 系數(shù)用于評估分類準(zhǔn)確性,驗證遙感分類結(jié)果圖與地面真實圖之間的一致性。

表3 和表4 給出了不同算法在 Houston2013和Trento 數(shù)據(jù)集上測試15 次得到的平均分類結(jié)果。由表3 可知,雙傳感器協(xié)同分類模型的分類精度明顯優(yōu)于單傳感器分類方法,這一結(jié)論與t-SNE 的分析結(jié)果一致。與Two-Branch CNN,EndNet,MDL-Middle 和MAHiDFNet 相比,本文提出的方法在OA,AA 和Kappa 系數(shù)方面都有明顯改善,尤其對Stressed grass,Road,Railway 和Tennis court 有顯著提升。其中,Stressed grass 的分類精度達到了98.05%,Tennis court 的分類精度為100.00%。

表3 不同方法在Houston2013 數(shù)據(jù)集上的分類精度對比Tab.3 Comparison of classification accuracy of different methods on Houston2013 dataset(%)

表4 不同方法在Trento 數(shù)據(jù)集上的分類精度對比Tab.4 Comparison of classification accuracy of different methods on Trento dataset(%)

根據(jù)表4,在Trento 數(shù)據(jù)集上,Spectrum-LiDAR 分類模型的OA 為84.94%,AA 為74.90%,Kappa 為80.56%。TB-HSI 分類模型這三個指標(biāo)分別為 95.42%,89.28% 和93.89%。聯(lián)合使用雙傳感器進行分類時,OA 提高到98.90%,AA 提高到98.10%,Kappa 提高到98.54%。本文方法在Roads 的分類性能方面也有明顯提升,達到了96.28%。

為了直觀驗證所提出的CLCT-Net 模型的效果,在Houston 2013 和Trento 兩個數(shù)據(jù)集上進行了分類結(jié)果的可視化對比,如圖9 和圖10所示。本文提出的CLCT-Net 能夠更準(zhǔn)確地描繪出Highway 區(qū)域以及Apples 區(qū)域的邊緣,呈現(xiàn)更清晰且平滑的輪廓,其他方法獲得的地物邊界存在明顯的鋸齒狀邊界,不夠平滑。這表明CLCT-Net 模型在細粒度特征表示和提取能力方面更為強大,能夠捕捉復(fù)雜場景的微小細節(jié),進行更精細和連貫的語義理解,在復(fù)雜邊界描繪方面的表現(xiàn)更加出色。

圖9 不同方法在Houston2013 數(shù)據(jù)集上的分類結(jié)果Fig.9 Classification results of different methods on Houston2013 dataset

圖10 不同方法在Trento 數(shù)據(jù)集上的分類結(jié)果Fig.10 Classification results of different methods on Trento dataset

3.3.3 計算復(fù)雜性分析

本文采用浮點運算數(shù)(FLOPs)和參數(shù)量(#param)兩個指標(biāo)評估不同模型的計算復(fù)雜性,如表5 所示。其中,F(xiàn)LOPs 表示模型處理單幅圖像并完成一次前向傳播所需的浮點數(shù)運算量,反映了模型的時間復(fù)雜性。#param 表示模型的參數(shù)總量,決定了模型本身的大小,并直接影響模型在推理時所需的內(nèi)存占用,反映了模型的空間復(fù)雜性。

表5 不同分類模型的FLOPs 和參數(shù)數(shù)量Tab.5 FLOPs and parameters of different classification models

由于未考慮空間鄰域信息,EndNet 模型的時間和空間復(fù)雜度相對較低。僅使用單個像素作為輸入可以降低模型復(fù)雜度,忽略鄰域依賴關(guān)系也會導(dǎo)致特征表達能力的局限,降低模型的分類準(zhǔn)確率。對比Two-Branch,MAHiDFNet模型,本文提出的模型具有更為緊湊和高效的模型結(jié)構(gòu),可以在模型空間復(fù)雜度較低的情況下保持較好的性能。CLCT-Net 采用多個基于Transformer 的編碼器分支,能夠更全面地提取特征。然而,由于多頭自注意力機制的特性,Transformer 常需大量計算資源,這使得模型的浮點數(shù)運算量不可避免地增加。考慮到效果和復(fù)雜度綜合因素,CLCT-Net 模型雖然需要較多浮點數(shù)運算,但占用的內(nèi)存空間較少。這種權(quán)衡使分類準(zhǔn)確率顯著提升,達到了性能和復(fù)雜度的最佳平衡。

4 結(jié)論

本文提出了一種基于CNN-Transformer 的端到端聯(lián)合分類網(wǎng)絡(luò)CLCT-Net。該網(wǎng)絡(luò)應(yīng)用共有特征提取網(wǎng)絡(luò)模塊,通過提取不同模態(tài)間的共性特征實現(xiàn)異構(gòu)傳感數(shù)據(jù)在語義級別的深層對應(yīng)。其次,設(shè)計了雙分支HSI 編碼器和頻域自注意力LiDAR 編碼器,結(jié)合各模態(tài)特性分別學(xué)習(xí)豐富有效的特征表示。最后,引入集成對比學(xué)習(xí)策略,進一步提升了模型協(xié)同跨模態(tài)數(shù)據(jù)的地物分類能力。實驗在Houston 2013 和Trento 數(shù)據(jù)集上進行,CLCT-Net 的OA 值分別為92.01%和98.90%,AA 值分別為91.78% 和90.10%,Kappa 值分別為91.33%和98.54%,優(yōu)于其他分類方法。實驗結(jié)果表明,基于CNN-Transformer的框架進行異構(gòu)數(shù)據(jù)聯(lián)合表達和建模是地物分類任務(wù)的有效途徑。

猜你喜歡
特征提取模態(tài)分類
分類算一算
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
基于MED和循環(huán)域解調(diào)的多故障特征提取
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 92午夜福利影院一区二区三区| 极品国产一区二区三区| 国产一区二区三区免费| 狠狠久久综合伊人不卡| 欧美日韩专区| 在线观看国产精品第一区免费| 国产精品九九视频| 丰满的熟女一区二区三区l| 精品一区二区三区无码视频无码| 91精品在线视频观看| 波多野结衣中文字幕久久| 欧美在线国产| 免费jjzz在在线播放国产| 国产午夜一级毛片| 黄片在线永久| 亚洲国产理论片在线播放| 亚洲娇小与黑人巨大交| 97se亚洲综合不卡 | 亚洲第一区精品日韩在线播放| 亚洲精品人成网线在线| 人妻无码AⅤ中文字| 欧美激情视频一区| 欧美啪啪精品| 欧美日本在线播放| 网友自拍视频精品区| 久久中文字幕不卡一二区| 在线观看亚洲精品福利片| 日本妇乱子伦视频| 欧美国产成人在线| 激情国产精品一区| 免费又爽又刺激高潮网址| 亚洲国产成人精品一二区| 欧美日本在线一区二区三区| 一级毛片网| 97色婷婷成人综合在线观看| 久久公开视频| 国产欧美日韩一区二区视频在线| 性色一区| 成人午夜亚洲影视在线观看| 亚洲有无码中文网| 欧美专区日韩专区| 高清无码一本到东京热| 亚洲精品波多野结衣| 国产精品视频白浆免费视频| 国产精品欧美激情| 亚洲精品天堂在线观看| 亚洲中文字幕日产无码2021| 国产男女免费完整版视频| 久久精品国产精品青草app| 久久99热66这里只有精品一| 久久香蕉国产线看观看式| 亚洲精品综合一二三区在线| 欧美成人精品一级在线观看| 中国精品自拍| 亚洲国产欧洲精品路线久久| 日韩精品一区二区三区中文无码| 99久久精品免费看国产免费软件| 九色综合伊人久久富二代| 天堂岛国av无码免费无禁网站| 久久亚洲精少妇毛片午夜无码| 亚洲日本中文字幕天堂网| 成人午夜免费视频| 91福利在线观看视频| 一本大道视频精品人妻| 亚洲国产av无码综合原创国产| 日韩乱码免费一区二区三区| 成年免费在线观看| 国产成人在线无码免费视频| 幺女国产一级毛片| 亚洲日本精品一区二区| 欧美一区国产| 欧美成人亚洲综合精品欧美激情| 综合色婷婷| 在线观看免费人成视频色快速| 国产精品视频3p| 9966国产精品视频| 91精品免费高清在线| 国产无遮挡猛进猛出免费软件| 中国一级特黄大片在线观看| 超薄丝袜足j国产在线视频| 国产精品性| 亚洲成人精品|