999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合高度信息的遙感圖像語義分割網(wǎng)絡(luò)

2023-09-13 03:07:18錢育蓉
關(guān)鍵詞:語義特征實(shí)驗(yàn)

高 梁,錢育蓉+,劉 慧

(1.新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;3.新疆大學(xué) 信號(hào)檢測與處理重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046;4.新疆大學(xué) 軟件工程重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)

0 引 言

遙感圖像處理在城市規(guī)劃、農(nóng)林管理等方面具有重要作用,傳統(tǒng)的研究方法主要依賴于圖像的光譜、紋理信息,需要大量的人力、物力,并且這些方法往往只針對(duì)某幾類的地物進(jìn)行分類,泛化性能較差。近年來,基于深度學(xué)習(xí)方法在圖像處理領(lǐng)域表現(xiàn)出突出的性能。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在語義分割任務(wù)中具有重要的應(yīng)用。

基于CNN改進(jìn)的網(wǎng)絡(luò),往往會(huì)受限于卷積核的大小,只能獲取固定大小的感受野,使得圖像的上下文信息沒有得到充分利用[1]。為了擴(kuò)大網(wǎng)絡(luò)的感受野,一些研究者嘗試使用多尺度上下文信息的融合的方法[2]、空洞卷積[3-5]的方法、自注意力的方法[6-8]。基于自注意力的Transfor-mer[9-11]可以通過建模全局的上下文信息[12]。但是,Transformer需要在大量數(shù)據(jù)的預(yù)訓(xùn)練前提下,才能達(dá)到較好的性能,對(duì)于一些中型或者小型的遙感數(shù)據(jù)集中表現(xiàn)結(jié)果較差[13]。

多模態(tài)融合模型[14-16]可以綜合利用不同模態(tài)信息,能夠提高網(wǎng)絡(luò)的分割性能。常見的遙感圖像數(shù)據(jù)集通過俯視拍攝的方式獲取,其真實(shí)地物高度信息丟失,使得某些地物在水平方向上具有相似的特征,網(wǎng)絡(luò)容易誤分類。除此之外,遙感圖像還具有低照度、多遮擋、空間信息不足的特點(diǎn)。僅僅使用RGB圖像進(jìn)行網(wǎng)絡(luò)訓(xùn)練,無法充分利用遙感圖像中的空間信息,提高網(wǎng)絡(luò)分割的精度。遙感圖像的高度信息可以作為一種特征編碼加權(quán)普通圖像的特征信息。因此,為了進(jìn)一步提高深度網(wǎng)絡(luò)在遙感數(shù)據(jù)集的分割能力,擴(kuò)大網(wǎng)絡(luò)的感受野,本文提出了融合高度信息的遙感圖像語義分割網(wǎng)絡(luò)。

1 方法介紹

1.1 總體結(jié)構(gòu)

圖1顯示了本文提出網(wǎng)絡(luò)的總體結(jié)構(gòu)。因?yàn)榫幋a器-解碼器結(jié)構(gòu)可以有效擴(kuò)大網(wǎng)絡(luò)的感受野,提高網(wǎng)絡(luò)獲取上下文信息的能力。因此,本文提出的網(wǎng)絡(luò)也是編碼器-解碼器結(jié)構(gòu)的。如圖1所示,本文提出的網(wǎng)絡(luò)有5個(gè)模塊組成:普通圖像編碼器、數(shù)字表面模型(normalized digital surface model,nDSM)圖像編碼器、位置編碼模塊(Position Encoding)、Transformer和用于恢復(fù)圖像分辨率的解碼器組成。在解碼器結(jié)構(gòu)的設(shè)計(jì)上,本文并不是簡單的對(duì)編碼器的鏡像。本文在解碼器中加入自注意力來建模像素之間的語義關(guān)聯(lián),來提高網(wǎng)絡(luò)對(duì)特征的表達(dá)能力。

圖1 網(wǎng)絡(luò)的總體結(jié)構(gòu)

1.2 編碼器

本文設(shè)計(jì)了兩個(gè)編碼器分別從普通圖像和nDSM圖像中提取特征。除了第一層中輸入通道的數(shù)量不同外,兩個(gè)編碼器的結(jié)構(gòu)彼此相同。本文選用殘差網(wǎng)絡(luò)(residual network,ResNet)作為提取特征的主干網(wǎng)絡(luò)。因?yàn)檎Z義分割是一個(gè)端到端的任務(wù)。本文沒有使用ResNet中的全連接層,而是只使用了前四層用來提取特征。

普通圖像在普通圖像編碼器的開始階段依次經(jīng)過一個(gè)卷積核大小為7×7的卷積層(convolution,Conv)、批標(biāo)準(zhǔn)化層(batch normalization,BN)、ReLu激活函數(shù)。在nDSM圖像編碼器中,因?yàn)閚DSM圖像是一個(gè)單通道的圖像,所以將初始階段的卷積層的輸入通道數(shù)設(shè)置為1。在后面的特征信息提取過程中,圖像會(huì)經(jīng)過池化層來降低特征圖的分辨率。然后,圖像在經(jīng)過殘差層的過程中,圖像的特征信息會(huì)被網(wǎng)絡(luò)提取出來。在高級(jí)特征圖中,特征圖的每一個(gè)通道都可以被認(rèn)為是網(wǎng)絡(luò)對(duì)某一類特征信息的響應(yīng)。因此,圖像經(jīng)過一系列的殘差層之后,網(wǎng)絡(luò)可以獲取輸入圖像豐富的特征信息。

nDSM圖像中包含了地物的高度信息,可以作為一種輔助的信息,來加權(quán)網(wǎng)絡(luò)對(duì)某類特征信息的響應(yīng)。在網(wǎng)絡(luò)的編碼器提取特征的每一個(gè)階段中,nDSM圖像編碼器將獲取的特征信息融入到普通圖像編碼器中。通過這種方法來增強(qiáng)網(wǎng)絡(luò)對(duì)不同類別特征信息的表達(dá)。在編碼器的最后階段,提出的網(wǎng)絡(luò)將融合的特征圖輸入到位置編碼模塊中。

1.3 Transformer

Transformer可以通過自注意力有效捕獲上下文信息。首先,將特征圖x輸入到位置編碼模塊進(jìn)行特征融合,增加位置信息,增強(qiáng)標(biāo)記嵌入模塊的特征提取能力,位置編碼模塊的結(jié)構(gòu)如圖2(a)所示。位置編碼設(shè)計(jì)為逐像素的注意力,使得網(wǎng)絡(luò)可以處理任意大小的輸入圖像,不需要插值或微調(diào)。位置編碼模塊使用3×3的卷積來獲得像素方向的權(quán)重,然后通過Sigmoid函數(shù)進(jìn)行縮放。x∈Rc×h×w為輸入的特征圖,c為特征圖的通道數(shù),h和w分別為特征圖的高和寬,x在位置編碼模塊的計(jì)算過程如下所示

圖2 位置編碼器和Transformer設(shè)計(jì)細(xì)節(jié)

=BN(Conv(x))×Sigmoid(Conv(BN(Conv(x))))

(1)

圖3 EMSA設(shè)計(jì)細(xì)節(jié)

EMSA(q,k,v)=IN(Softmax(Conv(qkTdk)))v

(2)

在這里,Conv(.) 卷積核的大小為1×1,它可以模擬不同頭部之間的相互作用

x′=+EMSA(LN())

(3)

在EMSA之后加入了前饋神經(jīng)網(wǎng)絡(luò)(feed-forward network,F(xiàn)FN),以進(jìn)行特征變換和非線性處理

x=x′+FFN(LN(x′))

(4)

1.4 解碼器

編碼器主要是用來獲取富含語義信息的特征圖。在解碼器部分,高級(jí)特征圖通過特征映射逐漸恢復(fù)到輸入圖像的分辨率。在本節(jié)中,將詳細(xì)描述本文設(shè)計(jì)的解碼器結(jié)構(gòu),該結(jié)構(gòu)的設(shè)計(jì)細(xì)節(jié)如圖4所示。

圖4 解碼器層結(jié)構(gòu)

圖像的上下文信息對(duì)于語義分割至關(guān)重要,提高網(wǎng)絡(luò)獲取上下文信息的能力可以提高語義分割的精度。自注意計(jì)算可以獲得像素之間的語義關(guān)聯(lián),通過計(jì)算得到的協(xié)方差矩陣,可以判斷兩個(gè)像素之間的特征是相似和迥異。一個(gè)像素和特征圖中的其它像素進(jìn)行自注意計(jì)算,就可以獲取該像素與特征圖中其它像素之間的關(guān)系。高級(jí)特征的每個(gè)通道的圖可以看作是一個(gè)類特有的響應(yīng),不同的語義響應(yīng)是相互關(guān)聯(lián)的。通過利用任意兩個(gè)通道圖之間的依賴關(guān)系,本文改進(jìn)了相關(guān)語義的特征表示。因此,本文將注意力加入到解碼器中來建模任意兩個(gè)通道之間的依賴關(guān)系。具體的,輸入的特征圖x∈Rc×h×w,c為圖像的通道數(shù),h為圖像的高度,w為圖像的寬度。在x和x的轉(zhuǎn)置之間執(zhí)行矩陣乘法。計(jì)算公式如下所示

ej,i=exp(xj×xi)∑Ci=1exp(xj×xi)

(5)

其中,ej,i第i個(gè)通道對(duì)第j個(gè)通道的影響

Ej=∑Ci=1(ej,ixi)+xi

(6)

另外,本文將ej,i與xi的轉(zhuǎn)置進(jìn)行矩陣的乘法,得到的結(jié)果與xi進(jìn)行元素求和的操作,最終得到經(jīng)過特征增強(qiáng)的特征圖E∈Rc×h×w。Ej中的每個(gè)值都代表了當(dāng)前通道圖與其它所有的通道圖的加權(quán)和,這模擬了通道之間的長期語義相關(guān)性。

2 實(shí)驗(yàn)細(xì)節(jié)

為了驗(yàn)證所提出方法的有效性,本文使用韋興根和波茨坦數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)的測試。在這一節(jié)中,本文首先介紹數(shù)據(jù)集。然后,本文介紹了實(shí)驗(yàn)中設(shè)置的一些參數(shù)。

2.1 數(shù)據(jù)集

2.1.1 韋興根

韋興根數(shù)據(jù)集包含33張圖像,每張圖像由從較大的正射影像鑲嵌圖中提取的真實(shí)正射影像組成,地面采樣距離為9 ms,每個(gè)圖像約為2500×2500分辨率大小。本文使用的圖像包含3個(gè)波段,分別對(duì)應(yīng)于近紅外(near infra red,NIR)、紅色(Red,R)和綠色(Green,G)波長,即NIRRG圖像。本文使用了nDSM作為另外一種數(shù)據(jù)源輸入到網(wǎng)絡(luò)中。nDSM就是將數(shù)字表面模型(digital surface model,DSM)中的地表信息過濾,得到了所有高于地面的地物相對(duì)于地面的高度信息,能夠反映地物的真實(shí)高度。這種高度信息對(duì)于區(qū)分遙感圖像中不同類型地物(如建筑物與不透水表面、樹與矮植)具有重要作用。

請注意,本文使用了目標(biāo)邊緣未經(jīng)侵蝕的真實(shí)圖用于測試。本文按照官方的劃分原則,將其中的16張作為訓(xùn)練集(圖像id:1,3,5,7,11,13,15,17,21,23,26,28,30,32,34,37),另外的17張作為測試集(圖像id:2,4,6,8,10,12,14,16,20,22,24,27,29,31,33,35,38)。為了適應(yīng)本文實(shí)驗(yàn)設(shè)備的GPU內(nèi)存大小,本文將提供的原始圖片裁剪為256×256的小圖片,使用了隨機(jī)的橫向翻轉(zhuǎn)和縱向翻轉(zhuǎn)來增強(qiáng)數(shù)據(jù)集。

2.1.2 波茨坦

波茨坦語義標(biāo)注數(shù)據(jù)集由38張圖像組成,地面采樣距離為5 ms,每個(gè)圖像約為6000×6000分辨率大小,該圖像為RGB圖像,使用nDSM圖像作為一個(gè)輔助數(shù)據(jù)源。本文按照官方的劃分原則,將其中的13張作為測試集(因?yàn)樘峁┑臉?biāo)簽數(shù)據(jù)集中缺少03_13,所以選用的圖像id:02_13,02_14,03_14,04_13,04_14,04_15,05_13,05_14,05_15,06_13,06_14,06_15,07_13),另外的24張作為訓(xùn)練集(圖像id:2_10,2_11,2_12,3_10,3_11,3_12,4_10,4_11,4_12,5_10,5_11,5_12,6_7,6_8,6_9,6_10,6_11,6_12,7_7,7_8,7_9,7_10,7_11,7_12)。本文同樣使用了沒有經(jīng)過邊緣侵蝕的地面真實(shí)值用于測試,并且采用了和韋興根數(shù)據(jù)集相同的數(shù)據(jù)增強(qiáng)方式。

2.2 評(píng)價(jià)指標(biāo)

本文使用了數(shù)據(jù)提供者建議的評(píng)價(jià)指標(biāo),有:交并比(intersection over union,IoU)、F1分?jǐn)?shù)(F1)、總體精度(overall accuracy,OA)、平均IoU(mean intersection over union,mIOU)、平均F1分?jǐn)?shù)(mean F1-score,mF1)。在介紹這些指標(biāo)的具體公式之前,先介紹混淆矩陣的一些符號(hào):真正例(true positive,TP)、真負(fù)例(true negative,TN)、假正例(false positive,F(xiàn)P)和假負(fù)例(false negative,F(xiàn)N)

precision=TPTP+FP

(7)

recall=TPTP+FN

(8)

其中,precision代表了標(biāo)記為正類的元組實(shí)際為正類所占的百分比。recall代表了正元組標(biāo)記為正的百分比。

IoU和mIoU的計(jì)算公式如下

IoU=A∩BA∪B

(9)

mIoU=1N∑Nk=1IoU

(10)

其中,A代表了真實(shí)值,B代表了預(yù)測值,N為目標(biāo)類別數(shù)。

F1、mF1和OA計(jì)算公式如下

F1=2precision×recallprecision+recall

(11)

mF1=mean(2precision×recallprecision+recall)

(12)

OA=TP+TNTP+FP+FN+TN

(13)

2.3 實(shí)驗(yàn)參數(shù)

本文使用的實(shí)驗(yàn)環(huán)境的參數(shù)版本為:PyTorch 1.4.0,CUDA 10.1,Python 3.7和CuDNN 7.6.5。這些網(wǎng)絡(luò)使用Adam優(yōu)化器,權(quán)重衰減為0.0002。為了減輕不平衡類別的影響,本文采用的交叉熵?fù)p失權(quán)重如下所示

Wclass=1log(Pclass+c),c=1.12

(14)

Pclass是類別平衡參數(shù),主要是解決數(shù)據(jù)集類別分布不平衡的問題。韋興根和波茨坦數(shù)據(jù)集中,本文將批處理大小設(shè)置為16,以適應(yīng)本文的GPU內(nèi)存,初始化學(xué)習(xí)率為0.0005,網(wǎng)絡(luò)在單個(gè)2080TiGPU上跑200 epochs。

3 實(shí)驗(yàn)和討論

在這一章節(jié)中,本文通過一系列的消融實(shí)驗(yàn)討論了提出網(wǎng)絡(luò)的有效性。然后,本文將提出的方法在韋興根和波茨坦數(shù)據(jù)集中與最先進(jìn)的方法進(jìn)行比較,并且討論了實(shí)驗(yàn)的結(jié)果。

3.1 消融實(shí)驗(yàn)

在這一節(jié)中,本文將提出的網(wǎng)絡(luò)與基線網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)進(jìn)行實(shí)驗(yàn)對(duì)比,F(xiàn)CN[1]將CNN中的全連接層替換為卷積層實(shí)現(xiàn)了端到端的輸出,使用了能夠增加特征圖尺寸的反卷積層,實(shí)現(xiàn)了精細(xì)的分割結(jié)果,極大推動(dòng)了深度學(xué)習(xí)在像素級(jí)別的語義分割任務(wù)中的應(yīng)用。在韋興根數(shù)據(jù)集中的定量比較結(jié)果見表1,黑色字體代表性能最好。雙分支網(wǎng)絡(luò)同樣使用了ResNet作為特征提取網(wǎng)絡(luò),使用NIRRG和nDSM圖像作為輸入圖像,而雙分支+改進(jìn)解碼器與雙分支網(wǎng)絡(luò)相比,多了一個(gè)基于自注意的解碼器。最后,本文提出網(wǎng)絡(luò)與雙分支+改進(jìn)解碼器網(wǎng)絡(luò)相比多了一個(gè)Transformer。

表1 消融實(shí)驗(yàn)結(jié)果

通過表1可以看出雙分支的網(wǎng)絡(luò)會(huì)比單分支的網(wǎng)絡(luò)實(shí)驗(yàn)的結(jié)果要好,這應(yīng)證了本文的猜想,多個(gè)數(shù)據(jù)源可以為網(wǎng)絡(luò)提供更多的特征信息,提高網(wǎng)絡(luò)的分割的精度。對(duì)比雙分支網(wǎng)絡(luò)和加了改進(jìn)解碼器的網(wǎng)絡(luò),可以看到提出的解碼器可以進(jìn)一步提升網(wǎng)絡(luò)的特征提取能力。對(duì)比雙分支+改進(jìn)解碼器網(wǎng)絡(luò)和本文提出的網(wǎng)絡(luò),可以看到Transformer能夠進(jìn)一步提升網(wǎng)絡(luò)性能。總的來說,本文提出的網(wǎng)絡(luò)在消融實(shí)驗(yàn)中,比單分支網(wǎng)絡(luò)FCN提高了2.3%mF1、3.33%mIoU和2.41%OA。

3.2 類激活映射圖

為了更加清晰地展示本文提出的網(wǎng)絡(luò)的特征提取能力,使用了類激活映射的方法對(duì)FCN和本文提出網(wǎng)絡(luò)的最后一個(gè)卷積層進(jìn)行了可視化,如圖5所示,圖像中的高亮區(qū)域代表了網(wǎng)絡(luò)對(duì)特定類別的重點(diǎn)關(guān)注區(qū)域,而在圖像暗的區(qū)域,則代表的是網(wǎng)絡(luò)不關(guān)注區(qū)域。類激活映射可以展示網(wǎng)絡(luò)對(duì)不同類別地物的識(shí)別能力。類激活映射圖最初在文獻(xiàn)[18]中提出,通過將特征圖與某個(gè)類對(duì)應(yīng)的權(quán)重相乘,然后用熱力圖歸一化,最后將這些圖恢復(fù)到輸入圖像的大小,就可以看到網(wǎng)絡(luò)的重點(diǎn)關(guān)注區(qū)域。圖5中的第一列的第一行是輸入的普通圖像,第一列的第二行是標(biāo)簽圖。圖5從第二列到第五列分別代表了網(wǎng)絡(luò)對(duì)不同類別的地物特征的識(shí)別能力。對(duì)比第一行和第二行的類激活映射圖,可以看到本文提出的網(wǎng)絡(luò)對(duì)特征識(shí)別能力更強(qiáng)。

圖5 消融實(shí)驗(yàn)的類激活映射

3.3 混淆矩陣

混淆矩陣作為精度評(píng)價(jià)一種方式,可以看出網(wǎng)絡(luò)的分割性能。混淆矩陣中的主對(duì)角線是被正確分類數(shù)目的占比。在韋興根數(shù)據(jù)集結(jié)果的對(duì)比如圖6所示,混淆矩陣主對(duì)角線圖像塊的顏色越深,被認(rèn)為是被正確分類的數(shù)據(jù)越高。從圖6中可以看出,樹和矮植容易被誤分類,這主要是因?yàn)闃浜桶苍谒椒较蛏咸卣飨嗨疲愰g差異小,單數(shù)據(jù)源的FCN無法有效區(qū)分這兩種地物。但是將具有高度信息的nDSM圖像加入到網(wǎng)絡(luò)當(dāng)中去時(shí),可以看到本文提出網(wǎng)絡(luò)對(duì)這兩種地物誤分類降低。除此之外,從圖6中可以看出小尺度的車也容易被分到不透水表面的那一類中。這是因?yàn)樾〕叨鹊能囋诰矸e運(yùn)算獲取特征的過程中,容易受周圍的不透水表面特征的影響,本文提出的網(wǎng)絡(luò)因?yàn)槭褂昧司哂凶宰⒁饬C(jī)制的解碼器,可以增強(qiáng)對(duì)特征的提取能力,因而本文提出的網(wǎng)絡(luò)可以較好的識(shí)別這兩種地物。除此之外,Transformer可以建模全局的上下文信息,使得網(wǎng)絡(luò)能夠識(shí)別當(dāng)前像素與圖像中其它像素的關(guān)系,因而本文提出的網(wǎng)絡(luò)可以對(duì)像素進(jìn)行更加準(zhǔn)確分類。

3.4 韋興根數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比

本文在韋興根數(shù)據(jù)集上將本文的網(wǎng)絡(luò)與Unet[19]、RESUnet[20]、Fast-scnn[21]、PSTNet[16]、MAVNet[22]、MFNet[23]、RTFNet[24]進(jìn)行實(shí)驗(yàn)對(duì)比。Unet采用了一個(gè)編碼器-解碼器的結(jié)構(gòu)來擴(kuò)大網(wǎng)絡(luò)的感受野,并且通過級(jí)聯(lián)的方式將低級(jí)細(xì)節(jié)信息融入到高級(jí)的特征圖當(dāng)中,但是Unet冗余信息太多,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練很慢。RESUnet主要實(shí)現(xiàn)了Unet和Resnet的結(jié)合。Fast-scnn針對(duì)卷積運(yùn)算進(jìn)行了改進(jìn),減少了重復(fù)計(jì)算。PSTNet是一個(gè)融合RGB圖和熱圖的網(wǎng)絡(luò),但是該網(wǎng)絡(luò)在處理nDSM圖像時(shí),出現(xiàn)了網(wǎng)絡(luò)不收斂的情況,考慮到PSTNet不能有效的從nDSM圖像中獲取高度信息,在實(shí)驗(yàn)中主要是針對(duì)普通圖像進(jìn)行了實(shí)驗(yàn)。MAVNet 是一種用于微型飛行器的高效殘差分解卷積網(wǎng)絡(luò)。MFNet是一種融合RGB圖像和熱圖的網(wǎng)絡(luò),解決了夜間能見度低和惡劣天氣條件下獲取的RGB圖像分割精度低的問題。在RTFNet融合了RGB和熱圖實(shí)現(xiàn)了低照度和眩光條件下的高精度語義分割。

本文分別對(duì)比了單一數(shù)據(jù)源和多數(shù)據(jù)源網(wǎng)絡(luò)的實(shí)驗(yàn)性能。對(duì)于單分支的網(wǎng)絡(luò),NIRRG圖像是三通道的圖像可以直接輸入。除此之外,為了驗(yàn)證高度信息在單分支網(wǎng)絡(luò)中的作用,本文還將NIRRG和nDSM圖像合并為四通道圖像輸入到單分支網(wǎng)絡(luò)中。對(duì)于雙分支的網(wǎng)絡(luò),NIRRG和nDSM圖像可以分別輸入到編碼器當(dāng)中。所有網(wǎng)絡(luò)都經(jīng)過訓(xùn)練,直到損失收斂,實(shí)驗(yàn)結(jié)果見表2,黑色字體表示最好的結(jié)果,下劃線表示次好。

表2 韋興根數(shù)據(jù)集定量比較結(jié)果

通過表2可以看出本文提出的網(wǎng)絡(luò)在綜合指標(biāo)mF1、mIoU和OA取得最好的性能,并且對(duì)建筑物、矮植、不透水表面有一個(gè)好的分割結(jié)果,但是在樹和車這兩個(gè)類別中可以得到第二好和第三好,主要的原因是樹和矮植特征相似,網(wǎng)絡(luò)在獲取樹的特征容易受到周圍矮植特征的影響,這個(gè)問題在其它網(wǎng)絡(luò)的分割結(jié)果中也有所體現(xiàn)。因此遙感圖像中的這種類間相似性對(duì)分割模型的性能有較大的影響,仍然是當(dāng)前遙感領(lǐng)域需要研究的問題。車相較于其它地物高度信息不明顯,nDSM提供的高度信息不能有效提高車的識(shí)別結(jié)果。

在韋興根數(shù)據(jù)集中的定性比較結(jié)果如圖7所示。通過圖7可以看出本文提出的網(wǎng)絡(luò)可以對(duì)不同大小的地物有一個(gè)較好的識(shí)別,并且對(duì)不同大小的地物邊界識(shí)別較為精確。遙感圖像中的類間相似性也是影響網(wǎng)絡(luò)識(shí)別性能的重要因素,方框的區(qū)域來看,樹和矮植就是具有這種類間相似性的兩種地物。這兩種相似的地物如果僅僅只通過NIRRG圖像來看,肉眼很難分辨出兩種地物的邊界。從圖7中可以看出UNet_3、RESUnet_4、Fast-scnn_3、Fast-scnn_4、PSTNet、MAVNet不能對(duì)樹的邊界實(shí)現(xiàn)有效的識(shí)別,而本文的網(wǎng)絡(luò)可以從高度信息特征和全局上下文信息的層面獲取關(guān)于地物的特征信息,實(shí)現(xiàn)較為精確的分類。

圖7 韋興根數(shù)據(jù)集定性比較結(jié)果

3.5 波茨坦數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比

本文在波茨坦數(shù)據(jù)集中對(duì)比了單一數(shù)據(jù)源和多數(shù)據(jù)源網(wǎng)絡(luò)的實(shí)驗(yàn)性能,實(shí)驗(yàn)結(jié)果見表3,黑色字體表示最好的結(jié)果,下劃線表示次好。對(duì)于單分支的網(wǎng)絡(luò),RGB圖像是三通道的圖像可以直接輸入。除此之外,為了驗(yàn)證高度信息在單分支網(wǎng)絡(luò)中的作用,本文還將RGB和nDSM圖像合并為四通道圖像輸入到單分支網(wǎng)絡(luò)中。對(duì)于雙分支的網(wǎng)絡(luò),RGB和nDSM圖像可以分別輸入到編碼器當(dāng)中。所有網(wǎng)絡(luò)都經(jīng)過訓(xùn)練,直到損失收斂。

表3 波茨坦數(shù)據(jù)集定量比較結(jié)果

通過表3可以看出,本文提出的網(wǎng)絡(luò)可以對(duì)不同大小的地物有個(gè)較好的識(shí)別。總的來說,本文提出的網(wǎng)絡(luò)在指標(biāo)mIoU、OA和mF1均能達(dá)到最好的結(jié)果。但是針對(duì)樹和車這類目標(biāo)仍然存在著一些性能上的不足,針對(duì)無法通過高度信息融合來提高分類精度的地物,仍然需要探尋其它有效的方法來提高遙感圖像語義分割的精度。

在波茨坦數(shù)據(jù)集中的定性比較結(jié)果如圖8所示。從圖8中可以看出本文對(duì)不同類別的地物均有一個(gè)較為準(zhǔn)確的識(shí)別。特別的,在圖8中方框區(qū)域,汽車的右邊有一棵樹,但是因?yàn)闃渲挥兄Ω桑庋酆茈y分辨出樹特征。網(wǎng)絡(luò)對(duì)于這樣的地物特征也很難處理,導(dǎo)致Unet_4、RESUet_3、RESUet_4、Fast-scnn_3、Fast-scnn_4、PSTNet、MAVNet對(duì)于這一區(qū)域識(shí)別的不夠準(zhǔn)確,出現(xiàn)了大量的誤分類。本文提出的網(wǎng)絡(luò)可以從多個(gè)數(shù)據(jù)源上獲取特征信息,并且利用Transformer有效獲取特征圖的上下文信息。因此,本文提出的網(wǎng)絡(luò)實(shí)現(xiàn)較為準(zhǔn)確的分割。

圖8 波茨坦數(shù)據(jù)集定性比較結(jié)果

4 結(jié)束語

本文提出了一個(gè)融合高度信息的遙感圖像語義分割網(wǎng)絡(luò)。該網(wǎng)絡(luò)采用了雙分支的結(jié)構(gòu),分別提取普通圖像和nDSM圖像的特征信息。針對(duì)傳統(tǒng)的卷積網(wǎng)絡(luò)無法有效獲取上下文信息的問題,本文提出的網(wǎng)絡(luò)融合Transformer,Transformer通過EMSA獲取特征圖的全局上下文信息,能夠提高網(wǎng)絡(luò)的特征提取能力。除此之外,本文還將自注意力加入到解碼器當(dāng)中,使得解碼器對(duì)于高級(jí)特征圖的語義信息建模的更加準(zhǔn)確。通過類激活映射圖可以看到本文提出的網(wǎng)絡(luò)對(duì)于地物的特征信息更加敏感。通過對(duì)比實(shí)驗(yàn)驗(yàn)證本文提出的網(wǎng)絡(luò)與其它先進(jìn)的網(wǎng)絡(luò)相比,取得了一個(gè)具有競爭力的結(jié)果。通過實(shí)驗(yàn)發(fā)現(xiàn)對(duì)于某些地物不能通過融合高度信息提高分割的精度,后續(xù)將繼續(xù)進(jìn)行多模態(tài)語義分割的研究,來提高模型的分割精度,并考慮推廣到城市規(guī)劃的實(shí)際應(yīng)用當(dāng)中。

猜你喜歡
語義特征實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
語言與語義
如何表達(dá)“特征”
做個(gè)怪怪長實(shí)驗(yàn)
不忠誠的四個(gè)特征
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 久久久久夜色精品波多野结衣| 亚洲中字无码AV电影在线观看| 国内精品九九久久久精品| 91麻豆精品国产高清在线| 亚洲色欲色欲www在线观看| 欧美精品在线观看视频| 高清不卡毛片| 欧美精品在线看| 日韩在线视频网站| 亚洲无码视频一区二区三区| 久久精品中文无码资源站| 波多野结衣一级毛片| 亚洲欧洲日产国产无码AV| 国产日本一区二区三区| 99久久成人国产精品免费| 久久国产亚洲偷自| 免费人成黄页在线观看国产| 亚洲第一香蕉视频| 成人午夜久久| 伊人成人在线| 日韩黄色大片免费看| 免费看a毛片| 亚洲va精品中文字幕| 91破解版在线亚洲| 欧美中文字幕第一页线路一| 国产又爽又黄无遮挡免费观看| 草草影院国产第一页| 激情无码字幕综合| 久久精品丝袜高跟鞋| 国产精品天干天干在线观看| 亚洲视频在线观看免费视频| 四虎免费视频网站| 久久99国产综合精品女同| 91精选国产大片| 欧美精品啪啪| 国产乱子精品一区二区在线观看| 国产成人高清在线精品| 福利片91| 丰满的少妇人妻无码区| 国产一级在线观看www色| 丰满人妻久久中文字幕| 中文字幕 日韩 欧美| 欧美成人第一页| 视频二区中文无码| 欧美a在线| 国产成在线观看免费视频| 婷婷综合色| 东京热一区二区三区无码视频| 欧美日韩亚洲综合在线观看 | 婷婷亚洲最大| 成人国产免费| 免费三A级毛片视频| 国内精品久久久久久久久久影视| 国产新AV天堂| 日韩精品一区二区深田咏美| 国产又爽又黄无遮挡免费观看| www中文字幕在线观看| 久久亚洲国产一区二区| AV网站中文| 婷婷开心中文字幕| 成年av福利永久免费观看| 国产精品网曝门免费视频| 亚洲国产成人综合精品2020 | 国产激情影院| 亚洲AV人人澡人人双人| 亚洲国产系列| 欧美成人午夜视频| 亚洲国产天堂久久综合226114 | 亚洲最新在线| 三级欧美在线| 免费精品一区二区h| 国产一级毛片yw| 亚洲二区视频| 国产男女免费完整版视频| 亚洲成人免费在线| 亚洲人成电影在线播放| 亚洲一级毛片在线观| 88国产经典欧美一区二区三区| 丝袜无码一区二区三区| 中文字幕人妻无码系列第三区| 色婷婷视频在线| 国产成人亚洲日韩欧美电影|