











摘要:全卷積神經網絡在遙感圖像語義分割中得到了廣泛應用,該方法地物分類精度和效率較高,但對地物分布不均勻遙感圖像占比較少地物的分類準確率較低。為了提高遙感圖像的分類精度,本文通過添加先驗知識方法豐富輸入數據特征,采用密集鏈接方式提高上下采樣過程中特征的重復利用率,采用可以優化交并比的損失函數Dice Loss和可以提高難分類類別精度的損失函數Focal Loss相加組合作為網絡模型的損失函數,采用LayerScale模塊加快模型收斂、抑制無用特征、突出有效特征的方式,對UNet的輸入、網絡結構、損失函數進行改進,優化語義分割效果。結果表明,基于高分影像數據集(GID)改進的UNet相較于原始UNet像素精度、均類像素精度、平均交并比分別提高了0.023 3、0.040 9、0.066 5,提升了地物分類精度,取得了較好的分類效果。
關鍵詞:深度學習;多特征;密集鏈接;Focal Loss;Dice Loss;LayerScale模塊;改進UNet;語義分割
doi:10.13278/j.cnki.jjuese.20230145
中圖分類號:TP753
文獻標志碼:A
高康哲,王鳳艷,劉子維,等. 基于改進UNet的遙感圖像語義分割. 吉林大學學報(地球科學版),2024,54(5):17521763. doi:10.13278/j.cnki.jjuese.20230145.
Gao Kangzhe, Wang Fengyan, Liu Ziwei, et al. Semantic Segmentation of Remote Sensing Images Based on Improved UNet. Journal of Jilin University (Earth Science Edition), 2024, 54 (5): 17521763. doi:10.13278/j.cnki.jjuese.20230145.
收稿日期:20230602
作者簡介:高康哲(1998—),男,碩士研究生,主要從事遙感圖像分類方面的研究,E-mail: gaokz21@mails.jlu.edu.cn
通信作者:王鳳艷(1970—),女,教授,博士,主要從事工程測量、工程地質方面的研究,E-mail: wangfy@jlu.edu.cn
基金項目:國家自然科學基金項目(42077242,42171407);自然資源部城市國土資源監測與仿真重點實驗室開放基金項目(KF202005024);吉林省自然科學基金項目(20210101098JC)
Supported by the National Natural Science Foundation of China (42077242, 42171407), the Open Fund of Key Laboratory of Urban Land Resources Monitoring and Simulation, Ministry of Natural Resources of China (KF202005024) and the Natural Science Foundation of Jilin Province" (20210101098JC)
Semantic Segmentation of Remote Sensing Images Based on Improved UNet
Gao Kangzhe, Wang Fengyan, Liu Ziwei, Wang Mingchang
College of GeoExploration Science and Technology, Jilin University, Changchun 130026, China
Abstract:
Fully convolutional neural network has been widely used in semantic segmentation of remote sensing images, and the accuracy and efficiency of feature classification are high, but for remote sensing images with uneven distribution of features, the accuracy of feature classification is low. In order to improve the classification accuracy of remote sensing images, this paper enriches the input data features by adding priori knowledge methods, uses the dense link method to improve the reuse rate of features in the process of up and down sampling, combines the loss function Dice Loss that can optimize the intersection of union and the Focal Loss that can improve the accuracy of difficult classification categories as the loss function of the network, and uses the LayerScale module to accelerate the model convergence and suppress irrelevant features while emphasizing useful features, improves input, network structure and loss function of UNet to optimize the effect of semantic segmentation. The results show that, compared with the original UNet, the improved UNet based on Gaofen image" dataset is improved by 0.023 3, 0.040 9 and 0.066 5 in terms of pixel accuracy, average pixel accuracy and mean intersection of union, respectively, which improves the classification accuracy of ground objects and achieves better classification effects.
Key words:
deep learning; multi-feature; dense linking; Focal Loss; Dice Loss; LayerScale module; improved UNet; semantic segmentation
0" 引言
近年來,遙感圖像光譜特征不斷豐富,時間、空間分辨率不斷提高,在城市規劃[1]、土地利用、軍事、測繪方面得到了廣泛應用[2],其中高分圖像分類研究是土地資源管理和用途管制的基礎[3]。最初人工目視解譯的遙感圖像分類方法已無法滿足遙感圖像地物信息的高效提取需求,基于遙感圖像特征提取的分類方法應運而生,如最大似然法、支持向量機[4]、隨機森林[5]等,這些方法在分類中有良好的表現,但也需要人工干預[6],因不適用于多分類,容易過擬合[7]。相較于以上方法,卷積神經網絡(convolutional neural networks, CNN)方法泛化性好、分類精度高[8],對圖像識別取得了優異的成績,如LeNet[9]、AlexNet[10]、VGG(visual geometry group)[11]、GoogLeNet[12]、ResNet[13]等。與上述圖像整體分類網絡不同,全卷積神經網絡(fully convolutional neural networks, FCN)實現了圖像像素級分類,基于FCN的語義分割方法不斷發展和完善,為遙感圖像地物分類提供了新思路。該方法可以有效提取影像中的地表覆蓋信息,自動獲取分類后的語義分割結果,因此被廣泛引入到遙感影像語義分割領域,如FCN[14]、UNet[15]、SegNet[16]、DeepLabV3[17]、ResUnet[18]等。
基于高分辨率遙感圖像的地物分類可以獲得更加精細的分類結果,本文選擇高分影像數據集(GID)開展研究。GID有十景高分二號影像,分辨率為1 m。由于數據量較少,本文采取在小樣本數據集上表現較好的UNet。GID地物占比不均勻,類間相似性較大、類內相似性較小,因此本文分別從加入先驗知識(如紋理、顏色、邊緣[19]特征)、改進網絡結構(如加入密集鏈接重復利用特征)、使用不同損失函數(如Focal Loss與Dice Loss相加組合)三方面對UNet進行改進,改善UNet語義分割效果,以提高網絡性能評價指標,達到良好的語義分割水準。
1" 改進UNet
1.1" 多特征信息
隨著遙感圖像空間分辨率的提升,表達的地物信息更加豐富。然而,僅使用遙感圖像的光譜信息難以有效分辨地物類別。本文添加了圖像的邊緣特征、紋理特征和顏色特征改進網絡輸入端,以分辨在原始圖像上相似的地物類別[20],提升語義分割的準確率。
1.1.1" 邊緣特征
對于遙感圖像的語義分割,邊界部分一直是分類的重點,使用邊緣檢測算子可以有效保留物體的形狀特征、局部細節信息以及空間上的全局信息。常用的邊緣檢測算法有Canny算子、Sobel算子、Prewitt算子,相較于其他邊緣檢測算子,Canny算子能夠盡可能多地標記和接近實際地物邊緣,圖像中的邊緣僅標記一次,且具有良好的抗噪性。本文采用Canny算子提取的邊緣特征作為加入網絡訓練的先驗知識。
1.1.2" 紋理特征
紋理特征能反映圖像同質現象的視覺特征,體現了物體表面具有緩慢變化或者周期性變化的表面結構組織排列屬性。
紋理通過像素及其周圍空間鄰域的灰度分布來表現。紋理在體現全局特征的同時,也描述了圖像或圖像區域所對應景物的表面性質。本文所使用的灰度共生矩陣[21]是用于圖像紋理特征描述的方法,該方法通過分析圖像中像素灰度值間的相對位置關系來描述紋理特征。
灰度共生矩陣可以描述圖像的多種紋理特征,如灰度分布、對比度、方向性等,常用的特征包括能量、對比度、相關性、熵等。本文選擇能量、對比度、同質性作為輸入模型的特征:
E=∑i∑jg(i,j)2;(1)
C=∑i∑j(i-j)2g(i,j);(2)
Hh=∑i∑jg(i,j)1+(i-j)2。(3)
式中:E為能量;g(i,j)為灰度共生矩陣計算操作;i、j分別為像素所在行、列;C為對比度;Hh為同質性。
能量用來描述圖像紋理的變化趨勢,是度量圖像灰度分布均勻和紋理粗細程度的標準;對比度反映圖像的清晰度和紋理溝紋深淺的程度;同質性用來度量紋理的局部變化程度,其值越大表示圖像局部紋理變化越小。
1.1.3" 顏色特征
顏色特征是一種全局特征,描述了圖像或圖像區域內對應景物的表面性質。 常用的顏色空間有RGB(red green blue)、HSV(hue saturation value)、CMY(cyan magenta yellow)、Lab(CIELab)等,相較于其他顏色空間,HSV顏色空間有直觀、顏色調節方便、識別簡單、易于實現等優點,在保留圖像空間信息的同時,還能反映人眼的感知及鑒別能力。本文選取HSV顏色空間作為圖像的顏色特征。RGB顏色空間轉換為HSV顏色空間的計算公式如下:
V=max(R,G,B)。(4)
S=60(G-B)V-min(R,G,B),V≠0;""" 0,""" V=0。(5)
H=60(G-B)V-min(R,G,B),V=R;120+60(B-R)V-min(R,G,B),V=G;240+60(R-G)V-min(R,G,B),V=B。(6)
式中:V為亮度;R為紅色通道像元值;G為綠色通道像元值;B為藍色通道像元值;S為飽和度;H為色相。 V、S、H 3個分量相互獨立。
1.2" 改進網絡結構
1.2.1" 主體結構
UNet是一種用于圖像分割任務的深度學習網絡,主要采取了對稱性的結構以及跳躍式鏈接的設計,最初由Ronneberger等[15]于2015年提出并用于生物醫學影像分割中。UNet的網絡結構分為兩部分:編碼器和解碼器。編碼器為下采樣部分,采用傳統CNN結構[22],每一層輸出后通過最大池化進行下采樣,用于提取影像高維抽象特征并縮減圖像尺寸,提取的高維圖像特征用于輸入上采樣部分;解碼器部分采用反卷積方式進行上采樣,通過反向傳播算法調整反卷積參數更好地擬合數據。 UNet具有對稱式結構并采取了跳躍式鏈接,可以在不需要大量標注數據集的情況下進行訓練;跳躍式的鏈接設計可以使網絡同時利用高、低層次信息,從而更好地進行圖像的語義分割。
Densenet由Huang等[23]于2016年提出,該網絡的每層都與前面的所有層鏈接,從而形成一種密集鏈接結構。該網絡采用拼接方式結合其他層的提取特征,方便后續層直接訪問前面層的所有信息,從而提高特征的重用率與表達能力。通過這種密集鏈接方法使模型每一層的參數都得到共享,減少網絡參數量。同時,密集鏈接的參數共享有利于梯度從后向前的流動,加速模型訓練過程,防止梯度消失問題,從而提高模型的魯棒性和泛化能力。
本文的網絡結構如圖1所示,利用以上兩種網絡的特點,以UNet為主干結構,結合Densenet的密集鏈接思路改進UNet。通過將UNet每一個卷積模塊內部的輸入傳遞給該卷積模塊的每一個卷積層,形成模塊內的稀疏鏈接;同時保留了原始UNet編碼器與解碼器之間的跳躍鏈接,使上采樣過程可以利用下采樣過程的高、低維信息恢復圖像尺寸,增強語義分割效果。
1.2.2" LayerScale模塊
LayerScale模塊具有加快收斂的作用[24],可以顯著提高收斂速度并提高模型深處的精度。相較于BN以及LN(layer normalization)兩種歸一化方式,LayerScale具有計算量小、效果穩定且易于訓練的優勢,同時不需要計算均值、方差,而直接對每一層輸出進行縮放。將此模塊加入到編碼器和解碼器之間(圖1),由于編碼器最后一層具有較多的特征圖且為模型深層,加入LayerScale模塊可以加快模型的收斂,同時在深度方向上獲得自適應的縮放參數,
Conv. 卷積;K3S1. 3×3大小的卷積核,步長為1;BN. 批標準化;ReLU. 線性整流函數;Conc. 拼接最大池化;k2s2. 2×2大小的池化窗,步長為2;ConvT. 轉置卷積;λ. LayerScale模塊中的縮放參數。
加強編碼器與解碼器之間的特征傳遞效率,使解碼器部分獲得更有效的特征,優化模型語義分割效果。
1.3" 損失函數
損失函數是CNN的重要組成部分,評估模型真實值與預測值不一致的程度,決定了模型優化的方向。模型通過反向傳播調整參數,減小損失值,優化分類效果。本文基于加權交叉熵損失函數、Focal Loss函數、Dice Loss函數進行試驗,提高交并比和難分類類別的分類精度。
1.3.1" 加權交叉熵損失函數
CNN分類應用中一般使用交叉熵(cross entropy, CE)作為損失函數,計算公式如下:
LCE=-∑ki=1yilgpi。(7)
式中:LCE為交叉熵損失函數;k為類別數;yi∈{0,1},表示真實標簽中第i類的取值;pi為模型預測第i類的概率。隨著訓練次數的增多,損失值減小,準確率上升。在模型訓練中,分類損失是所有樣本分類損失的平均值,如果每個樣本反向傳播權值調整的貢獻相同,會導致樣本中占比較大的類別在權值更新中占據主導地位,模型的權重更新傾向于該類,使占比較少樣本的識別率降低[25]。
針對不同類別樣本占比不平衡的問題,本文使用加權交叉熵損失函數作為損失函數改進的對比,權重為
ωi=Nallk·Ni。(8)
式中:ωi為第i類樣本的權重;Nall為樣本總數;Ni為第i類樣本的數量。
1.3.2" Focal Loss函數
Focal Loss函數由Lin等[26]提出,公式為
LFpi=-∑ki=1αi·yi1-piγlnpi。(9)
式中:LFpi為Focal Loss函數;αi為平衡分類中各類別的參數;γ為可調節因子,γgt;0。
對于分類準確的樣本,pi接近于1。相較于交叉熵損失函數,Focal Loss函數對分類不準確的樣本,損失并沒有改變,而對分類準確的樣本,損失變小,提升了分類不準確樣本在整體損失中所占的比例。
同時,pi反映了樣本分類的難易程度,易分類樣本pi大,難分類樣本pi小。難分類樣本損失大,因此在優化過程中,損失函數傾向于難分樣本,有助于提高難分類樣本的準確度。
1.3.3" Dice Loss函數
Dice Loss函數是一種用于圖像分割的損失函數[27],該函數由Dice系數得名。Dice系數是一種用于評估樣本相似性的度量函數,其值越大,兩個樣本越相似。Dice系數的數學表達式為
D=2X∩YX+Y。(10)
式中:X為真實分割圖像的像素標簽;Y為模型預測分割圖像的像素類別;X∩Y近似為預測圖像的像素與真實標簽圖像像素之間的點乘,并對點乘結果進行求和;X和Y分別近似為它們各自對應圖像中像素相加。Dice Loss函數表達式為
LD=1-D=1-2X∩YX+Y。(11)
式中,LD為Dice Loss函數。Dice Loss函數可以緩解樣本中類別不平衡帶來的消極影響。類別不平衡說明未分類地物占據了圖像中的大部分面積,該部分不包含分類目標。Dice Loss函數專注于減少假反例的數量,重點關注正樣本;而交叉熵損失函數平等處理正負樣本,正樣本比例較小時,會被負樣本淹沒。Dice Loss函數在訓練時會出現梯度不穩定的現象,甚至會出現梯度飽和現象,一般與交叉熵損失函數組合使用。
為同時提高難分類類別的分類精度、各類別的交并比和平均交并比,優化由于占比較少而較難分類的地物以及RGB信息相似導致較難分類的地物,防止Dice Loss函數帶來的梯度不穩定現象,本文將Focal Loss函數與Dice Loss函數相加組合使用。
1.4" 精度指標
遙感圖像語義分割是一種像素級的分類,本文采用像素精度、均類像素精度、交并比、平均交并比、召回率5個指標評價網絡模型。
像素精度為所有像素中分類正確的像素占所有像素的比例:
ap=∑ki=1pii∑ki=1∑kj=1pij。(12)
式中:ap為像素精度;pii為類別為i被分類正確的像素數目;pij為實際類別為i、分類類別為j的像素數目。均類像素精度為每個類別分類正確像素占所有被預測為該類像素總數比例的平均值:
amp=1k∑ki=1pii∑kj=1pij。(13)
式中,amp為均類像素精度。交并比為像素真實值與預測值的交集和像素真實值與預測值并集的比值:
rIoU=pii∑kj=1pij+∑kj=1pji-pii。(14)
式中,rIoU為交并比。平均交并比為所有類別計算出的交并比取平均值:
rmIoU=1k∑ki=1pii∑kj=1pij+∑kj=1pji-pii。(15)
式中,rmIoU為平均交并比。召回率為分類正確的像素占實際為該類像素的比例:
rre=pii∑kj=1pij。(16)
式中,rre為召回率。
2" 實驗過程
本文選取GID作為實驗數據集,首先裁剪并擴增數據集,提取多種底層特征,構建網絡模型,對不同的損失函數進行試驗,訓練模型得到最優參數,然后用消融實驗確定各個改進的貢獻,與經典網絡進行對比,驗證網絡有效性;最后對實驗結果進行分析,得出結論。實驗流程如圖2所示。
2.1" 數據集介紹
GID[28]由武漢大學收集的高分二號影像制作完成,該數據集含有15類地物及1類未分類地物,共10張7 200×6 800大小的高分二號衛星影像,分辨率為1 m。
如表1所示:地類分別為工業用地、城市住宅、農村住宅、交通用地、稻田、灌溉土地、旱田、花園地塊、喬木林地、灌木地、天然草原、人造草地、
河流、湖泊、池塘;未分類地物,即背景占比較大,而地類中的花園地塊、灌木地等占比較小。背景與花園地塊等占比差別較大,這會影響花園地塊等占比較小類地物的分類結果。
2.2" 樣本數據集制作
將影像平均裁剪為256×256大小,按7∶2∶1分為訓練集、驗證集、測試集。影像大小為7 200×6 800,由于寬高無法被256整除,裁剪影像時將寬高不足256的部分舍棄。
由于訓練集樣本數量較少,而訓練樣本過少易導致過擬合,使模型泛化能力不足;因此,本文在實驗中對數據集進行數據增強,增強數據集原始圖像的亮度,擴增數據集,增強模型的泛化能力。
提取數據集的邊緣、紋理、顏色特征,將這些特征在通道方向拼接到原始數據集。本文將原始RGB三通道數據轉化為灰度數據,通過灰度共生矩陣提取圖像的能量、對比度、同質性作為紋理特征。各種特征如圖3所示。
數據集原始形狀為(256," 256, 3)的RGB三通道,將邊緣、紋理、顏色按照波段疊加的方式疊加為形狀為(256, 256, 10)的數據(圖4)。
2.3" 模型訓練
本文基于tensorflow+keras框架進行訓練,使用Adam優化器,初始學習率為0.001,每次輸入網絡的圖像數量為32。為確保模型可以最優化,每3個批次失函數如果不下降,學習率變為原來的一半,通過監測驗證數據集的準確率確定模型是否達到最佳。
3" 結果分析
3.1" 損失函數對比
在UNet模型下,為提高網絡的平均交并比及均類像素精度,分別使用表2列出的損失函數,并對得到的結果進行分析。
由表2可知:由于未分類地物在數據集中占比較多,加權交叉熵損失函數在均類像素精度上雖然相比交叉熵損失函數
有所提升,但抑制優化未分類地物的優化方向使得像素精度降低,同時較多的未分類地物被分到其他種類地物中,對占比較小地物
a. 原始圖像;b. 邊緣特征;c. 紋理特征(能量);d. 紋理特征(對比度)e. 紋理特征(同質性);f. 顏色特征。
的交并比造成較大影響,平均交并比低于交叉熵損失函數;Focal Loss函數與Dice Loss函數相加組合像素精度、均類像素精度、平均交并比均高于其他損失函數,本文采用Focal Loss與Dice Loss相加組合作為損失函數。
3.2" 消融實驗
為驗證每種改進的有效性及其對像素精度、均類像素精度、平均交并比的貢獻,分別按消去一種改進(實驗1—3)、消去兩種改進(實驗4—6)、不消去改進(實驗7)進行實驗(表3)。
消融實驗結果見表4。從表4可以看出,消去密集鏈接結構(實驗1)、損失函數組合(實驗2)和多特征(實驗3)的添加,像素精度、均類像素精度、平均交并比均降低;實驗4、5、6中又在實驗1、2、3的基礎上分別消去了多特征、密集鏈接結構、損失函數組合的添加,3種指標均降低。3種改進在缺少一種或兩種的情況下,精度指標均降低,證明了本文對UNet所做改進的有效性。
在實驗7中3種改進的基礎上添加LayerScale模塊,記作實驗8。實驗7、8結果對比見表5。
實驗8相較于實驗7,像素精度、均類像素精度、平均交并比均有不同程度的提升,分別提升了0.000 5、0.005 8、0.007 3,證實了在本文改進UNet中添加LayerScale模塊的有效性。
綜上,本文提出的改進UNet相比其余6組消融實驗具有更好的語義分割效果。
3.3" 占比較少類別召回率前后對比
農村住宅、花園地塊、灌木地、人造草地在數據集中占比分別為0.35%、0.52%、0.19%、0.53%(表1),均小于1%,將原始UNet在這四類上的分類召回率和交并比與實驗1—8進行對比,結果見表6、表7。可見,本文所采用的方法在四種占比較少的類別中,實驗8相比其余7組消融實驗有更好的表現,且召回率、交并比均大于或等于原始UNet。證明了本文方法對增強占比較少地類分類效果的有效性。
3.4" 與其他網絡結構對比
基于GID,采用FCN、UNet、DeepLabV3+、ResUnet四種經典網絡與本文改進UNet進行對比,證明本文改進UNet的有效性。
3.4.1" 分割結果圖
為體現本文改進UNet的優越性,本文將分割結果可視化,將網絡最后一層輸出結果轉換為代表類別的顏色,直觀體現分割效果的差異。
如圖5所示:原始圖像中的橙色框部分為工業用地與住宅,為相近地類,二者RGB信息相似,易造成錯分現象;本文改進UNet的可視化分割結果相較于其他網絡分類效果更好,分類邊界更清晰,與標簽貼合更好,證明了本文改進方法的有效性。
如圖6所示:對于相近地類,即原始圖像中紅色框部分的稻田與灌溉土地,兩者RGB信息相似,本文改進UNet分割邊界較為清晰,分類較為明確;對于類內相似度低、類間相似度高的地類,如背景以及灌溉土地,本文改進UNet也有較好的表現,地類之間的分割邊界較為銳利,地類的分割效果好于本文所對比的其他網絡。
3.4.2" 全局評價指標
像素精度、均類像素精度、平均交并比3種全局評價指標是比較網絡優劣的基礎,本文改進UNet與經典網絡全局評價指標對比見表8。
從表8可以看出,本文使用的改進UNet在像素精度、均類像素精度、平均交并比方面均高于對比網絡,像素精度為0.915 7,分別比FCN、UNet、DeepLabV3+、ResUnet提高了0.089 1、0.023 3、0.066 9、0.051 2;均類像素精度為0.883 0,分別比FCN、UNet、DeepLabV3+、ResUnet提高了0.134 0、0.040 9、0.127 3、0.070 9;平均交并比為0.823 2,分別比FCN、UNet、DeepLabV3+、ResUnet提高了0.180 5、0.066 5、0.172 0、0.114 9。五種網絡語義分割結果的優劣排序為:改進U
Net、UNet、ResUnet、DeepLabV3+、FCN。
3.4.3" 交并比
對于樣本數據集中占比較少的類別以及難分類的類別,交并比可以更好地顯示本文改進的作用。表9為本文改進UNet與經典網絡的對比,可以看出:本文改進UNet各類別的交并比均高于其他網絡以及原始UNet,突出顯示了本文改進UNet的有效性。對占比少于1%的農村住宅、花園地塊、灌木地和人造草地,交并比有所提升。相比于UNet,交并比提升了0.054 6、0.188 6、0.219 6、0.059 8,本文改進UNet中加入且充分利用不同的底層特征,使這四種地類交并比有所提升。
4" 結論
本文改進UNet,通過消融實驗、LayerScale模塊添加實驗、與FCN、UNet、DeepLabV3+(ResNet50)、ResUnet四種經典網絡的對比實驗,驗證改進UNet的可靠性,結論如下:
1)改進UNet模型優于其他四種經典網絡模型。與FCN、UNet、DeepLabV3+(ResNet50)、ResUnet四種經典語義分割模型相比,本文改進UNet在GID上像素精度分別提高0.089 1、0.023 3、0.066 9、0.051 2,均類像素精度分別提高0.134 0、0.040 9、0.127 3、0.070 9,平均交并比分別提高0.180 5、0.066 5、0.172 0、0.114 9。
2)加入多特征、密集鏈接結構、Focal Loss函數與Dice Loss函數相加組合可有效優化語義分割效果。本文以UNet為基礎搭建網絡,添加多特征,提高了網絡對相似地物的分辨能力;采用密集鏈接,提高了特征的利用率;使用Focal Loss函數和Dice Loss函數相加的方法,提升了網絡模型的交并比,優化了網絡模型在難分類地類上的語義分割效果。相比原始UNet,改進UNet像素精度、均類像素精度、平均交并比分別提高了0.023 3、0.040 9、0.066 5。
3)LayerScale模塊可優化編碼器、解碼器之間的特征傳遞,提高像素精度、均類像素精度、平均交并比。本文將LayerScale模塊加入到編碼器與解碼器之間,縮放網絡深層特征圖參數,加快網絡收斂,抑制無效特征、突出有效特征,在添加多特征、構建密集鏈接結構、使用Focal Loss函數與Dice Loss函數相加組合的基礎上,像素精度、均類像素精度、平均交并比分別提高了0.000 5、0.005 8、0.007 3。
4)本文方案對占比較少地類有較好的語義分割效果,對占比少于1%的農村住宅、花園地塊、灌木地和人造草地,交并比有所提升。相比于UNet,交并比分別提升了0.054 6、0.188 6、0.219 8、0.059 8。
參考文獻(References):
[1]" 李美霖, 芮杰, 金飛, 等. 基于改進 YOLOX 的遙感影像目標檢測算法[J]. 吉林大學學報 (地球科學版), 2023, 53(4): 13131322.
Li Meilin, Rui Jie, Jin Fei. et al. Remote Sensing Image Target Detection Algorithm Based on Improved YOLOX[J]. Journal of Jilin University (Earth Science Edition), 2023, 53(4): 13131322.
[2]" 寶音圖,劉偉,李潤生,等. 遙感圖像語義分割的空間增強注意力U型網絡[J].北京航空航天大學學報,2023, 49(7):18281837.
Bao Yintu, Liu Wei, Li Runsheng, et al. Scene Classification and Semantic Segmentation of Optical Remote Sensing Image Based on Deep Learning [J]. Journal of Beijing University of Aeronautics and Astronautics, 2023, 49(7): 18281837.
[3]" 門計林. 基于卷積神經網絡的高分辨率遙感影像土地利用分類[D].武漢:中國地質大學,2019.
Men Jilin. Land Use Classification of High Resolution Remote Sensing Images Based on Convolutional Neural Networks[D]. Wuhan: China University of Geosciences, 2019.
[4]" Wallraven C, Caputo B, Graf A. Recognition with Local Features: The Kernel Recipe [C]//Ninth IEEE International Conference on Computer Vision. Nice: IEEE,2003: 257264.
[5]" Breiman L. Random Forest[J]. Machine Learning, 2001, 45: 532.
[6]" 賀婷, 周寧, 吳嘯宇. 基于深度全連接神經網絡的儲層有效砂體厚度預測[J]. 吉林大學學報 (地球科學版), 2023, 53(4): 12621274.
He Ting, Zhou Ning, Wu Xiaoyu. Thickness Prediction of Reservoir Effective Sand Body by Deep Fully Connected Neural Network[J]. Journal of Jilin University (Earth Science Edition), 2023, 53(4): 12621274.
[7]" 朱麗,王新鵬,付海濤,等.基于注意力機制的細粒度圖像分類[J].吉林大學學報(理學版),2023,61(2):371376.
Zhu Li, Wang Xinpeng, Fu Haitao, et al. Few-Shot Learning Based on Contrastive Learning Method [J]. Journal of Jilin University (Science Edition), 2023, 61(2): 371376.
[8]" 黃梅,楊文忠,汪傳建,等.基于SEDRUnet的遙感影像耕地變化檢測[J].東北師大學報(自然科學版),2022,54(2):6167.
Huang Mei, Yang Wenzhong, Wang Chuanjian, et al. Change Detection for Cultivates Land in Remote Sensing Images Based on SEDRUnet[J]. Journal of Northeast Normal University (Natural Science Edition), 2022, 54(2): 6167.
[9]" Lecun Y, Bottou L. Gradient-Based Learning Applied to Do Cument Recognition[J]. Proceedings of the IEEE, 1998, 86(11): 22782324.
[10]" Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 8490.
[11]" Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J/OL]. Computer Science[2023510]. DOI:10.48550/arXiv. 1409.1556.
[12]" Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 19.
[13]" He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770778.
[14]" Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640651.
[15]" Ronneberger O, Fischer P, Brox T. UNet: Convolutional Networks for Biomedical Image Segmentation[C]//Medical Image Computing and Computer: Assisted Intervention. [S. l. ]: Springer, 2015: 234241.
[16]" Badrinarayanan V, Kendall A, Cipolla R. Segnet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 24812495.
[17]" Chen L C, Zhu Y, Papandreou G, et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). Berlin: Springer Cham, 2018: 801818.
[18]" Xiao X, Lian S, Luo Z, et al. Weighted Res-UNet for High-Quality Retina Vessel Segmentation[C]//9th International Conference on Information Technology in Medicine and Education (ITME). [S. l. ]: IEEE, 2018: 327331.
[19]" 許慧敏.基于深度學習UNet模型的高分辨率遙感影像分類方法研究[D].成都:西南交通大學,2018.
Xu Huimin. Method Research of High Resolution Remote Sensing Imagery Classification Based on UNet Model of Deep Learning[D]. Chengdu: Southwest Jiaotong University, 2018.
[20]" Zhang H, Wang M, Wang F, et al. A Novel Squeeze-and-Excitation W-Net for 2D and 3D Building Change Detection with Multi-Source and Multi-Feature Remote Sensing Data[J]. Remote Sensing, 2021, 13(3): 440.
[21]" Smith J R, Chang S F. Automated Binary Texture Feature Sets for Image Retrieval[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. [S. l. ]: IEEE, 1996: 22392242.
[22]" 曹智慧. 基于全卷積U形網絡的腦核磁共振圖像分割[D].南京:南京信息工程大學,2019.
Cao Zhihui. Modified UNet for Brain MR Image Segmentation[D]. Nanjing: Nanjing University of Information Science amp; Technology, 2019.
[23]" Huang G, Liu Z, Laurens V D M, et al. Densely Connected Convolutional Networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017. doi:10.1109/CVPR.2017.243.
[24]" Touvron H, Cord M, Sablayrolles A, et al. Going Deeper with Image Transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 3242.
[25]" 彭曉婷.基于深度學習的不平衡數據集分類的方法研究[D].北京:北京化工大學,2021.
Peng Xiaoting. Research on Classification of Imbalanced Data Set Based on Deep Learning [D].Beijing: Beijing University of Chemical Technology, 2021.
[26]" Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 29802988.
[27]" Li X, Sun X, Meng Y, et al. Dice Loss for Data-Imbalanced NLP Tasks[J/OL]. arXiv Preprint[2023510]. https://doi.org/10.48550/arXiv:1911.02855.
[28]" Tong X Y, Xia G S, Lu Q, et al. Land-Cover Classification with High-Resolution Remote Sensing Images Using Transferable Deep Models[J]. Remote Sensing of Environment, 2020, 237: 111322.