












摘要:
針對城市遙感圖像各種地物分布不均衡、分類精度較低的問題,提出融合并行注意力與權重平衡算法的遙感圖像分類方法。該方法在DeepLabV3+和ResNet50創建的語義分割網絡基礎上,采用并行組合方式,融入通道注意力和空間注意力算法,提高網絡的特征提取能力;針對遙感圖像地物類別占比不均衡問題,引入地物類別權重平衡算法,提高小類別地物的分類精度。為了驗證網絡模型的分類效果,利用Vaihingen數據集和Postdam數據集進行實驗。實驗結果表明:融合注意力機制和權重平衡算法的分類網絡在Vaihingen數據集中測試數據的像素精度、平均交并比、平均F1值分別為96.66%、90.35%、96.66%,在Postdam數據集中測試數據的像素精度、平均交并比、平均F1值分別為95.74%、81.47%、91.82%;從分類細節看,增加注意力機制和權重平衡算法對占比較少的汽車識別精度有顯著提高,在Vaihingen數據集中汽車的像素精度提高了26.44%,在Postdam數據集中汽車的像素精度提高了21.84%,取得了較好的分類效果。
關鍵詞:
注意力機制;權重平衡算法;DeepLabV3+網絡;遙感圖像;地物分類
doi:10.13278/j.cnki.jjuese.20240030
中圖分類號:P79
文獻標志碼:A
Remote Sensing Image Classification Based on Fusion of Attention Mechanism and Weight Balance Algorithm
Wang Minshui1, Wang Mingchang1, Wang Jingyu2, Liu Ziwei1
1. College of GeoExploration Science and Technology, Jilin University, Changchun 130026, China
2. Jilin Academy of Agricultural Sciences, Changchun 130033, China
Abstract:
Addressing the challenge posed by the uneven distribution of various features and the low classification accuracy of urban remote sensing images, we propose a novel method for remote sensing image classification that integrates parallel attention and weight balance algorithm. Leveraging the semantic segmentation network architecture of DeepLabV3+ and ResNet50, our method combines channel attention and spatial attention algorithms in parallel to improve the network's feature extraction capability. Additionally, to address the issue of imbalanced feature category proportions in remote sensing images, we propose a feature category weight balance algorithm to improve the classification accuracy of minority feature categories. To validate the effectiveness of our network model for classification, we conduct experiments using "Vaihingen and Postdam datasets. The experimental results demonstrate promising performance metrics: The remote sensing image classification algorithm that integrates attention mechanism and weight balance is validated in the Vaihingen dataset with pixel accuracy, mean intersection over union, and mean F1"values of 96.66%, 90.35%, and 96.66%, respectively. In the Postdam dataset, the pixel accuracy, mean intersection over union, and mean F1"values of the validated data are 95.74%, 81.47%, and 91.82%, respectively. From the classification details, incorporating an attention mechanism and a weight balance algorithm significantly enhances the recognition accuracy of cars, which account for a relatively small proportion. Specifically, the pixel accuracy of cars in "Vaihingen dataset has improved by 26.44%, and in "Postdam dataset, it has increased by 21.84%, leading to commendable classification results.
Key words:
attention mechanism; weight balance algorithm; DeepLabV3+network; remote sensing image; land classification
0"引言
隨著高分辨率遙感技術的發展,遙感圖像分類被廣泛應用于農業生產、林業調查、城市規劃、環境保護等領域。為了推進城市化進程及土地合理化利用,利用遙感圖像快速、準確地進行建筑物、道路、植被等地物分類成為研究熱點。遙感圖像分類是利用圖像中的光譜、形狀、顏色等特征信息,將遙感圖像中的每一個像素劃分為不同的地物類別。遙感圖像分類方法分為非監督分類和監督分類兩種。非監督分類無需預先標記樣本,通過對影像中的像素進行聚類,將相似的像素分配到相同的類別中,常見的方法包括K均值聚類、分層聚類等。傳統的遙感圖像監督分類通過顏色、光譜、紋理、形狀等信息選擇一些有代表性的地物作為樣本,用于訓練分類器,使用分類器完成地物分類,常見的方法有支持向量機(SVM)、隨機森林等。近年來,利用卷積神經網絡進行高分辨率遙感圖像處理取得了顯著成果[1-3],被廣泛應用于遙感圖像分類[4-6]、目標檢測、變化檢測[7-8]等領域。卷積神經網絡作為深度學習算法的重要分支,具有強大的特征提取能力,特征學習過程無需人工干預,通過卷積運算、局部感知、池化等操作,學習訓練數據的層次表達規律和遙感圖像各通道信息之間的內在聯系。常見的卷積神經網絡有Yolov10、U-Net、DeepLabV3+、SegNet等。同時,隨著遙感技術的發展,高分辨率遙感圖像不僅提高了圖像的分辨率,還包含多波段光譜、顏色、紋理以及場景語義信息,這些信息為地物分類提供了良好的數據基礎。
傳統的監督分類方法利用選定的分類器避免出現不必要的類別,但分類器選擇需要人工干預,在多類別分類任務中有一定的局限性。非監督分類具有減少人工干預、操作簡單的優勢,但是容易受到環境的影響。經典的深度學習算法減少了人工干預,提高了分類精度,但是針對不同場景下的遙感圖像分類任務,需要提高網絡的適應性。通常通過在經典語義分割網絡基礎上增加殘差模塊[9]、加入注意力機制[10-13]、采用不同的損失函數[14]等方式完成網絡模型的改進,在樣本數量不足的情況下,引入機器主動學習算法[15]擴充樣本數量,用于提高圖像分類精度。以上深度學習改進方法雖然提高了遙感分類精度,但是大多沒有考慮地物類別分布和數量不均衡對分類精度的影響。
針對城市場景地物類別豐富、各種地物分布和數量不均衡的問題,提出一種融合注意力機制和權重平衡算法的遙感圖像地物分類方法。該方法融合通道注意力和空間注意力算法,提高特征提取能力,引入地物類別權重平衡算法,提高占比較小地物的特征提取效果,從而提高整體的分類精度。
1"數據與方法
1.1"權重平衡算法
卷積神經網絡在訓練過程中會傾向于占主導的類別,對于像素多的地物類別有更好的特征學習能力。為了提高占比小的地物的分類精度,通過權重平衡算法增強小占比地物的特征表達。首先,計算各類別的像素標簽數量,選出中位數的地物,然后計算中位數地物像素數與某地物像素數的比值,將權重融入網絡輸出層。權重計算公式如下:
Fi=pip;(1)
Wi=Ej"Fi。(2)
式中:Fi為地物i在整幅圖中的像素數占比;pi為地物i的像素數;p為圖像像素總數;Ej為中位數地物j在整幅圖的像素數占比;Wi為地物i的類別權重。
1.2"通道注意力和空間注意力模塊
通道注意力通過平均池化對輸入特征圖的高度(H)、寬度(W)和通道數(C)進行壓縮,將維數從H×W×C壓縮至1×1×C,使網絡在通道維度上學習更多的相關性信息;根據每個通道的重要程度賦予不同的權重,提高語義信息的表達能力。空間注意力機制通過對不同區域賦予不同的權重,根據權重的大小調節模型對區域特征的關注度,增強網絡的特征學習能力,提高深度學習模型分類精度和效率。本文參照CBAM(convolutional block attention module)殘差結構的設計思路[16],完成通道注意力和空間注意力機制殘差結構設計:通道注意力對輸入特征進行3×3的卷積運算,通過平均池化和最大池化的壓縮后,得到便于通道學習的特征,對“加”操作結果使用LeakyReLu(leaky rectified linear unit)激活函數和Sigmoid函數映射處理得到通道注意力權重(圖1a);空間注意力對輸入特征經過平均池化和最大池化,接著使用LeakyReLu激活函數和Sigmoid函數進行處理,學習到更多的空間特征(圖1b)。
1.3"改進的語義分割網絡
在DeepLabV3+和ResNet50創建的語義分割網絡的基礎上,采用并行組合方式將通道注意力和空間注意力作為殘差結構融入語義分割網絡,加強模型的特征提取和語義表達能力。同時,統計輸入數據中各地物要素的像素占比,計算出各地物的類別權重,將權重融入分類層,使用replace()函數將帶有權重的分類層替換原有的分類層,以提高占比較少地物的識別精度。改進的語義分割網絡如圖2所示。
1.4"數據集和預處理
1.4.1"實驗數據集
實驗采用國際攝影測量與遙感學會(ISPRS)制作的Vaihingen和Postdam數據集,把地物分為建筑物、不透水面、低矮植被、樹木、背景、汽車等6個類別。其中:Postdam數據集由38個6 000像素×6 000像素的圖像組成,選擇31個圖像作為訓練集,7個圖像作為測試集;Vaihingen數據集包含33個影像,影像的大小稍有不同,選擇27個圖像作為訓練數據,6個圖像作為測試數據。
1.4.2"數據預處理
訓練樣本數量直接影響網絡的特征提取能力。當訓練樣本數量不足時,容易出現過擬合問題,通常采用旋轉、平移等方式增加樣本數量;當輸入圖像過大時,容易出現內存耗盡、GPU占用過高的問題。本文引入隨機補片算法,直接輸入大尺寸遙感圖像作為數據存儲,根據設定的補片數量和大小,即可在遙感圖像和標簽的對應位置選取小尺寸圖像作為網絡訓練數據。統計Vaihingen數據集和Postdam數據集遙感圖像中各地物類別的像素數量和占比,計算出地物類別權重。利用式(1) (2)計算出各地物類別的像素占比和類別權重。地物類別處理結果如表1所示。
2"實驗與結果分析
2.1"精度評價指標
1)像素精度。像素精度是指在預測圖像中被正
確分類的像素數量與圖像總像素數量的比值:
ap=∑ni=0pii∑ni=0∑nj=0pij。(3)
式中:ap為像素精度;n為目標類別數;pij為本屬于i類但被預測為j類的像素數量;pii為分類正確的像素數量。
2)平均像素精度。平均像素精度是指當預測圖像中存在多個地物類別時,計算每個類別被正確分類的像素數量與該類別像素總數的比值,將各地物類別的像素精度求和后,再計算平均值:
amp=1n+1∑ni=0pii∑nj=0pij。 (4)
式中,amp為平均像素精度。
3)平均交并比。交并比是分類精度評價的重要指標,是標簽和預測圖的交集與并集的比值。當標簽中有多種地物類別時,使用平均交并比來評價分類精度。平均交并比將每一個類別的交并比的平均值作為最終結果:
RMIoU=1n+1∑ni=0pii∑nj=0pij+∑nj=0pji-pii。 (5)
式中,RMIoU為平均交并比。
4)F1值。F1值又被稱為邊界輪廓匹配分數,用于表征每個地物類別中預測邊界與標簽邊界的吻合程度。當有多個類別時,分別求出每個類別的F1值,再取平均值作為最終結果:
F1"= 2 P·RP + R。(6)
式中:P為精確度;R為召回率。
2.2"實驗設計
為了驗證融合注意力機制和權重平衡算法的遙感圖像分類方法的有效性,對Postdam數據集和Vaihingen數據集分別設計4個實驗(表2)進行精度驗證。Vaihingen數據集的4個對比實驗為實驗1a、實驗1b、實驗1c、實驗1d,Postdam數據集的4個對比實驗為實驗2a、實驗2b、實驗2c、實驗2d。Vaihingen數據集的實驗1a基于DeepLabV3+和ResNet50創建語義分割網絡,輸入RGB圖像進行卷積神經網絡訓練;實驗1b在實驗1a創建語分割網絡的基礎上,在網絡中融入地物類別權重進行網絡訓練;實驗1c在實驗1a創建的語義分割網絡基礎上加入注意力機制模塊進行網絡訓練;實驗1d在實驗1c創建的語義分割網絡的基礎上融入地物類別權重進行網絡訓練。Postdam數據集的實驗2設計與實驗1一致,只是網絡訓練的數據集不同。
2.3"網絡訓練
硬件配置:NVIDIA RTX3070Ti顯卡,64 G內存,Intel I7-11700K處理器。
網絡訓練:Vaihingen數據集和Postdam數據集的實驗均使用Win10系統和Matlab2023a軟件,數據輸入采用隨機補片算法,將大尺寸遙感圖像和對應的標簽圖像分別作為數據存儲,隨機補片大小為224像素×224像素,訓練選項使用隨機梯度下降法;動量為0.9;采用分段學習法,初始學習率為0.01;損失函數使用交叉熵。網絡訓練設置為100輪,其中:Vaihingen數據集實驗訓練100輪,每輪3 000次,共計迭代300 000次;Postdam數據集實驗訓練100輪,每輪為4 000次,共計迭代次數 400 000次。
2.4"實驗結果分析
2.4.1"Vaihingen數據集實驗結果
從Vaihingen數據集的分類結果(圖3)來看,4個對比實驗的地物識別率較高,具有良好的識別精度。受限于地物類別數量占比和網絡特征學習能力,在標注的細節1和細節2位置存在明顯的分類精度差異。實驗1a不透水面出現明顯的錯分,汽車的邊界不完整;實驗1b在網絡中加入地物類別權重,不透水面、汽車的分類精度有明顯的提高,邊界更加完整;實驗1c相較于實驗1a加入通道注意力和空間注意力機制殘差結構,提高了地物的識別率,不透水面的識別效果有明顯提升,地物邊界表達也更加完整;實驗1d相較于實驗1a融合了注意力機制和權重平衡算法,地物的識別效果精度最好,尤其是對占比較少的汽車具有明顯的識別效果。
從分類精度指標(表3)可以看出,實驗1d的像素精度、平均交并比、平均F1值分別達到96.66%、90.35%、96.66%,實驗1d相較于實驗1a融合了權重平衡算法和注意力機制,分類精度有明顯提升,像素精度、平均交并比、平均F1值分別提升1.77%、6.11%、0.85%。從各地物分類精度指標(表4)可以看出:實驗1d相較于實驗1a精度指標提升明顯,針對像素占比少的汽車類別,像素精度、交并比、F1值分別提高26.44%、11.56%、3.71%;但是從實驗1b和實驗1a的對比結果看,使用權重平衡算法后建筑物的像素精度和交并比分別降低了0.99%和0.63%;從實驗1d與實驗1c的對比結果看,建筑物和不透水面的像素精度、交并比、F1值都有所下降,其中不透水面的像素精度下降1.52%,F1值降低1.41%。
2.4.2"Postdam數據集實驗結果
從Postdam數據集的4個實驗分類結果(圖4)看:實驗2b相較于實驗2a融入了權重平衡算法,在細節1位置對建筑物、汽車和樹木的識別都有提升;實驗2c相較于實驗2a加入了注意力機制,各種地物的表達更精細;實驗2d相較于實驗2c在融合注意力機制的基礎上加入權重平衡算法,對地物邊界表達更加細膩,尤其是樹木的分類效果提升明顯。
從分類精度(表3)可以看出,實驗2d的像素精度、平均交并比、平均F1分別達到95.74%、81.47%、91.82%;實驗2d相較于實驗2a融合了權重平衡算法和注意力機制,分類精度有明顯提升,像素精度、平均交并比、平均F1值分別提升3.01%、9.59%、11.43%。從各地物分類精度指標(表4)可以看出:實驗2d相較于實驗2a對建筑物、汽車、樹木等類別的精度指標提升明顯,尤其是像素占比少的汽車類別,像素精度、交并比、F1值分別提高21.84%、11.56%、5.73%;但是從實驗2b和實驗2a的對比結果看,使用權重平衡算法后不透水面的像素精度和交并比分別降低了0.56%和2.42%;從實驗2d與實驗2c的對比結果看,不透水面的像素精度、交并比、F1值都有所下降,其中不透水面的像素精度值下降0.87%,交并比降低1.36%,F1值降低2.29%。
3"結論
本文綜合DeepLabV3+的空洞卷積和ResNet50的殘差結構優勢,采用隨機補片優化策略,支持大尺寸圖像輸入,同時融合注意力機制和權重平衡算法,在保證較高識別精度的前提下,提高小類別地物的識別精度。
1)直接輸入大尺寸的遙感圖像,在遙感圖像中創建虛擬隨機補片,給語義分割網絡提供足夠的訓練樣本,同時避免圖像切割導致的特征損失,取得較好的分類精度。
2)從實驗1和實驗2的分類結果可以看出,地物類別權重平衡算法改變了卷積神經網絡對主導類別的傾向性,提升了小類別地物的分類精度,地物類別差異越大,分類效果提升越明顯;注意力機制加強了對有用信息的關注度,忽略了無關信息,在主干網絡中融入通道注意力和空間注意力殘差模塊,提高了網絡的特征提取能力。經過以上算法改進,有效提高遙感圖像分類的準確率,降低了地物分類的虛警率和漏檢率。
3)雖然在實驗中取得了較高的地物分類精度,該方法還存在一些不足,比如融合權重平衡算法會影響占比高的地物分類精度、分類后的地物邊界存在碎斑、某些地物存在鋸齒狀邊界等,需要在后續研究中改進。
參考文獻(References):
[1] Liu Z, Wang M, Wang F, et al. A Residual Attention and Local Context-Aware Network for Road Extraction from High-Resolution Remote Sensing Imagery[J]. Remote Sensing, 2021, 13: 4958.
[2] 沈秭揚,倪歡,管海燕. 遙感圖像跨域語義分割的無監督域自適應對齊方法[J]. 測繪學報,2023, 52(12): 2115-2126.
Shen Ziyang, Ni Huan, Guan Haiyan. Unsupervised Domain Adaptation Alignment Method for Cross Domain Semantic Segmentation of Remote Sensing Images[J]. Acta Geodaetica et Cartographica Sinica, 2023, 52(12): 2115-2126.
[3] 馬震環,高洪舉,雷濤. 基于增強特征融合解碼器的語義分割算法[J]. 計算機工程,2020, 46(5): 254-258, 266.
Ma Zhenhuan, Gao Hongju, Lei Tao. Semantic Segmentation Algorithm Based on Enhanced Feature Fusion Decoder[J]. Computer Engineering, 2020, 46(5): 254-258, 266.
[4] Liu Z, Wang M, Wang F, et al. A Dual-Channel Fully Convolutional Network for Land Cover Classification Using Multifeature Information[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15: 2099-2109.
[5] Chen S B, Wei Q S, Wang W Z. Remote Sensing Scene Classification via Multi-Branch Local Attention Network[J]. IEEE Transactions on Image Processing, 2021, 31: 99-109.
[6] 謝樹春,陳志華,盛斌. 增強細節的RGB-IR多通道特征融合語義分割網絡[J]. 計算機工程,2022, 48(10): 230-237, 244.
Xie Shuchun, Chen Zhihua, Sheng Bin. Detail-Enhanced RGB-IR Multichannel Feature Fusion Network for Semantic Segmentation[J]. Computer Engineering, 2022, 48(10): 230-237, 244.
[7] 王明常,朱春宇,陳學業,等. 基于FPN Res-Unet的高分辨率遙感影像建筑物變化檢測[J]. 吉林大學學報(地球科學版),2021, 51(1): 296-306.
Wang Mingchang, Zhu Chunyu, Chen Xueye, et al. Building Change Detection in High Resolution Remote Sensing ImagesBased on FPN Res-Unet[J]. Journal of Jilin University (Earth Science Edition), 2021, 51(1): 296-306.
[8] 王民水,孔祥明,陳學業,等. 基于隨機補片和DeepLabV3+的建筑物遙感圖像變化檢測[J]. 吉林大學學報(地球科學版),2021, 51(6): 1932-1938.
Wang Minshui, Kong Xiangming, Chen Xueye, et al. Remote Sensing Image Change Detection Based on Random Patches and DeepLabV3+[J]. Journal of Jilin University (Earth Science Edition), 2021, 51(6): 1932-1938.
[9] Guo M Q, Liu H, Xu Y Y, et al. Building Extraction Based on U-Net with an Attention Block and Multiple Losses[J]. Remote Sensing, 2020, 12(9): 1400.
[10] 張立亭,夏文生,羅亦泳,等. 改進雙重注意力機制結合ResNet50的遙感圖像分類[J]. 測繪科學,2023, 48(4): 98-105.
Zhang Liting, Xia Wensheng, Luo Yiyong, et al. Improved Double Attention Mechanism Combined with ResNet50 for Remote Sensing Image Classification[J]. Science of Surveying and Mapping, 2023, 48(4): 98-105.
[11] Yu S, Wang X L. Remote Sensing Building Segmentation by CGAN with Multilevel Channel Attention Mechanism [J]. Journal of Image and Graphics, 2021, 26(3): 686-699.
[12] Men H,Yuan H C,Shi Y,et al. A Residual Network with Attention Module for Hyperspectral Information of Recognition to Trace the Origin of Rice[J]. Spectrochimica Acta: Part A: Molecular and Biomolecular Spectroscopy, 2021, 263: 120155.
[13] 程曉悅,趙龍章,胡穹,等. 基于密集層和注意力機制的快速語義分割[J]. 計算機工程,2020, 46(4): 247-252, 259.
Cheng Xiaoyue, Zhao Longzhang, Hu Qiong, et al. Fast Semantic Segmentation Based on Dense Layer and Attention Mechanism[J]. Computer Engineering, 2020, 46(4): 247-252, 259.
[14] 高康哲,王鳳艷,劉子維,等. 基于改進U-Net網絡的遙感圖像語義分割[J]. 吉林大學學報(地球科學版),2024, 54(5): 1752-1763.
Gao Kangzhe, Wang Fengyan, Liu Ziwei, et al. Semantic Segmentation of Remote Sensing Images Based on Improved U-Net Network[J]. Journal of Jilin University (Earth Science Edition), 2024, 54(5): 1752-1763.
[15] 范迎迎,張姍姍. 基于深度主動學習的高光譜遙感圖像分類方法[J]. 東北師大學報(自然科學版),2022, 54(4): 64-70.
Fan Yingying, Zhang Shanshan. Hyper Spectral Remote Sensing Image Classification Method Based on Deepactive Learning[J]. Journal of Northeast Normal University (Natural Science Edition), 2022, 54(4): 64-70.
[16] Woo S, Park J, Lee J Y,et al. CBAM: Convolutional Block Attention Module[C]// Ferrari V, Hebert M, Sminchisescu C, et al. Computer Vision: ECCV 2018. [S. l.]: Springer Cham, 2018: 3-19.