






摘 要:隨著計算機運算能力的提升以及深度學習技術的發展,無須人工參與的深度學習方法已成為遙感影像分類的主流方法。因此,提出一種基于深度學習并嵌入注意力機制和融合多尺度特征的神經網絡對遙感影像進行場景分類。該模型使用遷移學習減少訓練樣本不足帶來的負面影響;在網絡中嵌入注意機制、融合多尺度特征來提高對小尺寸地物目標分類的能力,并驗證了模型的有效性。通過實驗分析得出所提模型對遙感影像場景分類是可行且有效的。
關鍵詞:注意機制;遙感影像;場景分類;多尺度融合
中圖分類號:TP751;TP183 文獻標識碼:A 文章編號:2096-4706(2024)08-0138-05
0 引 言
遙感影像分類是遙感應用中最關鍵的技術之一,遙感應用的發展受限于很多因素,其中之一就是遙感影像分類精度。遙感影像空間分辨率大、蘊含信息豐富、空間結構復雜、特征分布不一致等問題都是導致遙感影像分類任務存在挑戰的原因。此外,要想獲取帶標簽的遙感影像數據,需要經驗豐富的專業人士來手工進行標注,該方式耗時且成本高。如果訓練一個模型能夠只使用少量的訓練數據,并且分類效果能夠有所保證,那么該模型可以顯著提高遙感影像分類的效率。傳統的遙感影像分類方法所使用的特征是人工設計的,特征質量無法保證,導致最終分類效果通常是欠佳的[1]。而計算機運算能力的提升和深度學習技術的發展,使無須人工參與的深度學習方法成為遙感影像分類的主流方法。因此,本文使用深度學習技術來對天水市花牛蘋果樹樣本遙感影像場景分類模型進行進一步研究。
1 問題描述和模型介紹
遙感影像場景分類是指為每張遙感影像都分配一個地物類型標簽,有著十分廣泛的實際應用。常規的遙感影像分類框架通常是先對遙感影像進行裁剪、旋轉、歸一化等預處理操作,接著使用特征提取器進行特征提取,然后對提取出來的特征進行選擇,之后是將選擇出來的特征輸入到分類器進行分類,從而得到最終的分類結果[2,3]。
而在深度學習中,卷積神經網絡在已經有了較為廣泛的應用,具體到遙感影像場景分類的應用中,現有的先進方式也是基于深度學習的。要想使基于深度學習的遙感影像場景分類模型分類精度良好,前提條件是需要有良好的神經網絡結構和大量的可訓練樣本。但在實際情況中,獲取大量有標簽的樣本訓練一個全新的網絡是很困難的,而且在這個過程中,還會涉及參數的調優等操作[4,5]。此外,神經網絡向著結構加深的方向發展,這使得神經網絡需要訓練的參數變多、調優的工作量加大。當訓練樣本不足或數據集質量低下時,會導致模型出現過擬合的情況。而遷移學習方法首先會使用大規模的數據集上來預訓練得到一個模型,這個模型就是源域的模型;接著將該源域的模型遷移到目標域,并對模型進行微調,從而使得在目標域的分類任務上能具有良好的分類效果。使用遷移學習能夠一定程度上解決訓練樣本不足導致的種種問題,因此將遷移學習和神經網絡相結合也是當前的熱點研究方向[6-8]。
此外因為遙感影像成像空間分辨率很大,而且不同的地物類型表現在圖片中前景圖片尺寸會出現一定的差異,如低密度的住宅區中會出現一定的綠植,綠植面積和住宅面積相差不大,會出現誤分類的情況。因此,遙感影像場景分類模型中融合多尺度特征是一種提升小尺寸地物目標分類能力的合理手段[9,10]。基于此,本文提出一種基于遷移學習和多尺度特征融合的注意力網絡模型用于遙感影像的場景分類,模型框架如圖1所示。該模型首先使用遷移學習技術,用源域訓練集預訓練得到一個基模型,遷移基模型的特征提取器作為遙感影像分類模型的特征提取器,來減少訓練樣本不足的負面影響。此外,該模型在Block-5之后添加通道注意力機制來提高模型的泛化能力;使用了多尺度特征將VGG16模型中的Block-3輸出的特征圖、Block-4輸出的特征圖、Block-5經過通道注意力機制后輸出的特征圖進行融合來提高不同尺度目標物體識別能力。
2 實驗設計
2.1 數據介紹
本實驗在Intel(R) Core(TM) CPU 、Ubuntu 16操作系統、NVDIA顯卡、16 GB RAM環境下進行,使用Python語言、TensorFlow深度學習框架。實驗數據采用天水市2010—2020中Landsat地表反射率影像數據,并獲取了SRTM高程數據。
2.2 評價指標
為了驗證所提方法的有效性,通過綜合精度(Overall Accuracy, OA)、平均精度(Average Accuracy, AA)兩個常用指標來衡量該方法的有效性。所有的實驗結果指標對應的值取的都是各指標在10次實驗后對其求平均的結果。
2.3 實驗設計
為了證明提出方法的有效性和普適性,本文設計了以下實驗:
1)為了證明遷移學習的有效性,進行凍結不同層次網絡的對比實驗。
2)為了證明注意力機制的有效性,進行使用注意力機制和不使用注意力機制的實驗。
3)為了驗證基于遷移學習、注意力機制和多尺度特征融合在各網絡上的有效性,進行只使用各網絡和在各網絡上嵌入注意力機制并進行多尺度特征融合的對比實驗。
3 結果分析
3.1 遷移學習有效性分析
在遙感影像場景分類任務上,針對遷移有效性的實驗結果如表1所示。該組實驗中,訓練集和測試集的比例為20%和80%,使用的特征提取器為VGG16網絡訓練得到的特征提取器。表中凍結模塊所在列表示VGG16網絡的特征提取器中被凍結的模塊;OA所在列表示的是綜合精度。根據表1實驗結果可以看出,當特征提取器的所有層凍結之后,分類效果是最好的;而對特征提取器進行微調時,不論是設置哪些層可訓練,其分類精度都斷崖式下降。推測出現這種情況的原因是參與模型訓練的數據相對于VGG16網絡過少導致的。總之,實驗結果還是證明了遷移學習的有效性,在實際應用中使用數據量豐富的源域數據集預訓練得到的特征提取器來減少模型訓練時間,提高效率。
由表1結果可以分析出,VGG16網絡中,對特征提取器中的所有Block進行凍結表現最佳;對部分Block不進行凍結,讓它們參與訓練,模型的表現會很糟糕。因此后續的實驗中,將VGG16中用于特征提取的5個Block全部凍結不參與訓練。
3.2 注意力機制有效性分析
注意力機制有效性的實驗驗證結果如表2所示,該實驗中訓練集和測試集比例分別為20%和80%。首行表示使用的網絡類型,其中VGG16表示的是使用VGG16網絡且未使用注意力機制,VGG16_SE表示的是使用VGG16網絡且使用了注意力機制;VGG19表示的是使用VGG19網絡且未使用注意力機制,VGG19_SE表示的是使用VGG19網絡且使用了注意力機制;Inception表示的是使用Inception網絡且未使用注意力機制,Inception_SE表示的是使用InceptionV3網絡且使用了注意力機制。在VGG16、VGG19和InceptionV3網絡上分別不添加注意力機制和添加了注意力機制的實驗結果表明,在VGG16網絡中嵌入注意力機制是有效的。
凍結使用ImageNet訓練得到的用于特征提取的所有Block,不使用注意力機制,只對分類器進行訓練的實驗結果如圖2所示,其中圖2(a)為綜合精度隨著Epoch的變化曲線圖,圖2(b)為損失隨著Epoch的變化曲線圖。
不使用注意力機制,凍結使用ImageNet預訓練得到的特征提取器中的Block-1、Block-2和Block-3,只訓練特征提取器中的Block-4和分類器,其實驗結果如圖3所示,其中圖3(a)為綜合精度隨著Epoch的變化曲線圖,圖3(b)為損失隨著Epoch的變化曲線圖。
使用注意力機制,凍結使用ImageNet訓練得到的特征提取器,訓練通道注意力機制部分(SENet)和分類器,其精度和損失圖如圖4所示。從圖中可以看出注意力機制的加入對精度和損失的影響非常大,加入注意力機制后精度明顯提高,損失也逐漸降低。
根據以上所示的實驗結果,可以得知使用的不論是VGG16、VGG19還是InceptionV3網絡,在添加了注意力機制后模型的分類精度有所提升,損失會下降。此外,根據這些實驗結果,可以得知選取遷移學習的源域模型結構也很重要,針對遙感影像場景分類,遷移VGG16和VGG19的特征提取器都較為有效,而InceptionV3的特征提取器表現差一些。
3.3 多尺度特征融合模型有效性分析
為了驗證提出方法的有效性,進行了只使用遷移學習和使用遷移學習+注意力機制+多尺度特征融合的對比實驗,實驗結果如表3所示。表3是在數據集上進行的VGG16和VGG16_fs_SE對比實驗結果。
當僅使用特征融合機制,凍結使用ImageNet訓練得到的用于特征提取的所有Block,訓練分類器時,其精度和損失圖如圖5所示。
表3的結果表明在VGG16網絡上嵌入注意力機制、融合多尺度特征后,OA和AA都會有所提升。此外從圖5中也可以看出特征融合機制對精度有所提高,對損失有明顯的降低。以上這些指標都表明了網絡中嵌入注意力機制、融合多尺度特征后模型的分類表現會更佳。
4 結 論
本文主要針對遙感影像場景分類而提出基于遷移學習和多尺度特征融合的注意力網絡模型。首先對遙感影像場景分類存在的問題和本文建立的模型進行描述。接著設計對比實驗驗證了模型的有效性,得出以下結論:
1)VGG16網絡中,對特征提取器中的所有Block進行凍結時表現最佳;對部分Block不進行凍結而讓它們參與訓練,模型的表現會很糟糕。
2)使用的不論是VGG16、VGG19還是InceptionV3網絡,在添加了注意力機制后模型的分類精度都有所提升,損失會下降。針對遙感影像場景分類,遷移VGG16和VGG19的特征提取器都較為有效,而InceptionV3的特征提取器表現相對差一些。
3)GG16網絡上嵌入注意力機制、融合多尺度特征后OA和AA都會有所提升。特征融合機制對精度的有所提高,對損失有明顯的降低。表明了網絡中嵌入注意力機制、融合多尺度特征后模型的分類表現會更佳。
參考文獻:
[1] 張康,黑保琴,李盛陽,等.基于CNN模型的遙感圖像復雜場景分類 [J].國土資源遙感,2018,30(4):49-55.
[2] 羅暢,王潔,王世強,等.基于泛化深度遷移特征的高分遙感場景分類 [J].系統工程與電子技術,2018,40(3):682-691.
[3] 孟慶祥,吳玄.基于深度卷積神經網絡的高分辨率遙感影像場景分類 [J].測繪通報,2019(7):17-22.
[4] ROY S K,KRISHNA G,DUBEY S R,et al. HybridSN: Exploring 3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Classification [J].IEEE Geoscience and Remote Sensing Letters,2020,17(2):277-281.
[5] FANG L Y,LIU G Y,LI S T,et al. Hyperspectral Image Classification With Squeeze Multibias Network [J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(3):1291-1301.
[6] KANG X D,ZHUO B B,DUAN P H L. Dual-Path Network-Based Hyperspectral Image Classification [J].IEEE Geoscience and Remote Sensing Letters,2019,16(3):447-451.
[7] ZHOU P C,HAN J W,CHENG G,et al. Learning Compact and Discriminative Stacked Autoencoder for Hyperspectral Image Classification [J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(7):4823-4833.
[8] 胡麗,單銳,王芳,等.基于雙通道空洞卷積神經網絡的高光譜圖像分類 [J].激光與光電子學進展,2020,57(12):356-362.
[9] 王振慶,周藝,王世新,等.IEU-Net高分辨率遙感影像房屋建筑物提取 [J].遙感學報,2021,25(11):2245-2254.
[10] 胡立栓.高光譜遙感影像光譜降維與空譜聯合分類方法研究 [D].北京:中國地質大學(北京),2018.
作者簡介:李靖霞(1984—),女,漢族,甘肅靜寧人,講師,碩士,主要研究方向:生態學、林業遙感;通訊作者:李文瑾(1984—),女,漢族,甘肅天水人,講師,碩士,主要研究方向:林業、森林生態旅游。
收稿日期:2023-08-27
基金項目:甘肅省教育廳高校教師創新基金資助項目(2023A-245);甘肅省教育廳高校教師創新基金資助項目(2023B-321);2023年甘肅林業職業技術學院院列科研項目(GSLY2023-13B);2023年甘肅林業職業技術學院院列科研項目(GSLY2023-09A)
DOI:10.19850/j.cnki.2096-4706.2024.08.030
Research on Remote Sensing Image Scene Classification Method Based on
Transfer Learning and Multi-scale Fusion
LI Jingxia, LI Wenjin
(Gansu Forestry Polytechnic, Tianshui 741020, China)
Abstract: With the improvement of computer computing power and the development of Deep Learning technology, Deep Learning methods that do not require human intervention have become the mainstream method for remote sensing image classification. Therefore, this paper proposes a neural network based on Deep Learning, embedding Attention Mechanism and blending multi-scale features for scene classification of remote sensing images. This model uses Transfer Learning to reduce the negative impact from insufficient training samples. It embeds Attention Mechanisms and blends multi-scale features in the network to improve the ability to classify small-sized terrain targets, and verifying the effectiveness of the model. Through experimental analysis, it is concluded that the proposed model is feasible and effective for remote sensing image scene classification.
Keywords: Attention Mechanism; remote sensing image; scene classification; multi-scale fusion