999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于場景上下文感知的光學遙感圖像分類方法

2024-08-22 00:00:00郭欣怡張科郭正玉蘇雨
航空兵器 2024年3期
關鍵詞:分類特征模型

摘" 要:""""" 光學遙感圖像分類是對地觀測領域的關鍵技術之一。 近年來, 研究人員提出利用深度神經網絡對光學遙感圖像進行分類, 針對部分網絡模型存在特征提取不充分的問題, 本文提出了一種基于場景上下文感知和注意力增強的ScEfficientNet遙感圖像分類方法。 該方法設計了場景上下文信息感知模塊(SCDM)建模目標及其周圍鄰域的空間關系, 利用場景上下文特征增強原始特征表示, 引入卷積塊注意力模塊(CBAM), 根據通道和空間的重要性對特征圖進行加權, 并結合深度可分離卷積結構提取目標判別性信息, 提出了ScMBConv卷積結構。 在上述工作的基礎上, 利用基于場景上下文感知與注意力增強的ScEfficientNet網絡模型進行遙感圖像分類識別。 實驗結果表明, ScEfficientNet在AID數據集上實現了96.8%的分類準確率, 較EfficientNet提升了3.3%, 參數量為5.55 M, 整體性能優于VGGNet19、 GoogLeNet和ViT-B等圖像分類算法, 驗證了ScEfficientNet網絡模型的有效性。

關鍵詞:"""" 圖像分類; 光學遙感圖像; 卷積神經網絡; EfficientNet

中圖分類號:"""""" TJ760; V243.5

文獻標識碼:""" A

文章編號:"""" 1673-5048(2024)03-0094-07

DOI: 10.12132/ISSN.1673-5048.2023.0221

引用格式: 郭欣怡, 張科, 郭正玉, 等 ." 基于場景上下文感知的光學遙感圖像分類方法[ J]. 航空兵器, 2024, 31( 3): 94-100.

Guo Xinyi, Zhang Ke, Guo Zhengyu, et al. Optical Remote Sensing Image Classification Method Based on Scene Context Perception[ J]. Aero Weaponry, 2024, 31( 3): 94-100.( in Chinese)

0" 引" 言

隨著航空遙感技術的不斷發展和進步, 獲取的圖像數據具有較高的分辨率和豐富的信息內容, 如何對龐大而復雜的遙感圖像進行準確解析成為該領域的研究熱點。 作為遙感數據有效解譯的關鍵技術, 遙感圖像分類對給定的遙感圖像進行正確的語義分類標識[1], 已廣泛應用于自然災害探測[2]、 土地資源管理[3]等眾多領域。 由于光學遙感圖像數據具有多尺度、 高分辨率以及復雜的空間和背景分布[4]等特點, 實現遙感圖像的精確分類難度較高。 為此, 研究人員提出了各種理論框架和方法。

近年來, 由于深度學習理論的進步以及并行計算資源的增加, 基于深度學習的圖像分類算法不斷推陳出新, 取得了眾多突破[5], 因此, 研究人員也將深度學習模型引入遙感圖像分類領域。 其中, 具有代表性的算法是卷積神經網絡(Convolutional Neural Network, CNN)及其改進網絡, 例如VGGNet[6]、 GoogLeNet[7]、 ResNet[8]等網絡模型。 從近年來的研究成果可以看出, 神經網絡架構演變的趨勢是向更深的方向發展: AlexNet[9]網絡有8層, VGGNet網絡有16層, ResNet101超過了100層。 這些研究工作表明, 增加網絡深度可有效提高網絡性能。 與此同時, 早期基于深度學習的圖像分類網絡(如VGGNet)盡管深度只有幾層, 卻包含大量參數, 其中大部分參數來自全連接層。 而近年來提出的網絡結構雖然層數更多, 但此類模型因為避免使用全連接層而減少了參數量。 例如, GoogLeNet使用Inception模塊代替全連接層, 相比使用全連接層的VGGNet來說, 極大地降低了參數量。

隨著網絡模型層數逐漸加深, 網絡計算量急劇增加, 訓練時對計算資源的要求越來越高。 為了降低計算開銷, 研究人員開始對網絡結構進行輕量化設計, 如Mobile-Net[10]、 ShuffleNet[11]。 隨后, 通過借鑒MobileNet中深度可分離卷積結構, 研究人員結合模型復合縮放方法提出了EfficientNet[12]網絡模型。 該網絡模型的性能在圖像分類領域遠超其他大部分網絡模型, 并在遙感圖像分類任務中實現了較高的分類準確率。" 文獻[13]在EfficientNet高效網絡中引入帶動量的梯度下降算法, 充分考慮歷史

梯度的影響, 改善了神經網絡對滑坡遙感圖像的識別效果; 文獻[14]提出將微調后的EfficientNet-B0和Effi-

收稿日期: 2023-11-16

基金項目: 國家自然科學基金項目(62106200); 航空科學基金項目(20220001053002)

作者簡介: 郭欣怡(1999-), 女, 陜西西安人, 碩士研究生。

*通信作者:" 蘇雨(1990-), 男, 陜西西安人, 博士, 助理研究員。

cientNet-B7模型作為特征提取器并進行特征融合, 取得了較好的分類效果; 文獻[15]基于預先訓練好的帶有注意力機制的EfficientNet-B3網絡模型, 提出了Efficient-Net-B3-Attn分類方法, 將專用分支添加到網絡的第262層以計算所需的權重。 對于光學遙感圖像數據, 文獻[16]提出遷移學習與微調策略, 利用預訓練的EfficientNet網絡來提高遙感圖像處理的性能。

航空兵器" 2024年第31卷第3期

郭欣怡, 等: 基于場景上下文感知的光學遙感圖像分類方法

然而, CNN通常受限于只能獲取局部感受野, Transformer則可以捕捉全局特征, 因此, Transformer模型在視覺領域逐漸流行起來。 Transformer使用多頭注意力和位置嵌入建模不同單詞之間的關系信息, 顯著提高了模型性能。 Dosovitskiy等[17]提出了Vision Transformer (ViT), 將圖像分割為不同的圖塊(patch), 然后使用Transformer架構處理圖塊, 將傳統的卷積結構替換為自注意力機制。 文獻[18]在ViT的基礎上加入滑窗的思想, 提出了Swin-Transformer, 在不重疊的局部窗口上計算自注意力, 有效地建模局部信息和全局信息。 文獻[19]通過在MobileNet中嵌入Transformer構建輕量化網絡MobileViT, 融合了CNN的高效性能和Transformer的全局感知力。 ParC-Net[20]設計了一種輕量化的循環卷積, 能夠提取全局特征, 還能產生與局部卷積一樣的位置敏感特征。 然而, 針對圖像類別多樣、 背景復雜的光學遙感數據集, 上述方法在進行分類識別時網絡模型對特征的提取不夠充分, 泛化能力不強, 因此識別精度有待進一步提高。

針對上述問題, 本文基于EfficientNet-B0網絡提出了場景上下文信息感知模塊, 增強目標感受野, 加強網絡對場景信息的感知能力, 并與局部特征融合以提取更有效的特征; 引入CBAM卷積注意力模塊對MBConv模塊進行改進, 該模塊在考慮通道之間信息編碼的同時加強對遙感圖像空間信息的學習, 有效提高網絡對判別性信息的提取能力。 此外, 使用小尺寸深度可分離卷積以減少模型參數量, 降低計算開銷。

1" EfficientNet概述

經典的神經網絡一般通過分別改變網絡深度、 特征通道寬度、 輸入圖像分辨率的方式提升網絡性能。 與專注于單一維度優化的網絡不同, EfficientNet網絡基于模型復合縮放思想, 尋找合適的縮放系數統一對網絡深度、 寬度和分辨率進行調整。 相比于其他模型, EfficientNet在有限的計算資源下, 可以獲得更好的性能提高。

1.1" 模型復合縮放方法

EfficientNet網絡是一種基于模型復合縮放方法的新型神經網絡架構, 整體結構通常被劃分為多個階段, 每個階段中的卷積層具有相似的架構。 若用函數fi定義卷積操作, 卷積層可表示為

y=fk⊙…⊙f2⊙f1(X1)(1)

整體網絡框架可表示為

Y=⊙i = 1, …, n" fiLi(X(Hi, Wi, Ci))(2)

式中: ⊙代表連乘運算, 表示在第i個階段中fi卷積操作被重復執行Li次; X表示輸入特征矩陣; Hi, Wi, Ci分別代表X的高度、 寬度、 特征通道數。 在網絡參數和計算量滿足要求的情況下, 對網絡深度、 特征通道寬度和圖像輸入分辨率三個影響因素進行優化, 得到優化問題:

maxd, w, β Accuracy(Y(d, w, β))

s.t." Y(d, w, β) = ⊙i = 1, …, nfid·Li(X(β·Hi, β·Wi, w·Ci))(3)

式中: d表示網絡深度; w表示特征通道寬度; β表示輸入分辨率; fi, Li, Hi, Wi, Ci是網絡中預定義的參數。

經過驗證, 研究人員發現神經網絡獲得更高精度和效率的關鍵是平衡網絡深度、 特征通道寬度和圖像輸入分辨率三個維度, 因此提出了一種規范化的復合縮放方法, 按照式(4)使用復合縮放系數φ來調整三個參數的縮放倍率, 即

D=dφ, W=wφ, R=βφ

s.t. d·w2·β2≈2

d≥1, w≥1, β≥1(4)

式中: d," w," β都是常數。

1.2" EfficientNet網絡模型

EfficientNet網絡模型的主要組成部分是倒置瓶頸卷積模塊(Mobile Inverted Bottleneck Convolution, MBConv)。 該模塊的核心是深度可分離卷積, 它由多個深度卷積層(Depthwise Convolution)和逐點卷積層(Pointwise Convolution)順序連接組成。 此外, 該模塊還從MobileNetV2[21]中借鑒了反向殘差連接和線性瓶頸的方法。

EfficientNet網絡模型使用Swish激活函數代替ReLU激活函數。 Swish函數無上界, 有下界, 是一個更流暢、 更平滑的激活函數, 在形狀上類似于ReLU和LeakyReLU函數, 但是在深層模型上表現更好。 Swish激活函數的公式如下:

f(x)=xsigmoid(μx)(5)

式中: μ為常數或可訓練的參數。

對于EfficientNet網絡結構的確定, 首先基于神經架構搜索(Neural Architecture Search," NAS)[22]技術, 搜索分辨率、 網絡深度和網絡寬度三個參數的最優配置, 提出一個高效的EfficientNet-B0基線網絡。 之后結合復合縮放方法對該基線網絡進行擴展, 通過調整縮放系數φ按比例擴大分辨率、 寬度和深度三個維度, 得到Efficient-Net-B0到EfficientNet-B7系列網絡。 由于EfficientNet-B0計算量更小、 推理速度更快, 本文以EfficientNet-B0為基本網絡進行改進, 提出了ScEfficientNet。

2" ScEfficientNet網絡模型

2.1" ScEfficientNet模型架構

光學遙感數據集通常不是復雜的百萬級別數據集, 用復雜網絡學習可能造成過擬合現象。 EfficientNet模型以MBConv結構為主, 得益于高效的深度可分離卷積層, 能夠有效提取圖像的局部特征。 而遙感圖像背景復雜, 建模全局場景上下文信息可以幫助網絡更精準地捕捉目標特征。 因此, 本文提出一個場景上下文信息感知模塊(Scene Context-Driven Module," SCDM)以建模目標及其周圍鄰域的空間關系, 同時引入卷積塊注意力模塊[23](Convolutional Block Attention Module," CBAM)根據通道和空間位置的重要程度對特征圖進行加權, 增強網絡對圖像中重要信息的關注度。 此外, 使用3×3小尺寸深度可分離卷積核對EfficientNet結構進行簡化。 在網絡核心架構的基礎上, 提出了場景信息增強的ScEfficientNet網絡模型, 以進一步提升遙感圖像分類模型的準確性。 結構框架如表1所示。

ScEfficientNet網絡模型由16個MBConv模塊、 2個卷積層和1個分類層構成, 本文將其劃分為10個階段。 第一階段進行卷積核尺寸為3×3、 步長為2的普通卷積操作。 經過批標準化和Swish激活函數之后, 第二階段至第八階段重復堆疊改進的ScMBConv結構, ScMBConv模塊包括3×3深度可分離卷積層、 SCDM場景上下文感知模塊、 CBAM注意力模塊、 隨機丟棄層(Dropout)以及殘差結構。 最后在第九、 十階段, 特征圖通過一個具有升維作用的1×1卷積層, 后接歸一化層和Swish激活函數, 接著通過平均池化層和全連接層輸出最終的分類結果。 具體地, 在ScEfficientNet網絡的ScMBConv卷積模塊中, ScMBConv1或ScMBConv6代表通道倍率因子大小; 3×3卷積核表示模塊中深度可分離卷積用的卷積核大小, 各階段ScMBConv模塊的個數與EfficientNet保持一致。 ScEfficientNet網絡和ScMBConv卷積模塊結構如圖1所示。

2.2" 場景上下文信息感知模塊

EfficientNet通過倒置瓶頸卷積結構不斷提取圖像的局部特征, 但該網絡沒有關注到周圍場景對特征提取的影響, 在圖像識別過程中, 對象的上下文信息沒有得到充分利用, 導致在某些場景下識別精度較低。 事實上, 遙感圖像中地物的類型通常與其所在的場景密切相關, 例如, 船只通常出現在海上, 車輛出現在道路上的可能性最高。 因此, 本文利用場景上下文信息輔助識別, 提出將場景上下文信息感知模塊(Scene" Context-Driven" Module,"" SCDM)添加到ScMBConv卷積結構中, 以建模目標及其周圍鄰域的空間關系, 擴大目標感受野, 有利于網絡對不同地物目標的分類識別。 SCDM結構如圖2所示。

為了增強網絡對場景信息的感知與特征提取能力, SCDM模塊采用膨脹系數為3的空洞卷積來擴大感受野, 得到的特征映射通過歸一化操作, 并由Swish非線性函數激活。 最后, 使用常規的3×3卷積濾波和Swish函數激活, 進一步提取更具區分性的特征。 此外, 還采用了常規3×3卷積和批歸一化的捷徑連接, 融合局部特征與場景特征, 同時幫助緩解梯度消失問題, 更有利于訓練。

空洞卷積[24]最初是為了解決在語義分割中下采樣會降低圖像分辨率和遺漏信息的問題, 其主要思想是在卷積核的像素之間插入“空洞”以提高圖像分辨率, 從而在CNN中實現密集特征提取。 一維的空洞卷積定義為

g[i]=∑Ll=1f[i+r·l]h[l](6)

式中: g[i]表示輸出信號; f[i]表示輸入;" h[l]表示長度為l的濾波器; r是對應于用來采樣f[i]的空洞率, 在標準卷積中r=1。

通過在卷積核中的每個像素之間插入“空洞”構建二維空洞卷積。 對于大小為k×k的卷積核, 得到的空洞濾波器的大小為kd×kd, 其中kd=k+(k-1)·(r-1)。 “空洞”的值越大, 卷積的感受野也就越大, 但是感受野并不是越大越好, 過大時對遙感圖像中的小目標不利, 應適當選取。 因此, SCDM使用r=3的空洞卷積來增加感受野, 實現目標周圍場景上下文特征的提取。

2.3" CBAM注意力模塊

CBAM注意力機制的思想是同時使用通道注意力和空間注意力模塊, 在通道域中主要學習特征重要性, 在空間域中重點關注細節信息, 如圖3所示。 給定一個原始輸入特征F∈RC×H×W, 經過一維通道注意力機制Mc∈RC×1×1后得到注意力權重Mc(F), 經過二維空間注意力機制Ms∈R1×H×W后得到注意力權重Ms(F′), 整個注意過程可概括為

F′=Mc(F)F

F″=Ms(F′)F′(7)

對于通道注意力模塊(CAM), 首先采用全局平均池化和最大池化, 生成兩種不同的描述符: Fcavg和Fcmax分別表示平均池化特征和最大池化特征, 再經過共享全連接網絡MLP, 得到通道注意力特征Mc∈RC×1×1。 為了減少參數, 將特征大小設置為RC/α×1×1, 其中α為縮減比。 之后將輸出特征相加后通過全連接層和激活函數得到通道注意力權重, 最后與原始特征圖相乘完成重標定操作。 通道注意力偽代碼如下:

Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=σ(W1(W0(Fcavg))+W1(W0(Fcmax)))(8)

式中: σ表示激活函數sigmoid, W0∈RC/α×C, W1∈RC×C/α, 這兩個MLP權重對輸入是共享的。 通道注意力模塊結構如圖4所示。

對于空間注意力模塊(SAM), 首先是基于通道的平均池化和最大池化操作, 并將它們連接在一起得到兩個二維特征圖: Fsavg∈R1×H×W和Fsmax∈R1×H×W, 合并后再通過一個卷積層生成空間注意圖Ms(F)∈RH×W," 之后的步驟和CAM相似, 通道注意力偽代碼如下:

Ms(F)=σ(f7×7([AvgPool(F); MaxPool(F)]))=σ(f7×7([Fsavg; Fsmax]))(9)

式中: σ表示激活函數sigmoid; f7×7表示卷積核大小為7×7的卷積運算。 空間注意力模塊的結構如圖5所示。

2.4" ScMBConv卷積模塊

為了提高遙感圖像的分類識別準確率, 本文引入SCDM場景上下文信息感知模塊和CBAM注意力模塊提取圖像中的關鍵特征, 但是復雜的卷積操作使得模型參數量增加較多。 因此, 本文對ScMBConv卷積模塊中深度可分離卷積結構的卷積核大小選取進行探索, 以達到降低計算開銷、 提高參數效率的目的。 EfficientNet網絡模型中的深度可分離卷積核尺寸包括5×5和3×3, 但使用更小的卷積核是當前在保證模型精度的前提下, 減少參數的主要方式之一。 例如VGG16使用了2個3×3卷積核代替5×5卷積核, 表明使用多個小尺寸卷積核代替大尺寸卷積核能夠實現更少的參數和計算量, 并且在一定程度上提升了網絡訓練的準確率和效率。 經過實驗驗證, 盡可能多地使用3×3卷積核對分類結果更有幫助。 因此, 在ScEfficientNet網絡中, ScMBConv模塊的深度可分離卷積層中卷積核全部使用3×3小尺寸, 以減少參數和計算開銷。

ScMBConv模塊結構見圖1。 輸入特征圖首先經過用于擴大通道維數的擴張卷積層, 然后由場景上下文感知模塊提取更多的場景特征, 之后通過深度可分離卷積結構進一步融合提取有用信息, 并利用卷積注意力機制模塊根據通道和空間的重要性對特征圖進行加權, 從而提高模型對重要信息的關注度, 改善模型的性能。 之后添加隨機丟棄層, 在網絡前向傳播過程中以一定的概率使神經元停止工作, 以避免過擬合現象、 加強模型的泛化性, 最后使用捷徑連接分支緩解梯度消失問題, 有利于網絡訓練。

3" 基于ScEfficientNet的遙感圖像分類實驗

3.1" 數據集與評價指標

3.1.1" 數據集和預處理

本文在光學遙感圖像數據集AID上進行遙感圖像的分類識別實驗。 AID數據集包含30個類別的場景圖像, 每個類別約220~420張, 共有10 000張遙感圖像, 其中每張像素大小約為600×600, 如圖6所示。 在訓練過程中, 隨機選取8 000張作為訓練集, 2 000張作為測試集, 并進行數據增強操作, 包括隨機裁剪、 縮放到指定大小、 隨機水平旋轉、 歸一化等, 用于減少過擬合, 確保訓練結果的準確度和有效性。

3.1.2" 評價指標

(1) 混淆矩陣

混淆矩陣是評判模型結構的指標, 用于分析不同類別之間的所有錯誤, 它是通過對測試樣本每種類型的正確和錯誤分類進行計數并將結果累加到表中生成的。 縱坐標是預測類別, 橫坐標是真實類別; 每一列對應屬于該類的所有驗證樣本, 每一行對應預測屬于該類的所有樣本; 對角線代表正確預測的樣本個數, 是主要關注的信息。 以二分類為例, 混淆矩陣相關定義如表2所示。

(2) 準確率

本文選擇準確率作為評價指標, 該指標被廣泛用于評價圖像分類任務的性能。 準確率(ACC)表示正確分類的樣本數占所有樣本數的比例。 通過對混淆矩陣做進一步處理, 可以得到準確率計算公式:

ACC=TP+TNTP+FP+TN+FN(10)

3.2" 實驗設置

本文所有的訓練和測試實驗均基于pytorch深度學習框架, 在RTX GPU硬件平臺上進行。 由于平臺的內存限制, 模型以32幅圖像為訓練批次進行訓練; 使用SGD優化器, 權重衰減設置為1×10-4, 動量設置為0.9, 初始學習率從0.01開始, 共訓練100個輪次; 隨機丟棄比率設置為0.2。 實驗過程基于遷移學習載入在ImageNet數據集上預訓練的權重, 采用反向傳播算法端到端進行網絡參數訓練, 最后根據準確率評估結果。

3.3" 實驗結果與分析

為檢驗ScEfficientNet神經網絡模型在遙感圖像分類識別領域的有效性, 所有實驗均基于預訓練模型遷移學習, 在AID數據集上進行訓練和測試, 實驗結果如表3所示。 雖然原始網絡EfficientNet在參數量和FLOPs方面低于ScEfficientNet, 但它的性能更低, 分類準確率相比ScEfficientNet下降了3.3%。 相較于EfficientNet, 本文提出的ScEfficientNet模型效果有較大提升, 實現了96.8%的遙感圖像分類準確率。

3.4" 不同模型性能對比

為進一步測試本文算法的效果, 在相同實驗環境下, 用ScEfficientNet和其他具有代表性的圖像分類算法對AID數據集進行分類識別, 就準確率、 參數量、 計算復雜度三項指標進行對比, 以驗證ScEfficientNet模型的準確性和高效性。 表4為ScEfficientNet模型和其他神經網絡模型的測試結果, 可以看到, ScEfficientNet具有更高的分類準確率, 在不顯著增加模型參數量的情況下保證了遙感圖像分類識別的精度。

具體來說, 與經典的CNN圖像分類算法ResNet-50、 VGGNet19、 GoogLeNet相比, ScEfficientNet在AID數據集上分類準確率顯著提高, 參數量也明顯減少, 分別降低了20.05 M, 138.05 M, 4.85 M, 證明了ScEfficientNet網絡模型的有效性。 考慮到對比的全面性, 基于Transformer的分類方法也被列為對比方法。 ViT-B和Swin Transformer-B雖然比傳統CNN算法的分類效果有所提升, 但是參數量和計算量表現出明顯的上升, 無法做到準確率與計算復雜度很好的平衡。 相比ViT-B, ScEfficientNet的分類準確率提高了2.2%, 參數量對比88.1 M明顯較少, 計算量略大, 整體性能相對較優。 相比Swin Transformer-B模型, 盡管ScEfficientNet準確率略微降低0.2%, 但是參數量和計算量顯著減少, 分別減少了81.25 M和29.33 GFLOPs, 因此, ScEfficientNet能夠在保持較高準確率的情況下更加輕量化, 訓練速度明顯更快。 與在EfficientNet特定層中引入注意力機制的改進模型相比, ScEfficientNet在分類效果、 參數量和計算量方面均更具有優勢, 準確率提高了0.5%, 參數量、 計算量減少了36.4%和26.6%, 表明ScEfficientNet模型更加簡單高效。 綜上, 對比實驗結果顯示, 充分利用場景上下文信息, 結合通道及空間注意力機制能更好地提高模型的分類性能。

3.5" 消融實驗

3.5.1" 不同模塊消融實驗效果

針對本文提出的三種改進措施進行了消融實驗, 實驗結果如表5所示。 每組實驗設置除網絡結構不同外, 其他設置均保持一致。 從表中結果分析可得, 3×3深度可分離卷積核、 CBAM和SCDM分別加入基線網絡EfficientNet之后, 模型均有不同程度的性能提升。 相比原始網絡, 在使用小尺寸深度可分離卷積核后分類準確率提高了1.65%, 相比使用大卷積核參數也有一定減少。 當添加CBAM注意力機制時, 模型的分類準確率有小幅度提升, 在AID數據集中提升0.45%, 再加入場景上下文信息感知模塊SCDM后, 分類效果顯著提升。 當加入所有模塊后, ScEfficientNet分類準確率達到96.8%, 由此證明了三種改進措施的有效性, 場景上下文信息和CBAM注意力機制對卷積神經網絡的分類效果提升是巨大的。

3.5.2" 不同尺寸卷積核在不同位置的影響

雖然使用大尺寸卷積核可以提高準確率, 但在網絡中的所有位置都添加并不是最好的, 本文對于5×5和3×3卷積核添加的位置進行了探索。 表6展示了兩種卷積核

添加在不同位置對結果產生的影響。 “1”表示ScMBConv可分離卷積核為5×5, “0”表示卷積核為3×3。 從表中可以看出, 深度可分離卷積全部使用3×3卷積核時推理時間縮短, 分類精度有所提高。 因此, ScEfficientNet中ScMBConv的深度可分離卷積全部使用3×3小卷積核。

4" 結" 論

本文以EfficientNet為基線網絡," 對目標周圍的場景特征進行建模, 結合CBAM注意力機制與深度可分離卷積層, 從通道和空間兩個維度賦予特征圖不同的注意力權重以提取關鍵信息, 提出了ScMBConv卷積結構, 并通過探究小尺寸卷積核對網絡分類性能的提升作用, 提出了一種基于場景上下文感知與注意力增強的ScEfficientNet網絡模型。 基于此模型在AID遙感圖像數據集上進行圖像分類識別實驗, ScEfficientNet實現了96.8%的識別準確率, 較原網絡提升了3.3%的準確性, 參數量為5.55 M, 整體性能優于VGGNet19、 GoogLeNet和ViT-B等圖像分類算法, 驗證了ScEfficientNet網絡模型的有效性。

參考文獻:

[1] Cheng G, Xie X X, Han J W, et al. Remote Sensing Image Scene Classification Meets Deep Learning: Challenges, Methods, Benchmarks, and Opportunities[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 3735-3756.

[2] Lv Z Y, Shi W Z, Zhang X K, et al. Landslide Inventory Mapping from Bitemporal High-Resolution Remote Sensing Images Using Change Detection and Multiscale Segmentation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(5): 1520-1532.

[3] Ghazouani F, Farah I R, Solaiman B. A Multi-Level Semantic Scene Interpretation Strategy for Change Interpretation in Remote Sensing Imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 8775-8795.

[4] Hu F, Xia G S, Yang W, et al. Recent Advances and Opportunities in Scene Classification of Aerial Images with Deep Models[C]∥IEEE International Geoscience and Remote Sensing Symposium, 2018: 4371-4374.

[5] 寶音圖, 劉偉, 牛朝陽, 等. 聯合集成學習與EfficientNet的光學遙感圖像場景分類[J]. 計算機工程, 2021, 47(10): 226-235.

Bao Yintu, Liu Wei, Niu Chaoyang, et al. Scene Classification of Optical Remote Sensing Images Joint Ensemble Learning and EfficientNet[J]. Computer Engineering, 2021, 47(10): 226-235. (in Chinese)

[6] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]∥3rd International Conference on Learning Representations (ICLR), 2014: 1-14.

[7] Szegedy C, Liu W, Jia Y Q, et al. Going Deeper with Convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1-9.

[8] He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition[C]∥ IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 770-778.

[9] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM, 2017, 60(6): 84-90.

[10] Howard A G, Zhu M L, Chen B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[EB/OL]. (2017-04-17)[2023-11-15].https:∥arxiv.org/pdf/1704.04861.pdf.

[11] Zhang X Y, Zhou X Y, Lin M X, et al. ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 6848-6856.

[12] Tan M, Le Q. Efficientnet: Rethinking Model Scaling for Convolutional Neural Networks[C]∥International Conference on Machine Learning, 2019: 6105-6114.

[13] 李長冬, 龍晶晶, 劉勇, 等. 基于EfficientNet的滑坡遙感圖像識別方法: 以貴州省畢節市為例[J]. 華南地質, 2023, 39(3): 403-412.

Li Changdong, Long Jingjing, Liu Yong, et al. Landslide Remote Sensing Image Recognition Based on EfficientNet: Taking Bijie City, Guizhou Province as an Example[J]. South China Geology, 2023, 39(3): 403-412. (in Chinese)

[14] 陳筱, 朱向冰, 吳昌凡, 等. 基于遷移學習與特征融合的眼底圖像分類[J]. 光學精密工程, 2021, 29(2): 388-399.

Chen Xiao, Zhu Xiangbing, Wu Changfan, et al. Research on Fundus Image Classification Based on Transfer Learning and Feature Fusion[J]. Optics and Precision Engineering, 2021, 29(2): 388-399. (in Chinese)

[15] Alhichri H, Alswayed A S, Bazi Y, et al. Classification of Remote Sensing Images Using EfficientNet-B3 CNN Model with Attention[J]. IEEE Access, 2021, 9: 14078-14094.

[16] Zhang D Y, Liu Z H, Shi X B. Transfer Learning on EfficientNet for Remote Sensing Image Classification [C]∥5th International Conference on Mechanical, Control and Computer Engineering (ICMCCE), 2020: 2255-2258.

[17] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale[C]∥ 9th International Conference on Learning Representations (ICLR), 2021.

[18] Liu Z, Lin Y T, Cao Y E, et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 10012-10022.

[19] Mehta S, Rastegari M. MobileViT: Light-Weight, General-Purpose, and Mobile-Friendly Vision Transformer[C]∥10th International Conference on Learning Representations (ICLR), 2022.

[20] Zhang H K, Hu W Z, Wang X Y. ParC-Net: Position Aware Circular Convolution with Merits from ConvNets and Transformer[C]∥European Conference on Computer Vision, 2022: 613-630.

[21] Sandler M, Howard A, Zhu M L, et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks[C]∥ IEEE/ CVF Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.

[22] Zoph B, Le Q V. Neural Architecture Search with Reinforcement Learning[C]∥5th International Conference on Learning Representations (ICLR), 2017.

[23] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional Block Attention Module[C]∥European Conference on Computer Vision, 2018: 3-19.

[24] Yu F, Koltun V, Funkhouser T. Dilated Residual Networks[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 636-644.

Optical Remote Sensing Image Classification

Method Based on Scene Context Perception

Guo Xinyi1, Zhang Ke1, Guo Zhengyu2, Su Yu1*

(1. Northwestern Polytechnical University, Xi’an 710072, China;

2. China Airborne Missile Academy, Luoyang 471009, China)

Abstract: Optical remote sensing image classification is one of the key technologies in the field of Earth observation. In recent years, researchers have proposed optical remote sensing image classification using deep neural networks. Aiming at the problem of inadequate feature extraction in some network models, this paper proposes a remote sensing image classification method based on scene context perception and attention enhancement, called ScEfficientNet. This method designs a scene context-driven module (SCDM) to model the spatial relationship between the target and its surrounding neighborhood, enhancing the original feature representation with scene context features. It introduces a convolutional block attention module (CBAM) to weight the feature maps based on the importance of channels and spatial locations, and combines it with a depth-wise separable convolution structure to extract discriminative information of the targets, referred to as ScMBConv. Based on the above works, the ScEfficientNet model, which incorporates scene context perception and attention enhancement, is used for remote sensing image classification. Experimental results show that ScEfficientNet achieves an accuracy of 96.8% in AID dataset, which is a 3.3% improvement over the original network, with a parameter count of 5.55 M. The overall performance is superior to other image classification algorithms such as VGGNet19, GoogLeNet and ViT-B, confirming the effectiveness of the ScEfficientNet model.

Key words:" image classification; optical remote sensing image; convolutional neural network; EfficientNet

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 日韩精品无码免费一区二区三区| 91精品国产综合久久香蕉922 | 九色视频在线免费观看| 免费观看国产小粉嫩喷水| 91精品人妻互换| av一区二区三区高清久久| 成年av福利永久免费观看| 制服无码网站| 无码福利视频| 热思思久久免费视频| 中文字幕在线一区二区在线| 亚洲欧洲日韩综合| 一级不卡毛片| 国产欧美日韩精品综合在线| 91亚瑟视频| 在线观看国产小视频| 欧美第二区| 一级毛片在线播放免费观看| 久久婷婷综合色一区二区| 性做久久久久久久免费看| 凹凸国产分类在线观看| 四虎精品国产永久在线观看| 欧美一区二区人人喊爽| 无码专区国产精品第一页| 婷婷色丁香综合激情| 亚洲a免费| 欧美综合成人| 五月天香蕉视频国产亚| 国产本道久久一区二区三区| 欧美色图第一页| 人妻少妇乱子伦精品无码专区毛片| 午夜欧美理论2019理论| 国产精品美人久久久久久AV| 欧美a在线视频| 国产视频一区二区在线观看| 国产激情国语对白普通话| 亚洲av无码成人专区| 国产精品久线在线观看| 制服丝袜 91视频| 国产亚洲精品自在久久不卡 | 国产日韩精品欧美一区灰| 国产尤物jk自慰制服喷水| 乱人伦视频中文字幕在线| aⅴ免费在线观看| 国产精品成人一区二区不卡| 亚洲视频二| 在线亚洲天堂| 欧美不卡视频一区发布| 中国精品久久| 国产精品污视频| 久久亚洲欧美综合| 国产精品视频白浆免费视频| 欧美午夜视频在线| 亚洲国产中文精品va在线播放| 欧洲熟妇精品视频| 99久久精彩视频| 国产免费黄| 亚洲精选高清无码| 亚洲码在线中文在线观看| jizz国产视频| 污网站免费在线观看| 亚洲第一区精品日韩在线播放| 亚洲综合久久成人AV| 日韩毛片视频| 亚洲欧美国产视频| 欧美一区二区精品久久久| 无码AV动漫| 91精品情国产情侣高潮对白蜜| 97青青青国产在线播放| 欧美精品成人一区二区视频一| 九九这里只有精品视频| 亚洲视频欧美不卡| 日韩 欧美 国产 精品 综合| 欧美日本不卡| 欧美日韩午夜| 国产美女在线免费观看| 欧美日韩成人| 91免费国产高清观看| 欧美精品亚洲日韩a| 色爽网免费视频| 亚洲精品国偷自产在线91正片| 999国内精品久久免费视频|