999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進RetinaNet 的遙感圖像目標檢測算法

2024-05-13 00:00:00程路劉家偉周慶忠鄭宇超劉偉
華東交通大學學報 2024年6期

摘要:【目的】針對通用目標檢測器直接應用于遙感圖像檢測效果不佳的問題,提出了一種基于改進RetinaNet 的遙感圖像目標檢測算法。【方法】算法結合了下采樣塊和卷積核動態選擇的優勢。首先,該模型在基礎特征提取網絡ResNet50上引入一個改進的下采樣模塊,對特征進行多種下采樣處理;然后,采用卷積核選擇機制動態選擇空間感受野,以此對多尺度的語義信息進行建模;最后,得到目標物體的分類和回歸結果。【結果】實驗結果表明,該方法在大規模遙感圖像目標檢測數據集DOTA上的平均精度均值(mAP)比原RetinaNet網絡提升了3.2個百分點。【結論】通過引入下采樣模塊和動態選擇卷積核大小的機制在一定程度上改進了對多尺度遙感目標的識別能力。

關鍵詞:遙感圖像;目標檢測;下采樣;卷積核選擇

中圖分類號:TP753 文獻標志碼:A

本文引用格式:程路,劉家偉,周慶忠,等. 基于改進RetinaNet的遙感圖像目標檢測算法[J]. 華東交通大學學報, 2024, 41(6):74-80.

【研究意義】遙感技術和計算機技術的進步促進了全球范圍內及時獲取和使用高空間分辨率遙感數據的廣泛應用[1-3]。遙感圖像目標檢測是一種高分辨率遙感圖像內容解析中的關鍵任務,旨在精確識別與定位遙感圖像中的特定目標物體,如車輛、船舶及飛機等。這一技術在高精度遙感圖像智能分析領域具有舉足輕重的地位,并廣泛應用于智能交通、城市規劃以及地理信息系統更新等多個領域。

【研究進展】近年來,深度學習的飛速發展在通用目標檢測領域取得了顯著的進步。然而,在遙感圖像分析這一特定領域,傳統的通用目標檢測方法往往難以達到預期的效果。這些方法大多依賴于人工提取的特征來進行目標識別,雖然取得了一定的成果,但在效率、魯棒性和整體性能方面仍然存在明顯的局限性。相比之下,基于卷積神經網絡(convolutional neural networks,CNN)的深度學習[4]目標檢測框架以其強大的特征表示能力,為解決這一問題提供了新的可能。這種框架在特征圖上設置了一系列的錨點,并對每個錨點進行分類和回歸處理,從而能夠準確地識別出目標對象的類別及其對應的邊界框。

基于CNN的目標檢測算法已經成為當前主流的目標檢測算法,主要分為:雙階段檢測算法和單階段檢測算法兩類。雙階段算法RRCNN[5]通過增加旋轉的RoI 池化層以及不同類間的非極大抑制實現RoI 特征與目標方向更好地對齊,以提高檢測效率;R2CNN采用小尺寸的錨框設計,提升了小目標檢測能力[6]。盡管這些方法有效地檢測了旋轉目標,但他們需要預設大量的密集排布的旋轉錨點,存在冗余計算和類別不平衡問題。為了緩解上述問題,RoI transformer 采用全連接層學習生成旋轉候選框[7]。Oriented R-CNN和Gliding vertex 則設計邊界框編碼方式,減輕了由旋轉角度周期性造成的訓練損失不穩定[8-9]。單階段算法R3Det 通過多個優化模塊的級聯進行精細化回歸,并采用基于水平錨的特征重構和對齊的特征插值技術,實現目標的高效檢測[10]。DRN使用特征選擇模塊和動態細化檢測頭改善了遙感圖像中目標密集且方向任意的問題[11]。

【關鍵問題】雖然上述方法在一定程度上提高了遙感圖像目標檢測的性能,但在應對具有明顯尺度差異或目標小而密集的場景時,其性能仍然有待進一步提升。【創新特色】為解決上述問題,本文在RetinaNet[12]的基礎上,引入了改進的下采樣模塊,將其嵌入到ResNet50[13]骨干網絡中,融合多種下采樣方法提取到的特征來生成下采樣特征圖;然后利用卷積核選擇機制動態選擇空間感受野,從而更加關注重要的信息并抑制次要的信息。在公開的數據集DOTA[14]上的實驗結果表明,本文設計的模型能夠有效應對目標對象尺寸小且尺度變化大的挑戰,提高了在遙感圖像上的目標檢測能力。

1 相關工作

1.1 特征下采樣

下采樣是CNN 中的一個關鍵步驟,其主要目的是降低骨干網絡中特征圖分辨率的同時,保留特征圖中的重要信息。此外,下采樣還有助于提高神經網絡模型的計算效率并增強模型的泛化能力。常見的下采樣方法包括最大池化[15]、平均池化和步幅卷積[16]等。最大池化是一種廣泛使用的下采樣方法,它在特征圖中的預定義窗口內選取最大值。與之相似,平均池化則是從同樣的窗口中選取平均值。這兩種方法在計算上都很高效,并且有助于降低特征圖的維度。然而上述做法可能會導致一些關鍵的空間信息丟失,降低模型的泛化性。步幅卷積則通過增大跨步,在卷積過程中跳過某些像素,縮減特征圖的尺寸,但這可能導致特征圖稀疏以及信息密度減小,遺漏某些關鍵信息。LIP 通過局部重要性池化自適應地調整每個局部區域內池化的權重,有效丟棄缺乏信息的特征[17]。SoftPool將輸入的數據映射到一個連續的值空間,然后對這個連續值進行池化操作[18]。這種操作方式使得SoftPool 可以更好地參考區域內的激活值分布,因為它的輸出服從一定的概率分布,而最大池化和平均池化的輸出是無分布的。

1.2 核選擇機制

卷積核選擇機制是一種動態上下文建模的自適應技術,模型根據不同的上下文信息動態地調整其注意力,從而產生具有不同感受野大小的神經元,實現高性能的特征提取。SENet 對每個卷積層的特征圖進行壓縮,通過激活函數重新加權特征通道[19]。SGE通過對特征圖上各個空間位置生成注意力因子來調節每個空間位置處特征的重要性[20]。Dynamic convolution 根據不同的輸入特征動態聚合多個平行卷積核,這些內核通過注意力以非線性方式聚合,模型能夠表現出更強的表示能力[21]。SKNet 是一種使用多分支卷積網絡、組卷積、空洞卷積和注意力機制的卷積網絡,是在網絡的不同層使用不同的核函數[22]。SCNet 引入了自校準卷積層,通過自校準操作融合來自2 個不同空間尺度的信息[23]。上述算法的靈活性有待進一步提高,以使卷積核大小的自適應選擇,能夠根據輸入內容動態調整其感受野大小。為此,本文算法在預測網絡中引入卷積核選擇機制,在不同尺度上動態調整不同核的權重,從而使得網絡能夠聚焦于不同尺度的特征。

2 模型設計

本文設計的目標檢測網絡在RetinaNet 上進行改進,由3 部分組成:骨干網絡、特征金字塔和分類回歸子網。在RetinaNet 的骨干網絡中引入改進的下采樣模塊,增強模型捕獲復雜細節的能力;在目標檢測網絡中加入核選擇模塊,增強網絡提取并融合多尺度特征信息的能力。

2.1 基于改進ResNet50的特征提取網絡

在遙感圖像中,目標尺度變化較大,且小目標的數量占比很高,原始的ResNet50 網絡采用的下采樣方法主要依靠卷積層進行,這可能會導致一些關鍵的語義信息被遺漏,同時難以充分挖掘和保留細粒度的特征信息。為解決這一問題,引入了一種改進的下采樣模塊(improved downsampling module,IDM),其在網絡中的位置如圖1 所示。表1 中,Conv,CutD,GELU,BN,DWConvD,GConv,MaxP分別表示卷積、切片處理、GELU激活函數、批處理歸一化、深度卷積、分組卷積和最大池化操作。

特征提取網絡ResNet50 包括一系列堆疊的殘差模塊,每個殘差塊包含多個卷積層和恒等映射,在進行殘差學習時采用IDM模塊進行下采樣,其結構如圖2 所示。本文使用3 個分支對輸入的特征進行處理,實現了多尺度特征的提取與融合,增強了特征的表示能力,從而減少了模型在小目標檢測時的細節丟失。

IDM 將輸入的圖像特征P ∈RH×W× C 復制為P1和P2,其中W, H和C分別表示特征的寬度、高度和通道數量。首先,對P1 進行切片下采樣,得到C1,C2, C3和C4 4 個空間下采樣后的特征圖。切片下采樣的過程,如圖3 所示。圖中xij 表示P1在空間位置(i,j)處的特征。在通道維度,拼接C1, C2, C3和C4 得到新的特征圖,使特征圖的通道數量由原來的C 增加到4C 。接著,使用步長為1 的1×1 卷積運算將拼接后的特征圖通道數量壓縮為2C ,得到特征Q1 。特征圖通道數的減半,可以使模型的計算量減小。

如圖2 所示,對于圖像特征P2 采用2 個分支進行處理。其中一個分支,使用步長為1、尺寸為3×3的分組卷積GConv 處理,然后使用步長為2 的3×3卷積進行下采樣,并使用G+ELU 激活函數和歸一化層(batch normalization,BN)得到特征Q2 。在另一個分支上,使用與上述結構一致的分組卷積處理P2 ,并做最大池化和歸一化處理,得到特征Q3 。

在下采樣模塊中,3 個分支對應的變換公式表示如下

Q1 = Conv(CutD(P1)) (1)

Q2 =GELU(BN(DWConvD(GConv(P2)))) (2)

Q3 = BN(MaxP(GConv(P1))) (3)

在通道方向上拼接特征Q1 ,Q2 和Q3 ,并在拼接結果上使用1×1卷積層,得到一組通道數翻倍、尺寸減半的特征圖P′。此過程表示如下

P′= Conv(Concat(Q1,Q2,Q3)) (4)

式中:Concat 表示在通道方向上連接特征。

2.2 基于核選擇機制的預測網絡

如圖4 所示,為提高模型對不同尺度目標的檢測能力,采用了核選擇模塊,根據輸入圖像的特性動態選擇多種不同的卷積核融合特征,從而提高模型的表達能力。

在目標檢測網絡的檢測任務頭中,對于輸入的特征K,利用卷積核大小為3×3、5×5、7×7 共3 個空洞卷積來學習多尺度空間信息,得到3 個不同尺度感受野的特征圖X1 ∈RH×W× C ,X2 ∈RH×W× C 和X3 ∈ RH×W× C ,其中

X2 =DWConv(X1) (5)

X3 =DWConv(X2) (6)

式中:DWConv 表示空洞卷積。接著,使用通道拼接融合X1 ,X2 和X3 獲得具有不同感受野尺寸的特征信息,得到特征X ,并在通道方向上拼接X 的平均池化和最大池化的結果。然后,相繼使用卷積和Sigmoid 函數獲取獨立的空間選擇掩碼。接著,使用空間選擇掩碼對X1 ,X2 和X3 分別加權,分別得到特征F1 ,F2 和F3 。最后,對F1 ,F2 和F3 逐元素相加,得到帶有注意力的融合特征,并將融合特征和輸入特征K 進行逐元素相乘,獲得特征K′ 。核選擇模塊的計算公式如下

3 實驗

3.1 DOTA[14]數據集處理

DOTA 是用于目標檢測任務的大規模高分辨率航拍圖像公共數據集,由2 806 張大尺寸圖像組成,包含了不同尺度、方向和形狀的物體。DOTA包含15 個對象類別,包括飛機(PL)、棒球場(BD)、橋梁(BR)、田徑場(GTF)、小型車輛(SV)、大型車輛(LV)、船舶(SH)、網球場(TC)、籃球場(BC)、儲油罐(ST)、足球場(SBF)、環路(RA)、港口(HA)、游泳池(SP)和直升機(HC)。圖像的分辨率在800×800 到4 000×4 000 之間。本文以步幅200 將原圖像裁剪成1 024×1 024 大小。將裁剪后的圖像在數量上按2:1 劃分,得到訓練集和測試集的大小分別為21 046和10 833。測試結果提交至DOTA評測服務器。

3.2 實驗設置

實驗使用一塊顯存為24 GB的GeForce RTX3090的顯卡訓練和測試算法。訓練的Batch size 和Epoch分別設置為2 和12,使用SGD作為優化器,初始學習率和動量系數分別為0.002 5 和0.9。采用平均準確率(average precision, AP)和全類平均準確率(mean average precision, mAP[24])作為檢測評價指標。此外,使用Params(模型參數的總數)和Flops(浮點運算次數)[2]衡量模型的計算復雜度和參數數量。

3.3 消融實驗

分析了不同下采樣模塊對模型的貢獻。表1 各模塊可以使模型的精度得到不同程度的提升,同時使用這3種下采樣策略,模型的性能最優。

此外,研究了核組成對實驗結果的影響。大尺度感受野的特征圖可以直接通過大型卷積核處理或者由多個小型空洞卷積核逐層處理這2 種方式獲得。如表2 所示,當卷積運算后均得到感受野尺寸為29 的特征圖時,以3 個小型空洞卷積核組合獲得大尺度感受野特征圖時,模型的計算復雜度最低,參數總量最少。

3.4 對比實驗

為了驗證本文方法的優越性,開展實驗對比分析了本文與其他遙感圖像目標檢測算法。如表4 所示,本文算法mAP達到了71.63%,超過其他單階段和雙階段模型。與基準模型相比,在大型車輛、船舶、海港、環島等目標類別的檢測精度方面明顯提高。在對比算法中,表現最好。與DRN[11]相比,本文算法關于mAP提升了0.93 個百分點。實驗結果表明,本文提出的模型能夠有效提升尺度變化大的物體的檢測精度。

為了定性對比基線方法和本文方法的效果,本文從數據集中隨機挑選了3 張圖片,測試并可視化。如圖5 所示,相比基線模型,本文算法能更加準確地定位識別海港、大型車輛、環島等尺度變化大的目標,而基線模型則可能會出現漏檢或誤檢。

4 結論

1)針對遙感圖像目標檢測中存在目標間尺度差異大以及目標方向任意的問題,本文提出了基于改進RetinaNet的遙感圖像目標檢測算法。

2)通過在RetinaNet 的特征提取網絡ResNet50中加入改進的下采樣模塊來融合不同下采樣策略提取的特征圖,有效地保留目標特征的邊緣信息;在預測網絡中采用卷積核選擇機制動態選擇空間感受野,提升了模型對關鍵信息的提取能力。

3)通過在DOTA數據集上的實驗,本文方法在一定程度上解決了遙感圖像中目標方向任意且尺度變化大的問題,并取得了良好的檢測效果。本文算法適用于基于CNN的目標檢測網絡。

參考文獻:

[1] LIU W, LIU J, LUO Z, et al. Weakly supervised high spatial resolution land cover mapping based on self-training with weighted pseudo-labels[J]. International Journal of Applied Earth Observation and Geoinformation, 2022, 112: 102931.

[2] LIU W, LIN Y, LIU W, et al. An attention-based multiscale transformer network for remote sensing image change detection[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2023, 202: 599-609.

[3] YU Q, LIU W, GONCALVES W N, et al. Spatial resolution enhancement for large-scale land cover mapping via weakly supervised deep learning[J]. Photogrammetric Engineering amp; Remote Sensing, 2021, 87(6): 405-412.

[4] 張長樂,金鈞.基于深度學習的絕緣子故障檢測仿真研 究[J].華東交通大學學報,2023,40(5):41-48.

ZHANG C L, JIN J. Simulation study on insulator fault detection based on deep learning[J]. Journal of East China Jiaotong University,2023, 40(5): 41-48.

[5] LIU Z, HU J, WENG L, et al. Rotated region based CNN for ship detection[C]// Beijing: 2017 IEEE International Conference on Image Processing (ICIP), 2017:900-904.

[6] JIANG Y, ZHU X, WANG X, et al. R2CNN: rotational region CNN for orientation robust scene text detection[EB/ OL]. (2017-06-30)[2023-01-11].htpp://doi.org/10.48550/ arvix.1706.09579.

[7] DING J, XUE N, LONG Y, et al. Learning RoI transformer for oriented object detection in aerial images[C]// California: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 2849-2858.

[8] XIE X, CHENG G, WANG J, et al. Oriented R-CNN for object detection[C]// Seoul: Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 35203529.

[9] XU Y, FU M, WANG Q, et al. Gliding vertex on the horizontal bounding box for multi-oriented object detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 43(4): 1452-1459.

[10] YANG X, YAN J, FENG Z, et al. R3Det: refined singlestage detector with feature refinement for rotating object [C]// Vancouver: Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(4): 3163-3171.

[11] PAN X, REN Y, SHENG K, et al. Dynamic refinement network for oriented and densely packed object detection [C]// Seattle: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1120711216.

[12] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Venice: Proceedings of the IEEE International Conference on Computer Vision, 2017: 29802988.

[13] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Las Vegas: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[14] XIA G S, BAI X, DING J, et al. DOTA: a large-scale dataset for object detection in aerial images[C]// Utah: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 3974-3983.

[15] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Ima-geNet classification with deep convolutional neural net-works[J]. Communications of the ACM, 2017, 60(6):84-90.

[16] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Hawaii: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.

[17] GAO Z, WANG L, WU G. LIP: local importance-based pooling[C]// Seoul: Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019:3355-3364.

[18] STERGIOU A, POPPE R, KALLIATAKIS G. Refining activation downsampling with SoftPool[C]//Seoul: Proceedings of the IEEE/CVF International Conference on ComputerVision, 2021: 10357-10366.

[19] HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Utah: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.

[20] LI X, HU X, YANG J. Spatial group-wise enhance: improving semantic feature learning in convolutional net-works[EB-OL]. (2019-05-25)[2023-01-11].htpps://doi.org/ 10.48550./arxiv./1905.09646v1.[21] CHEN Y, DAI X, LIU M, et al. Dynamic convolution: attention over convolution kernels[C]//Seattle: Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition, 2020: 11030-11039.

[22] LI X, WANG W, HU X, et al. Selective kernel networks [C] // Los Angeles: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 510-519.

[23] LIU J J, HOU Q, CHENG M M, et al. Improving convolutional networks with self-calibrated convolutions [C]// Seattle: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020:10096-10105.

[24] BHATTACHARYYA A. On a measure of divergence between two statistical populations defined by their probability distribution[J]. Bulletin of the Calcutta Mathematical Society, 1943,35:99-110.

[25] AZIMI S M, VIG E, BAHMANYAR R, et al. Towards multiclass object detection in unconstrained remote sensing im-agery[C]// Perth: Asian Conference on Computer Vision, 2018: 150-165.

[26] ZHANG G, LU S, ZHANG W. CAD-Net: a context-aware detection network for objects in remote sensing imagery [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(12): 10015-10024.

第一作者:程路(2000—),男,碩士研究生,研究方向為目標檢測。E-mail:2459650517@qq.com。

通信作者:劉偉(1986—),男,副教授,博士,碩士生導師,研究方向為遙感圖像解析、機器學習和計算機視覺。E-mail:weiliu@ecjtu.edu.cn。

(責任編輯:吳海燕)

基金項目:國家自然科學基金項目(62461026);江西省自然科學基金面上項目(20232BAB203057)

主站蜘蛛池模板: 在线看国产精品| 免费看黄片一区二区三区| 国产精品成人一区二区不卡 | 国产精品永久免费嫩草研究院 | 伊人久久精品无码麻豆精品 | 欧洲熟妇精品视频| 久久久久亚洲AV成人人电影软件 | 国产av剧情无码精品色午夜| 亚洲成人一区在线| 久久综合成人| 亚洲精品高清视频| 免费在线国产一区二区三区精品| 国产精品美女自慰喷水| 四虎成人精品| 国产产在线精品亚洲aavv| 一级高清毛片免费a级高清毛片| 99精品国产自在现线观看| 亚洲国产亚综合在线区| 伊人AV天堂| 毛片久久久| 国产欧美日韩另类| 亚洲欧洲国产成人综合不卡| 熟女日韩精品2区| 欧美日韩国产成人在线观看| 人人爱天天做夜夜爽| 在线无码av一区二区三区| 国产欧美日韩综合一区在线播放| 欧美日韩国产在线观看一区二区三区| 成年A级毛片| 国产在线视频自拍| 欧美视频在线第一页| 亚洲性视频网站| 国产无码高清视频不卡| 成人在线欧美| 中文字幕乱码中文乱码51精品| 免费不卡在线观看av| 成人无码区免费视频网站蜜臀| 中文字幕自拍偷拍| 亚洲综合香蕉| 亚洲天堂视频在线免费观看| 免费视频在线2021入口| 欧美人与牲动交a欧美精品| 一区二区在线视频免费观看| 国产精品福利在线观看无码卡| 亚洲成在线观看| 国产国拍精品视频免费看| 亚洲天堂网在线观看视频| 国产在线日本| 毛片在线播放a| 亚洲欧洲综合| WWW丫丫国产成人精品| 2020国产精品视频| 亚洲国产天堂久久综合226114| 婷婷六月综合网| 久久精品国产91久久综合麻豆自制| 四虎永久在线精品影院| 精品国产毛片| 国产在线视频自拍| 日韩无码视频网站| 久久精品一卡日本电影| 国产经典免费播放视频| 国产在线八区| 国产白浆在线| 大陆国产精品视频| 免费看av在线网站网址| 国产精品所毛片视频| 操美女免费网站| 人妻少妇乱子伦精品无码专区毛片| 国产91线观看| 一区二区在线视频免费观看| 人与鲁专区| 国产精品v欧美| 亚洲精品你懂的| vvvv98国产成人综合青青| 中文字幕中文字字幕码一二区| www.精品国产| 国外欧美一区另类中文字幕| 国产福利一区视频| 99久久精品视香蕉蕉| 四虎永久在线视频| 92午夜福利影院一区二区三区| 国产美女无遮挡免费视频|