林文龍,阿里甫·庫爾班,陳一瀟,袁 旭
新疆大學 軟件學院,烏魯木齊 830046
隨著衛(wèi)星遙感技術(shù)的飛速發(fā)展,遙感影像成像范圍持續(xù)擴大,更新周期逐步縮短,空間分辨率顯著提升,以及其具有的豐富的空間信息以及清晰的幾何結(jié)構(gòu)和紋理信息,遙感目標檢測在國民經(jīng)濟、社會發(fā)展、國防安全、生態(tài)保護等領(lǐng)域獲得廣泛應(yīng)用。然而,遙感圖像中普遍存在目標尺度變化大、目標方向變化大、密集小目標占比大、目標模糊背景復雜等特點,給檢測帶來了很大的挑戰(zhàn)。因此,提出一種用于遙感圖像的高精度檢測算法具有重要意義。
傳統(tǒng)的遙感目標檢測方法主要有:(1)基于模板匹配的對象檢測方法,(2)基于知識的對象檢測算法,(3)基于對象的圖像分析(OBIA)的對象檢測法,(4)基于機器學習的對象檢測技術(shù)等。Niu[1]提出了一種基于幾何活動輪廓模型的半自動框架,用于從航空照片中提取公路和檢測車輛。Peng 和Liu[2]在密集的城市航拍圖像中,通過陰影信息與背景信息相結(jié)合的方法提取建筑區(qū)域,建立了陰影-背景模型。Shi 等人[3]將圓頻特征與HOG 特征相結(jié)合,開發(fā)了一種用于船舶檢測的圓頻-HOG特征。但是基于傳統(tǒng)方法的目標檢測算法模型泛化性差、定位精度差、冗余計算量大等缺點,不能滿足實際應(yīng)用的需求。近年來,隨著深度學習理論的成熟,基于深度學習的目標檢測算法得到了快速發(fā)展。基于深度學習的遙感圖像目標檢測算法相對于傳統(tǒng)方法性能取得了大幅提升。
深度學習神經(jīng)網(wǎng)絡(luò)按處理步驟可以分為兩類:兩階段方法(two-stage)和一階段方法(one-stage)。兩階段方法的優(yōu)點在于檢測準確率高;而一階段方法相比兩階段方法計算效率更高,檢測速度快,但檢測精度相對較低。兩階段方法是一類基于區(qū)域推薦的檢測算法,它首先生成目標區(qū)域候選框(region proposals),然后對候選框中的圖像做進一步的分類并修正框的位置,從而實現(xiàn)目標的檢測。比較常見的兩階段方法有:R-CNN[4]、FastR-CNN[5]、Faster R-CNN[6]和FPN[7]。一階段方法是基于回歸方法的目標檢測算法,主要是通過對圖像用不同尺度、比例的錨框進行有規(guī)律的密集采樣來檢測目標,網(wǎng)絡(luò)直接對輸入的圖像進行處理以產(chǎn)生物體的類別概率和位置坐標值。經(jīng)典的一階段目標檢測算法有YOLO系列算法[8-11]、SSD[12]、RetinaNet[13]、FCOS[14]。
目前,深度學習算算法已經(jīng)在遙感圖像目標檢測中廣泛應(yīng)用。Lu 等人[15]提出了一種端到端的注意與特征融合SSD算法,該算法設(shè)計了一種多層特征融合結(jié)構(gòu)來增強淺層特征的語義信息,并且引入雙路徑注意模塊來篩選特征信息,提高了對小目標的檢測效果。Guo 等人[16]提出了一種用于密集遙感目標檢測的全變形卷積網(wǎng)絡(luò)(FD-Net),通過將可變形卷積集成到整個網(wǎng)絡(luò)有效提取特征,并且使用基于可變形卷積構(gòu)造的特征金字塔網(wǎng)絡(luò)進行特征增強,實現(xiàn)了密集遙感目標的檢測任務(wù)。Cao等人[17]構(gòu)建了一種新的結(jié)構(gòu)——注意引導的語境特征金字塔網(wǎng)絡(luò)(ACFPN),該網(wǎng)絡(luò)通過集成注意引導的多路徑特征,利用來自不同接受域的判別信息,有效提高了檢測性能。Dong等人[18]設(shè)計了一種新型多尺度可變注意力模塊加入FPN中,該模塊從具有多尺度可變形感受野的特征圖中生成注意力圖,可以更好地擬合各種形狀和大小的遙感目標,改善了遙感圖像中目標多尺度問題。Ye等人[19]提出了一種自適應(yīng)注意融合機制,在該機制中引入了可學習的融合因子,實現(xiàn)模塊內(nèi)和模塊間特征的自適應(yīng)融合,提高了模型在遙感圖像目標檢測中的精度和魯棒性。Zhou 等人[20]為了解決遙感圖像中小目標、密集目標分布和陰影遮擋問題,提出了針對小目標的跨層融合網(wǎng)絡(luò),大大提高了算法在DIOR車輛數(shù)據(jù)集[21]的表現(xiàn)。Tang 等人[22]通過引入特征對齊模塊來估計像素偏移量和上下文對齊高級特征,建立了增強特征金字塔子網(wǎng)絡(luò)來解決由于特征不對稱和目標外觀變化(即尺度變化、縱橫比變化)帶來的檢測困難。Chalavadi等人[23]利用并行空洞卷積來探索分層擴張網(wǎng)絡(luò),學習不同類型物體在多個尺度和多個視場的上下文信息,有效覆蓋了航空圖像的視覺信息,增強了模型的檢測能力。Xiao等人[24]提出CEM模塊提取豐富的上下文信息進行多尺度空洞卷積的特征融合。
以上眾多論文都對算法的特征融合進行了改進,其中文獻[17]串聯(lián)地使用可變形卷積進行密集連接,但是由于密集的連接使得上下文信息冗余,需要搭配額外的注意力引導模塊使用。文獻[18]串聯(lián)使用帶有固定空洞率的可變形卷積生成注意力圖;文獻[23-24]使用簡單的并行3 個帶有不同空洞率的空洞卷積提取上下文信息。以上文獻顯示了在FPN中調(diào)整特征圖感受野、對特征圖進行具有注意力引導的特征融合對緩解目標檢測多尺度問題和小目標問題的有效性,但在模塊結(jié)構(gòu)上或精度仍有改進空間。故本文提出了自適應(yīng)上下文特征提取模塊,該模塊使用并行的帶有不同空洞率的可變形卷積從多個感受野探索上下文信息,并且進行多次注意力引導的自適應(yīng)特征融合。同時,采用Swin Transformer作為主干提高算法特征提取能力。引入FreeAnchor 模塊,優(yōu)化錨框(anchor)匹配策略,提高檢測精度。實驗表明,ACFEM-RetinaNet算法在本文中的遙感圖像目標檢測任務(wù)中具有較好的檢測效果。
RetinaNet算法是于2017年隨論文Focal loss for dense object detection被提出的一種基于錨框的one-stage 通用目標檢測算法。RetinaNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由Backbone(主干網(wǎng)絡(luò))、Neck(特征融合網(wǎng)絡(luò))和Head(分類子網(wǎng)絡(luò)與邊框回歸子網(wǎng)絡(luò))三部分組成。

圖1 RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 RetinaNet network structure diagram
RetinaNet 采用ResNet-50 作為Backbone,對圖像進行特征提取,同時在Neck 部分構(gòu)建FPN 進行特征融合。在Head 部分,RetinaNet 塊使用class subnet 和box subnet分別處理目標類別分類任務(wù)和目標定位任務(wù)。并且使用Focal Loss 根據(jù)置信度動態(tài)調(diào)整交叉熵損失來解決樣本不平衡問題。
ACFEM-RetinaNet 算法如圖2 所示。首先,為增強算法的特征提取能力,將Backbone 替換為Swin Transformer。其次,將特征圖C5 輸入自適應(yīng)上下文特征提取模塊(adaptive context feature extraction module,ACFEM)自適應(yīng)提取上下文特征,多尺度目標檢測效果。最后,在Head 中引入FreeAnchor 模塊提高檢測器對錨框分配的效果。

圖2 ACFEM-RetinaNet結(jié)構(gòu)示意圖Fig.2 Schematic diagram of ACFEM-RetinaNet structurer
谷歌在2017 年提出了Transformer[25]模型。它實現(xiàn)了序列建模和轉(zhuǎn)導任務(wù),以關(guān)注數(shù)據(jù)中的長期依賴關(guān)系而著稱。Transformer 在語言領(lǐng)域的成功促使研究者將其應(yīng)用于計算機視覺。然而,其在計算機視覺的應(yīng)用遇到了兩大的問題:首先,視覺領(lǐng)域中不同圖像及目標在規(guī)模上有很大差異,原有的Transformer 模型中固定的圖像塊(tokens)不能有效適應(yīng)差異大的圖像目標。其次,相較于文本信息,圖像有著很高的像素分辨率,Transformer 對高分辨率圖像的自注意力計算會帶來龐大的計算量。針對以上問題,Liu 等人[26]提出了Swin Transformer。
2.1.1 Swin Transformer流程
Swin Transformer(Swin-T)網(wǎng)絡(luò)架構(gòu)圖如圖3 所示,框架基本流程如下:

圖3 Swin Transformer(Swin-T)架構(gòu)圖Fig.3 Architecture of Swin Transformer(Swin-T)
2.1.2 W-MSA模塊
為了減少計算量以及實現(xiàn)窗口之間的信息交互,在Swin Transformer Block的堆疊過程中成對使用W-MSA(windows multi-head self-attention)和SW-MSA(shifted windows multi-head self-attention)。
如圖4所示為堆疊的Swin Transformer Block,其中為了減少計算量Swin Transformer引入W-MSA(windows multi-head self-attention)模塊。與MSA(multi-head self-attention)模塊在整個圖像上計算自注意力相比,windows multi-head self-attention(W-MSA)模塊首先將特征圖按照如圖5M×M大小劃分為窗口(windows),然后對單獨每個窗口進行self-attention計算。公式(1)(2)分別為MSA和W-MSA的計算復雜度。其中C為特征圖的深度。由于劃分好的窗口包含的像素量為M×M,小于整個特征圖包含的像素量h×w,self-attention的計算復雜度W-MSA較WSA減少了,使得W-MSA的計算復雜度與圖像尺寸呈線性關(guān)系。

圖4 堆疊的Swin Transformer BlockFig.4 Stacked Swin Transformer Block

圖5 移位窗口的自注意力計算Fig.5 Self-attention computation for shifted windows
2.1.3 SW-MSA模塊
雖然W-MSA 模塊在每個窗口進行自注意力計算,減少了計算復雜度,與此同時也阻隔了各窗口之間的信息傳遞。為了解決這個問題,Swin Transformer 引入了shifted windows multi-head self-attention(SW-MSA)模塊,該模塊是在W-MSA 的基礎(chǔ)上進行了窗口的偏移。如圖6所示,首先將原先的四個窗口進行偏移,產(chǎn)生新的窗口。新窗口的自注意力計算跨越了前一層W-MSA窗口的邊界,實現(xiàn)了信息之間的聯(lián)系。之后,為了實現(xiàn)高效的計算方法,將窗口移位形成新的四窗口形式,通過掩碼機制解決原本不相鄰窗口的信息交流后,計算出能夠?qū)崿F(xiàn)窗口間信息傳遞的結(jié)果。

圖6 高效的批量計算方法Fig.6 Approach of efficient batch computation
針對遙感目標檢測中多尺度目標問題,本文基于可變形卷積[28]和SK 注意力[29],設(shè)計了自適應(yīng)上下文特征提取模塊(adaptive context feature extraction module,ACFEM)。在ACFEM 模塊中,使用多對并聯(lián)且?guī)в胁煌斩绰实目勺冃尉矸e從多個感受野探索上下文信息,并且通過注意力引導不同感受野的特征圖進行特征融合,以提升算法處理多尺度目標的能力。
如圖7 所示為3×3 可變形卷積示例圖,可變形卷積在卷積的基礎(chǔ)上,用額外的偏移量增加模塊中的空間采樣位置,達到適應(yīng)幾何變化、姿勢、視角和部分形變的目的。有助于改善遙感圖像目標中飛機、油桶等目標在不同視角、姿勢和圖像畸變導致的檢測困難;可變性卷積雖然能夠適當調(diào)整感受野,但是偏移量相對較小。因此,ACFEM在可變形卷積的基礎(chǔ)上進一步添加空洞率,從而擴大感受野、捕捉多尺度信息。

圖7 3×3可變形卷積示例Fig.7 Illustration of 3×3 deformable convolution
如圖8 所示,ACFEM 由FEM(feature extraction module)模塊、SM(fusion module)模塊組成。

圖8 自適應(yīng)上下文特征提取模塊Fig.8 Adaptive context feature extraction module
如圖9所示,F(xiàn)EM模塊由卷積層、Group Normalization 層、ReLU 層、可變形卷積層以及Droupout 層組成。在這個模塊中,通過對可變形卷積層設(shè)置不同的空洞率,進一步增強可變形卷積的感受野以及特征提取能力。并且將Group Normalization層代替Batch Normalization 層提高模塊在小批量情況下的收斂效果。在模塊最后加入Droupout層防止網(wǎng)絡(luò)過度擬合。

圖9 FEM模塊Fig.9 Feature extraction module
如圖10 所示,在FM 模塊中,首先對輸入的兩個特征圖x1、x2 逐元素相加(element-wise product),之后壓縮通道數(shù)并進行全局平均池化,最后將注意力與對應(yīng)的特征圖逐元素積(element-wise product)得到輸出結(jié)果。
Zhang 等人[30]在NIPS 2019 中提出了FreeAnchor。從極大釋然估計的角度出發(fā)設(shè)計優(yōu)化方式提出了一種新的錨框(anchor)匹配策略,使得網(wǎng)絡(luò)能夠以一個更加靈活的方式去選擇目標匹配的錨框。
在先前基于錨框的目標檢測方法中,需要配置密集的錨框,以便匹配目標對象和錨框,并且可以很好地初始化錨框回歸。然后,通過使用真實標注框(ground truth box)對錨框進行IoU 閾值劃分,將anchor 分配給對象或背景。雖然以上方法在一般情況下是有效的,但是在遙感目標檢測過程中,如圖11所示,存在著無中心特征或擁擠的目標,其中綠色框為真實標注框的位置,紅色框為算法預測的目標位置。檢測器容易出現(xiàn)如圖因為中心特征被干擾以及擁擠情況導致錯過最佳的錨框和特征。FreeAnchor 的優(yōu)勢在于使用極大似然估計角度優(yōu)化錨、特征與各種幾何布局的對象的匹配,能很大程度上緩解無中心、細長和/或擁擠的對象檢測困難的問題。因此本文引入FreeAnchor,以提高檢測器對錨框分配的效果。

圖11 遙感目標檢測中的目標Fig.11 Target in remote sensing target detection
FreeAnchor的匹配策略為:尋找錨框與對應(yīng)目標錨框的分類置信度和定位置信度乘積最大值的同時,將定位較差的錨框歸為背景類。
基于錨框算法常用的損失函數(shù)如式(3)所示,該損失函數(shù)優(yōu)化了分類和位置回歸,但卻忽視了對目標和錨框的匹配。FreeAnchor 從三個方面優(yōu)化對目標和錨框的匹配。
(1)優(yōu)化召回率,F(xiàn)reeAnchor 定義了召回似然函數(shù)。如式(4)所示,為分類置信度,為定位置信度,Ai為錨框集合。P(θ)recall為所有目標的錨框分類置信度和定位置信度的最大乘積。目的為尋找最大的目標錨框的分類置信度和定位置信度乘積。
(2)提高檢測精度,F(xiàn)reeAnchor定義了式(5)所示的精度似然概率函數(shù)。P{aj∈A-}=1-maxP{aj→bi}為aj屬于背景類的概率,P{aj→bi}表示錨框aj正確預測目標bi的概率。其目的是將定位較差的錨框歸為背景類。
(3)與nms 程序兼容,F(xiàn)reeAnchor 定義了式(6)、式(7)函數(shù)。
通過以上優(yōu)化得到的檢測似然函數(shù)為式(8)所示,將似然函數(shù)轉(zhuǎn)換為損失函數(shù)為式(9)所示。
同時,為了解決在網(wǎng)絡(luò)訓練初期置信度普遍偏低的情況下,置信度最高的錨框不一定為最佳錨框的問題,F(xiàn)reeAnchor引入了Mean-max函數(shù),當訓練不足時,使幾乎所有的錨框都被用于訓練。隨著訓練的進行,一些錨框的置信度增加,Mean-max 函數(shù)向max 函數(shù)靠攏。當進行了充分的訓練后,則從中選擇最佳錨框。
式(10)為max 函數(shù)替換為Mean-max 函數(shù),加入平衡因子w1、w2,將focalloss 函數(shù)應(yīng)用于式所得到的FreeAnchor損失函數(shù)。
本文所采用的數(shù)據(jù)集為光學遙感圖RSOD[31]數(shù)據(jù)集。數(shù)據(jù)集包括飛機、油箱、操場和立交橋。此數(shù)據(jù)集的格式為PASCAL VOC。在實驗過程中,發(fā)現(xiàn)RSOD數(shù)據(jù)集中對一些小目標并未標注,故對這些目標進行了補充標注。補充標注后的RSOD數(shù)據(jù)集由7 676個對象實例組成,包含了四個對象類,分別為5 465架飛機(aircraft),1 869個油箱(oiltank),180座立交橋(overpass)和162個操場(playground)。對ROSD 數(shù)據(jù)集劃分如下:按7∶3的比例劃分為訓練集和測試集。圖12為RSOD 數(shù)據(jù)集部分數(shù)據(jù)示例圖。

圖12 部分數(shù)據(jù)集展示Fig.12 Presentation of part of dataset
本文實驗使用基于Pytorch 的mmdetection 開源代碼庫,訓練環(huán)境:CUDA 版本為11.1,GPU 為NVIDIA GeForce RTX 2080 SUPER,顯存8 GB,編譯語言為Python3.8,訓練最小批次為2,總共訓練24 epoch。
為驗證本文提出的ACFEM-RetinaNet 算法在遙感目標檢測任務(wù)的有效性,本文設(shè)置了7個消融實驗,1個對比實驗,1 個ACFEM 模塊空洞率參數(shù)對性能影響實驗,1個ACFEM模塊與常見感受野調(diào)整模塊對比實驗,7個消融實驗中,分別驗證了更換Swin Transformer作為主干、自適應(yīng)上下文特征提取模塊以及加入FreeAnchor模塊及其組合的有效性。在1 個對比實驗中,對比了ACFEM-RetinaNet 算法與當前主流目標檢測算法的檢測精度。
訓練時對設(shè)置輸入圖像大小為(1 000,600),采用SGD 優(yōu)化器對網(wǎng)絡(luò)進行訓練,初始學習率為0.001 25,使用余弦退火策略調(diào)整學習率。實驗以平均精度均值(mean average precision)、模型每秒檢測的圖像數(shù)量(FPS)等評價指標對模型進行評價。
為了提高算法的特征提取能力,本文采用Swin Transformer 作為算法的主干。實驗1 對比了更換Swin Transformer 作為主干算法與原始RetinaNet 算法的效果,結(jié)果如表1所示。對比mAP可知,更換Swin Transformer作為主干使算法的mAP從86.5%提升到了88.8%,mAP提升了2.3個百分點。對于飛機類、油桶類、立交橋類,mAP 分別提升了4、3.5、1.5 個百分點,證明了Swin Transformer能夠提升算法的特征提取能力、有助于提高算法的檢測能力。
本文提出了自適應(yīng)上下文特征提取模塊,該模塊使用并行的帶有不同空洞率的可變形卷積進行上下文信息提取,并且進行多次注意力引導的自適應(yīng)特征融合以提升算法處理多尺度目標的能力。為了驗證ACFEM模塊的有效性,實驗2 對比了添加ACFEM 與原算法的檢測效果。實驗結(jié)果如表1所示,添加ACFEM模塊后,算法mAP增加了2.2個百分點。如圖13所示,在RSOD數(shù)據(jù)集中,尺度變化最大的類別為立交橋,在多尺度目標問題最為嚴重的立交橋類中加入ACFEM 后mAP 提升了3.3 個百分點,證明了ACFEM 模塊能夠通過自適應(yīng)多感受野提取上下文信息并進行特征融合緩解遙感圖像目標檢測中多尺度問題,并提升算法的檢測效果。

圖13 RSOD數(shù)據(jù)集類別尺度Fig.13 Category scale of RSOD dataset
針對遙感圖像目標的密集小目標等問題,本文引入FreeAnchor 模塊。該模塊能夠從極大似然估計的角度提高錨框的匹配效果。實驗3 對比了添加FreeAnchor模塊前后算法的檢測效果,由表1可知,添加FreeAnchor模塊后,算法mAP 由86.5%提升到了88.4%,提升了1.9個百分點。對于密集小目標問題明顯的飛機類、油桶類,mAP 分別顯著提升5.8、4.5 個百分點,證明了Free-Anchor模塊解決此類問題的有效性。
實驗4、實驗5、實驗6 驗證了3 個改進方法的兩兩組合對算法的檢測效果。對比mAP 可知,三個實驗在分別使算法的mAP提升了2.8、3.6、3.1個百分點。
實驗7對比了原始算法與更換Swin Transformer作為主干、添加ACFEM 模塊后和添加FreeAnchor 模塊的改進算法。如表1 所示,雖然GFLOPs 增加了4%,F(xiàn)PS下降了6,但是算法mAP由86.5%提升至91.1%,提升了4.6個百分點。實驗證明對算法的三個改進有助于提升網(wǎng)絡(luò)的檢測精度。
表2 為ACFEM-RetinaNet 算法與目前主流算法在RSOD數(shù)據(jù)集中的性能表現(xiàn),以驗證本文算法的有效性。本文對比了以下算法:Faster R-CNN、VGG16-SSD、MobileNetv2-SSDlite、YOLOv3、ResNet50-TOOD。實驗表明,更換Swin Transformer作為主干增強了算法的特征提取能力、加入自適應(yīng)上下文特征提取模塊自適應(yīng)調(diào)整感受野、提取上下文特征,提高了處理多尺度目標的能力、加入FreeAnchor模塊優(yōu)化了錨框分配策略。與其他算法相比,本文算法具有更好的檢測效果。圖14 為本文算法檢測效果。

表2 不同算法檢測結(jié)果比較Table 2 Comparison of detection results of different algorithms

圖14 檢測效果圖Fig.14 Test effect drawing
表3為ACFEM模塊空洞率參數(shù)對性能影響實驗結(jié)果。首先實驗以RetinaNet-ResNet50 為基礎(chǔ),選取最佳組合。其次,空洞率的選取遵循逐步增大的規(guī)律。如表3 所示,同一組中空洞率逐步增加,不同組合間逐步增加,實驗表明,在ACFEM 模塊空洞率為組合2 時,算法mAP 達到88.7%的最佳性能,相比于原始RetinaNet-ResNet50在mAP上提升了2.2個百分點。

表3 不同空洞率的組合對性能影響Table 3 Effect of combination of different dilation rates on performance
如表4所示為ACFEM模塊與在感受野探索方面的其他常見方法的對比實驗。其中,SPP[10]使用三個并行的最大池化后進行Concatenate 操作;ASPP[32]使用具有不同采樣率的多個并行空洞卷積后進行Concatenate操作;RFB[33]則是在Iception結(jié)構(gòu)的基礎(chǔ)上加入空洞卷積,將卷積后的結(jié)果進行逐元素相加。上述論文都表明了調(diào)整感受野對目標檢測效果提升的重要作用,但是上述常見方法對感受野的調(diào)整只是進行單一的池化或空洞率設(shè)置,并且對擴大感受野之后的特征圖只進行簡單的Concatenate 操作或逐元素相加,不能對并行產(chǎn)生的不同感受野的特征圖進行有效的融合。本文所提出的ACFEM模塊在這兩方面對比常見的方法具有明顯的優(yōu)勢。首先,ACFEM使用帶有空洞率的可變形卷積,在可變形卷積可變感受野的基礎(chǔ)上進一步增大感受野。其次,ACFEM加入注意力引導模塊,由注意力引導并行的帶有不同感受野的特征圖進行特征融合,提高了特征融合的有效性。如表4 實驗所得,ACFEM 的mAP 均高于常見的感受野調(diào)整方法。

表4 感受野模塊性能比較Table 4 Comparison of performance of receptive field module
表4 同時進行了多次注意力引導必要性的實驗。ACFEM-0 為不對特征融合進行引導、ACFEM-1、ACFEM-2、ACFEM-3 分別為只對第1、2、3 次感受野調(diào)整的特征圖進行帶有注意力引導的特征融合,其余的特征融合方式為逐元素相加。由表4所示,不添加注意力引導的ACFEM 檢測mAP 為87.2%。在三個部位分別添加注意力引導,mAP分別提升了1、0.9、0.6個百分點,證明了注意力引導的必要性和有效性。
本文將RetinaNet 算法應(yīng)用到遙感圖像目標檢測中,針對原主干特征提取不充分、目標多尺度的問題,算法采用Swin Transformer作為主干網(wǎng)絡(luò),提升算法的特征提取能力,提高檢測精度。針對遙感圖像多尺度問題,提出自適應(yīng)上下文特征提取模塊,該模塊使用并行的帶有不同空洞率的可變形卷積從多個感受野探索上下文信息,并且進行多次注意力引導的自適應(yīng)特征融合提升算法處理多尺度目標的能力。針對遙感圖像中目標密集重疊問題,引入FreeAnchor 模塊,從極大釋然估計的角度設(shè)計優(yōu)化錨框匹配策略,提高檢測精度。實驗表明,ACFEM-RetinaNet算法在本文中的遙感圖像目標檢測任務(wù)中具有較好的檢測效果。