基于Ghost卷積與注意力機(jī)制的SAR圖像建筑物檢測算法

2022-08-02 00:38:08嚴(yán)繼偉蘇娟李義紅

兵工學(xué)報 2022年7期

關(guān)鍵詞：特征檢測

嚴(yán)繼偉，蘇娟，李義紅

(火箭軍工程大學(xué) 核工程學(xué)院, 陜西西安 710025)

0 引言

合成孔徑雷達(dá)(SAR)作為一種主動式微波傳感技術(shù)，具有不受光照和天氣條件影響、穿透能力強(qiáng)、能實現(xiàn)全天時全天候探測等特點。隨著SAR成像技術(shù)的發(fā)展，SAR圖像在軍用與民用領(lǐng)域取得了廣泛的應(yīng)用。通過對SAR圖像建筑物目標(biāo)檢測，可以快速獲取建筑區(qū)域信息，在城市建設(shè)規(guī)劃、軍事偵察、災(zāi)情評估、目標(biāo)打擊等方面具有重要的研究意義。

隨著合成孔徑雷達(dá)圖像數(shù)據(jù)的激增和計算機(jī)視覺領(lǐng)域的快速發(fā)展，深度卷積神經(jīng)網(wǎng)絡(luò)被引入來解決SAR圖像中的目標(biāo)檢測問題。目前，常用的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法主要分為兩階段檢測算法與單階段檢測算法。其中，兩階段檢測算法主要有候選區(qū)域提取和候選區(qū)域定位分類兩個步驟，因此檢測速度較慢。最具代表性的兩階段檢測算法為R-CNN系列等。而單階段檢測算法直接在圖像中選取目標(biāo)錨框并預(yù)測位置與類別，是一種兼具精度與速度的目標(biāo)檢測方法。YOLO系列、SSD、Centernet等都是著名的單階段檢測算法。

深度卷積神經(jīng)網(wǎng)絡(luò)在SAR建筑物檢測方面也有廣泛的應(yīng)用。文獻(xiàn)[11]提出借助先驗信息(2D建筑物圖像或可見光圖像)對SAR建筑物圖像展開分析，使用合成孔徑雷達(dá)層析成像技術(shù)區(qū)分出建筑物區(qū)域和非建筑物區(qū)域，并以此制作數(shù)據(jù)集，經(jīng)過模型訓(xùn)練后實現(xiàn)了對SAR圖像中柏林城區(qū)的建筑物檢測。文獻(xiàn)[13]提出一個多尺度的卷積神經(jīng)網(wǎng)絡(luò)模型，直接從SAR圖像斑塊中提取多尺度特征來檢測建筑物，并在北京地區(qū)的高分辨率SAR圖像上進(jìn)行實驗驗證。文獻(xiàn)[14]分析了SAR圖像中臨近像素之間的相關(guān)性，將結(jié)構(gòu)化預(yù)測引入網(wǎng)絡(luò)之中，采用多級特征對像素進(jìn)行分類，以此實現(xiàn)了SAR圖像中的建筑物檢測。

SAR圖像中的建筑物目標(biāo)常以任意方向密集排列，使用傳統(tǒng)的水平矩形框進(jìn)行檢測容易對相鄰目標(biāo)產(chǎn)生影響，因此本文提出使用旋轉(zhuǎn)矩形框檢測SAR圖像中的建筑物目標(biāo)。基于旋轉(zhuǎn)矩形框的目標(biāo)檢測算法具有如下優(yōu)勢：1)檢測時可以充分考慮建筑物的方向性問題，檢測結(jié)果表征出目標(biāo)的方向信息；2)密集排列時分離出單個建筑物，減少漏檢現(xiàn)象的發(fā)生；3)濾除單個建筑物周圍存在的背景信息，避免對檢測效果造成影響。因此基于旋轉(zhuǎn)框的目標(biāo)檢測算法在SAR圖像建筑物檢測中具有重要研究前景。現(xiàn)階段的基于旋轉(zhuǎn)矩形框的檢測算法也有兩種，其中，DRbox-v2、SCRDet等都是典型的兩階段檢測器，R-centernet、R3Det、EAST、FOST等均為單階段檢測器。

經(jīng)典的深度卷積神經(jīng)網(wǎng)絡(luò)模型往往伴隨著大量的參數(shù)與計算量，在訓(xùn)練過程中占用了計算機(jī)的內(nèi)存，檢測時降低效率。因此，輕量的卷積神經(jīng)網(wǎng)絡(luò)具有廣闊的應(yīng)用前景，能夠勝任實時性要求高的目標(biāo)檢測任務(wù)。輕量化的目標(biāo)檢測算法有MobileNet系列、GhostNet、ShuffleNet等。

本文在基于旋轉(zhuǎn)矩形框的單階段目標(biāo)檢測算法R-centernet的基礎(chǔ)上，提出了一種更加輕量化的改進(jìn)算法，用于SAR圖像中的建筑物檢測。首先用Ghost卷積替換原始網(wǎng)絡(luò)中的傳統(tǒng)卷積，搭建Ghost-ResNet網(wǎng)絡(luò)模型，降低參數(shù)量；其次提出融合寬高信息的通道注意力模塊，提高檢測精度，同時保證較低的參數(shù)量；然后改進(jìn)上采樣方法，進(jìn)一步減小網(wǎng)絡(luò)的計算量；最后使用改進(jìn)算法對數(shù)據(jù)集進(jìn)行訓(xùn)練與測試，驗證改進(jìn)算法在SAR圖像建筑物檢測應(yīng)用中的性能。

1 SAR圖像建筑物檢測算法

1.1 R-centernet算法基本原理

目前常見的目標(biāo)檢測算法多使用水平矩形框從圖像中窮舉出目標(biāo)錨框，而后進(jìn)行分類與定位，檢測效率較低，檢測速度較慢。Centernet則提出一種基于關(guān)鍵點估計的目標(biāo)檢測方法，在檢測過程中尋找關(guān)鍵點來估計目標(biāo)的中心點位置，而后回歸其他屬性(大小、空間位置、方向、姿態(tài)等)。

R-centernet作為Centernet的改進(jìn)版本，是一種旋轉(zhuǎn)目標(biāo)檢測算法，在水平框的基礎(chǔ)上引入一個角度參數(shù)進(jìn)行訓(xùn)練和預(yù)測，最終回歸了目標(biāo)的四個特征：熱力圖特征、中心點、尺寸和角度，并以此確定目標(biāo)在圖像中的精確位置和方向。其算法結(jié)構(gòu)如圖1所示。

圖1 R-centernet算法結(jié)構(gòu)Fig.1 Structure of the R-centernet algorithm

如圖1所示，圖像輸入進(jìn)R-centernet后首先經(jīng)過主干網(wǎng)絡(luò)ResNet50(Residual Networks 50)進(jìn)行特征提取，而后輸入反卷積(DCN)模塊，該模塊的主要作用是上采樣。最終得到四個預(yù)測結(jié)果：熱力圖、中心點坐標(biāo)、寬高和角度。因此，損失函數(shù)由三部分組成：熱力特征損失、位置損失(中心點偏移損失、寬高預(yù)測損失)、旋轉(zhuǎn)角度損失。計算公式如下：

=+++

(1)

式中：表示總損失值；表示熱力特征損失；為預(yù)測框中心點偏移誤差；為預(yù)測框?qū)捀叩恼`差；為預(yù)測框的旋轉(zhuǎn)角度誤差；、、為對應(yīng)權(quán)重。

圖2 改進(jìn)R-centernet算法結(jié)構(gòu)Fig.2 Structure of the improved R-centernet algorithm

1.2 改進(jìn)的R-centernet算法

在SAR圖像建筑物檢測過程中，原始R-centernet算法需要大量參數(shù)和浮點運算來獲得檢測精度的收益，隨之帶來的是檢測速度的下降。本文改進(jìn)了R-centernet算法，在保證檢測精度的基礎(chǔ)上，降低網(wǎng)絡(luò)參數(shù)的數(shù)量，使SAR圖像中建筑物的檢測既高效又有效。

改進(jìn)R-centernet算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。圖中使用紅色虛線框標(biāo)出的部分為改進(jìn)部分，主要包括：1)使用Ghost卷積替換傳統(tǒng)卷積，將主干網(wǎng)絡(luò)由ResNet50改進(jìn)為Ghost-ResNet；2)在Ghost-ResNet中添加融合寬高信息的通道注意力機(jī)制，如圖2中WH-ECA部分所示；3)改進(jìn)了原始算法中的DCN模塊，使用更加適用于輕量化網(wǎng)絡(luò)的上采樣方法。

1.2.1 Ghost卷積在殘差網(wǎng)絡(luò)中的應(yīng)用

由于計算性能和存儲空間的限制以及對檢測速度的要求，目標(biāo)檢測網(wǎng)絡(luò)在保證高精度的基礎(chǔ)上需盡量做到輕量化。本文以單階段檢測算法R-centernet為基礎(chǔ)，以ResNet50為主干網(wǎng)絡(luò)，采用Ghost卷積(Ghost Convolution)代替網(wǎng)絡(luò)中的傳統(tǒng)卷積方法，在達(dá)到近似效果的同時，減少了網(wǎng)絡(luò)的參數(shù)量。

傳統(tǒng)卷積過程與Ghost卷積過程如圖3所示。圖3中：、、分別為輸入特征圖尺寸的通道數(shù)、商和寬，′、′、′分別為輸出特征圖尺寸的通道數(shù)、高和寬，采用的卷積核尺寸為×。Ghost卷積主要分為三個部分：1)輸入特征圖經(jīng)過傳統(tǒng)卷積生成本征特征圖，該特征圖的通道數(shù)小于輸出特征圖的通道數(shù)；2)將得到的本征特征圖進(jìn)行Depthwise卷積運算得到Ghost特征圖，其中Depthwise卷積在每個通道上運行，卷積核的數(shù)量與上一層的通道數(shù)相同，計算量遠(yuǎn)小于傳統(tǒng)卷積；3)將本征特征圖與Ghost特征圖拼接得到最終輸出結(jié)果。

圖3 傳統(tǒng)卷積結(jié)構(gòu)和ghost卷積結(jié)構(gòu)Fig.3 Structures of traditional convolution and ghost convolution

Ghost卷積并未完全舍棄傳統(tǒng)卷積部分，而是先采用傳統(tǒng)卷積生成少量通道數(shù)的特征圖，再生成Ghost特征圖。該方法在降低計算量的同時，保證了對特征的識別性能，是一種高效且有效的卷積方式。

當(dāng)輸入特征圖的尺寸為××，采用的卷積核尺寸為×，輸出特征圖尺寸為′×′×′時，傳統(tǒng)卷積與Ghost卷積過程中所需的參數(shù)量分別為(2)式和(3)式所示。

=×′××

(2)

=×××+×××

(3)

式中：為本征特征圖的通道數(shù)；為線性運算的內(nèi)核個數(shù)，×為線性內(nèi)核的尺寸大小，且×?×。

因此傳統(tǒng)卷積與Ghost卷積的參數(shù)量之比為

(4)

通過理論分析發(fā)現(xiàn)，傳統(tǒng)卷積與Ghost卷積得到的參數(shù)量之比為′，且隨著本征特征圖通道數(shù)的減少，Ghost卷積的參數(shù)量相較于傳統(tǒng)卷積更少。當(dāng)跳過傳統(tǒng)卷積的步驟，直接采用線性運算生成Ghost特征圖時，參數(shù)量達(dá)到最小。

本文以ResNet50為主干網(wǎng)絡(luò)，使用Ghost卷積替換傳統(tǒng)卷積，構(gòu)成了Ghost-ResNet網(wǎng)絡(luò)結(jié)構(gòu)。ResNet50和Ghost-ResNet的組成結(jié)構(gòu)如圖4所示。

圖4 ResNet50和Ghost-ResNet的組成模塊Fig.4 Modules of ResNet50 and Ghost-ResNet

從圖4中可以看出，兩個模塊的結(jié)構(gòu)相似，Ghost-ResNet將Ghost卷積與深度卷積(DW Conv)有效結(jié)合，在兩個Ghost卷積之間添加深度卷積，將特征圖的尺寸大小降為輸入特征的1/2，并以此達(dá)到ResNet50組成結(jié)構(gòu)中降采樣的效果。

1.2.2 注意力機(jī)制

由于二面角反射效應(yīng)存在，SAR圖像中建筑物的呈現(xiàn)形式主要為L型或直線型亮線，與周圍背景有著明顯的區(qū)別。因此，本文在R-centernet中添加注意力機(jī)制，增強(qiáng)網(wǎng)絡(luò)對圖像中顯著特征較強(qiáng)的建筑物區(qū)域的特征提取能力。

最具代表性的通道注意力模塊仍然是擠壓和激勵網(wǎng)絡(luò)(SENet)，高效通道注意力機(jī)制(ECANet)作為SENet的改進(jìn)算法，在保持網(wǎng)絡(luò)顯著特征提取能力的同時，有效降低計算量，使之更加適合輕量化網(wǎng)絡(luò)。SENet及ECANet的模型結(jié)構(gòu)如圖5所示。圖5中，為Sigmoid映射，為降維比例。

圖5 SENet和ECANet的結(jié)構(gòu)圖Fig.5 Structures of SENet and ECANet

SENet首先對輸入圖像進(jìn)行通道上的全局平均池化(GAP)，然后使用降維結(jié)構(gòu)的全連接層以及非線性Sigmoid函數(shù)生成通道權(quán)重。ECANet區(qū)別于SENet，采用不降維的近鄰操作代替全連接層來捕獲不同通道之間的關(guān)系，重新生成通道權(quán)重。然而，兩者均僅考慮了通道之間的關(guān)系，重視生成通道權(quán)重而忽視了顯著目標(biāo)位置信息的重要性。

本文在ECANet的基礎(chǔ)上進(jìn)行改進(jìn)，借鑒Coordinate Attention(CA)的思想，提出一種融合寬高信息的通道注意力機(jī)制(WH-ECA)，其模型結(jié)構(gòu)如圖6所示。

圖6 WH-ECA模型結(jié)構(gòu)Fig.6 Model structure of WH-ECA

如圖6所示，對于尺寸為××的輸入圖像，(,)為輸入像素值，首先使用尺寸為(,1)和(1,)的池化核分別沿著圖像的寬、高方向?qū)γ總€通道進(jìn)行平均池化操作，此時輸出結(jié)果、分別為(5)式和(6)式所示：

(5)

(6)

當(dāng)輸入為××?xí)r，全局池化操作的計算量為

=××

(7)

而沿著寬高方向分別進(jìn)行池化操作的計算量為

=××1+×1×

(8)

由(7)式、(8)式可知，兩種方法的計算量之比為(×)(+)，因此本文采用的分方向池化的方法不僅可以實現(xiàn)從寬高分別對通道編碼，從而確定顯著區(qū)域的位置信息，而且占用了更少的參數(shù)量。

將上述產(chǎn)生的兩個特征圖進(jìn)行張量拼接，而后使用ECANet中的近鄰操作捕獲通道關(guān)系，對各通道重新編碼，公式如下：

=[,]

(9)

式中：表示該部分的輸出結(jié)果；表示近鄰操作。

然后沿著空間維度將上述結(jié)果分解為單獨張量和，通過Sigmoid函數(shù)分別生成每個通道在寬高方向上的權(quán)重，如(10)式、(11)式所示：

=()

(10)

=()

(11)

此時WH-ECA的最終輸出結(jié)果如(12)式所示：

(,)=(,)×()×()

(12)

式中：(,)為輸出的像素值；(,)為輸入的像素值；和分別為每個通道在寬高方向上的權(quán)重。

本文提取了圖像經(jīng)過兩層網(wǎng)絡(luò)得出的特征圖進(jìn)行對比分析，如圖7所示。其中圖7(a)為輸入的原始SAR圖像數(shù)據(jù)，經(jīng)過原始R-centernet網(wǎng)絡(luò)提取后的L2層熱力圖輸出結(jié)果如圖7(b)所示，在原始網(wǎng)絡(luò)中添加ECANet注意力模塊后得到的熱力特征如圖7(c)所示，圖7(d)為融合WH-ECA注意力模塊后的輸出熱力圖。

圖7 特征提取后的熱力圖Fig.7 Heat map after feature extraction

熱力圖中紅色表示顯著性較高的區(qū)域，經(jīng)過對比分析發(fā)現(xiàn)，L2層熱力圖中目標(biāo)與周圍背景的差異不大，融合ECANet得到的熱力圖雖然呈現(xiàn)出目標(biāo)的顯著性特點，但是存在目標(biāo)邊界模糊，不利于精確定位目標(biāo)位置等問題。而融合了WH-ECA注意力模塊得到的熱力圖中背景信息得到抑制，突出了目標(biāo)特征，而且圖中目標(biāo)的邊界清晰，有利于定位中心點坐標(biāo)和回歸準(zhǔn)確的寬高信息。

本文提出的WH-ECA將原始ECANet中的全局池化改進(jìn)為分別在寬高方向上進(jìn)行平均池化，主要具有以下3點優(yōu)勢：1)能夠有效分析各通道之間的關(guān)系，本質(zhì)上起到通道注意的作用；2)利用特征圖的寬高信息準(zhǔn)確定位顯著區(qū)域；3)WH-ECA簡單高效，保持較少的參數(shù)量，適用于輕量級網(wǎng)絡(luò)。

1.2.3 上采樣改進(jìn)

R-centernet通過ResNet50對圖像進(jìn)行特征提取之后，將特征圖像輸入反卷積(DCN)模塊實現(xiàn)上采樣。反卷積是卷積的逆過程，其對網(wǎng)絡(luò)中的參數(shù)進(jìn)行學(xué)習(xí)后，在特征圖中插入像素值達(dá)到上采樣的目的。反卷積具有以下缺陷：1)對于特征圖每個位置采用相同的上采樣核，不能捕捉到特征圖信息；2)引入大量參數(shù)、計算量增大。

為了有效解決上述問題，本文采用CARAFE (Contenet-Aware Reassembly of Features)上采樣代替反卷積，其結(jié)構(gòu)如圖8所示。CARAFE上采樣過程主要分為兩個部分——核預(yù)測和特征重組。

圖8 CARAFE上采樣結(jié)構(gòu)Fig.8 Up-sampling structure of CARAFE

CARAFE上采樣的算法流程如下：

對尺寸為××的輸入特征圖進(jìn)行通道壓縮處理，得到尺寸為××的結(jié)果，該步驟降低了后續(xù)的計算量，為通道壓縮后的通道數(shù)。

利用Softmax函數(shù)進(jìn)行歸一化處理，使得上采樣核的權(quán)重之和為1。

將輸入特征圖與預(yù)測的上采樣核進(jìn)行卷積運算得到最終的上采樣結(jié)果。

CARAFE上采樣過程的參數(shù)量如(13)式所示：

(13)

2 實驗結(jié)果與分析

2.1 實驗平臺與參數(shù)設(shè)置

本文使用的硬件平臺包括計算機(jī)中央處理器(CPU)：intel?CoreTMi7-6850KCPU@3.60 GHz×12和圖形處理器(GPU)：NVIDIA TITAN Xp GPU(12 GB顯存)；深度學(xué)習(xí)框架為Pytorch；編程語言為C語言和python語言；操作系統(tǒng)為Ubuntu 16.04 LTS。

預(yù)設(shè)訓(xùn)練參數(shù)：動量為0.9，初始學(xué)習(xí)率為0.001，權(quán)重衰減系數(shù)為0.000 5，批訓(xùn)練數(shù)設(shè)置為1，為避免訓(xùn)練過程中出現(xiàn)過擬合，設(shè)置迭代次數(shù)為150。本文各檢測算法的IoU閾值設(shè)置為0.5，置信度閾值為0.45，NMS閾值設(shè)定為0.3。

2.2 數(shù)據(jù)集

本文以SBD(SAR Building Dataset)數(shù)據(jù)集為基礎(chǔ)，采用旋轉(zhuǎn)矩形框進(jìn)行重新標(biāo)注。經(jīng)過篩選后，數(shù)據(jù)集中包含了416×416像素和512×512像素兩種尺寸的圖像共1 087張，其中建筑物數(shù)量為12 001個；數(shù)據(jù)來源主要包括TerraSAR、高分三號衛(wèi)星、美國桑迪亞國家實驗室等機(jī)載、星載平臺的合成孔徑雷達(dá)獲取的圖像；信號波段包括X波段、C波段和Ku波段；圖像分辨率為0.5～5 m；極化方式包含HH、HV、VH、VV。將數(shù)據(jù)集按照8∶2的比例隨機(jī)分配成訓(xùn)練集與測試集。

2.3 模型訓(xùn)練

本文以R-centernet為基礎(chǔ)算法，使用Ghost卷積、WH-ECA注意力模塊和CARAFE上采樣進(jìn)行改進(jìn)，并分別進(jìn)行訓(xùn)練與測試。本文記錄了各算法在訓(xùn)練過程中的損失函數(shù)值(平均損失)，并繪制了如圖9所示的損失函數(shù)變化曲線。由圖9可知，原始算法與三種改進(jìn)算法隨著迭代次數(shù)的增加，損失函數(shù)值均能收斂。其中同時融合了Ghost卷積、WH-ECA注意力模塊和CARAFE上采樣的算法下降最快且收斂后的損失值最小。

圖9 損失函數(shù)曲線變化圖Fig.9 Loss function curve

2.4 測試結(jié)果分析

為了量化各改進(jìn)算法在SAR圖像建筑物目標(biāo)上的檢測性能，本文在測試時使用準(zhǔn)確率Precision、召回率Recall和F1分?jǐn)?shù)進(jìn)行定量分析，定義如下：

(14)

(15)

(16)

式中：為準(zhǔn)確率；為召回率；表示F1分?jǐn)?shù)，F(xiàn)1分?jǐn)?shù)越高，證明準(zhǔn)確率與召回率之間越平衡，檢測效果越好；為真值框為正例且預(yù)測框為正例的目標(biāo)數(shù)量；為真值框為反例且預(yù)測框為正例的目標(biāo)數(shù)量；為真值框為反例且預(yù)測框為反例的目標(biāo)數(shù)量。同時引入?yún)?shù)量、浮點數(shù)和檢測速度來衡量網(wǎng)絡(luò)模型大小。

各檢測算法的實驗結(jié)果對比如表1所示，從表中可以看出將主干網(wǎng)絡(luò)替換成Ghost-ResNet時，參數(shù)量和浮點數(shù)降低，然而F1分?jǐn)?shù)也隨之下降，證明Ghost卷積雖然減小了網(wǎng)絡(luò)負(fù)擔(dān)，但是影響了算法對SAR建筑物的檢測能力；WH-ECA作為輕量化的注意力模塊，給F1分?jǐn)?shù)帶來了3.5%的提升，且?guī)淼膮?shù)量和浮點數(shù)增加幅度很小；使用CARAFE上采樣代替DCN模塊，降低了參數(shù)量的同時，也提高了1.4%的F1分?jǐn)?shù)。

表1 實驗結(jié)果對比

如表1第四行所示，本文使用單階旋轉(zhuǎn)檢測器R3Det對SAR圖像建筑物數(shù)據(jù)集進(jìn)行檢測，以輕量化的MobileNetV2-FPN為主干網(wǎng)絡(luò)，測試結(jié)果準(zhǔn)確率為83.2%，召回率為79.9%，F(xiàn)1分?jǐn)?shù)達(dá)到81.5，檢測速度為28.5幀/s。由于R3Det在預(yù)測過程中添加了邊界優(yōu)化模塊，因此檢測器的網(wǎng)絡(luò)參數(shù)量和浮點數(shù)雖然較少，但是檢測速度反而更慢。

綜上所述，本文所提出的輕量化的SAR建筑物檢測算法達(dá)到了89.6%的準(zhǔn)確率和81.8%的召回率，同時檢測速度達(dá)到44.2幀/s。相比于原始的R-centernet和R3Det算法，準(zhǔn)確率、召回率和檢測速度均有明顯提升。

表2為測試集中部分圖像的檢測結(jié)果，為體現(xiàn)算法對不同場景下建筑物目標(biāo)的檢測性能，本文選取了以下四種排列方式的建筑物展開對比實驗：獨立建筑物、復(fù)雜場景下建筑物、特殊形狀建筑物和密集排列建筑物。

從表2中的檢測結(jié)果可以看出，原始算法雖能檢測出目標(biāo)，但是對目標(biāo)邊界的定位比較模糊，造成矩形框角度偏差大、未能完全包圍目標(biāo)等情況，而本文算法添加了融合寬高信息的通道注意力模塊，分別在圖像的寬高方向上進(jìn)行平均池化，能夠準(zhǔn)確捕捉目標(biāo)的位置信息和邊界信息，在預(yù)測時可以準(zhǔn)確回歸目標(biāo)的中心點坐標(biāo)、寬高值和旋轉(zhuǎn)角度，因此檢測結(jié)果中矩形框準(zhǔn)確包圍目標(biāo)；原始算法在檢測密集排列建筑物圖像時出現(xiàn)了漏檢與誤檢，原因是原始算法中的DCN模塊在上采樣過程中對每個位置使用相同的核，未考慮特征圖內(nèi)的信息，而本文的改進(jìn)算法使用CARAFE上采樣代替DCN模塊，結(jié)合對不同位置生成不同的上采樣核，充分捕捉到了特征圖信息，在分辨率提高的過程中不會造成信息的遺漏，很好地降低了誤檢和漏檢。在對特殊形狀建筑物進(jìn)行檢測時發(fā)現(xiàn)，本文所提算法能夠檢測出非規(guī)則形狀的SAR圖像建筑物，并且旋轉(zhuǎn)角度對比原始算法更加準(zhǔn)確。

表2 SAR圖像建筑物測試結(jié)果對比

3 結(jié)論

本文針對目前卷積神經(jīng)網(wǎng)絡(luò)參數(shù)量大、占用計算資源多等問題提出了一種輕量化的R-centernet算法，并應(yīng)用于SAR圖像建筑物檢測領(lǐng)域中。得到以下主要結(jié)論：

1)在主干網(wǎng)絡(luò)中使用Ghost卷積替換傳統(tǒng)卷積組成新的網(wǎng)絡(luò)Ghost-ResNet，極大降低了模型的參數(shù)量，提高了檢測效率，但是犧牲了檢測精度。

2)本文所提出的融合寬高信息的通道注意力模塊能夠較好地捕捉顯著區(qū)域在圖像中的空間信息，有利于準(zhǔn)確定位目標(biāo)位置，提高了檢測精度，同時只增加了少量的網(wǎng)絡(luò)參數(shù)。

3)使用CARAFE上采樣代替DCN模塊，在上采樣過程中對不同位置生成不同的上采樣核，充分融合特征圖信息，增強(qiáng)了網(wǎng)絡(luò)的特征提取能力。CARAFE上采樣相比于DCN模塊引入了更加少量的參數(shù)，對網(wǎng)絡(luò)負(fù)擔(dān)更小。

4)在旋轉(zhuǎn)標(biāo)注的SAR圖像建筑物數(shù)據(jù)集中的檢測結(jié)果表明，相比于原始算法，本文所提的改進(jìn)算法在檢測精度與檢測速度上均有提升，證明了輕量化網(wǎng)絡(luò)在SAR圖像建筑物檢測應(yīng)用方向的可行性。

[1] HU L, ZHANG J, GAO F. A building extraction method using shadow in high resolution multispectral images[C]∥Proceedings of International Geoscience and Remote Sensing Symposium. Vancouver, BC, Canada: IEEE, 2011: 24-29.

[2] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, US：IEEE, 2014: 580-587.

[3] GIRSHICK R. Fast R-CNN[C]∥Proceedings of IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1440-1448.

[4] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]∥Proceedings of the 2015 neural information processing systems(NIPS). New York，NY，US: Curran Associates Inc., 2015: 91-99.

[5] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, US：IEEE, 2016: 779-788.

[6] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]∥Proceedingts of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, US: IEEE, 2017: 6517-6525.

[7] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL].[2021-04-05].http:∥arxiv.org/abs/1804.02767.

[8] BOCHKOVSKIY A, WANG C Y, LIAO H. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2021-04-05].http:∥arxiv.org/abs/2004.10934.

[9] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]∥Proceedings of European Conference on Computer Vision. Berlin，Germany: Springer, 2016: 21-37.

[10] ZHOU X Y, WANG D Q, KRHENB?HL P. Objects as points[EB/OL].[2019-04-26].http:∥arxiv.org/abs/1904.07850.

[11] SHAHZAD M, MAURER M, FRAUNDORFER F, et al. Buildings detection in VHR SAR images using fully convolution neural networks [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(2): 1100-1116.

[12] ZHU X X, BAMLER R. Very high resolution space borne SAR tomography in urban environment [J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 48(12): 4296-4308.

[13] LI J, ZHANG R, LI Y. Multiscale convolutional neural network for the detection of built-up areas in high-resolution SAR images[C]∥Proceedings of 2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Piscataway，NJ，US: IEEE, 2016: 910-913.

[14] WU Y, ZHANG R, LI Y. The detection of built-up areas in high-resolution SAR images based on deep neural networks[C]∥Proceedings of International Conference on Image and Graphics. Berlin，Germany：Springer, 2017: 646-655.

[15] AN Q, PAN Z, LIU L, et al. DRBox-v2: an improved detector with rotatable boxes for target detection in SAR images [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(99): 8333-8349.

[16] YANG X, YANG J, YAN J, et al. SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects[C]∥Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway，NJ，US: IEEE, 2019: 8231-8240.

[17] YANG X, LIU Q, YAN J, et al. R3Det: refined single-stage detector with feature refinement for rotating object[EB/OL].[2021-04-05].http:∥arxiv.org/abs/1908.05612.

[18] ZHOU X Y, YAO C, WEN H, et al. EAST: an efficient and accurate scene text detector[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI，US:IEEE, 2017: 2642-2651.

[19] LIU X B, LIANG D, YAN S, et al. FOTS: fast oriented text spotting with a unified network[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT，US：IEEE, 2018: 5676-5685.

[20] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL].[2017-05-27].http:∥arxiv.org/abs/1704.04861.

[21] SANDLER M, HOWARD A G, ZHU M L, et al. Inverted residuals and linear bottlenecks: mobile networks for classification, detection and segmentation[EB/OL]. [2018-01-12].http:∥arxiv.org/abs/1801.04381.

[22] HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3[C]∥Proceedings of IEEE International Conference on Computer Vision. Seoul, South Korea：IEEE, 2019: 1314-1324.

[23] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Seattle, WA，US：IEEE, 2020: 1577-1586.

[24] ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT，US：IEEE, 2018: 6848-6856.

[25] LI X, SU J, YANG L. Building detection in SAR images based on bi-dimensional empirical mode decomposition algorithm [J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17(4): 641-645.

[26] HU J, SHEN L, ALBANIE S, et al. Squeeze-and- excitation networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.

[27] WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]∥Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA，US：IEEE, 2020: 11531-11539.

[28] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[EB/OL].[2021-03-15]. https:∥dblp.org/rec/journals/corr/abs-2103-02907.

[29] WANG J Q, CHEN K, XU R, et al. CARAFE: content-aware reassembly of features[C]∥Proceedings of IEEE International Conference on Computer Vision. Seoul, South Korea：IEEE, 2019: 3007-3016.

[30] 李響, 蘇娟, 楊龍. 基于改進(jìn)YOLOV3的合成孔徑雷達(dá)圖像中建筑物檢測算法[J]. 兵工學(xué)報, 2020, 41(7): 1347-1359.

LI X, SU J, YANG L. A SAR image building detection algorithm based on improved YOLOV3 [J]. Acta Armamentarii, 2020, 41(7): 1347-1359. (in Chinese)