基于倒置殘差注意力的無(wú)人機(jī)航拍圖像小目標(biāo)檢測(cè)

2023-03-31 07:42:22劉樹東劉業(yè)輝孫葉美李懿霏王嬌

北京航空航天大學(xué)學(xué)報(bào) 2023年3期

劉樹東，劉業(yè)輝，孫葉美，李懿霏，王嬌

(天津城建大學(xué) 計(jì)算機(jī)與信息工程學(xué)院，天津 300384)

近年來(lái)，深度學(xué)習(xí)技術(shù)表現(xiàn)出優(yōu)異的性能，基于深度學(xué)習(xí)的無(wú)人機(jī)航拍圖像檢測(cè)已被廣泛應(yīng)用于各行各業(yè)[1]，如城市規(guī)劃、環(huán)境監(jiān)測(cè)和災(zāi)害檢測(cè)等。由于無(wú)人機(jī)飛行高度變化較快、拍攝角度和位置具有特殊性，航拍圖像具有背景復(fù)雜、小目標(biāo)較多的特點(diǎn)，影響算法的檢測(cè)精度，采用深度學(xué)習(xí)的方法提升目標(biāo)檢測(cè)精度仍需進(jìn)一步研究。

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為兩階段檢測(cè)算法和單階段檢測(cè)算法2 類。其中，兩階段檢測(cè)算法先生成候選區(qū)域，再對(duì)候選區(qū)域進(jìn)行分類和定位，如R-CNN 系列[2-4]算法、Mask R-CNN[5]算法和Cascade R-CNN 算法[6]等，但這些算法在檢測(cè)過(guò)程中存在候選區(qū)域，通常會(huì)產(chǎn)生較大的計(jì)算開銷和計(jì)算成本。單階段檢測(cè)算法通過(guò)初始錨點(diǎn)框?qū)δ繕?biāo)預(yù)測(cè)類別并定位，可以在不進(jìn)行候選區(qū)域的情況下完成端到端的目標(biāo)檢測(cè)，使得網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單且快速運(yùn)行，具有良好的實(shí)用性能，如YOLO 系列[7-10]算法、SSD[11]算法RetinaNet[12]算法等。與兩階段檢測(cè)算法相比，單階段檢測(cè)算法具有較高的實(shí)時(shí)性，更能滿足無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)的需求。目前，基于單階段檢測(cè)算法的無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)越來(lái)越受到人們的關(guān)注。Liu 等[13]基于YOLOv3檢測(cè)框架提出UAV-YOLO，通過(guò)增加淺層卷積改善整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)，豐富空間信息，但對(duì)于小目標(biāo)存在漏檢和誤檢問(wèn)題。Liang 等[14]提出一種基于特征融合和尺度縮放的單階段檢測(cè)模型FS-SSD，利用反卷積模塊和特征融合模塊進(jìn)行預(yù)測(cè)，并通過(guò)上下文分析進(jìn)一步提高檢測(cè)精度。Zhang 等[15]提出一種實(shí)時(shí)檢測(cè)模型SlimYOLOv3，通過(guò)對(duì)YOLOv3 進(jìn)行稀疏訓(xùn)練及通道剪枝的方式來(lái)減少模型的計(jì)算量和參數(shù)，以達(dá)到實(shí)時(shí)檢測(cè)的效果，但對(duì)小目標(biāo)的檢測(cè)精度不高。裴偉等[16]提出一種改進(jìn)的SSD 無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)算法，通過(guò)提出的特征融合機(jī)制將網(wǎng)絡(luò)的淺層視覺特征與深層語(yǔ)義特征進(jìn)行有效結(jié)合，改善了SSD 算法存在的重復(fù)檢測(cè)問(wèn)題，但由于網(wǎng)絡(luò)深度增大了計(jì)算量。劉婷婷等[17]在YOLOv3模型的基礎(chǔ)上，通過(guò)輕量化主干網(wǎng)絡(luò)和融合場(chǎng)景上下文信息提升檢測(cè)精度，但對(duì)于小目標(biāo)存在漏檢情況。雖然目前算法在評(píng)價(jià)指標(biāo)上取得了一定的提高，但仍存在小目標(biāo)檢測(cè)精度較低的問(wèn)題。

目前，輕量化網(wǎng)絡(luò)結(jié)構(gòu)在幾乎不影響性能的同時(shí)使得參數(shù)量明顯下降，其主要采用深度可分離卷積（depthwise separable convolution, DS-Conv）和倒置殘差結(jié)構(gòu)實(shí)現(xiàn)。倒置殘差結(jié)構(gòu)[18-19]將殘差塊的“降維-提取-升維”轉(zhuǎn)換為“升維-提取-降維”模式，能實(shí)現(xiàn)將特征圖的通道進(jìn)行擴(kuò)張，豐富特征數(shù)量，進(jìn)一步提升檢測(cè)精度，減少深度卷積提取特征較少的問(wèn)題。倒置殘差注意力（inverted residuals attention，IRA）模塊添加了基于通道注意力的壓縮激勵(lì)模塊，提高了通道之間的相關(guān)性，提升了模型檢測(cè)精度，在表面缺陷檢測(cè)和隧道滲漏水檢測(cè)方面均取得了良好的效果。劉艷菊等[20]提出一種具有實(shí)時(shí)性的鋼條表面缺陷檢測(cè)算法，利用倒置殘差注意力優(yōu)化YOLOv4 的特征提取網(wǎng)絡(luò)，并采用K-Means 聚類加快收斂速度，有效提升了檢測(cè)精度。周中等[21]提出一種基于語(yǔ)義分割的隧道滲漏水圖像識(shí)別算法，利用倒置殘差注意力對(duì)DeepLabv3+語(yǔ)義分割算法進(jìn)行優(yōu)化，在降低參數(shù)量的同時(shí)提升圖像目標(biāo)識(shí)別精度。在此基礎(chǔ)上，本文在倒置殘差注意力模塊中添加有效通道注意力（efficient channel attention，ECANet）[22]模塊，通過(guò)不降維的逐通道全局平均池化來(lái)減少信息丟失，并建立通道之間的依賴關(guān)系，更多地關(guān)注小目標(biāo)特征。倒置殘差（inverted residuals，IR）模塊采用3×3 卷積替換深度可分離卷積，避免在獲取豐富淺層特征的同時(shí)減少內(nèi)存訪問(wèn)開銷，并提升模型訓(xùn)練速度。

針對(duì)上述問(wèn)題，本文提出了一種基于倒置殘差注意力的無(wú)人機(jī)航拍圖像小目標(biāo)檢測(cè)算法模型，改進(jìn)YOLOv5x 特征提取階段的CSPDarknet53（C3）模塊以提升特征提取能力，設(shè)計(jì)多尺度特征融合（multi-scale feature fusion，MFF）模塊以加強(qiáng)特征融合，設(shè)計(jì)馬賽克混合（mosaic-mixup，MM）數(shù)據(jù)增強(qiáng)方法以實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)，提升無(wú)人機(jī)航拍圖像的檢測(cè)精度。

1）設(shè)計(jì)倒置殘差注意力C3（IRAC3）模塊，利用倒置殘差中“升維-提取-降維”的模式，進(jìn)一步在倒置殘差注意力模塊中采用ECA-Net 模塊，通過(guò)跨通道交互策略實(shí)現(xiàn)通道間的信息交流，減少信息丟失問(wèn)題，并建立通道之間的依賴關(guān)系，突出感興趣區(qū)域特征的表達(dá)能力，獲取豐富的小目標(biāo)的細(xì)節(jié)信息，并通過(guò)深度可分離卷積[23]的通道和特征區(qū)域分離降低模型參數(shù)量。設(shè)計(jì)倒置殘差C3（IRC3）模塊，倒置殘差模塊在倒置殘差注意力模塊的基礎(chǔ)上采用3×3 卷積替換深度可分離卷積，在激活函數(shù)之前增加通道數(shù)，將低維特征映射到高維空間，提升淺層特征的提取能力，減少非線性激活函數(shù)造成的空間信息損失，獲取豐富的小目標(biāo)位置信息，在獲取豐富淺層特征的同時(shí)減少內(nèi)存訪問(wèn)開銷，并提升模型訓(xùn)練速度。

2）設(shè)計(jì)多尺度特征融合模塊，將提取的深層語(yǔ)義信息經(jīng)過(guò)上采樣放大后與淺層空間信息融合，生成用于極小目標(biāo)的檢測(cè)頭，增強(qiáng)特征圖中小尺寸目標(biāo)的學(xué)習(xí)能力和對(duì)感興趣區(qū)域的定位能力。通過(guò)結(jié)合3 個(gè)不同感受野的檢測(cè)頭，提升模型在多尺度目標(biāo)下的識(shí)別能力，進(jìn)一步減少小目標(biāo)的漏檢情況。

3）設(shè)計(jì)馬賽克混合數(shù)據(jù)增強(qiáng)方法，利用4 張訓(xùn)練圖像進(jìn)行裁剪拼接，形成1 張新的訓(xùn)練圖像，并將同一批次內(nèi)不同的新的訓(xùn)練圖像逐像素線性混合相加，建立數(shù)據(jù)樣本之間的線性關(guān)系，增加數(shù)據(jù)集中圖像的背景復(fù)雜度，提升數(shù)據(jù)集的泛化性，使模型可以在復(fù)雜背景的干擾下更專注于對(duì)目標(biāo)物體的提取，提升了模型的魯棒性。與YOLOv5x 算法相比，本文算法更好地適用于無(wú)人機(jī)航拍圖像中小目標(biāo)的檢測(cè)。

1 本文算法

本文提出的基于倒置殘差注意力的無(wú)人機(jī)航拍圖像小目標(biāo)檢測(cè)算法包括特征提取模塊與多尺度特征融合模塊，整體模型結(jié)構(gòu)如圖1 所示。圖中：SPP 為空間金字塔池化。首先，通過(guò)特征提取模塊從輸入圖像中提取低級(jí)空間信息和高級(jí)語(yǔ)義特征；然后，利用多尺度特征融合模塊將提取的多層次特征進(jìn)行融合，獲得不同尺度的檢測(cè)頭，生成密集的邊界框，并預(yù)測(cè)類別分?jǐn)?shù)；最后，采用非極大值抑制算法消除冗余的預(yù)測(cè)候選框，得到最終結(jié)果。

圖1 基于倒置殘差注意力的無(wú)人機(jī)航拍圖像小目標(biāo)檢測(cè)模型結(jié)構(gòu)Fig.1 Structure of small object detection in UAV aerial image based on inverted residual attention

1.1 特征提取模塊

為進(jìn)一步提高模型的特征提取能力，對(duì)YOLOv5x特征提取階段的 C3 模塊進(jìn)行改進(jìn)。將倒置殘差模塊嵌入到第3 層和第5 層的C3 模塊中，稱為IRC3 模塊；將倒置殘差注意力模塊嵌入到第7 層和第10 層的C3 模塊中，稱為IRAC3 模塊。通過(guò)引入本文設(shè)計(jì)的IRC3 模塊和IRAC3 模塊，提取不同尺度的特征，提高模型對(duì)特征的可分辨性，使得特征提取模塊能夠更有指向性地提取小目標(biāo)的特征。

1.1.1 IRC3 模塊

IRC3 模塊利用倒置殘差模塊將殘差塊中“降維-提取-升維”轉(zhuǎn)換為“升維-提取-降維”的模式，以獲取豐富淺層空間中小目標(biāo)的位置信息，模塊結(jié)構(gòu)如圖2 所示。

倒置殘差模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 中虛線框部分所示。首先，利用擴(kuò)張因子 a（a=2）對(duì)輸入特征圖實(shí)現(xiàn) C×a的通道數(shù)擴(kuò)張，獲取豐富的淺層特征；然后，利用線性變換實(shí)現(xiàn)高維到低維通道的映射，有效防止通道壓縮時(shí)因非線性激活函數(shù)引起的特征信息丟失問(wèn)題；最后，通過(guò)殘差操作將恒等映射與輸入特征相結(jié)合。

圖2 IRC3 模塊Fig.2 IRC3 module

對(duì)于輸入的無(wú)人機(jī)航拍圖像，首先通過(guò)卷積提取特征，獲得的特征圖 fc1可表示為

1.1.2 IRAC3 模塊

IRAC3 模塊中，設(shè)計(jì)倒置殘差注意力模塊(見圖3)，引入深度可分離卷積和ECA-Net 模塊。首先，利用 k×k的卷積核對(duì)擴(kuò)展后的特征圖在二維平面內(nèi)進(jìn)行逐通道深度卷積（depthwise convolution, DConv）操作（見圖4（a）），減少模型參數(shù)量。然后，通過(guò)ECA-Net 模塊建立通道和權(quán)重的關(guān)系，突出小目標(biāo)特征的顯著性，通過(guò)跨信道交互的方式，在顯著降低模塊復(fù)雜度的同時(shí)增強(qiáng)特征的表達(dá)能力，提取更豐富的小目標(biāo)區(qū)域語(yǔ)義特征，提升模型細(xì)節(jié)信息的提取能力。進(jìn)一步，利用1×1 的卷積對(duì)特征圖進(jìn)行逐點(diǎn)卷積（pointwise convolution, P-Conv）操作（見圖4（b）），將高維空間信息映射到低維空間，減少特征丟失。最后，進(jìn)行隨機(jī)深度（stochastic depth，SD）[24]計(jì)算，減少前向傳播過(guò)程和梯度計(jì)算，緩解梯度消失現(xiàn)象，提高整體網(wǎng)絡(luò)的泛化性。

圖4 深度可分離卷積模塊Fig.4 Depthwise separable convolution module

倒置殘差注意力模塊的特征提取過(guò)程具體可分為如下4 步完成：

2）ECA-Net 模塊如圖5 所示，其提升了通道特征利用率，并突出了小目標(biāo)的顯著性。將特征圖 fm2輸入到ECA-Net 模塊中，首先，該特征圖在不降低維度的情況下進(jìn)行逐通道全局平均池化（global average pooling, GAP），進(jìn)而利用共享權(quán)重的快速一維卷積進(jìn)行特征學(xué)習(xí)，在特征學(xué)習(xí)過(guò)程中通過(guò)當(dāng)前通道及 k個(gè)鄰域通道來(lái)捕獲局部跨通道信息交互，其中，k為一維卷積核大小，同時(shí)也表示局部跨通道交互覆蓋率；然后，通過(guò)sigmoid 激活函數(shù)獲得相應(yīng)通道的權(quán)重；最后，將其與輸入特征相乘作為下一層的輸入：

圖5 ECA-Net 模塊Fig.5 ECA-Net module

這種捕捉跨通道信息交互的方式選擇性地增強(qiáng)特征，提高了模型對(duì)航拍圖像細(xì)節(jié)信息的提取能力，進(jìn)而提高模型的檢測(cè)精度。

3）利用逐點(diǎn)卷積對(duì)特征圖 fm3應(yīng)用單個(gè)卷積核，來(lái)共同創(chuàng)建一個(gè)深度輸出的線性組合，得特征圖

式中：C 為輸入通道數(shù)；M為輸出通道數(shù)；PDS-Conv為深度可分離卷積的參數(shù)量；PConv為標(biāo)準(zhǔn)卷積的參數(shù)量；NP為倍數(shù)。

式中：R eLU 代表激活函數(shù)。當(dāng) bl=1時(shí)，將這2 部分求和后經(jīng)過(guò)激活函數(shù)輸出，當(dāng) bl=0時(shí)，殘差部分沒有被激活，整個(gè)結(jié)構(gòu)為一個(gè)恒等映射：

1.2 多尺度特征融合模塊

無(wú)人機(jī)航拍圖像中小尺寸目標(biāo)居多且目標(biāo)之間比較密集，如圖6 所示。按照相對(duì)尺寸大小，繪制了數(shù)據(jù)集中的目標(biāo)分布圖，如圖7 所示。可以看出，目標(biāo)分布圖中的目標(biāo)尺寸與圖像尺寸相比小于0.12%的小目標(biāo)數(shù)量占總目標(biāo)數(shù)量的72%。淺層特征圖分辨率較大包含空間特征細(xì)節(jié)更豐富，但感受野小所反映出的語(yǔ)義表征能力較弱。隨著網(wǎng)絡(luò)層數(shù)的加深，深層卷積在提取小目標(biāo)特征信息時(shí)容易丟失關(guān)鍵位置信息，但感受野較大能獲得高級(jí)語(yǔ)義信息。因此，為進(jìn)一步加強(qiáng)模型對(duì)小目標(biāo)的檢測(cè)性能，本文提出了多尺度特征融合模塊，將淺層空間信息和深層語(yǔ)義相融合。在多尺度特征融合模塊中，在原始YOLOv5x 模型3 個(gè)檢測(cè)頭的基礎(chǔ)上增加1 個(gè)檢測(cè)頭，生成了4 種不同尺度的檢測(cè)頭，分別用于無(wú)人機(jī)航拍圖像中極小目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的檢測(cè)。次經(jīng)過(guò)C3 模塊和卷積層獲得特征圖 F3，其特征圖尺寸為原圖像的 1/8，用于小目標(biāo)的檢測(cè)。同理，通過(guò)這種方式還可以獲得特征圖 F2 和 F1，其特征尺寸為原圖像的 1/16 和 1/32，用于中目標(biāo)和大目標(biāo)的檢測(cè)，特征圖 F1、F2、F3、F4的具體過(guò)程如下：

圖6 無(wú)人機(jī)航拍圖像Fig.6 UAV aerial image

圖7 目標(biāo)分布圖像Fig.7 Object distribution image

式中：FC3為C3 模塊操作。

通過(guò)多尺度特征融合的方式，將淺層網(wǎng)絡(luò)中豐富的位置信息和紋理信息更好地與深層網(wǎng)絡(luò)的語(yǔ)義特征信息相融合，增強(qiáng)模型在小目標(biāo)下的多尺度特征學(xué)習(xí)能力，從而提升模型在復(fù)雜場(chǎng)景下的小目標(biāo)檢測(cè)能力。

1.3 數(shù)據(jù)增強(qiáng)模塊

為提升復(fù)雜背景干擾下的小目標(biāo)檢測(cè)精度，進(jìn)而提升模型的魯棒性，本文在YOLOv5x 原有的馬賽克數(shù)據(jù)增強(qiáng)方法上增加混合[25]數(shù)據(jù)增強(qiáng)方法，采用馬賽克數(shù)據(jù)增強(qiáng)和混合數(shù)據(jù)增強(qiáng)相結(jié)合的方式，稱為馬賽克混合數(shù)據(jù)增強(qiáng)方法。

該方法首先確定高為h、寬為w 的圖像模板作為輸出圖像尺寸，同時(shí)在寬高方向隨機(jī)生成2 條分割線，將選取的4 張圖像按照?qǐng)D像模板經(jīng)過(guò)隨機(jī)裁剪后進(jìn)行拼接操作。同理，再選取另外4 張圖像進(jìn)行隨機(jī)裁剪并進(jìn)行拼接，拼接后的圖像形成新的訓(xùn)練樣本。其主要利用隨機(jī)裁剪豐富了數(shù)據(jù)集中目標(biāo)的特征，使模型更易于學(xué)習(xí)，并通過(guò)拼接的方式保留了圖像的目標(biāo)特征，極大程度地豐富了檢測(cè)目標(biāo)的背景，有效減少了由于訓(xùn)練背景相似導(dǎo)致模型泛化性降低的問(wèn)題。然后通過(guò)逐像素線性相加將2 類圖像混合，融合示意圖如圖8 所示。該樣本的混合過(guò)程是利用貝塔分布生成的融合系數(shù)進(jìn)行圖像融合，生成后的融合訓(xùn)練樣本在尺寸上與原始的訓(xùn)練樣本相同。本文通過(guò)閾值對(duì)生成的融合訓(xùn)練樣本進(jìn)行控制，由于在融合過(guò)程中每個(gè)批次樣本都會(huì)隨機(jī)產(chǎn)生相應(yīng)的權(quán)重，而權(quán)重在 N個(gè)批次中的期望值近似為0.5，將本文閾值設(shè)置為0.5。融合過(guò)程為

圖8 融合增強(qiáng)方法過(guò)程Fig.8 Fusion enhancement method process

式中：xi、xj代表同一批次內(nèi)不同的訓(xùn)練樣本；yi、yj分別對(duì)應(yīng)該樣本的標(biāo)簽；λ 為由參數(shù) α、β的貝塔分布計(jì)算出的混合系數(shù)，服從 B eta(α,β)分布；x?為混合后的批次樣本；y?為混合后的批次樣本對(duì)應(yīng)的標(biāo)簽。

通過(guò)該方法生成的訓(xùn)練樣本計(jì)算量小，且擴(kuò)展了訓(xùn)練數(shù)據(jù)的空間分布，在保持檢測(cè)速度不變的情況下，降低了不同分辨率下識(shí)別能力的衰弱速度，提高了模型對(duì)航空?qǐng)D像中目標(biāo)檢測(cè)的泛化性，提升了模型的魯棒性。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù) 據(jù) 集

本文在無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)公開數(shù)據(jù)集Vis-Drone 上進(jìn)行了訓(xùn)練和測(cè)試，該數(shù)據(jù)集包含10 209 張圖像，其中，包括6 471 張訓(xùn)練集圖像，548 張驗(yàn)證集圖像，3 190 張測(cè)試集圖像，并對(duì)10 個(gè)類別的對(duì)象進(jìn)行了豐富的標(biāo)注，包括行人（Pedestrian）、人（Person）、汽車（Car）、貨車（Van）、公共汽車（Bus）、卡車（Truck）、摩托車（Motor）、自行車（Bicycle）、遮陽(yáng)篷三輪車（Awning-tricycle）和三輪車（Tricycle）。該數(shù)據(jù) 集的圖像分為1 360×765 像素和960×540 像素2 種不同的圖像尺寸，本文使用驗(yàn)證集來(lái)評(píng)估提出的算法。

2.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)采用的硬件環(huán)境為：GPU 為NVIDIA TITAN V12 GB，CPU 為 IntelXeon(R)Gold 5 115 CPU @2.40 GHz；軟件環(huán)境為Windows7 操作系統(tǒng)，選用Pytorch 為深度學(xué)習(xí)框架。采用YOLOv5x 進(jìn)行實(shí)驗(yàn)，分別在訓(xùn)練集和驗(yàn)證集上進(jìn)行訓(xùn)練和測(cè)試，輸入圖像尺寸大小為832×832，批次為2，Epochs 為120，初始學(xué)習(xí)率為0.01，終止學(xué)習(xí)率為0.2，采用隨機(jī)梯度下降策略，動(dòng)量和權(quán)重衰減分別為0.937 和0.000 5。

2.3 評(píng)價(jià)指標(biāo)

本文使用平均精度（AP）、平均精度均值（mAP0.5:0.95）和模型參數(shù)作為衡量模型性能的相關(guān)指標(biāo)。AP 為單一類別檢測(cè)精度的評(píng)價(jià)指標(biāo)。對(duì)各類別的AP 值相加再除以類別數(shù)得到mAP。mAP0.5:0.95的計(jì)算方法是：設(shè)置10 個(gè)IoU 閾值，從0.5 到0.95，步長(zhǎng)為0.05，并計(jì)算每個(gè)IoU 對(duì)應(yīng)的mAP，再對(duì)所有mAP 求平均值。本文將mAP0.5∶0.95 簡(jiǎn)稱為mAP。文中mAP0.5 為IoU=0.5 時(shí)的mAP，mAP0.75為IoU=0.75 時(shí)的mAP，IoU 為交并比。AP 和mAP計(jì)算過(guò)程如下：

式中：N 為類別個(gè)數(shù)；TP 表示正樣本被正確標(biāo)識(shí)為正樣本，即真陽(yáng)性；FP 表示負(fù)樣本被錯(cuò)誤標(biāo)識(shí)為正樣本，即假陽(yáng)性；FN 表示正樣本被錯(cuò)誤識(shí)別為負(fù)樣本，即假的負(fù)樣本。

2.4 總體性能分析

為驗(yàn)證本文算法的有效性，針對(duì)不同模型進(jìn)行了消融實(shí)驗(yàn)。模型1 只采用多尺度特征融合模塊進(jìn)行訓(xùn)練；模型2 在模型1 的基礎(chǔ)上添加數(shù)據(jù)增強(qiáng)模塊；模型3 在模型2 的基礎(chǔ)上添加倒置殘差注意力模塊；模型4 在模型3 的基礎(chǔ)上添加倒置殘差模塊，即為本文提出的最終模型。如表1 所示，所有實(shí)驗(yàn)在VisDrone 數(shù)據(jù)集上進(jìn)行測(cè)試，分別以mAP、mAP0.5、mAP0.75、參數(shù)量及檢測(cè)速度作為衡量標(biāo)準(zhǔn)。表中：FPS 表示幀/s。以原始YOLOv5x 為基準(zhǔn)，分別添加相應(yīng)的模塊改進(jìn)，通過(guò)對(duì)客觀評(píng)價(jià)指標(biāo)的計(jì)算比較不同模型性能。

表1 不同模型的客觀指標(biāo)對(duì)比Table 1 Comparison of objective indicators of different models

由表1 可以看出，模型1 在加入多尺度特征融合模塊后，增強(qiáng)了模型在小目標(biāo)下的多尺度特征學(xué)習(xí)能力，其mAP 相比于基準(zhǔn)模型YOLOv5x 提高了1.2%，由于小目標(biāo)檢測(cè)層的增加，參數(shù)量略有提升，檢測(cè)速度有所下降。模型2 相比模型1 的mAP 提高了0.8%，其參數(shù)量和檢測(cè)速度基本不變，驗(yàn)證了數(shù)據(jù)增強(qiáng)模塊的有效性。模型3 在加入倒置殘差注意力模塊后，其mAP 相比模型2 提升了1.4%，并且參數(shù)量降低了16.2×106，由于倒置殘差注意力模塊中深度可分離卷積具有大量數(shù)據(jù)讀寫操作，在檢測(cè)速度方面略有降低。模型4 相比模型3，雖然參數(shù)量略有提升，檢測(cè)速度略有降低，但mAP 提升了0.6%，進(jìn)一步驗(yàn)證了在使用倒置殘差注意力模塊的基礎(chǔ)上增加倒置殘差模塊的有效性。綜上所述，在4 個(gè)模塊同時(shí)加入時(shí)達(dá)到的效果最佳，mAP 相比于基準(zhǔn)模型YOLOv5x 提升4.0%，參數(shù)量下降10.7×106，進(jìn)一步驗(yàn)證了模型的有效性。

從圖9 中可以看出，YOLOv5x 基準(zhǔn)模型存在漏檢情況，對(duì)小目標(biāo)檢測(cè)效果不佳，模型1 和模型2降低了部分小尺寸目標(biāo)的漏檢情況，仍存在漏檢和誤檢問(wèn)題。模型3 中誤檢問(wèn)題減少，并進(jìn)一步降低了小目標(biāo)漏檢情況，相比之下，模型4 達(dá)到了較好的檢測(cè)效果，較大程度上降低了小目標(biāo)漏檢。

圖9 不同模型檢測(cè)結(jié)果Fig.9 Detection results of different models

2.5 算法對(duì)比分析

本節(jié)將本文模型與當(dāng)前經(jīng)典的RetinaNet、Faster R-CNN 和Cascade R-CNN 模型進(jìn)行了比較，并與這些比較算法增加MMF[26]、SimCal[27]、BGS[28]和DSHNet[29]后的模型進(jìn)行了比較。采用不同的主干網(wǎng)絡(luò)（backbone），平均精度均值mAP 的對(duì)比結(jié)果如表2 所示。在檢測(cè)速度方面，將本文模型與當(dāng)前經(jīng)典的RetinaNet、Faster R-CNN和Cascade R-CNN 在此基礎(chǔ)上增加DSHNet 后的模型進(jìn)行了比較，實(shí)驗(yàn)同樣在VisDrone 數(shù)據(jù)集上進(jìn)行訓(xùn)練，采用相同的驗(yàn)證集圖像進(jìn)行驗(yàn)證，在相同硬件環(huán)境NVIDIA TITAN V12 GB GPU 上進(jìn)行測(cè)試，其模型的平均精度均值mAP 與檢測(cè)速度的對(duì)比結(jié)果如表3 所示。視覺效果如圖10 所示，展示了3 幅圖像的檢測(cè)結(jié)果及其部分放大圖。

表2 不同算法的檢測(cè)結(jié)果對(duì)比Table 2 Comparison of detection results of different algorithms

表3 不同算法的平均精度均值與檢測(cè)速度結(jié)果對(duì)比Table 3 Comparison of average accuracy and detection speed of different algorithms

從表2 可以看出，在經(jīng)典RetinaNet、Faster R-CNN和Cascade R-CNN 基礎(chǔ)上增加DSHNet 模型后，客觀評(píng)價(jià)指標(biāo)較高；與DSHNet 模型相對(duì)比，本文模型取得了最優(yōu)的綜合性能。一方面，在行人、汽車、遮陽(yáng)篷三輪車等小目標(biāo)類別中取得了優(yōu)秀的檢測(cè)指標(biāo)；另一方面，相比最優(yōu)的DSHNet 模型，mAP 增長(zhǎng)了1.2%。由表3 看出，本文模型在平均精度均值和檢測(cè)速度方面均得到了有效提升。從圖10 可以看出，對(duì)于小目標(biāo)密集區(qū)域的檢測(cè)結(jié)果，DSHNet 存在漏檢情況，而本文模型能夠在小目標(biāo)密集區(qū)域充分挖掘其特征信息，對(duì)于小目標(biāo)密集區(qū)域的檢測(cè)結(jié)果要優(yōu)于DSHNet 模型，降低了漏檢情況，在處理無(wú)人機(jī)航拍圖像目標(biāo)檢測(cè)任務(wù)時(shí)具有較大優(yōu)勢(shì)。

圖10 三種模型檢測(cè)結(jié)果Fig.10 Detection results of three models

2.6 結(jié)果分析

為進(jìn)一步驗(yàn)證模型的有效性，圖11 給出了本文模型在不同背景下的部分航空?qǐng)D像目標(biāo)檢測(cè)結(jié)果。其中，圖11（a）為背景簡(jiǎn)單、目標(biāo)單一時(shí)的檢測(cè)結(jié)果及區(qū)域放大圖；圖11（b）為背景復(fù)雜、小目標(biāo)密集時(shí)的檢測(cè)結(jié)果及區(qū)域放大圖。從圖11 可以看出，對(duì)于以下這2 種情況，本文模型都可以較好地完成目標(biāo)檢測(cè)，對(duì)于場(chǎng)景復(fù)雜、目標(biāo)較小的情況下仍能完全檢測(cè)，沒有出現(xiàn)汽車和行人的誤檢情況。綜上所述，從主觀視覺和評(píng)價(jià)指標(biāo)來(lái)看，目標(biāo)檢測(cè)準(zhǔn)確率有所提升，對(duì)于背景復(fù)雜、密集小目標(biāo)的漏檢情況有所改善。

3 結(jié) 論

針對(duì)無(wú)人機(jī)航拍圖像中存在的小尺寸目標(biāo)檢測(cè)精度低的問(wèn)題，本文提出一種基于倒置殘差注意力的無(wú)人機(jī)航拍圖像小目標(biāo)檢測(cè)算法。

1) 將倒置殘差和倒置殘差注意力模塊添加到Y(jié)OLOv5x 特征提取階段的CSPDarknet53（C3）模塊中，獲取豐富的空間信息和語(yǔ)義特征，使模型更多地關(guān)注圖像中的小目標(biāo)區(qū)域，同時(shí)利用通道之間的信息交互增強(qiáng)了模型的特征表達(dá)能力，提升了小目標(biāo)的檢測(cè)精度。

2) 設(shè)計(jì)了多尺度特征融合模塊，將不同感受野的淺層空間信息和深層語(yǔ)義信息相融合，有效改善了小目標(biāo)的漏檢問(wèn)題。

3) 通過(guò)馬賽克混合數(shù)據(jù)增強(qiáng)方法，對(duì)混合后的訓(xùn)練樣本進(jìn)行線性混合相加，豐富了訓(xùn)練樣本的多樣性，增強(qiáng)了模型在復(fù)雜背景干擾下目標(biāo)特征提取的能力。

4) 實(shí)驗(yàn)結(jié)果表明，在背景復(fù)雜的情況下，本文算法對(duì)小尺寸目標(biāo)具有更強(qiáng)的辨識(shí)能力，平均精度均值方面達(dá)到最優(yōu)，相比DSHNet 算法提升了1.2%，減少了漏檢和誤檢。

下一步將繼續(xù)研究高效目標(biāo)檢測(cè)算法，保證精準(zhǔn)度的同時(shí)，進(jìn)一步提升檢測(cè)的實(shí)時(shí)性。