位置敏感Transformer 航拍圖像目標(biāo)檢測模型

2024-04-08 07:30:12李大湘辛嘉妮

光學(xué)精密工程 2024年5期

李大湘，辛嘉妮，劉穎

（西安郵電大學(xué) 通信與信息工程學(xué)院，陜西西安 710121）

1 引言

隨著飛行器與通信技術(shù)的快速發(fā)展，無人機作為一種新型的拍攝工具，憑借獨特的拍攝視角，以及攜帶方便與成本低的特點，在民用和軍事方面得到了廣泛的應(yīng)用［1］。面向無人機航拍影像，為了提高用戶對航拍內(nèi)容的觀看效率，基于機器學(xué)習(xí)技術(shù)設(shè)計無人機航拍圖像目標(biāo)檢測算法已經(jīng)成為當(dāng)今計算視覺領(lǐng)域中的一個新興研究分支［2］。

近年來，深度學(xué)習(xí)作為無人機航拍圖像目標(biāo)檢測的主流方法，根據(jù)是否使用錨框相關(guān)算法可分為兩大類。基于錨框（Anchor-based）的代表性算法有Faster R-CNN［3］，Cascade R-CNN［4］，SSD［5］與YOLOv4［6］等。針對航拍圖像目標(biāo)檢測的應(yīng)用需求，Yang 等［7］提出了用于小目標(biāo)檢測的QueryDet 網(wǎng)絡(luò)，設(shè)計了一種簡單有效的級聯(lián)稀疏查詢機制，有效地利用航拍圖像高分辨率特征，提高對小目標(biāo)的檢測性能。Li 等［8］提出了一種Oriented RepPoints 空中目標(biāo)檢測方法，通過引入靈活的自適應(yīng)點，能夠捕捉任意方向?qū)嵗膸缀涡畔ⅰiang 等［9］提出了一個稱之為DEA-Net 的動態(tài)錨點增強網(wǎng)絡(luò)，該網(wǎng)絡(luò)實現(xiàn)了基于錨的單元和無錨單元之間的交互式樣本篩選，以生成合格樣本，提高檢測小目標(biāo)的性能。這類基于錨框的方法雖然在航拍圖像目標(biāo)檢測中取得了較好的性能，但在檢測過程中要依賴于人工預(yù)先設(shè)置的錨框信息，不僅會增加模型超參的數(shù)量（如：錨框的數(shù)量、尺寸與高寬比等），還會增大參數(shù)調(diào)試的復(fù)雜性，即無法通過反向傳播進行端到端訓(xùn)練，通常需要人為仔細(xì)地調(diào)整錨框參數(shù)才能獲得最佳的檢測性能。

在無錨框方法的研究上，Law 等［10］提出的CornerNet 算法先預(yù)測目標(biāo)左上角和右下角點，再對角點分類組合形成檢測框。Tian 等［11］提出的FCOS 算法針對每個圖像像素進行預(yù)測，得到該像素到檢測框的4 個邊框的距離，最終輸出整體目標(biāo)的檢測框。Dai 等［12］提出了ACE 空中旋轉(zhuǎn)目標(biāo)檢測方法，使用四邊形邊界框來定位任意方向?qū)ο蠛蛣討B(tài)采樣方法，有助于關(guān)鍵點的準(zhǔn)確定位。除了這些方法之外，近兩年來，由于Transformer 在計算機視覺領(lǐng)域的廣泛應(yīng)用，Carion 等［13］將它整合到目標(biāo)檢測基線中，設(shè)計了一種DETR 的目標(biāo)檢測算法，該算法不需要任何的人工干預(yù)，可以用端到端的方式進行訓(xùn)練。Zhu等［14］提出了一種Deformable DETR 的目標(biāo)檢測算法，設(shè)計了可變形注意力模塊，該模塊只注意參考點周圍的某些采樣點，減少了計算量。Li等［15］通過引入帶有噪聲的真實邊界框作為查詢向量，通過去噪技術(shù)解決二分圖匹配的不穩(wěn)定性問題，加速模型訓(xùn)練。基于Transformer 的方法框架簡潔，不用手工設(shè)置錨框及非極大值抑制（Non-Maximum Suppression，NMS），泛化能力強，建模圖像的全局依賴關(guān)系，有效利用上下文信息，減少由于錨框設(shè)置不合理導(dǎo)致的問題，但需要一些特殊的損失函數(shù)提高算法穩(wěn)定性，小目標(biāo)的檢測性能相對較差。

綜上所述，Transformer 框架下的DETR 雖然具有思想簡潔、結(jié)構(gòu)清晰與無NMS 操作等優(yōu)點，但因無人機拍攝距離過遠，小目標(biāo)過多，現(xiàn)有模型很難取得理想的檢測效果。所以，本文設(shè)計了一種位置敏感Transformer 目標(biāo)檢測（Position Sensitive Transformer Object Detection，PSTOD）模型。該模型在DETR 的基礎(chǔ)上，設(shè)計了一個基于位置通道嵌入三維注意力（Position Channel Embedding 3D Attention，PCE3DA）的多尺度特征融合（Multi-Scale Feature Fusion，MSFF）模塊，且將該模塊連接在骨干網(wǎng)絡(luò)和Transformer 之間，讓網(wǎng)絡(luò)更好地獲取具有多層級上下文信息的特征，以增強模型對小目標(biāo)的檢測能力；此外，設(shè)計了位置敏感自注意力（Position Sensitive Self-Attention，PSSA）機制，用它替代原模型中的自注意力（Self Attention，SA），即使用可學(xué)習(xí)的相對位置敏感編碼信息，幫助Transformer 模型中的編-解器獲得更準(zhǔn)確的目標(biāo)位置信息，以提高無人機航拍圖像目標(biāo)的定位能力及檢測精度。

2 模型設(shè)計

2.1 PS-TOD 模型架構(gòu)

圖1 是本文設(shè)計的PS-TOD 模型示意圖，它主要由CNN 主干網(wǎng)絡(luò)、MSFF 模塊、位置敏感Transformer 編-解碼器與集合匹配預(yù)測模塊4 個組件構(gòu)成。對于待檢測圖像，首先使用CNN 主干網(wǎng)絡(luò)與MSFF 模塊，獲得圖像的跨層融合多尺度特征；然后，采用帶有PSSA 機制的Transformer 編碼器，對圖像的多尺度特征連同其相對位置信息一起進行學(xué)習(xí)，獲得圖像的位置敏感編碼特征；其次，在Transformer 解碼器中再通過多頭SA 及交叉注意力將對象查詢向量轉(zhuǎn)換為解碼輸出；最后，利用兩個不同的FFN 對解碼器輸出的每個特征進行預(yù)測，分別得到它們所對應(yīng)的框坐標(biāo)和類標(biāo)簽，以獲得最終的目標(biāo)預(yù)測集合。

2.2 跨層多尺度特征融合模塊

小目標(biāo)數(shù)量多作為無人機航拍圖像目標(biāo)檢測的主要挑戰(zhàn)。DETR 算法［13］因只使用ResNet最后一個卷積模塊conv5_x 的輸出作為特征表示，即特征圖譜經(jīng)32 倍下采樣后，導(dǎo)致原圖中的小目標(biāo)消失在特征圖中從而造成漏檢。所以，本文設(shè)計了PCE3DA，且基于它構(gòu)造了一個自底向上的跨層MSFF 模塊，在提高小目標(biāo)檢測精度的同時還可兼顧整個算法對多尺度目標(biāo)的檢測能力。

設(shè)IMG 表示任意一幅訓(xùn)練圖像，將它送入主干網(wǎng)絡(luò)ResNet-50，conv3_x，conv4_x 與conv5_x輸出的特征圖譜分別記作F3，F(xiàn)4與F5，且使用1×1 卷積將它們的通道數(shù)均調(diào)整為256，分別記為。為了將它們的信息融合起來而得到圖像的多尺度特征表示，設(shè)計了一個自下而上的跨層特征融合方案，即圖1 中的MSFF模塊。

2.2.1 多尺度特征融合

圖2 PCE3DA 跨層特征圖譜融合方案示意圖Fig.2 Fusion scheme of PCE3DA cross layer feature map

將融合后的Fa通過設(shè)計的PCE3DA 進行加權(quán)得到加權(quán)特征，即：

為了保留特征的初始信息，使用殘差連接將自適應(yīng)增強的特征與其原始特征分別相加。因此，獲得增強特征，分別為：

最后，分別通過3×3 卷積層后再進行特征相加融合，獲得跨層融合特征，即：

2.2.2 PCE3DA 原理

為了更好地提取無人機圖像的特征信息，傳統(tǒng)方法是分別對特征圖譜實施空間與通道注意力，這類方法導(dǎo)致參數(shù)與計算量大，且不能同時考慮空間維度和通道維度之間的相互關(guān)系，導(dǎo)致空間和通道信息相互孤立。如圖3 所示，在坐標(biāo)注意力［16］的啟發(fā)下設(shè)計了PCE3DA，式（2）中采用PCE3DA 進行注意力加權(quán)，即：將空間位置信息嵌入到通道注意力中，這樣可以同時利用空間和通道維度的相互依賴信息，得到三維注意力權(quán)值，用于加強感興趣區(qū)域的特征表示，以幫助模型聚焦有助于目標(biāo)精準(zhǔn)定位的局部細(xì)節(jié)信息。

圖3 位置通道嵌入三維注意力流程Fig.3 Flow chart of position channel embedding 3D attention

設(shè)F∈RC×H×W表示任意輸入PCE3DA 的特征圖譜，其中C，H與W分別表示F的通道數(shù)、高度與寬度。首先，使用一個X軸的1×1 卷積對F中的數(shù)據(jù)沿水平方向進行聚合，在捕獲X軸長距離依賴關(guān)系的同時，也可以保留垂直方向的位置信息，該過程可表示為：

其中zX∈RC×H×1表示卷積結(jié)果。然后，將zX送入1×1 卷積，且經(jīng)過歸一化與激活函數(shù)處理，得到：

其中：σ表示Swish 非線性激活函數(shù)，BN（）表示批量歸一化，fX∈RC/r×H×1表示垂直方向上對空間信息進行編碼的中間特征圖。這里，r表示壓縮通道比例（實驗中r=4）；隨后，利用另外一個1×1 卷積，將fX變換并與輸入特征圖F的通道數(shù)相同，記為：

其中g(shù)X∈RC×H×1表示通道擴充結(jié)果。

同理，采用另一個Y軸的1×1 卷積對F中的數(shù)據(jù)沿垂直方向進行聚合，在捕獲Y軸長距離依賴關(guān)系的同時，也可以保留水平方向的位置信息，該過程可表示為：

綜上所述，將gX與gY作廣播機制加法⊕，再經(jīng)Sigmoid 函數(shù)處理之后，記為：

其中β∈RC×H×W，表示三維注意力權(quán)值。最后，將權(quán)值β與輸入F點乘?，從而得到經(jīng)PCE3DA加權(quán)之后特征，記為：

2.3 位置敏感Transformer 編-解碼器

對于目標(biāo)檢測任務(wù)，位置信息極為重要。在DETR 算法中，采用絕對位置編碼感知圖像的全局上下文信息，但在目標(biāo)檢測中圖像的分辨率通常很高，目標(biāo)特征更多依賴圖像的局部信息。因此，本文設(shè)計了一種PSSA 機制，且以此構(gòu)造位置敏感Transformer 編-解碼器，以提高模型對位置信息的敏感能力，從而提升目標(biāo)檢測精度。

2.3.1 PSSA 機制

為了利用每個元素在序列中的位置信息，提高它在計算機視覺任務(wù)中的表達能力，傳統(tǒng)的做法是將絕對位置編碼AP=[p1；p2；…；pN]嵌入到序列X的每個元素xi（如ViT［17］）中，即：

其中pi∈Rdx表示第i個元素的絕對位置編碼向量，通常可采用正余弦函數(shù)計算得到［17］。最后，絕對位置編碼SA 可表示為：

在目標(biāo)檢測任務(wù)中，像素之間的相對位置信息對于提高模型對目標(biāo)的定位能力尤其重要。如圖4 所示，這里利用序列各元素之間的相對位置信息，設(shè)計了一種PSSA 機制，即通過嵌入可學(xué)習(xí)的相對位置編碼向量到SA 機制中，利用圖像中各特征之間的相對位置關(guān)系，提高模型的位置敏感能力，從而實現(xiàn)目標(biāo)的精確定位。

圖4 位置敏感自注意力機制Fig.4 Position sensitive self-attention mechanism

設(shè)Fms∈RC×H×W表示經(jīng)MSFF 模塊得到的多尺度特征圖譜，其中C，H與W分別表示通道數(shù)、高度與寬度。首先，對Fms中每個位置（h，w）沿通道維度的C個數(shù)據(jù)抽取出來，由此可將Fms轉(zhuǎn)化成一個由N（這里N=W×H）個元素組成序列，記為S={sn(h，w)|n=1，2，…，N}，其中sn(h，w)∈R1×C表示第n個元素，h∈[1，H]與w∈[1，W]分別表示它在Fms中對應(yīng)的空間位置坐標(biāo)；然后，為了建模sn(h，w)相對于S中任意其他元素sm(h，w)之間的相對位置關(guān)系，定義一個索引函數(shù)E(n，m)與3 個相對位置編碼向量，記為：

綜上所述，在輸入序列S中，根據(jù)兩個元素sn(h，w)與sm(h，w)之間的城區(qū)距離，為了學(xué)習(xí)它們之間的相對位置依賴關(guān)系，需額外考慮3 個與位置相關(guān)的向量，即在Query，Key 與Value 上分別加入相對位置編碼構(gòu)成PSSA，記為：

其中：WQ，WK，WV∈RC×C'分別表示與Q，K，V相對應(yīng)的且可學(xué)習(xí)的變換矩陣。C與C'分別表示輸入、輸出特征的維度，則對于S中的任意一個元素sn(h，w)∈R1×C，其PSSA 編碼過程可表示為：

其中：zn∈R1×C'表示PSSA 編碼輸出，ωnm表示使用縮放點積與SoftMax 計算的歸一化權(quán)重［18］。

2.3.2 位置敏感Transformer 編-解碼器

基于PSSA 機制，在DETR 算法［13］的啟發(fā)下，設(shè)計的位置敏感Transformer 編-解器如圖5所示，它主要由編碼器與解碼器兩部分組成。為了使模型在性能與參數(shù)量之間得到一個很好的平衡，如圖5 左側(cè)所示，編碼器由6 個相同的層構(gòu)成，且每個層主要由多頭PSSA 與MLP 組成。對于輸入序列S，將其寫成矩陣形式S0∈RN×C，記為：

圖5 編-解碼器結(jié)構(gòu)Fig.5 Encoder-decoder structure

編碼器重構(gòu)特征的過程可表示為：

其中：LN（），MLP（）與mhPSSA（）分別表示層歸一化、多層感知機與多頭PSSA 等操作，Y∈RN×C表示第6 層編碼器的輸出，即對序列S的最終編碼結(jié)果。mhPSSA 作為PSSA 的擴展，即并行地運行K個不同的PSSA 操作，每個注意力頭將分別關(guān)注輸入信息的不同部分，并將它們的輸出串聯(lián)起來作為最終的編碼結(jié)果：

為了使S經(jīng)mhPSSA 編碼之后，其輸入S與輸出Y保持相同的維度，每個PSSA 輸出的維度C'設(shè)置為輸入元素維度的K分之一，即。為了與DERT 模型進行公平比較，本文模型中的C也與其一樣也設(shè)置為256，且為了保證K能整除C，K只能取2，4，8，16 等整數(shù)。隨著注意力頭數(shù)的增加，模型計算復(fù)雜度會增加，所以本文后續(xù)實驗中K取4，一則可以在計算效率和性能之間達到折中；二則由于設(shè)計的模型面向無人機航拍圖像目標(biāo)檢測，mhPSSA 機制中的每個頭將從不同的角度感知目標(biāo)的不同部分。這些目標(biāo)按4 個角度觀察也可滿足要求，例如車的車頭和車尾、人體的頭部和身體等，mhPSSA將從4 個角度感知這些目標(biāo)，且捕捉它們之間的語義關(guān)系而提取圖像的全局特征，從而能夠提高目標(biāo)檢測的準(zhǔn)確率。

MLP 包括兩個FC 層，F(xiàn)C1 層將輸入擴大為原來的4 倍，由于殘差連接的存在，F(xiàn)C2 輸出層再恢復(fù)原始維度，相應(yīng)的計算過程為：

其中：W1表示將特征從256 維投影到1 024 維的變換矩陣，W2表示從1 024 維投影回256 維變換矩陣，b1與b2均表示偏置向量。

如圖5 右側(cè)所示，解碼器類似于Transformer的標(biāo)準(zhǔn)結(jié)構(gòu)，由6 個完全相同的層構(gòu)成，每個層主要由多頭SA、多頭交叉SA 與MLP 組成。設(shè)B0=[b1；b2；…；bM]表示由M個元素組成的目標(biāo)查詢（object query）序列，其中bi∈R1×C表示B中的第i個元素，對應(yīng)的是圖像中第i個預(yù)測目標(biāo)的特征向量。編碼器的第一個階段是先采用多頭SA 對進行編碼，然后，將輸出與編碼器的輸出Y相結(jié)合，再采用多頭交叉SA 進行編碼；最后，經(jīng)類似于編碼器的MLP 處理，得到最終的解碼特征。該過程描述為：

其中mhCSA（）表示由K個交叉自注意力CSA（）組成的多頭交叉自注意力，即：

2.4 集合預(yù)測與損失函數(shù)

對于目標(biāo)查詢序列B0=[b1；b2；…；bM]，經(jīng)解碼器輸出得到，再將它們輸入兩個不同的FFN，以分別預(yù)測每個解碼特征所對應(yīng)目標(biāo)的類別標(biāo)簽與邊框，得到預(yù)測結(jié)果記為，相應(yīng)訓(xùn)練圖像所有真實目標(biāo)的類別clsi與邊框boxi的Ground Truth集合記為，實驗中M設(shè)置為200，通常遠遠大于圖像中真實目標(biāo)的數(shù)量J。在Transformer 這種端到端的目標(biāo)檢測框架中，因不需要NMS 后處理，訓(xùn)練時就得在U與二個集合之間尋找最佳匹配［13］。為了便于用匈牙利算法［19］在集合U與中找到最佳匹配，首先，將集合U填充M-J個?（表示無目標(biāo)），使它與元素數(shù)量相等，對于U中的每個ui=(clsi，boxi)，其中clsi是目標(biāo)類標(biāo)簽（可能是?），boxi∈[0，1]4是其相對于圖像尺寸的中心坐標(biāo)及高度與寬度；然后，要在集合U與之間尋找最佳匹配，就是要尋找中M個元素的最佳置換σ∈ξM，使式（25）所示的匹配損失最小，即：

其中αt與γ為超參數(shù)，分別表示第clsi類的權(quán)重與衰減參數(shù)，αt=0.25，γ=2。

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集與實驗方法

為了驗證本文提出的PS-TOD 模型的有效性，本文使用公開的VisDrone 數(shù)據(jù)集［20］進行對比實驗。該數(shù)據(jù)集由天津大學(xué)AISKYEYE 團隊使用無人機在不同條件下低空拍攝獲得，包含1 360×765 和960×540 像素兩種圖像尺寸，涵蓋各種天氣和光照條件下日常生活中的各種場景，其中訓(xùn)練集6 471 張圖像、測試集3 190 張圖像和驗證集548 張圖像。數(shù)據(jù)集的圖像中包括行人、人、汽車、公交車、自行車、卡車、三輪車、雨棚三輪車、面包車以及摩托車等十類目標(biāo)。

本文采用COCO 數(shù)據(jù)集中的評價指標(biāo)來評價模型性能［23］，主要比較AP，AP50，AP75，APS，APM與APL，其中AP 表示在0.5 至0.95 步長0.05 共10 個交并比閾值下的平均檢測精度的平均值，AP50與AP75分別表示交并比閾值為0.5 和0.75 時的平均檢測精度，APS，APM與APL分別表示對測試集中的小目標(biāo)（像素數(shù)量<322）、中等目標(biāo)（322<像素數(shù)量<962）與大目標(biāo)（像素數(shù)量>962）的平均檢測精度。實驗平臺采用Ubuntu18.04 操作系統(tǒng)，GPU 為NVIDIA TITANX×4，CPU 為Intel（R）Core（TM）Xeon E5-2640，內(nèi)存為128 GB，編程語言為Python3.8，torch 版本為1.7.0。模型訓(xùn)練過程中使用AdamW 優(yōu)化器來優(yōu)化模型，批大小（Batch_size）為16，初始學(xué)習(xí)率為2×10-4，權(quán)值衰減為1×10-4，整個模型訓(xùn)練500 個Epoch，為了加快訓(xùn)練收斂速度，在初始訓(xùn)練時使用官方提供的Transformer 預(yù)訓(xùn)練模型。所有實驗均以VisDrone 的訓(xùn)練集與驗證集來完成模型的訓(xùn)練，然后對測試集中的所有圖像進行目標(biāo)檢測，統(tǒng)計相應(yīng)評價指標(biāo)。

3.2 消融實驗

3.2.1 模塊消融實驗

為了驗證PS-TOD 模型中兩個關(guān)鍵模塊（即基于PCE3DA 的MSFF 模塊與基于PSSA 的Transformer 編-解碼模塊）以及修改損失函數(shù)在無人機航拍圖像目標(biāo)檢測中的有效性，基于Vis-Drone 數(shù)據(jù)集進行了消融實驗，且在相同實驗條件下，再與基線模型DETR［13］進行對比，消融實驗結(jié)果如表1 所示。其中“Param”表示模型的參數(shù)量，單位取“兆（M）”，即當(dāng)不同模塊被嵌入到“基線”模型之后，以對比改進模型參數(shù)量的變化。

表1 VisDrone 測試集上的消融實驗結(jié)果Tab.1 Ablation experiment results on VisDrone test set（%）

由表1 實驗結(jié)果可見，在基線模型的基礎(chǔ)上，分別只應(yīng)用MSFF，PSSA 的Transformer 編-解碼或修改損失函數(shù)等部件，其AP 分別提高了1.7%，1.1%或1.3%，這說明本文所設(shè)計的兩個模塊與修改損失函數(shù)在無人機圖像目標(biāo)檢測任務(wù)中是有效的；若同時使用其中任意二個模塊，較之只使用一個模塊檢測精度可得到進一步提高，當(dāng)同時使用三個部件時，AP 達到最高28.8%。通過對各類目標(biāo)的檢測結(jié)果分析可知，MSFF 模塊通過類似于殘差連接的方式進行多尺度特征融合，且在PCE3DA 的驅(qū)動下，模型在具備多尺度特征提取能力的基礎(chǔ)上，還可更好地保留小目標(biāo)的特征信息；設(shè)計的PSSA 機制，較之原始的自注意力更能獲取像素之間的相對位置關(guān)系，在位置敏感的作用下，模型可以更好地關(guān)注圖像中的重點區(qū)域，并且在修改損失函數(shù)的約束下，不僅緩解了數(shù)據(jù)集類別以及正負(fù)樣本不平衡帶來的問題，同時使損失函數(shù)更加關(guān)注邊界框的位置，更能優(yōu)化模型的訓(xùn)練而提高無人機圖像中目標(biāo)的檢測精度。雖然設(shè)計的模塊可提高目標(biāo)檢測精度，但是會帶來參數(shù)量的增加，例如：當(dāng)MSFF 或PSSA 模塊分別被引入之后，較之“基線”模型，會帶來2.4M 或3.3M 參數(shù)量的增加，同時引入MSFF 與PSSA 模塊時，模型參數(shù)量達到42.51M。

3.2.2 PCE3DA 機制消融實驗

為了驗證設(shè)計的PCE3DA 機制在MSFF 模塊中的有效性，設(shè)計了7 組消融實驗，即在A 組（Baseline DETR［13）的基礎(chǔ)上，B，C，D，E 與F 組分別表示基于-SE（SENet［24］的SE 通道注意力），-SA（BAM［25］的空間注意力），-CA（文獻［16］的坐標(biāo)注意力），-CBAM（文獻［26］的通道和空間注意力）與-PCE3DA（本文設(shè)計的）等5 種不同的注意力機制，對骨干網(wǎng)絡(luò)的最后一層特征圖譜進行注意力加權(quán)；G 組表示在F 組的基礎(chǔ)上還采用MSFF 進行多尺度特征融合，再結(jié)合Baseline 模型中編-解碼器與檢測頭。消融實驗結(jié)果如表2所示。

表2 不同注意力機制及使用多尺度特征的實驗結(jié)果Tab.2 Experimental results for different attention mechanisms and using multi-scale features（%）

由表2 可知，骨干網(wǎng)絡(luò)的特征圖譜只要經(jīng)注意力加權(quán)之后，不同尺寸目標(biāo)的檢測精度均可得到提高，且空間注意力要優(yōu)于通道注意力。總體上，本文設(shè)計的PCE3DA（即F 組）優(yōu)于其他4 種注意力，并且經(jīng)MSFF 模塊對多層級特征圖譜進行融合，檢測效果達到最優(yōu)（即G 組）。這主要得益于PCE3DA 能將特征更好地聚焦在感興趣區(qū)域，抑制無關(guān)信息，同時增強了特征表達與空間位置結(jié)構(gòu)信息，融合后的特征圖具有更豐富的語義信息和幾何細(xì)節(jié)信息。

3.2.3 PSSA 機制消融實驗

在Transformer 編-解碼中，為了驗證設(shè)計的PSSA 機制的性能，與文獻［27］及［28］計算相對位置編碼的方法進行了消融實驗，實驗結(jié)果如表3 所示。可以看出，在計算注意力得分時考慮兩個元素之間的相對位置，即引入相對位置編碼是必要的。本文所提相對位置計算方法最大程度提升了模型的AP 值，其主要原因是PSSA 通過定義的索引函數(shù)映射相對位置，使得到的相對位置編碼信息更加準(zhǔn)確，模型能夠獲得一定的平移不變性，更加符合目標(biāo)檢測任務(wù)的需求。

表3 不同相對位置計算方法的實驗結(jié)果Tab.3 Experimental results of different relative position calculation methods（%）

3.3 綜合對比實驗

為了進一步驗證本文提出的PS-TOD 模型在無人機航拍圖像目標(biāo)檢測任務(wù)中的性能，在VisDrone 數(shù)據(jù)集上與經(jīng)典及先進的目標(biāo)檢測模型進行實驗對比，包括Cascade R-CNN［4］、YOLOv8［32］與PVTv2［33］等方法。為了對比的公平性，每種算法除了其專門參數(shù)沿用原文之外，學(xué)習(xí)率、批大小與Epoches 等超參設(shè)置均與3.1 節(jié)相同，實驗結(jié)果如表4 所示。

表4 不同算法在VisDrone 測試集上的性能對比Tab.4 Performance comparison of different algorithms on VisDrone test set（%）

根據(jù)表4 的數(shù)據(jù)，本文設(shè)計的PS-TOD 模型在無人機航拍圖像目標(biāo)檢測中表現(xiàn)良好，其AP50，AP75與AP 值分別達到了51.8%，28.3%與28.8%。與YOLOv8（速度最快）相比，雖然FPS有所下降，但YOLOv8 識別物體位置的精準(zhǔn)性差，而PS-TOD 的檢測精度獲得了2.3% 的提升；與具有相近檢測精度的QueryDet 模型相比，PS-TOD 的準(zhǔn)確率AP 和檢測速度FPS 都高于該模型。但AP75較之低了0.5，原因是AP75指標(biāo)對于目標(biāo)檢測框的重合率要求更高，PS-TOD 模型作為一種無錨框引導(dǎo)的檢測方法，在目標(biāo)定位精確方面可能稍弱于專門針對小目標(biāo)優(yōu)化的QueryDet 模型，但與其他模型相比，PS-TOD 在AP75方面仍然具有明顯的優(yōu)勢，即PS-TOD 能較好地平衡檢測精度與檢測速度。綜上所述，通過對比實驗結(jié)果可知，在設(shè)計的PS-TOD 模型中，首先基于PCE3DA 機制構(gòu)造自底向上的跨層MSFF 模塊，可讓網(wǎng)絡(luò)更好地獲取圖像的上下文多尺度特征，在提高小目標(biāo)檢測精度的同時，還可兼顧多尺度目標(biāo)的檢測能力；然后，基于PSSA 機制設(shè)計的Transformer 編碼器，可使用像素之間的相對位置信息，增強模型的位置敏感能力，提高了無人機航拍圖像目標(biāo)的定位能力及檢測精度。

為了觀察PS-TOD 模型在無人機航拍圖像目標(biāo)檢測中的具體表現(xiàn)，圖6 為可視化VisDrone測試集中各種情況下具有代表性的圖像檢測結(jié)果。可以看出，本文模型在光照變化、復(fù)雜背景、高空拍攝視角、目標(biāo)稀疏、目標(biāo)密集與運動模糊等6 種不同的環(huán)境下，均能夠檢測出大多數(shù)的目標(biāo)，說明設(shè)計的PS-TOD 模型對無人航拍機圖像在各種情況下都具有非常優(yōu)秀的檢測能力，足以應(yīng)對生活中發(fā)生的各類實際情況。

圖6 PS-TOD 在VisDrone 測試集上的部分檢測結(jié)果Fig.6 Partial detection results of PS-TOD on VisDrone test set

除此之外，為了進一步觀察PS-TOD 對每類目標(biāo)的檢測性能，分別統(tǒng)計了它與基線模型DETR［13］對VisDrone 測試集中每類目標(biāo)的具體檢測性能，如表5 所示。對比結(jié)果表明，PS-TOD 總體上改善了單類目標(biāo)的平均檢測精度，尤其是對于小目標(biāo)，提升效果非常明顯。在小目標(biāo)比例較多的行人、人、自行車與摩托車這四類目標(biāo)中，相較于基線模型檢測精度分別提升了4.2%，3.7%，2.6%與3.5%；另外，在目標(biāo)尺寸相對較大的類別（如汽車類和卡車類）中同樣也有明顯優(yōu)勢，如汽車類別別的AP 高達64.3%。綜合各種尺寸目標(biāo)的檢測效果，充分驗證了本文提出的PS-TOD模型在提高小目標(biāo)檢測精度的同時，還可兼顧其他尺度的目標(biāo)檢測能力。

表5 VisDrone 測試集中不同類別實驗結(jié)果Tab.5 Experimental results of different categories on VisDrone test set（%）

為了更深入觀察基線DETR［13］模型與PSTOD 在小目標(biāo)檢測中的性能優(yōu)劣，在VisDrone測試集中選取小目標(biāo)存在的夜晚和白天等兩種場景，如圖7 所示，可視化得到4 組檢測效果的對比圖。通過對比圖7（a）與圖7（e）、圖7（b）與圖7（f），在夜間較低照明的狀態(tài)下，基線模型由于背景噪聲信號的影響漏檢了圖7（a）中站立在高架橋上的行人與圖7（b）中大量行人，而PS-TOD通過注意力機制，減少背景影響、增加感興趣目標(biāo)的特征信息，成功檢測到基線漏檢的行人；對比圖7（c）與圖7（g）、圖7（d）與圖7（h）可以發(fā)現(xiàn)，基線模型漏檢了圖7（c）大量遠處的人及汽車與圖7（d）中路口處的人及行人等小目標(biāo)，而PSTOD 通過融合多尺度信息與添加位置信息，使得模型得到更好的目標(biāo)特征信息，強化模型對小目標(biāo)的定位能力，可精確檢測部分漏檢的小目標(biāo)。總之，PS-TOD 相對于基線模型具有更為優(yōu)越的檢測性能，尤其針對較小尺寸目標(biāo)具有更強的檢測辨別能力，有效降低小目標(biāo)漏檢與誤檢的概率。

圖7 小目標(biāo)檢測效果對比Fig.7 Comparison of small object detection result

4 結(jié)論

針對無人機航拍圖像小目標(biāo)多且檢測困難的問題，本文在Transformer 框架下提出了一個PS-TOD 模型。首先，設(shè)計了基于PCE3DA 的多尺度特征融合模塊，即通過融合不同層級的特征圖譜，有效地利用它們在空間與通道二個維度中的上下文信息，以增加骨干網(wǎng)絡(luò)的多尺度特征提取能力；然后，結(jié)合相對位置編碼，設(shè)計了PSSA機制，且以此構(gòu)造了一個Transformer 編-解碼器，以幫助模型在捕獲圖像全局上下文信息的長期依賴關(guān)系時，也可提高模型對位置信息的敏感能力，從而提升模型對小目標(biāo)的檢測精度。基于VisDrone 數(shù)據(jù)集的實驗結(jié)果表明，所提PS-TOD作為一種端到端的目標(biāo)檢測模型，其檢測過程不需要事先錨框設(shè)置與事后NMS 處理，在復(fù)雜背景下能精確地對無人機航拍圖像進行目標(biāo)檢測，且有效地改善了小目標(biāo)的檢測效果。在后續(xù)工作中，除了進一步優(yōu)化PSSA 機制，以降低模型的參數(shù)量，提高檢測速度之外，還需要將研究成果應(yīng)用到其他數(shù)據(jù)集中，進一步驗證所提模型的檢測精度與泛化能力。