999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

位置敏感Transformer 航拍圖像目標(biāo)檢測模型

2024-04-08 07:30:12李大湘辛嘉妮
光學(xué)精密工程 2024年5期
關(guān)鍵詞:特征檢測信息

李大湘,辛嘉妮,劉 穎

(西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)

1 引言

隨著飛行器與通信技術(shù)的快速發(fā)展,無人機作為一種新型的拍攝工具,憑借獨特的拍攝視角,以及攜帶方便與成本低的特點,在民用和軍事方面得到了廣泛的應(yīng)用[1]。面向無人機航拍影像,為了提高用戶對航拍內(nèi)容的觀看效率,基于機器學(xué)習(xí)技術(shù)設(shè)計無人機航拍圖像目標(biāo)檢測算法已經(jīng)成為當(dāng)今計算視覺領(lǐng)域中的一個新興研究分支[2]。

近年來,深度學(xué)習(xí)作為無人機航拍圖像目標(biāo)檢測的主流方法,根據(jù)是否使用錨框相關(guān)算法可分為兩大類。基于錨框(Anchor-based)的代表性算法有Faster R-CNN[3],Cascade R-CNN[4],SSD[5]與YOLOv4[6]等。針對航拍圖像目標(biāo)檢測的應(yīng)用需求,Yang 等[7]提出了用于小目標(biāo)檢測的QueryDet 網(wǎng)絡(luò),設(shè)計了一種簡單有效的級聯(lián)稀疏查詢機制,有效地利用航拍圖像高分辨率特征,提高對小目標(biāo)的檢測性能。Li 等[8]提出了一種Oriented RepPoints 空中目標(biāo)檢測方法,通過引入靈活的自適應(yīng)點,能夠捕捉任意方向?qū)嵗膸缀涡畔ⅰiang 等[9]提出了一個稱之為DEA-Net 的動態(tài)錨點增強網(wǎng)絡(luò),該網(wǎng)絡(luò)實現(xiàn)了基于錨的單元和無錨單元之間的交互式樣本篩選,以生成合格樣本,提高檢測小目標(biāo)的性能。這類基于錨框的方法雖然在航拍圖像目標(biāo)檢測中取得了較好的性能,但在檢測過程中要依賴于人工預(yù)先設(shè)置的錨框信息,不僅會增加模型超參的數(shù)量(如:錨框的數(shù)量、尺寸與高寬比等),還會增大參數(shù)調(diào)試的復(fù)雜性,即無法通過反向傳播進行端到端訓(xùn)練,通常需要人為仔細(xì)地調(diào)整錨框參數(shù)才能獲得最佳的檢測性能。

在無錨框方法的研究上,Law 等[10]提出的CornerNet 算法先預(yù)測目標(biāo)左上角和右下角點,再對角點分類組合形成檢測框。Tian 等[11]提出的FCOS 算法針對每個圖像像素進行預(yù)測,得到該像素到檢測框的4 個邊框的距離,最終輸出整體目標(biāo)的檢測框。Dai 等[12]提出了ACE 空中旋轉(zhuǎn)目標(biāo)檢測方法,使用四邊形邊界框來定位任意方向?qū)ο蠛蛣討B(tài)采樣方法,有助于關(guān)鍵點的準(zhǔn)確定位。除了這些方法之外,近兩年來,由于Transformer 在計算機視覺領(lǐng)域的廣泛應(yīng)用,Carion 等[13]將它整合到目標(biāo)檢測基線中,設(shè)計了一種DETR 的目標(biāo)檢測算法,該算法不需要任何的人工干預(yù),可以用端到端的方式進行訓(xùn)練。Zhu等[14]提出了一種Deformable DETR 的目標(biāo)檢測算法,設(shè)計了可變形注意力模塊,該模塊只注意參考點周圍的某些采樣點,減少了計算量。Li等[15]通過引入帶有噪聲的真實邊界框作為查詢向量,通過去噪技術(shù)解決二分圖匹配的不穩(wěn)定性問題,加速模型訓(xùn)練。基于Transformer 的方法框架簡潔,不用手工設(shè)置錨框及非極大值抑制(Non-Maximum Suppression,NMS),泛化能力強,建模圖像的全局依賴關(guān)系,有效利用上下文信息,減少由于錨框設(shè)置不合理導(dǎo)致的問題,但需要一些特殊的損失函數(shù)提高算法穩(wěn)定性,小目標(biāo)的檢測性能相對較差。

綜上所述,Transformer 框架下的DETR 雖然具有思想簡潔、結(jié)構(gòu)清晰與無NMS 操作等優(yōu)點,但因無人機拍攝距離過遠,小目標(biāo)過多,現(xiàn)有模型很難取得理想的檢測效果。所以,本文設(shè)計了一種位置敏感Transformer 目標(biāo)檢測(Position Sensitive Transformer Object Detection,PSTOD)模型。該模型在DETR 的基礎(chǔ)上,設(shè)計了一個基于位置通道嵌入三維注意力(Position Channel Embedding 3D Attention,PCE3DA)的多尺度特征融合(Multi-Scale Feature Fusion,MSFF)模塊,且將該模塊連接在骨干網(wǎng)絡(luò)和Transformer 之間,讓網(wǎng)絡(luò)更好地獲取具有多層級上下文信息的特征,以增強模型對小目標(biāo)的檢測能力;此外,設(shè)計了位置敏感自注意力(Position Sensitive Self-Attention,PSSA)機制,用它替代原模型中的自注意力(Self Attention,SA),即使用可學(xué)習(xí)的相對位置敏感編碼信息,幫助Transformer 模型中的編-解器獲得更準(zhǔn)確的目標(biāo)位置信息,以提高無人機航拍圖像目標(biāo)的定位能力及檢測精度。

2 模型設(shè)計

2.1 PS-TOD 模型架構(gòu)

圖1 是本文設(shè)計的PS-TOD 模型示意圖,它主要由CNN 主干網(wǎng)絡(luò)、MSFF 模塊、位置敏感Transformer 編-解碼器與集合匹配預(yù)測模塊4 個組件構(gòu)成。對于待檢測圖像,首先使用CNN 主干網(wǎng)絡(luò)與MSFF 模塊,獲得圖像的跨層融合多尺度特征;然后,采用帶有PSSA 機制的Transformer 編碼器,對圖像的多尺度特征連同其相對位置信息一起進行學(xué)習(xí),獲得圖像的位置敏感編碼特征;其次,在Transformer 解碼器中再通過多頭SA 及交叉注意力將對象查詢向量轉(zhuǎn)換為解碼輸出;最后,利用兩個不同的FFN 對解碼器輸出的每個特征進行預(yù)測,分別得到它們所對應(yīng)的框坐標(biāo)和類標(biāo)簽,以獲得最終的目標(biāo)預(yù)測集合。

2.2 跨層多尺度特征融合模塊

小目標(biāo)數(shù)量多作為無人機航拍圖像目標(biāo)檢測的主要挑戰(zhàn)。DETR 算法[13]因只使用ResNet最后一個卷積模塊conv5_x 的輸出作為特征表示,即特征圖譜經(jīng)32 倍下采樣后,導(dǎo)致原圖中的小目標(biāo)消失在特征圖中從而造成漏檢。所以,本文設(shè)計了PCE3DA,且基于它構(gòu)造了一個自底向上的跨層MSFF 模塊,在提高小目標(biāo)檢測精度的同時還可兼顧整個算法對多尺度目標(biāo)的檢測能力。

設(shè)IMG 表示任意一幅訓(xùn)練圖像,將它送入主干網(wǎng)絡(luò)ResNet-50,conv3_x,conv4_x 與conv5_x輸出的特征圖譜分別記作F3,F(xiàn)4與F5,且使用1×1 卷積將它們的通道數(shù)均調(diào)整為256,分別記為。為了將它們的信息融合起來而得到圖像的多尺度特征表示,設(shè)計了一個自下而上的跨層特征融合方案,即圖1 中的MSFF模塊。

2.2.1 多尺度特征融合

圖2 PCE3DA 跨層特征圖譜融合方案示意圖Fig.2 Fusion scheme of PCE3DA cross layer feature map

將融合后的Fa通過設(shè)計的PCE3DA 進行加權(quán)得到加權(quán)特征,即:

為了保留特征的初始信息,使用殘差連接將自適應(yīng)增強的特征與其原始特征分別相加。因此,獲得增強特征,分別為:

最后,分別通過3×3 卷積層后再進行特征相加融合,獲得跨層融合特征,即:

2.2.2 PCE3DA 原理

為了更好地提取無人機圖像的特征信息,傳統(tǒng)方法是分別對特征圖譜實施空間與通道注意力,這類方法導(dǎo)致參數(shù)與計算量大,且不能同時考慮空間維度和通道維度之間的相互關(guān)系,導(dǎo)致空間和通道信息相互孤立。如圖3 所示,在坐標(biāo)注意力[16]的啟發(fā)下設(shè)計了PCE3DA,式(2)中采用PCE3DA 進行注意力加權(quán),即:將空間位置信息嵌入到通道注意力中,這樣可以同時利用空間和通道維度的相互依賴信息,得到三維注意力權(quán)值,用于加強感興趣區(qū)域的特征表示,以幫助模型聚焦有助于目標(biāo)精準(zhǔn)定位的局部細(xì)節(jié)信息。

圖3 位置通道嵌入三維注意力流程Fig.3 Flow chart of position channel embedding 3D attention

設(shè)F∈RC×H×W表示任意輸入PCE3DA 的特征圖譜,其中C,H與W分別表示F的通道數(shù)、高度與寬度。首先,使用一個X軸的1×1 卷積對F中的數(shù)據(jù)沿水平方向進行聚合,在捕獲X軸長距離依賴關(guān)系的同時,也可以保留垂直方向的位置信息,該過程可表示為:

其中zX∈RC×H×1表示卷積結(jié)果。然后,將zX送入1×1 卷積,且經(jīng)過歸一化與激活函數(shù)處理,得到:

其中:σ表示Swish 非線性激活函數(shù),BN()表示批量歸一化,fX∈RC/r×H×1表示垂直方向上對空間信息進行編碼的中間特征圖。這里,r表示壓縮通道比例(實驗中r=4);隨后,利用另外一個1×1 卷積,將fX變換并與輸入特征圖F的通道數(shù)相同,記為:

其中g(shù)X∈RC×H×1表示通道擴充結(jié)果。

同理,采用另一個Y軸的1×1 卷積對F中的數(shù)據(jù)沿垂直方向進行聚合,在捕獲Y軸長距離依賴關(guān)系的同時,也可以保留水平方向的位置信息,該過程可表示為:

綜上所述,將gX與gY作廣播機制加法⊕,再經(jīng)Sigmoid 函數(shù)處理之后,記為:

其中β∈RC×H×W,表示三維注意力權(quán)值。最后,將權(quán)值β與輸入F點乘?,從而得到經(jīng)PCE3DA加權(quán)之后特征,記為:

2.3 位置敏感Transformer 編-解碼器

對于目標(biāo)檢測任務(wù),位置信息極為重要。在DETR 算法中,采用絕對位置編碼感知圖像的全局上下文信息,但在目標(biāo)檢測中圖像的分辨率通常很高,目標(biāo)特征更多依賴圖像的局部信息。因此,本文設(shè)計了一種PSSA 機制,且以此構(gòu)造位置敏感Transformer 編-解碼器,以提高模型對位置信息的敏感能力,從而提升目標(biāo)檢測精度。

2.3.1 PSSA 機制

為了利用每個元素在序列中的位置信息,提高它在計算機視覺任務(wù)中的表達能力,傳統(tǒng)的做法是將絕對位置編碼AP=[p1;p2;…;pN]嵌入到序列X的每個元素xi(如ViT[17])中,即:

其中pi∈Rdx表示第i個元素的絕對位置編碼向量,通常可采用正余弦函數(shù)計算得到[17]。最后,絕對位置編碼SA 可表示為:

在目標(biāo)檢測任務(wù)中,像素之間的相對位置信息對于提高模型對目標(biāo)的定位能力尤其重要。如圖4 所示,這里利用序列各元素之間的相對位置信息,設(shè)計了一種PSSA 機制,即通過嵌入可學(xué)習(xí)的相對位置編碼向量到SA 機制中,利用圖像中各特征之間的相對位置關(guān)系,提高模型的位置敏感能力,從而實現(xiàn)目標(biāo)的精確定位。

圖4 位置敏感自注意力機制Fig.4 Position sensitive self-attention mechanism

設(shè)Fms∈RC×H×W表示經(jīng)MSFF 模塊得到的多尺度特征圖譜,其中C,H與W分別表示通道數(shù)、高度與寬度。首先,對Fms中每個位置(h,w)沿通道維度的C個數(shù)據(jù)抽取出來,由此可將Fms轉(zhuǎn)化成一個由N(這里N=W×H)個元素組成序列,記為S={sn(h,w)|n=1,2,…,N},其中sn(h,w)∈R1×C表示第n個元素,h∈[1,H]與w∈[1,W]分別表示它在Fms中對應(yīng)的空間位置坐標(biāo);然后,為了建模sn(h,w)相對于S中任意其他元素sm(h,w)之間的相對位置關(guān)系,定義一個索引函數(shù)E(n,m)與3 個相對位置編碼向量,記為:

綜上所述,在輸入序列S中,根據(jù)兩個元素sn(h,w)與sm(h,w)之間的城區(qū)距離,為了學(xué)習(xí)它們之間的相對位置依賴關(guān)系,需額外考慮3 個與位置相關(guān)的向量,即在Query,Key 與Value 上分別加入相對位置編碼構(gòu)成PSSA,記為:

其中:WQ,WK,WV∈RC×C'分別表示與Q,K,V相對應(yīng)的且可學(xué)習(xí)的變換矩陣。C與C'分別表示輸入、輸出特征的維度,則對于S中的任意一個元素sn(h,w)∈R1×C,其PSSA 編碼過程可表示為:

其中:zn∈R1×C'表示PSSA 編碼輸出,ωnm表示使用縮放點積與SoftMax 計算的歸一化權(quán)重[18]。

2.3.2 位置敏感Transformer 編-解碼器

基于PSSA 機制,在DETR 算法[13]的啟發(fā)下,設(shè)計的位置敏感Transformer 編-解器如圖5所示,它主要由編碼器與解碼器兩部分組成。為了使模型在性能與參數(shù)量之間得到一個很好的平衡,如圖5 左側(cè)所示,編碼器由6 個相同的層構(gòu)成,且每個層主要由多頭PSSA 與MLP 組成。對于輸入序列S,將其寫成矩陣形式S0∈RN×C,記為:

圖5 編-解碼器結(jié)構(gòu)Fig.5 Encoder-decoder structure

編碼器重構(gòu)特征的過程可表示為:

其中:LN(),MLP()與mhPSSA()分別表示層歸一化、多層感知機與多頭PSSA 等操作,Y∈RN×C表示第6 層編碼器的輸出,即對序列S的最終編碼結(jié)果。mhPSSA 作為PSSA 的擴展,即并行地運行K個不同的PSSA 操作,每個注意力頭將分別關(guān)注輸入信息的不同部分,并將它們的輸出串聯(lián)起來作為最終的編碼結(jié)果:

為了使S經(jīng)mhPSSA 編碼之后,其輸入S與輸出Y保持相同的維度,每個PSSA 輸出的維度C'設(shè)置為輸入元素維度的K分之一,即。為了與DERT 模型進行公平比較,本文模型中的C也與其一樣也設(shè)置為256,且為了保證K能整除C,K只能取2,4,8,16 等整數(shù)。隨著注意力頭數(shù)的增加,模型計算復(fù)雜度會增加,所以本文后續(xù)實驗中K取4,一則可以在計算效率和性能之間達到折中;二則由于設(shè)計的模型面向無人機航拍圖像目標(biāo)檢測,mhPSSA 機制中的每個頭將從不同的角度感知目標(biāo)的不同部分。這些目標(biāo)按4 個角度觀察也可滿足要求,例如車的車頭和車尾、人體的頭部和身體等,mhPSSA將從4 個角度感知這些目標(biāo),且捕捉它們之間的語義關(guān)系而提取圖像的全局特征,從而能夠提高目標(biāo)檢測的準(zhǔn)確率。

MLP 包括兩個FC 層,F(xiàn)C1 層將輸入擴大為原來的4 倍,由于殘差連接的存在,F(xiàn)C2 輸出層再恢復(fù)原始維度,相應(yīng)的計算過程為:

其中:W1表示將特征從256 維投影到1 024 維的變換矩陣,W2表示從1 024 維投影回256 維變換矩陣,b1與b2均表示偏置向量。

如圖5 右側(cè)所示,解碼器類似于Transformer的標(biāo)準(zhǔn)結(jié)構(gòu),由6 個完全相同的層構(gòu)成,每個層主要由多頭SA、多頭交叉SA 與MLP 組成。設(shè)B0=[b1;b2;…;bM]表示由M個元素組成的目標(biāo)查詢(object query)序列,其中bi∈R1×C表示B中的第i個元素,對應(yīng)的是圖像中第i個預(yù)測目標(biāo)的特征向量。編碼器的第一個階段是先采用多頭SA 對進行編碼,然后,將輸出與編碼器的輸出Y相結(jié)合,再采用多頭交叉SA 進行編碼;最后,經(jīng)類似于編碼器的MLP 處理,得到最終的解碼特征。該過程描述為:

其中mhCSA()表示由K個交叉自注意力CSA()組成的多頭交叉自注意力,即:

2.4 集合預(yù)測與損失函數(shù)

對于目標(biāo)查詢序列B0=[b1;b2;…;bM],經(jīng)解碼器輸出得到,再將它們輸入兩個不同的FFN,以分別預(yù)測每個解碼特征所對應(yīng)目標(biāo)的類別標(biāo)簽與邊框,得到預(yù)測結(jié)果記為,相應(yīng)訓(xùn)練圖像所有真實目標(biāo)的類別clsi與邊框boxi的Ground Truth集合記為,實驗中M設(shè)置為200,通常遠遠大于圖像中真實目標(biāo)的數(shù)量J。在Transformer 這種端到端的目標(biāo)檢測框架中,因不需要NMS 后處理,訓(xùn)練時就得在U與二個集合之間尋找最佳匹配[13]。為了便于用匈牙利算法[19]在集合U與中找到最佳匹配,首先,將集合U填充M-J個?(表示無目標(biāo)),使它與元素數(shù)量相等,對于U中的每個ui=(clsi,boxi),其中clsi是目標(biāo)類標(biāo)簽(可能是?),boxi∈[0,1]4是其相對于圖像尺寸的中心坐標(biāo)及高度與寬度;然后,要在集合U與之間尋找最佳匹配,就是要尋找中M個元素的最佳置換σ∈ξM,使式(25)所示的匹配損失最小,即:

其中αt與γ為超參數(shù),分別表示第clsi類的權(quán)重與衰減參數(shù),αt=0.25,γ=2。

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集與實驗方法

為了驗證本文提出的PS-TOD 模型的有效性,本文使用公開的VisDrone 數(shù)據(jù)集[20]進行對比實驗。該數(shù)據(jù)集由天津大學(xué)AISKYEYE 團隊使用無人機在不同條件下低空拍攝獲得,包含1 360×765 和960×540 像素兩種圖像尺寸,涵蓋各種天氣和光照條件下日常生活中的各種場景,其中訓(xùn)練集6 471 張圖像、測試集3 190 張圖像和驗證集548 張圖像。數(shù)據(jù)集的圖像中包括行人、人、汽車、公交車、自行車、卡車、三輪車、雨棚三輪車、面包車以及摩托車等十類目標(biāo)。

本文采用COCO 數(shù)據(jù)集中的評價指標(biāo)來評價模型性能[23],主要比較AP,AP50,AP75,APS,APM與APL,其中AP 表示在0.5 至0.95 步長0.05 共10 個交并比閾值下的平均檢測精度的平均值,AP50與AP75分別表示交并比閾值為0.5 和0.75 時的平均檢測精度,APS,APM與APL分別表示對測試集中的小目標(biāo)(像素數(shù)量<322)、中等目標(biāo)(322<像素數(shù)量<962)與大目標(biāo)(像素數(shù)量>962)的平均檢測精度。實驗平臺采用Ubuntu18.04 操作系統(tǒng),GPU 為NVIDIA TITANX×4,CPU 為Intel(R)Core(TM)Xeon E5-2640,內(nèi)存為128 GB,編程語言為Python3.8,torch 版本為1.7.0。模型訓(xùn)練過程中使用AdamW 優(yōu)化器來優(yōu)化模型,批大小(Batch_size)為16,初始學(xué)習(xí)率為2×10-4,權(quán)值衰減為1×10-4,整個模型訓(xùn)練500 個Epoch,為了加快訓(xùn)練收斂速度,在初始訓(xùn)練時使用官方提供的Transformer 預(yù)訓(xùn)練模型。所有實驗均以VisDrone 的訓(xùn)練集與驗證集來完成模型的訓(xùn)練,然后對測試集中的所有圖像進行目標(biāo)檢測,統(tǒng)計相應(yīng)評價指標(biāo)。

3.2 消融實驗

3.2.1 模塊消融實驗

為了驗證PS-TOD 模型中兩個關(guān)鍵模塊(即基于PCE3DA 的MSFF 模塊與基于PSSA 的Transformer 編-解碼模塊)以及修改損失函數(shù)在無人機航拍圖像目標(biāo)檢測中的有效性,基于Vis-Drone 數(shù)據(jù)集進行了消融實驗,且在相同實驗條件下,再與基線模型DETR[13]進行對比,消融實驗結(jié)果如表1 所示。其中“Param”表示模型的參數(shù)量,單位取“兆(M)”,即當(dāng)不同模塊被嵌入到“基線”模型之后,以對比改進模型參數(shù)量的變化。

表1 VisDrone 測試集上的消融實驗結(jié)果Tab.1 Ablation experiment results on VisDrone test set(%)

由表1 實驗結(jié)果可見,在基線模型的基礎(chǔ)上,分別只應(yīng)用MSFF,PSSA 的Transformer 編-解碼或修改損失函數(shù)等部件,其AP 分別提高了1.7%,1.1%或1.3%,這說明本文所設(shè)計的兩個模塊與修改損失函數(shù)在無人機圖像目標(biāo)檢測任務(wù)中是有效的;若同時使用其中任意二個模塊,較之只使用一個模塊檢測精度可得到進一步提高,當(dāng)同時使用三個部件時,AP 達到最高28.8%。通過對各類目標(biāo)的檢測結(jié)果分析可知,MSFF 模塊通過類似于殘差連接的方式進行多尺度特征融合,且在PCE3DA 的驅(qū)動下,模型在具備多尺度特征提取能力的基礎(chǔ)上,還可更好地保留小目標(biāo)的特征信息;設(shè)計的PSSA 機制,較之原始的自注意力更能獲取像素之間的相對位置關(guān)系,在位置敏感的作用下,模型可以更好地關(guān)注圖像中的重點區(qū)域,并且在修改損失函數(shù)的約束下,不僅緩解了數(shù)據(jù)集類別以及正負(fù)樣本不平衡帶來的問題,同時使損失函數(shù)更加關(guān)注邊界框的位置,更能優(yōu)化模型的訓(xùn)練而提高無人機圖像中目標(biāo)的檢測精度。雖然設(shè)計的模塊可提高目標(biāo)檢測精度,但是會帶來參數(shù)量的增加,例如:當(dāng)MSFF 或PSSA 模塊分別被引入之后,較之“基線”模型,會帶來2.4M 或3.3M 參數(shù)量的增加,同時引入MSFF 與PSSA 模塊時,模型參數(shù)量達到42.51M。

3.2.2 PCE3DA 機制消融實驗

為了驗證設(shè)計的PCE3DA 機制在MSFF 模塊中的有效性,設(shè)計了7 組消融實驗,即在A 組(Baseline DETR[13)的基礎(chǔ)上,B,C,D,E 與F 組分別表示基于-SE(SENet[24]的SE 通道注意力),-SA(BAM[25]的空間注意力),-CA(文獻[16]的坐標(biāo)注意力),-CBAM(文獻[26]的通道和空間注意力)與-PCE3DA(本文設(shè)計的)等5 種不同的注意力機制,對骨干網(wǎng)絡(luò)的最后一層特征圖譜進行注意力加權(quán);G 組表示在F 組的基礎(chǔ)上還采用MSFF 進行多尺度特征融合,再結(jié)合Baseline 模型中編-解碼器與檢測頭。消融實驗結(jié)果如表2所示。

表2 不同注意力機制及使用多尺度特征的實驗結(jié)果Tab.2 Experimental results for different attention mechanisms and using multi-scale features(%)

由表2 可知,骨干網(wǎng)絡(luò)的特征圖譜只要經(jīng)注意力加權(quán)之后,不同尺寸目標(biāo)的檢測精度均可得到提高,且空間注意力要優(yōu)于通道注意力。總體上,本文設(shè)計的PCE3DA(即F 組)優(yōu)于其他4 種注意力,并且經(jīng)MSFF 模塊對多層級特征圖譜進行融合,檢測效果達到最優(yōu)(即G 組)。這主要得益于PCE3DA 能將特征更好地聚焦在感興趣區(qū)域,抑制無關(guān)信息,同時增強了特征表達與空間位置結(jié)構(gòu)信息,融合后的特征圖具有更豐富的語義信息和幾何細(xì)節(jié)信息。

3.2.3 PSSA 機制消融實驗

在Transformer 編-解碼中,為了驗證設(shè)計的PSSA 機制的性能,與文獻[27]及[28]計算相對位置編碼的方法進行了消融實驗,實驗結(jié)果如表3 所示。可以看出,在計算注意力得分時考慮兩個元素之間的相對位置,即引入相對位置編碼是必要的。本文所提相對位置計算方法最大程度提升了模型的AP 值,其主要原因是PSSA 通過定義的索引函數(shù)映射相對位置,使得到的相對位置編碼信息更加準(zhǔn)確,模型能夠獲得一定的平移不變性,更加符合目標(biāo)檢測任務(wù)的需求。

表3 不同相對位置計算方法的實驗結(jié)果Tab.3 Experimental results of different relative position calculation methods(%)

3.3 綜合對比實驗

為了進一步驗證本文提出的PS-TOD 模型在無人機航拍圖像目標(biāo)檢測任務(wù)中的性能,在VisDrone 數(shù)據(jù)集上與經(jīng)典及先進的目標(biāo)檢測模型進行實驗對比,包括Cascade R-CNN[4]、YOLOv8[32]與PVTv2[33]等方法。為了對比的公平性,每種算法除了其專門參數(shù)沿用原文之外,學(xué)習(xí)率、批大小與Epoches 等超參設(shè)置均與3.1 節(jié)相同,實驗結(jié)果如表4 所示。

表4 不同算法在VisDrone 測試集上的性能對比Tab.4 Performance comparison of different algorithms on VisDrone test set(%)

根據(jù)表4 的數(shù)據(jù),本文設(shè)計的PS-TOD 模型在無人機航拍圖像目標(biāo)檢測中表現(xiàn)良好,其AP50,AP75與AP 值分別達到了51.8%,28.3%與28.8%。與YOLOv8(速度最快)相比,雖然FPS有所下降,但YOLOv8 識別物體位置的精準(zhǔn)性差,而PS-TOD 的檢測精度獲得了2.3% 的提升;與具有相近檢測精度的QueryDet 模型相比,PS-TOD 的準(zhǔn)確率AP 和檢測速度FPS 都高于該模型。但AP75較之低了0.5,原因是AP75指標(biāo)對于目標(biāo)檢測框的重合率要求更高,PS-TOD 模型作為一種無錨框引導(dǎo)的檢測方法,在目標(biāo)定位精確方面可能稍弱于專門針對小目標(biāo)優(yōu)化的QueryDet 模型,但與其他模型相比,PS-TOD 在AP75方面仍然具有明顯的優(yōu)勢,即PS-TOD 能較好地平衡檢測精度與檢測速度。綜上所述,通過對比實驗結(jié)果可知,在設(shè)計的PS-TOD 模型中,首先基于PCE3DA 機制構(gòu)造自底向上的跨層MSFF 模塊,可讓網(wǎng)絡(luò)更好地獲取圖像的上下文多尺度特征,在提高小目標(biāo)檢測精度的同時,還可兼顧多尺度目標(biāo)的檢測能力;然后,基于PSSA 機制設(shè)計的Transformer 編碼器,可使用像素之間的相對位置信息,增強模型的位置敏感能力,提高了無人機航拍圖像目標(biāo)的定位能力及檢測精度。

為了觀察PS-TOD 模型在無人機航拍圖像目標(biāo)檢測中的具體表現(xiàn),圖6 為可視化VisDrone測試集中各種情況下具有代表性的圖像檢測結(jié)果。可以看出,本文模型在光照變化、復(fù)雜背景、高空拍攝視角、目標(biāo)稀疏、目標(biāo)密集與運動模糊等6 種不同的環(huán)境下,均能夠檢測出大多數(shù)的目標(biāo),說明設(shè)計的PS-TOD 模型對無人航拍機圖像在各種情況下都具有非常優(yōu)秀的檢測能力,足以應(yīng)對生活中發(fā)生的各類實際情況。

圖6 PS-TOD 在VisDrone 測試集上的部分檢測結(jié)果Fig.6 Partial detection results of PS-TOD on VisDrone test set

除此之外,為了進一步觀察PS-TOD 對每類目標(biāo)的檢測性能,分別統(tǒng)計了它與基線模型DETR[13]對VisDrone 測試集中每類目標(biāo)的具體檢測性能,如表5 所示。對比結(jié)果表明,PS-TOD 總體上改善了單類目標(biāo)的平均檢測精度,尤其是對于小目標(biāo),提升效果非常明顯。在小目標(biāo)比例較多的行人、人、自行車與摩托車這四類目標(biāo)中,相較于基線模型檢測精度分別提升了4.2%,3.7%,2.6%與3.5%;另外,在目標(biāo)尺寸相對較大的類別(如汽車類和卡車類)中同樣也有明顯優(yōu)勢,如汽車類別別的AP 高達64.3%。綜合各種尺寸目標(biāo)的檢測效果,充分驗證了本文提出的PS-TOD模型在提高小目標(biāo)檢測精度的同時,還可兼顧其他尺度的目標(biāo)檢測能力。

表5 VisDrone 測試集中不同類別實驗結(jié)果Tab.5 Experimental results of different categories on VisDrone test set(%)

為了更深入觀察基線DETR[13]模型與PSTOD 在小目標(biāo)檢測中的性能優(yōu)劣,在VisDrone測試集中選取小目標(biāo)存在的夜晚和白天等兩種場景,如圖7 所示,可視化得到4 組檢測效果的對比圖。通過對比圖7(a)與圖7(e)、圖7(b)與圖7(f),在夜間較低照明的狀態(tài)下,基線模型由于背景噪聲信號的影響漏檢了圖7(a)中站立在高架橋上的行人與圖7(b)中大量行人,而PS-TOD通過注意力機制,減少背景影響、增加感興趣目標(biāo)的特征信息,成功檢測到基線漏檢的行人;對比圖7(c)與圖7(g)、圖7(d)與圖7(h)可以發(fā)現(xiàn),基線模型漏檢了圖7(c)大量遠處的人及汽車與圖7(d)中路口處的人及行人等小目標(biāo),而PSTOD 通過融合多尺度信息與添加位置信息,使得模型得到更好的目標(biāo)特征信息,強化模型對小目標(biāo)的定位能力,可精確檢測部分漏檢的小目標(biāo)。總之,PS-TOD 相對于基線模型具有更為優(yōu)越的檢測性能,尤其針對較小尺寸目標(biāo)具有更強的檢測辨別能力,有效降低小目標(biāo)漏檢與誤檢的概率。

圖7 小目標(biāo)檢測效果對比Fig.7 Comparison of small object detection result

4 結(jié)論

針對無人機航拍圖像小目標(biāo)多且檢測困難的問題,本文在Transformer 框架下提出了一個PS-TOD 模型。首先,設(shè)計了基于PCE3DA 的多尺度特征融合模塊,即通過融合不同層級的特征圖譜,有效地利用它們在空間與通道二個維度中的上下文信息,以增加骨干網(wǎng)絡(luò)的多尺度特征提取能力;然后,結(jié)合相對位置編碼,設(shè)計了PSSA機制,且以此構(gòu)造了一個Transformer 編-解碼器,以幫助模型在捕獲圖像全局上下文信息的長期依賴關(guān)系時,也可提高模型對位置信息的敏感能力,從而提升模型對小目標(biāo)的檢測精度。基于VisDrone 數(shù)據(jù)集的實驗結(jié)果表明,所提PS-TOD作為一種端到端的目標(biāo)檢測模型,其檢測過程不需要事先錨框設(shè)置與事后NMS 處理,在復(fù)雜背景下能精確地對無人機航拍圖像進行目標(biāo)檢測,且有效地改善了小目標(biāo)的檢測效果。在后續(xù)工作中,除了進一步優(yōu)化PSSA 機制,以降低模型的參數(shù)量,提高檢測速度之外,還需要將研究成果應(yīng)用到其他數(shù)據(jù)集中,進一步驗證所提模型的檢測精度與泛化能力。

猜你喜歡
特征檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應(yīng)用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲综合18p| 色综合天天视频在线观看| 中文字幕免费播放| 欧美一级在线看| 三上悠亚在线精品二区| 天天爽免费视频| 国产成人av大片在线播放| 亚洲国产91人成在线| 午夜福利免费视频| 免费网站成人亚洲| 日本不卡在线视频| 国产国语一级毛片| 亚洲天堂网在线播放| 欧美日本在线| 国产视频入口| 亚洲成人一区在线| 亚洲黄色成人| 日韩专区欧美| 国产乱人免费视频| 国产第八页| 国产91丝袜在线播放动漫 | 91色综合综合热五月激情| 99久久性生片| 久久中文无码精品| 国产第一页屁屁影院| 99中文字幕亚洲一区二区| 九色视频线上播放| 免费99精品国产自在现线| 曰AV在线无码| 中文无码毛片又爽又刺激| a级毛片免费看| 露脸国产精品自产在线播| 久青草国产高清在线视频| 成人免费网站久久久| 欧美日韩在线国产| 国产激情第一页| 国产原创自拍不卡第一页| 色网站在线免费观看| 日本国产一区在线观看| 天堂在线www网亚洲| 亚洲午夜福利精品无码不卡| 亚洲日韩精品欧美中文字幕| 亚洲码一区二区三区| 91麻豆国产视频| 国产伦精品一区二区三区视频优播 | 91久久国产综合精品女同我| 亚洲乱码在线播放| 国内嫩模私拍精品视频| 99久久精品美女高潮喷水| 欧美午夜在线观看| 一本久道热中字伊人| 91精品啪在线观看国产| 91视频首页| 色老二精品视频在线观看| 久草国产在线观看| www.精品国产| 四虎免费视频网站| 亚洲欧洲综合| 伊人网址在线| 精品剧情v国产在线观看| 日韩毛片免费| 999国内精品久久免费视频| 91色在线观看| 91国内外精品自在线播放| 久久99蜜桃精品久久久久小说| 亚洲午夜国产精品无卡| 国产白浆一区二区三区视频在线| 久一在线视频| 精品福利一区二区免费视频| 狠狠色丁香婷婷| 色综合a怡红院怡红院首页| 91香蕉视频下载网站| 亚洲综合精品香蕉久久网| 国产精品视频猛进猛出| 亚洲欧美不卡| 黄色成年视频| 亚洲侵犯无码网址在线观看| 色偷偷一区| 在线观看无码a∨| 黄色污网站在线观看| 天天综合网亚洲网站| 丝袜无码一区二区三区|