999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于幾何表征學習的弱監督旋轉目標檢測

2025-07-22 00:00:00張琦吳斌張紅英王嬌
西南科技大學學報 2025年2期
關鍵詞:分支尺度邊界

中圖分類號:TP391 文獻標志碼:A 文章編號:1671-8755(2025)02-0094-11

Abstract: To address the challnges of high complexity and annotation costs in general rotated object detection for remote sensing images, this paper proposed a weakly supervised rotated object detection model based on geometric representation learning.The proposed method utilized only horizontal bounding box annotations for training and employed a dual-branch architecture with shared backbone and neck networks.The weakly supervised branch learned the position,aspect ratio,and scale consistency of rotated bounding boxes from horizontalannotations,while theself-supervised branch enhanced rotation consistency.To improve feature representation and contextual interaction,the model introduced a shalow feature enhancement module and proposed a geometric vector representation for rotated bounding boxes, thereby improving the accuracy of rotation consistency learning. For bounding box regression,a distance loss based on vertex coordinates (FPD Loss)was introduced to reduce the sensitivity of size regression to angle precision. Experimental results on the public remote sensing datasets DOTA and DIOR -R demonstrate that the proposed model achieves accuracies of 79.33% and 58.50% ,respectively,outperforming the H2RBox algorithm by 4.8 and 1.5 percentage points. The proposed method improves accuracy while reducing computational cost and complexity under the condition of horizontal bounding box annotations, providing a novel solution for rotated object detection in remote sensing images.

Keywords: Remote sensing image;Weakly supervised learning;Rotated object detection; Vector representation;Feature enhancement

隨著遙感圖像及相關技術的快速發展,目標檢測已作為遙感應用中的核心技術之一,廣泛應用于環境監測[1]、城市規劃[2]、災害響應[3]等領域。然而,傳統的目標檢測方法在處理旋轉目標時面臨較大挑戰。通用目標檢測器使用水平標注框監督的方法,忽視了檢測造成的背景冗余,目標定位容易出現偏差,對于檢測精度要求較高的場景檢測效果不能令人滿意。旋轉目標檢測器可精準檢測任意方向的目標,從而實現更精確的目標定位與背景分離。

當前旋轉目標檢測器大多基于旋轉框標注,旨在改進通用水平框標注的不足,通過增加旋轉角度的標注以適配旋轉目標檢測任務。Ma等[4]首次引入文本區域提案機制用于解決旋轉目標檢測任務,并取得了良好的檢測效果。Lin等5通過優化標準交叉熵損失以應對背景類不平衡問題,降低了對良好分類樣本的損失權重,從而提升檢測性能。Ding等[通過引入一個旋轉區域對齊模塊,將傳統的水平邊界框轉換為旋轉邊界框,從而實現對旋轉目標的檢測。Yang等7通過限制目標范圍內的采樣點,替代傳統邊界框選取目標特征,為目標檢測任務提供了新的解決思路。Han等8創新性地引人旋轉等變網絡,根據候選區域方向自適應地從等變特征中提取旋轉不變特征,有效解決了角度回歸中的不連續性問題。然而,這些方法對高長寬比目標的特征捕獲能力不足,且過度依賴角度預測,導致檢測精度較低。

在角度表征方面,現有方法主要基于旋轉框、四邊形和頂點偏移3種方式進行表示。最早的旋轉框表征方法由RRPN提出,使用五參數旋轉邊界框表征,但由于角度參數設置的限制,其直接角度回歸難以涵蓋任意朝向。Yang等[提出了改進的平滑L1損失解決旋轉邊界框回歸中角度不連續問題。Yang等[\"]通過高斯分布Wasserstein距離實現幾何間接角度表征,并采用無邊界角度編碼克服角度周期性帶來的損失不連續性及回歸不一致問題。Hou等[]設計了自適應點集方法,用于對象表示的語義信息捕獲,從而緩解角度回歸的敏感性。然而,上述基于回歸角度的方法盡管在一定程度上提升了檢測性能,但未能完全解決角度表征局限性導致的旋轉邊界框回歸突變問題。

由于旋轉檢測方法通常依賴高質量的旋轉框標注數據,而數據標注的成本較為昂貴,研究者逐步探索基于弱監督學習的旋轉目標檢測方法。不同于全監督方法,弱監督方法僅需少量標注信息即可學習旋轉目標檢測。Khoreva等[12利用弱監督語義標簽進行迭代訓練,實現了接近于全監督學習的分割任務效果。Hsu等[13]將多示例學習與實例分割相結合,實現端到端實例分割。Tian等[14提出基于無候選區域的實例分割方法,使用顏色成對親和性與邊界框約束取得了顯著的分割性能。Li等[15]在損失函數中引入了能量函數預測實例分割掩碼,通過分割掩碼生成旋轉邊界框,然而,在目標密集排列或復雜背景的場景中,分割掩碼效果不佳,影響了旋轉框預測的精度。Yang等[1提出H2RBox方法,通過繞過掩碼的中間形態,利用兩種視角構建幾何約束,通過水平邊界框直接學習旋轉框角度信息,在檢測精度方面顯著優于基于分割的檢測模型。基于H2RBox, Yu 等[1進一步提出H2RBox-v2,通過引入軸對稱的旋轉一致性,進一步優化了旋轉檢測器。上述方法采用弱監督旋轉目標檢測,降低了對高質量標注數據的依賴,推動了旋轉目標檢測技術的發展與應用。但在角度表征和邊界框回歸方面,由于忽略了邊界框位置、縱橫比和比例等因素對角度預測的潛在影響,限制了其性能的進一步提升。

為應對遙感場景中旋轉目標檢測算法中存在的計算復雜、成本高昂以及大長寬比目標角度回歸困難等挑戰,本文在H2RBox的基礎上提出基于幾何表征學習弱監督旋轉目標檢測器,旨在通過高質量的角度表征提高弱監督旋轉目標檢測精度。該模型采用弱監督加自監督雙分支結構,共享主十和頸部網絡。其中,弱監督分支用于從水平框標簽中預測旋轉框的中心位置、縱橫比和尺度一致性,而自監督分支,通過旋轉角度的向量表征提升旋轉一致性學習。為區分局部背景和加強目標特征表達,設計增強淺層特征模塊和上下文交互模塊,在高層特征中加強淺層特征表達,通過空洞深度卷積對非局部空間信息交互,擴大感受野,加強前后背景區別。解耦檢測頭模塊設計并行分支來解耦分類和回歸任務,并在損失函數中引入基于邊界框頂點坐標的距離損失(FourPointsDistanceLoss,FPDLoss),用于緩解目標尺寸變化對角度精確度的依賴。

1弱監督旋轉目標檢測模型

1.1 整體網絡結構

本文提出幾何表征弱監督旋轉目標檢測網絡WS-GRDet的總體框架如圖1所示,采用多分支的預測任務,整體網絡分為弱監督分支(WeaklySuper-vision,WS)和自監督分支(SelfSupervision,SS)。自監督分支進行原始輸人圖像旋轉增強的自監督學習,其目的為獲得兩個視圖之間一致的預測旋轉框角度。弱監督分支則是基于水平框標注,預測目標水平框的中心位置和長寬尺度以及類別,再與自監督分支預測的角度特征重構生成預測旋轉框回歸檢測結果。

圖1 WS-GRDet整體結構Fig.1 Overall architectureofWS-GRDet

特征提取部分采用雙分支共享主干和頸部網絡,其結構分為特征提取骨干、特征融合模塊以及解耦檢測頭3個部分。首先,采用 Swin Transformer[18]作為主干檢測網絡,從原始圖像中提取不同尺度特征。為區分局部背景和加強目標特征表達,在特征融合部分設計了淺層特征增強模塊(ShallowFeatureEnhancementModule,SFEM)和上下文交互模塊(ContextualInteractionModule,CIM);在特征層橫向連接之前,對主干提取的淺層特征進行增強,并在高層特征中加強淺層特征表達;在上下文交互部分,通過空洞深度卷積對非局部空間信息交互,擴大感受野,加強前后背景區別。然后,將自監督特征與弱監督特征進行重構組合。最后,通過包含分類子網絡和回歸子網絡的解耦檢測頭模塊實現目標的分類和回歸任務。

如圖2所示,主干網絡使用SwinTransformer作為骨干網絡。首先通過塊劃分過程,將原始 H×W×3 的輸入分割為一系列非重疊的同等規格的 N×P2×3 個圖像塊,網絡中 P 設置為4,每個圖像塊被視為一個單獨的圖像塊標記。因此,圖片經過圖像塊分割操作后形成了一個 (N×P2×3=H/4×W/4×48) 維的扁平化2D圖像塊序列。此序列接著通過一個全連接層轉化成維度為( H/4×W/4)×C 的線性嵌入表示,該線性嵌入作為后續多個SwinTransformer模塊的輸入。基礎構成單元滑動窗口塊(SwinTrans-formerBlock)由前饋神經網絡構成的多層感知機(MultilayerPerceptron,MLP)以及窗口分割多頭自注力W-MSA模塊組合而成。MLP由兩個全連接層構成,并在它們之間插入了使用GELU激活函數的非線性變換層。在每個MSA模塊和MLP前進行輸入特征的歸一化處理。位窗口劃分方法引入了先前層非重疊相鄰窗口間的聯系,增強了特征的表達能力,通過多個滑動窗口塊移位分割可得到4個不同尺度的特征。

1.2 特征融合增強

相較于自然場景圖像,遙感場景圖像因其目標存在任意方向排列,且復雜背景中小目標的特征提取難度較大,使得自標檢測面臨更大的挑戰,整體檢測性能亟需提升。特征金字塔網絡 FPN[19] 可用于解決自然圖像中的尺度變化問題,通過自上而下的路徑融合高層特征和淺層特征,從而學習多尺度特征。一些方法采用新穎的結構來提取并豐富目標的特征,例如:FRPNet[20]通過將更高層級的特征映射與相鄰的低層級特征映射相融合,進一步豐富了目標的細節信息; ABNet[21] 通過選擇性地細化不同特征圖以應對多尺度和密集目標檢測;祝嚴剛等[22設計了一種非局部均值模塊,通過計算特征圖全局相似度捕獲長距離依賴關系,從而提升特征表示。然而,這些方法主要聚焦于增強上下層特征的表達能力,忽略了底層位置信息及細粒度上下文交互的提取,在遙感場景中的應用效果不能令人滿意。

針對上述問題,本文對特征金字塔網絡進行改進,其結構如圖3所示。本模型主要由淺層特征增強模塊SFEM和上下文交互模塊CIM構成,旨在增強網絡對淺層特征的表達能力及上下文信息的交互效率,有效緩解復雜背景遮擋和淺層特征模糊等問題,從而提升遙感場景圖像的檢測性能。

具體而言,首先在頸部網絡中將主干網絡中的多個特征輸出層 Fi 作為輸人,經過淺層特征增強模塊SFEM(結構如圖4所示),利用骨干網絡獲得的多尺度特征 {F1,F2,F3,F4} 構建特征金字塔。

圖3改進特征金字塔結構
圖4淺層特征增強模塊結構Fig.4SFEM module structure

考慮 F1 層特征中存在著大量淺層目標位置信息,在特征融合橫向連接之前,采用顯著性池化將主干提取的淺層特征 F1 通過自適應平均池化層提取顯著性信息,用于不同尺度 {F2,F3,F4} 特征下的淺層特征傳遞,具體如式(1)所示:

而位置性池化通過在不同尺度的特征圖上選擇相同位置的特征進行聚合,如式(2)所示,采用自適應最大池化操作聚合特征,從而在多尺度特征融合時保持位置信息的一致性。

式中: ? 為逐元素乘積; 為自適應權重。具體來說,輸入特征經過平均池化以及最大池化來獲取不同類型的池化特征,并通過全連接層壓縮通道維度,再經過Sigmoid激活函數得到通道注意力權重 最后,通過卷積將兩部分特征融合得到增強的淺層特征 Fi' ,并傳遞至其他高層特征,有效解決了特征尺度變化時的淺層特征的位置細節丟失。

為增強特征空間、通道之間交互,提出了一種結合深度卷積與空洞深度卷積的上下文交互模塊,其結構如圖5所示。模塊通過深度卷積 ConvDW 在通道內實現局部空間信息的交互,同時空洞卷積ConvDC 解決非局部空間交互,從而顯著擴大了感受野。

圖5上下文交互模塊結構Fig.5 CIM module structure

為了封裝每個通道的全局信息和關鍵特征,設計了通道交互塊CIBlock,其結構如圖6所示。通道交互塊采用了全均池化(Global AveragePooling,GAP)和全局最大池化(GlobalMaxPooling,GMP)。

通過全連接層來共享權值,將兩類池化特征連接,并通過另一個全連接層和Sigmoid激活函數傳遞,動態調整通道權重與輸入特征圖尺度。為緩解梯度消失或梯度爆炸問題,借鑒了 ResNet[23] 的設計思想。通過殘差連接得到最后的輸出,這樣的結構不僅增強了加權效果,又有效保留了原始信息

Ai(x)=Wx+x

(4)式中: ?:Ai 為通道交互塊CIM; W 為通道交互塊的通道權重; x 為輸人通道; ConvDW 為深度卷積; ConvDC 為空洞卷積。

在特征提取的后續階段,在原有特征金字塔的基礎上對第四、第五階段的特征進行 3×3 卷積的上采樣后,最終得到5個尺度的特征。

圖6 通道交互塊

1.3 解耦檢測頭

傳統目標檢測頭在遙感圖像中的應用常出現檢測框選取不精確、部分目標框重疊等問題,在后處理階段易導致部分檢測框被過濾,從而引發目標漏檢現象。本文使用基于 FCOS[24] 檢測頭并改進,增加一條角度回歸支路,通過結合原有的水平框回歸支路生成旋轉框,其結構如圖7所示。改進的檢測頭采用解耦設計,由分類和回歸兩部分組成。

圖7改進FCOS檢測頭 Fig.7Optimized FCOS detection head

首先將特征金字塔 P1-P5 和旋轉候選框作為輸入,分類子網絡中預測每個特征點的目標類別概率及中心性分數,中心性分數通過度量特征點位置與目標框中心點之間的歸一化距離可有效削弱距離目標中心較遠的候選框置信度。回歸子網絡則包括角度向量回歸和邊界框回歸,后者預測每個特征點相對于該位置邊界框中心的偏移量與寬高距離。通過解碼后在特征圖的每個采樣位置都會得到候選框的角度、分類得分以及位置信息。

1.4幾何旋轉表征學習

旋轉矩形框是旋轉目標檢測的主要表征方式,通常采用5參數表示法,該方法通過直接或間接回歸5個參數 (x,y,w,h,θ) ,分別對應旋轉框的中心坐標、長寬尺寸以及目標朝向角度。角度的定義方式包括OpenCV表示法和長邊表示法。與 x 軸順時針方向的旋轉角度,在OpenCV表示法中,旋轉角度的范圍為 [0,-π/2] ,而長邊表示法中,角度為旋轉框長邊與 x 軸的夾角,范圍為 [-π/4,3π/4] 。當目標角度接近0或 ±π/2 時,角度回歸值出現突變,導致邊界框尺度發生劇烈變化,從而降低旋轉目標檢測的整體性能。

角度回歸可以通過角度編碼來實現更加穩定的預測,常見的編碼方式包括密集編碼和稀疏編碼。密集編碼將旋轉角度 θ 轉換為 N 類表示,而稀疏編碼則是通過one -hot[25] 方式編碼,將角度離散化為特定的有限值區間。然而密集和稀疏編碼方式對角度的表示范圍有限,難以應對連續角度的精確描述。余弦-正弦編碼通過將角度轉換成其對應的余弦和正弦值表示,解決了角度的周期性問題,并且避免了單角度表示法中的邊界問題。高斯距離分布編碼則進一步將旋轉邊界框的角度表示轉化為基于二維高斯距離分布的連續值表示,通過無邊界編碼方式克服了角度周期性帶來的損失不連續性以及回歸不一致性問題。此外,Yang等[26]提出利用角度分類代替回歸方法,較好地解決了預測框邊的不連續性和角度周期導致的檢測精度下降問題。然而,角度編碼對大長寬比目標檢測較為敏感,限制了此類編碼方法在復雜場景中的適用性。

為提高角度表征精度,本文在自監督分支中引入幾何向量表征,替代傳統的5參數角度回歸。通過長邊定義法預測旋轉框參數 (x,y,w,h,θ) ,在笛卡爾坐標系,以候選框中心位置為原點,利用 x 軸作為參考向量,構造了一組基于旋轉角度 θ 的正交向量組 {V1,V2} ,重構的旋轉框表征為 (x,y,w,h,V1 ,V2 ),其表征過程如圖8所示。

圖8旋轉框的向量法表征示意圖Fig.8Illustrative diagram ofvector representation forrotated bounding boxes

具體而言,首先通過向量將旋轉框的長寬尺度和方向表征為基于旋轉方向的正交向量組,將該向量正交順時針旋轉 90° 得到另一個基向量。兩個正交基向量的大小表示旋轉框的寬度 w 和高度 h ,具體計算形式如式(5)所示:

式中 R(θ?θ) 為旋轉矩陣。預測候選框角度可由表征向量表示:

式中 |?| 為向量范數。模型在角度回歸后,通過公式(6)將角度表征轉換為對應角度值。

1.5 損失函數

在自監督分支中,為比較旋轉候選框和GT水平框的不同,使用向量集之間的相關性相似度(Vec-torSimilarity,VS)約束作為角度回歸的損失函數,其計算過程如式(7)所示:

式中: Vip,Vig 分別表示預測框和GT框的向量集; N

為向量集的數量。

使用分類回歸子網絡預測水平邊界框,弱監督分支損失函數 Lws 主要由中心位置、類別以及邊界框3部分損失構成,如式(8)所示:

Lws1Lcls2Lcn+

式中:分類損失 Lcls 使用焦點損失[5];交叉熵損失作為中心性損失 Lcn1,μ2,μ3 分別表示 Lcls,Lcn,Lreg 的權重,通過驗證集實驗均設置為 l:cnpos 為正樣本預測中心; 1{ci,y}gt;0 為正負樣本判別器。

在邊界框回歸中提出四點歐式距離FPDIoU損失代替傳統的RotatedIoU作為弱監督的回歸損失Lreg ,其具體計算過程如式(9)所示:

式中: ;A,B 分別表示預測候選框和GT框; 為交并比; di2 為預測框與GT框角點的歐式距離的平方。引人 作為尺度偏移的懲罰項,用以約束由角度偏差導致的預測框邊界回歸差異,圖9展示了FPDIoU具體表示過程。

圖9FPDIoU損失回歸示意圖Fig.9Regression process of FPD IoU Loss

網絡的總損失采用弱監督損失與自監督角度表征損失的總和:

Ltotal=LwsssLvs

式中 μss 為自監督分支的權重,在實驗中設置為1。

2 實驗結果與分析

2.1 數據集

本文使用遙感影像目標檢測中常用的DOTA[27]和 DIOR-R[28] 數據集。DOTA是最大的航空圖像檢測基準之一,包含了188282個實例,分布在2806張尺度不一的影像中,并覆蓋了15個常見類別,分別為飛機(PL)、輪船(SH)、儲罐(ST)、棒球場(BD)、網球場(TC)、籃球場(BC)、地面跑道(GTF)港口(HA)、橋梁(BR)大型車輛(LV)、小型車輛(SV)、直升機(HC)、環形交叉路口(RA)、足球場(SBF)游泳池(SP)。其中圖像尺寸變化幅度大,包含從 800×800 到 4000×4000 像素,涵蓋了不同尺度、朝向和幾何形狀的目標。DIOR-R是另一個常用的遙感檢測數據集,包含23463張高分辨率遙感圖像及190288個旋轉邊界框標注實例,覆蓋船舶、車輛、機場等20類典型地物目標。

2.2實驗環境與評價指標

2.2.1 實驗環境

整個模型構建使用開源的有向目標檢測工具MMRotate實現并訓練模型,所有實驗均在單個GPU的NVIDIAGeForceRTX3080TI上進行,其顯存容量為16GB,采用的深度學習框架為Pytorch2.0.1。構建模型的主干網絡SwinTransformer,設定隨機深度率為0.2,窗口尺寸為 7×7 像素。在每個階段,多頭注意力的頭部數量按照2,6,12,24的順序分配。在訓練階段,采用 log0 格式表示旋轉預測框,使用AdamW作為優化算法,初始學習率設置為0.0001。在訓練和測試時將圖像切分為 1024× 1024像素的子圖,子圖之間設置了500像素的重疊區域,訓練最小周期設置為12輪。

2.2.2 評價指標

本文采用廣泛使用的目標檢測評估指標平均精度(MeanAveragePrecision,mAP)綜合評估算法的整體性能。計算所有類別的AP值的平均值,用于衡量目標檢測算法在多個類別上的總體表現。其中準確率、平均精度的定義分別如式(11)式(12)所示:

mAP50代表檢測結果與真實標注框的IOU重疊度為0.5時的平均精度值。本文主要采用mAP50作為評價指標,用于模型在數據集上的檢測表現。

2.3 結果分析

2.3.1 對比實驗

為驗證算法的先進性,將本文提出算法與部分主流旋轉目標檢測算法在遙感圖像DOTA數據集上進行對比。包括全監督算法RetinaNet[5],(20 R3Det[29] ,RoI Transformer[6],Rotated FCOS[24] 以及弱監督旋轉目標檢測算法BoxInst[14],BoxLevel-Set[15] ,H2RBox[16],在Dotav1.0數據集上比較實驗性能,其中相關方法均采用 ResNet50+FPN 作為主干和頸部網絡進行模型訓練。對比實驗中各方法的檢測結果如表1所示,其中訓練策略 1x,3x,ms 分別表示12輪、36輪、多尺度操作。

圖10模型在DOTA數據集上的部分檢測結果Fig.10Partial detectionresults of theproposed method onDOTA dataset

%

表1相關算法在DOTA1.0數據集上的檢測對比Table1Comparison of detection results of related algorithmsonDOTA1.O dataset
注:部分數據因篇幅限制未在此列出。

從表1可以看出,本文方法( ΔWS-GRDet 在所有方法中得到最高的 mAP 值,達到了 79.33% ,同時在小型車輛(SV)、大型車輛(LV)、輪船(SH)、儲罐(SP)等目標中的AP表現優于其他先進的弱監督旋轉目標檢測器。此外,相較于弱監督旋轉目標檢測器H2Rbox在 1x,3x,3x+ms 訓練配置下, mAP 分別提升了7.26,6.79,4.80個百分點。與R-FCOS相比,在某些類別的檢測性能仍有一定差距,但WS-GRDet的整體性能已接近全監督檢測器的水平。

此外,本文還在DIOR-R數據集上實驗驗證了模型的性能,通過和其他方法在DIOR-R數據集上表現的對比,能夠看出WS-GRDet模型有良好的檢測性能。具體結果如表2所示。

2.3.2 消融實驗

為驗證模型不同分支對模型的貢獻,在DOTA數據集上分別驗證了弱監督分支(WS)和自監督分支(SS)對模型精度的影響。從表3可以看出,網絡移除弱監督分支后,mAP下降9.79個百分點,表明WS分支通過水平框約束顯著提升了位置和尺度回歸的穩定性。僅使用WS分支時,模型仍能達到72.82% 的mAP50,證明弱監督分支有一定的檢測能力。而僅使用弱監督分支對模型精度影響較大的原因是缺失自監督分支的目標角度信息。

表3模型分支消融實驗Table 3Ablation experiment of model branch

為進一步驗證算法的有效性,以WS-GRDet(Swin Transformer + FPN)方法為基準方法,在遙感場景DOTA數據集上分別對特征融合部分的淺層特征增強模塊SFEM和上下文交互模塊CIM、自監督分支向量表征的角度回歸損失 Lvs 以及弱監督邊界框回歸損失FPDIoU進行可行性實驗驗證分析。

特征融合模塊實驗結果如表4所示。分別嵌入SFEM和CIM模塊,mAP分別達到77. 53% ,78.94% ,相較于基線方法,嵌入SFEM模塊后,mAP取得了2.45個百分點的提升,而嵌人CIM模塊提升了3.86個百分點,充分體現了特征融合模塊對網絡模型性能提升的顯著效果。經過分析,SFEM有效增強了高層特征中的淺層特征表達能力,解決了特征尺度變化導致的位置細節丟失問題。而CIM模塊強化模型在空間和通道的交互,擴大了特征融合部分的感受野,強化感興趣目標的特征,更容易準確地捕捉到目標位置信息,從而有效減少了漏檢和誤檢。

表2不同方法在DIOR-R數據集的對比表4特征融合模塊消融實驗

在損失函數消融部分,基準方法中自監督的角度回歸采用平滑L1損失[5],而弱監督分支采用旋轉IoU損失。實驗結果如表5所示,向量表征損失相較于平滑L1損失方法提升1.74個百分點,有效提升了角度回歸的精確性。

表5損失函數消融實驗Table 5Ablation experiment of loss functior

在回歸損失方面,弱監督分支PFDIoU相比于基準RotatedIoU提升了3.86個百分點,改進的損失函數在弱監督場景下具有明顯優勢。改進的FPDIoU主要優勢體現在預測長寬尺度較大的目標時利用尺度偏移的懲罰有效降低了預測候選框的尺度變化對回歸角度的依賴,而 Lvs 和FPDIoU相結合訓練,邊界框在幾何回歸中的精度有所提升,進而提升了模型的訓練精度。

3結論

本文基于H2Rbox范式,提出了一種基于幾何旋轉表征的弱監督旋轉目標檢測模型WS-GRDet。在特征融合部分,通過SFEM和CIM模塊增強淺層特征表達和提高上下文細粒度,極大提升了特征提取的質量;在自監督回歸中,引入向量表征用于旋轉角度回歸學習,有效提高了角度準確性;在弱監督回歸中,引入基于邊界框頂點坐標的距離損失,通過在旋轉交并比損失增加尺度變化的懲罰項,懲罰由于角度變化引起的邊界框回歸誤差。在公開遙感數據集DOTA和DIOR-R上進行了測試,相較于基準模型,本文方法平均精度分別提升了4.80個百分點和1.50個百分點,分別達到 79.33% 和 58.50% 。在基于水平框標注數據的條件下,提升準確率的同時顯著降低了計算量和復雜度。

參考文獻

[1]聶光濤,黃華.光學遙感圖像目標檢測算法綜述[J]. 自動化學報,2021,47(8):1749-1768.

[2]SHAFIQUE A, CAO G, KHAN Z, et al. Deep learningbased change detection in remote sensing images:a review[J].Remote Sensing,2022,14(4):871.

[3]CAO D, ZHU X Y,HUANG X Y,et al. Domain balancing:face recognition on long-tailed domains[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2020:5670-5678.

[4]MAJQ,SHAO WY,YEH,et al.Arbitrary-oriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia,2018,20(11): 3111 -3122.

[5]LIN T Y,GOYAL P,GIRSHICK R, et al. Focal loss for dense object detection[C]//2O17 IEEE International Conference on Computer Vision(ICCV). IEEE,2017: 2999 -3007.

[6] DING J,XUE N,LONG Y,et al. Learning RoI transformer for oriented object detection in aerial images[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). IEEE,2019:2844-2853.

[7] YANG Z,LIU SH,HU H,et al.RepPoints:point set representation for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE,2019:9656-9665.

[8]HAN JM,DING J,XUE N,et al. ReDet:A rotationequivariant detector for aerial object detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2021: 2786-2795.

[9] YANG X,YANGJR,YANJC,et al.SCRDet:towards more robust detection for small,cluttered and rotated objects[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE,2019: 8231 -8240.

[10]YANG X,YAN J,MING Q,et al. Rethinking rotated object detection with gaussian wasserstein distance loss[C]// Proceedings of the International Conference on Machine Learning.PMLR,2021,139:11830-11841.

[11] HOU L P,LU K, YANG X,et al. G-rep: Gaussian representation for arbitrary-oriented object detection[J].Remote Sensing,2023,15(3) : 757.

[12]KHOREVA A,BENENSON R,HOSANG J,et al. Simple does it:Weakly supervised instance and semantic segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE,2017: 1665-1674.

[13]HSU C C,HSU K J,TSAI C C,et al. Weakly supervised instance segmentation using the bounding box tightness prior[C]// Advances in Neural Information Processing Systems 32(NeurIPS 2019),2019:32.

[14]TIANZ, SHEN CH,WANGXL,et al.BoxInst:high-performance instance segmentation with box annotations[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2021: 5439-5448.

[15]LI W T,LIU WY, ZHU J K,et al. Box - supervised instance segmentation with level set evolution[C]// Computer Vision- ECCV 2022. Cham:Springer Nature Switzerland,2022:1-18.

[16]YANG X,ZHANG G,LIW,et al. H2Rbox:Horizontal box annotation is all you need for oriented object detection [EB/OL]//(2022.12.13). https://doi.org/10. 48550/arXiv.2210.06742.

[17]YU Y, YANG X,LI Q Y,et al. H2RBox -v2 : Incorporating symmetry for boosting horizontal box supervised oriented object detection[C]//Proceedings of the Advances in Neural Information Processing Systems 36 (NeurIPS 2023)Conference,2023,59137-59150.

[18]LIU Z, LIN Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE,2021:9992-10002.

[19]LIN T Y,DOLLAR P, GIRSHICK R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2017:936-944.

[20]WANG JY,WANG Y Z,WU Y L,et al. FRPNet:a feature-reflowing pyramid network for object detection of remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters,2020,19:8004405.

[21]LIU YF,LIQ,YUAN Y,et al.ABNet:adaptive balanced network for multiscale object detection in remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing,2021, 60: 5614914.

[22]祝嚴剛,張桂梅.一種改進的非局部均值圖像去噪算 法[J].計算機工程與應用,2017,53(18):192-198.

[23]HEKM,ZHANGXY,RENSQ,et al.Deep residual learning for image recognition[C]//2016 IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR). IEEE,2016:770-778.

[24]TIAN Z, SHEN CH,CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE,2019:9626-9635.

[25]YANG X,HOULP,ZHOUY,et al.Dense label encoding forboundary discontinuity free rotation detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2021:15814-15824.

[26]YANGX,YANJC.Onthearbitrary-orientedobject detection:classification based approaches revisited[J].InternationalJournalofComputerVision,2022, 130(5):1340-1365.

[27]XIA G S,BAI X,DINGJ,et al. DOTA:a large-scale dataset for object detectionin aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:3974-3983.

[28]LI K,WANG,CHENG G,et al.Object detection in op tical remote sensing images:a survey and a new benchmark[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2020,159:296-307.

[29]YANGX,YANJC,FENGZM,etal.R3Det:refined single-stage detectorwith feature refinement for rotating object[C]//Proceedings of the AAAI Conference on ArtificialIntelligence,2021,35(4):3163-3171.

猜你喜歡
分支尺度邊界
白茅
一類具有非局部項的浮游生物模型的動力學性質分析
具有口碑效應的信息傳播動力學模型分析
重塑邊界
地震波動數值模擬中人工邊界條件研究討論
人類世尺度批評視角下《樹語》慢性暴力的多維探析
反鐵磁材料電信號實現可讀可控
科學導報(2025年48期)2025-08-08 00:00:00
以批注式閱讀與思維導圖學習《兩小兒辯日》
基于多模態表征學習的自動音頻字幕方法
自約束多尺度記憶網絡的超聲心動視頻分割算法研究
主站蜘蛛池模板: 91探花在线观看国产最新| 欧美五月婷婷| www.国产福利| 亚洲Av激情网五月天| 亚洲av无码片一区二区三区| 久久这里只有精品8| 亚洲色图在线观看| 国产欧美日韩视频一区二区三区| 国产一区二区三区在线观看视频| 波多野结衣一区二区三区88| 激情在线网| 欧美天堂久久| 日韩无码真实干出血视频| 综合色亚洲| 中文字幕亚洲精品2页| 亚洲av无码人妻| 日韩午夜片| 中文毛片无遮挡播放免费| 国产农村精品一级毛片视频| 香蕉eeww99国产在线观看| 欧美精品不卡| 综1合AV在线播放| 国产麻豆精品久久一二三| 欧美笫一页| 91色综合综合热五月激情| 欧美日本视频在线观看| 国产h视频在线观看视频| 91精品亚洲| 高h视频在线| 一级爆乳无码av| 亚洲三级影院| 国产小视频免费观看| 自拍偷拍欧美日韩| 久久综合结合久久狠狠狠97色| 女高中生自慰污污网站| 国产成年女人特黄特色毛片免| 激情爆乳一区二区| 欧美狠狠干| 97视频免费在线观看| 国产微拍一区| 亚洲综合第一页| 欧美区一区二区三| 日本免费a视频| 亚洲国产91人成在线| 色综合婷婷| 欧美日本激情| 欧美激情综合| 丝袜亚洲综合| 一区二区三区四区精品视频 | 美女被躁出白浆视频播放| 在线播放国产99re| 久久午夜夜伦鲁鲁片不卡| 成人午夜久久| 久久黄色影院| 欧美69视频在线| 美女高潮全身流白浆福利区| 国产欧美日韩18| 在线观看国产精美视频| 黄色不卡视频| 亚洲第一区在线| 亚洲美女AV免费一区| 91色在线视频| 日韩区欧美国产区在线观看| 高清久久精品亚洲日韩Av| 全午夜免费一级毛片| 亚洲AV人人澡人人双人| 欧美日本中文| 国产综合网站| 国产男女免费视频| 久久久久无码精品| 一边摸一边做爽的视频17国产| 国产 日韩 欧美 第二页| 日韩毛片基地| 国产特一级毛片| 国产人成在线观看| 成人久久精品一区二区三区 | 国产一区二区精品高清在线观看| 久草视频精品| 欧美一级大片在线观看| 青草视频免费在线观看| 538国产视频| 色老头综合网|