999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

遙感場景下基于關系挖掘的旋轉目標檢測算法研究

2023-06-25 07:42:18肖陽李煒
現代信息科技 2023年7期

肖陽 李煒

摘? 要:與常規場景相比,遙感場景目標檢測任務存在圖像尺寸大、小目標數量多、檢測框有旋轉角等難點,這些難點也使得遙感圖像中物體間有更多的關系可挖掘。為提升遙感場景下對旋轉目標的檢測效果,通過添加關系挖掘模塊對旋轉目標檢測算法(Oriented R-CNN for Object Detection, ORCN)進行優化。關系挖掘模塊利用動態圖神經網絡、交叉注意力機制使候選區域的特征、形狀信息進行有效交互,豐富候選區域特征的上下文語義。實驗結果表明,添加關系挖掘模塊后模型在遙感數據集上的DOTA表現提升1.53%,明顯優于原檢測算法。

關鍵詞:旋轉目標檢測;遙感圖像;圖神經網絡;交叉注意力機制

中圖分類號:TP391.4 文獻標識碼:A? ? 文章編號:2096-4706(2023)07-0074-05

Abstract: Compared with the conventional scene, the target detection task in remote sensing scene has difficulties such as large image size, large number of small targets, and detection frame with rotation angle. These difficulties also make more relationships between objects in remote sensing images can be mined. In order to improve the detection effect of rotating targets in remote sensing scenes, the Oriented R-CNN for Object Detection (ORCN) algorithm is optimized by adding a relationship mining module. The relationship mining module uses dynamic graph neural network and cross-attention mechanism to effectively interact the features and shape information of candidate regions, and enrich the context semantics of the features of candidate regions. The experimental results show that the DOTA performance of the model on the remote sensing data set is improved by 1.53% after adding the relationship mining module, which is significantly better than the original detection algorithm.

Keywords: rotating target detection; remote sensing image; graph neural network; cross-attention mechanism

0? 引? 言

遙感圖像目標檢測是目標檢測任務的一個新興方向,在航空器場景感知、遙感探測、智能導航中具有廣泛的應用價值。同時,遙感圖像數據集存在圖像尺寸大、小目標數量多、目標方向不確定等特點,相比常規數據集難度更大,具有更高的研究意義。航空場景下小目標(幾十甚至幾個像素)檢測所占比例大,基于卷積的目標檢測方法雖然在常規目標檢測數據集上表現良好,但層層池化會使小目標信息量進一步減少,難以區分。常規場景中一般通過特征金字塔、擴充目標上下文語義信息的方式加以解決。其中,特征金字塔已廣泛遷移至遙感圖像目標檢測任務中,但由于目標多、朝向自由等特點使得遙感場景下目標間語義關系更加復雜,常規場景中使用的上下文方法往往不能很好地建模其中關系。因此,本文根據遙感目標檢測的場景特點,設計關系挖掘模塊,利用物體間的關系強化候選區域特征,對遙感目標檢測算法進行優化。

1? 遙感圖像目標檢測與關系挖掘

1.1? 遙感圖像目標檢測

航空遙感圖像中的目標檢測問題,是近年來計算機視覺領域出現的一個極具挑戰性的問題。與自然場景不同,遙感圖像中的物體通常以任意方向分布,人們采用有向邊界框(Oriented Bounding Boxes, OBBs)而不是水平邊界框(Horizontal Bounding Boxes, HBBs)進行標注與檢測,因此遙感圖像目標檢測算法也多被視為旋轉目標檢測問題。為了應對旋轉帶來的挑戰,學界紛紛提出設計良好的有向目標檢測器,并在極具挑戰性的航空圖像數據集[1]上取得不錯的效果,主要思路在于提取旋轉不變特征[2-5]。在實踐中,旋轉RoI變換(例如Rotate RoI Pooling[4]和Rotate RoIAlign[2])是提取旋轉不變特征的最常用方法,其根據二維平面中候選區域的有向邊界框精確地提取區域特征。在旋轉問題經過廣泛的研究討論并取得一定的成效后,遙感圖像目標檢測的其他難點紛紛走入研究視野,其中目標眾多、形狀各異是最為突出的特點與難點,而目標間蘊含著豐富的上下文信息將會是解決其小目標檢測困難的又一突破口。因此,本文提出關系挖掘模塊,對遙感場景下物體間的特征和幾何形狀中蘊含的關系信息進行建模,擴充候選區域的上下文信息,提高檢測效果。

1.2? 目標檢測中的關系挖掘方法

關系挖掘旨在在物體間合理地交互、傳播和更新信息,經常應用于一些常見的視覺任務,如分類、目標檢測[6]和視覺關系檢測[7]等。先前工作[8-11]中的一個常見做法有將手動設計的關系和對象之間的共享屬性考慮在內。隨著基于深度學習的幾何學發展,圖結構憑借其靈活的成對交互數據結構,慢慢成為主流的關系建模結構。有的研究手工建立不同類別之間的知識圖譜以輔助大規模的目標檢測[12],然而,這種方法嚴重依賴于來自視覺關系數據的歸因和注釋,物體間的某些空間關系也被忽略。有的工作[13-16]試圖從視覺特征中隱式學習區域之間的完全連通圖,如使用自適應注意力模塊進行對象視覺特征之間的交互。然而,全連通模式合并了來自無關對象和背景的冗余信息,空間關系也未被充分利用。有的工作[17,18]通過手工構造與深度學習相結合的方式建立物體間的稀疏圖,并通過圖卷積的方式交互信息。但隨著圖神經網絡技術的日益發展,其中使用的圖卷積模式并不是信息交互的最優解,關系圖結構也在交互過程中趨于固定,缺乏靈活性。因此,本文提出新的關系挖掘模塊,新模塊利用層層更新的動態圖神經網絡,結合交叉注意力機制,使候選區域間的語義特征和空間結構信息進行有效交流,同時通過稀疏圖結構和注意力掩碼技術防止冗余信息的干擾,將有效的關系信息融入特征。

2? 關系挖掘模塊

關系挖掘模塊(Relation Mining Module, RMM)設置在兩階段目標檢測網絡的感興趣區域(Region of Interest, ROI)池化層之后,整體處理流程如圖1所示。在兩階段目標檢測網絡中,ROI池化操作可得到一批候選區域,每個候選區域對應有語義特征信息和空間位置信息,預測頭利用其語義特征信息得到最終檢測結果。因此,我們的關系挖掘模塊將利用候選區域的語義特征信息和空間位置信息對其進行特征更新(新特征包含候選區域在語義特征和空間結構上的上下文信息),以更好地輔助預測頭進行分類和定位。

圖1中,N表示候選區域個數,DO表示原語義特征維度,DR表示關系模塊內特征維度。在送入關系模塊前,本文利用兩個全連接網絡對語義特征和邊界框信息進行維度統一。由于邊框信息由中心坐標x、y、邊框寬高w、h,以及邊框旋轉角a三類尺度不同的信息組成,因此使用一層分塊全連接網絡分別處理三類信息,拼接后再利用一層全連接網絡統一維度,得到空間特征。

維度得以統一后,模塊利用動態圖神經網絡對輸入特征進行圖結構的建立或更新,再按圖結構對特征進行圖卷積操作,卷積更新后的節點特征能夠有效聚合鄰居節點信息;隨后特征進入交叉注意力模塊,先進行自注意力操作,再進行交叉注意力操作,使得語義特征與空間特征得到信息交互,重復三次后完成關系挖掘,與原特征拼接后送入全連接網絡恢復特征維度,以供預測頭使用。

在關系挖掘過程中,為排除冗余信息的干擾,降低計算量,在交叉注意力模塊中進行mask操作,即只有圖結構中建立連接的節點才進行注意力運算。與此同時,為使語義特征和空間特征兩路關系挖掘模塊形成合力,添加Graph Loss損失項,使得兩路更易于形成相近的圖關系結構。

2.1? 動態圖神經網絡

動態圖神經網絡對特征的處理流程如圖2所示,依次經過圖數據構建、圖卷積聚合節點特征、全連接層特征變換三部分。

2.1.1? 構建圖結構

面對N個D維語義/空間特征形成的集合X=[x1, x2,…, xN],xi ∈ RD,我們可以將其視為一張圖上的一組無序節點V={v1,v2,…,vN}。對于每個節點vi,我們以K近鄰的思路找到K個與它最近的節點形成鄰居集合N(vi),并且對所有鄰居節點vj ∈ N(vi)添加一條由vj指向vi的邊eij。由此我們將特征集合組織成一張有向圖數據G=(V, E),其中E表示所有邊的集合,這一過程可記為G=Graph(X)。以K近鄰的思路建立圖數據結構,可以使得節點的特征在相似的節點間進行聚合更新,一方面能夠避免其他類別特征的混疊干擾,另一方面可消除類間差異,使得各節點的特征表示趨于類的特征表示。

2.1.2? 圖卷積聚合節點特征

圖卷積模塊[19]可以從鄰居節點聚合特征的操作使不同的節點相互交換信息。其過程可表述為:

其中,Wagg和Wupdate分別表示聚合和更新操作中的可學習權重。具體來講,聚合操作將鄰居節點特征與本節點進行聚合,更新操作進一步融合聚合后的特征:

具體的更新和聚合操作我們參照最大相關性圖卷積方法[20],該圖卷積方法形式簡潔、計算方便,能在較小的計算復雜度下完成對圖節點特征的聚合與更新:

2.1.3? 全連接層特征變換

研究表明[20],隨著圖卷積操作的加深,卷積感受野逐漸增大,圖中各個節點會漸漸趨于一致,這種現象被稱為過平滑。因此,一般在圖卷積操作后接入帶有非線性激活函數的全連接網絡,使特征處于不斷的變換中,延緩過平滑現象的發生,提高圖卷積網絡的學習空間。

2.2? 交叉注意力模塊

在經過動態圖神經網絡后,語義和空間兩組特征都完成了特征集合內部的信息交互。然而,作為候選區域的兩大關鍵信息,我們希望兩組特征之間也能進行有效的交流,互相補足其在關系建立和特征聚合過程中的遺漏。鑒于語義特征和空間特征有著完全不同的表達模式,我們將其間的信息交流視作一個多模態信息融合問題,故引入多模態融合技術:交叉注意力機制,形成交叉注意力模塊,如圖3所示。

交叉注意力機制是自注意力機制的變體,其與自注意力機制的主要差異在于,自注意力操作中的query、key、value值均源于本身序列,而在交叉注意力機制中,query值來自本身序列,而key、value則由另一模態的序列變換而來,這也是本文交叉注意力模塊的核心操作。

其中,se表示語義特征,sp表示空間特征,由于注意力模型通常應用于序列問題而非無序特征的處理,我們對模塊進行了一些適應性調整:一是針對無序的特征集合,我們取消了位置編碼,但同一位置的空間特征與語義特征依然對應放置,使其在做交叉注意力時依然能維持對應關系;二是對注意力運算添加掩膜mask,即只有圖結構中建立連接的節點才能進行注意力運算,自注意力運算時查詢本特征集合在動態圖卷積過程中形成的圖結構,自注意力運算時查詢另一特征集合的圖結構,避免無關特征影響特征融合的有效性。

2.3? 圖相似性損失

在動態圖神經網絡建立圖結構的過程中,兩類特征集合根據不同的信息建立不同的關系網絡,但實際上,兩套節點對應的是現實中同一個物體集合,因此其產生的關系雖有差異,但穩定后應是互補而相似的。因此,為了使關系模塊更好地收斂,兩類特征有效地為同一目標服務,特在損失函數中添加圖相似性損失Graph Loss:

其中,Asp表示空間特征建立圖結構所對應的鄰接矩陣,Ase表示語義特征建立圖結構的鄰接矩陣。

3? 實驗與結果分析

將關系模塊加入到經典的旋轉目標檢測算法ORCN[21]中后,我們將其在遙感圖像數據集DOTA(Dataset for Object Detection in Aerial Images)[1]上的表現與近年來常用的兩階段旋轉目標檢測算法(RSDet-II[22]、Oriented RepPoints[23]、SCRDet++[24]、ORCN)進行對比。經多次實驗探究,關系模塊中主要參數設定如下,模塊數量NM=3,特征維度DR=256,K近鄰中的K=4,多頭注意力的頭數量NH=4。為保證實驗的有效性,表中所有算法都未單獨添加任何檢測中的通用trick,并且同在一張GeForce RTX 2080 Ti顯卡上,使用同樣的backbone(ResNet50)進行訓練,每類算法均取其在驗證集上mAP最高的回合測試,最終結果如表1所示。加入關系挖掘模塊后的ORCN算法比原算法提高了1.53%的精度,并在一些集群出現(SV(Small Vehicle)、LV(Large Vehicle)、SH(Ship))或形狀突出(BR(bridge))的類別中有較好的提升效果。

為探究模塊各部分的有效性,對動態圖神經網絡、交叉注意力、注意力mask與Graph Loss三部分進行消融實驗,結果如表2所示。可以看出,動態圖神經網絡有效地挖掘了物體間的語義特征與空間位置關系,精度提升效果較為明顯,而交叉注意力模塊使得語義特征和空間位置信息在計算過程中即時進行共享交互,進一步提升了其在DOTA數據集上的表現,Mask和Graph Loss的引入對模型表現也有所提升,但更多地起到減少計算量、使訓練過程快速收斂的作用。

如圖4所示,(a)為ORCN算法檢測效果,(b)為添加關系模塊RMM后的效果圖。可以看出,關系模塊的使用有效減少了檢測中出現的漏檢、誤檢、定位框偏移的情況,在目標密集出現的情況下,加入關系模塊有更好的優化表現。

4? 結? 論

本文對遙感場景下旋轉目標檢測任務中的關系挖掘問題進行了研究,對二階段檢測模型中候選區域的語義特征和空間信息進行關系建模,從而增強候選區域的上下文特征,提高檢測精度。其中,動態圖神經網絡即時構造圖結構,利用圖卷積操作進行特征聚合;交叉注意力模塊使候選區域的空間信息和語義信息跨模態交互融合,注意力掩膜和圖相似性損失則能減少模型計算量并加速收斂,最終有效建模物體間的關系,豐富特征的上下文信息,獲得了優于原方法的精度表現。在未來的工作中,需要進一步降低關系模塊中的參數量,提高模型的速度表現。

參考文獻:

[1] XIA G S,BAI X,DING J,et al. DOTA: A large-scale dataset for object detection in aerial images [J/OL].arXiv:1711.10398 [cs.CV].[2022-12-23].https://arxiv.org/abs/1711.10398v2 .

[2] DING J,XUE N,LONG Y,et al. Learning RoI transformer for oriented object detection in aerial images [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach:IEEE:2019:2844-2853.

[3] HAN J M,DING J,LI J,et al. Align deep features for oriented object detection [J/OL].arXiv:2008.09397 [cs.CV].[2022-12-25].https://arxiv.org/abs/2008.09397.

[4] MA J,SHAO W,YE H,et al. Arbitrary-oriented scene text detection via rotation proposals [J].IEEE Transactions on Multimedia,2018,20(11):3111-3122.

[5] YANG X,YAN J C,FENG Z M,et al. R3det: Refined single-stage detector with feature refinement for rotating object [J/OL].arXiv:1908.05612 [cs.CV].[2022-12-16].https://arxiv.org/abs/1908.05612v6.

[6] CHEN X L,Li L J,LI F F,et al. Iterative visual reasoning beyond convolutions [J/OL].arXiv:1803.11189 [cs.CV].[2022-12-23].https://arxiv.org/abs/1803.11189.

[7] DAI B,ZHANG Y Q,LIN D H. Detecting Visual Relationships with Deep Relational Networks [J/OL].arXiv:1704.03114 [cs.CV].[2022-12-25].https://arxiv.org/abs/1704.03114v2.

[8] AKATA Z,PERRONNIN F,HARCHAOUI Z,et al. Label-embedding for Attribute-Based Classification [C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland:IEEE,2013:819-826.

[9] ALMAZáN J,GORDO A,FORNéS A,et al. Word spotting and recognition with embedded attributes [J].IEEE transactions on pattern analysis and machine intelligence,2014,36(12):2552-2566.

[10] LAMPERT C H,NICKISCH H,HARMELING S. Learning to detect unseen object classes by between-class attribute transfer [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR).Miami:IEEE,2009:951-958.

[11] MISRA I,GUPTA A,HEBERT M. From red wine to red tomato: Composition with context [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE,2017:1160-1169.

[12] JIANG C H,XU H,LIANG X D,et al. Hybrid knowledge routed modules for large-scale object detection [J/OL].arXiv:1810.12681 [cs.CV].[2022-12-15].https://arxiv.org/abs/1810.12681.

[13] LIU Y,WANG R P,SHAN S G,et al. Structure inference net: Object detection using scene-level context and instance-level relationships [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE,2018:6985-6994.

[14] CHEN X L,GUPTA A. Spatial memory for context reasoning in object detection [C]// 2017 IEEE International Conference on Computer Vision (ICCV). Venice:IEEE,2017:4106-4116.

[15] HU H,GU J Y,ZHANG Z,et al. Relation networks for object detection [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE,2018:3588-3597.

[16] WANG X L,GIRSHICK R,GUPTA A,et al. Non-local neural networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City:IEEE,2018:7794-7803.

[17] FU K,LI J,MA L,et al. Intrinsic relationship reasoning for small object detection [J/OL].arXiv:2009.00833 [cs.CV].[2022-12-18].https://arxiv.org/abs/2009.00833v1.

[18] XU H,JIANG C H,LIANG X D,et al. Spatial-Aware Graph Relation Network for Large-Scale Object Detection [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach:IEEE,2019:9290-9299.

[19] ZHOU Z P,Li X C. Graph convolution: a high-order and adaptive approach [J/OL].arXiv:1706.09916v2 [cs.LG].[2022-12-10].https://arxiv.org/pdf/1706.09916v2.pdf.

[20] LI G H,MULLER M,THABET A,et al. Deepgcns: Can gcns go as deep as cnns?[C]//HYPERLINK "https://ieeexplore.ieee.org/xpl/conhome/8972782/proceeding"2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul:IEEE,2019:9266-9275.

[21] XIE X X,CHENG G,WANG J B,et al. Oriented R-CNN for object detection [C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal:IEEE,2021:3500-3509.

[22] QIAN W,YANG X,PENG S L,et al. RSDet++: Point-based modulated loss for more accurate rotated object detection [J].IEEE Transactions on Circuits and Systems for Video Technology,2022,32(11):7869-7879.

[23] LI W T,CHEN Y J,HU K X,et al. Oriented reppoints for aerial object detection [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans:IEEE,2022:1819-1828.

[24] YANG X,YAN J C,LIAO W L,et al. Scrdet++: Detecting small, cluttered and rotated objects via instance-level feature denoising and rotation loss smoothing [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(2):2384-2399.

作者簡介:肖陽(1998—),男,漢族,遼寧鐵嶺人,碩士研究生在讀,研究方向:航空場景下小目標檢測算法;李煒(1990—),男,漢族,四川成都人,副研究員,博士,研究方向:視頻圖像處理技術、傳感器網絡技術、視頻網絡應用技術。

主站蜘蛛池模板: 精品免费在线视频| 夜夜拍夜夜爽| 日韩免费无码人妻系列| 欧美精品影院| 成人精品免费视频| 中文字幕天无码久久精品视频免费 | 色综合热无码热国产| 国产主播在线一区| 99久视频| 免费无码网站| 欧美一区二区人人喊爽| 亚洲高清国产拍精品26u| 婷婷六月激情综合一区| 亚洲VA中文字幕| 国产在线观看91精品亚瑟| 国产在线无码一区二区三区| 久久精品日日躁夜夜躁欧美| 国产精品尤物铁牛tv| 国产亚洲高清在线精品99| 天天躁夜夜躁狠狠躁图片| 尤物成AV人片在线观看| 久久熟女AV| 午夜无码一区二区三区在线app| 一区二区无码在线视频| aⅴ免费在线观看| 成人国产三级在线播放| 国产9191精品免费观看| 欧美笫一页| 99re热精品视频国产免费| 2020国产精品视频| 亚洲欧美日韩中文字幕在线一区| 国产无吗一区二区三区在线欢| 99免费视频观看| 婷婷午夜影院| 成人国产精品2021| 亚洲 日韩 激情 无码 中出| 亚洲中文字幕无码爆乳| 亚洲国产精品一区二区第一页免 | a天堂视频| 精品综合久久久久久97超人| 国产欧美日韩91| 97se亚洲综合在线| 99这里只有精品免费视频| 国产91导航| 国产精品久久国产精麻豆99网站| 久久精品人妻中文视频| 91久久夜色精品国产网站| 99热国产这里只有精品9九| 欧洲日本亚洲中文字幕| 国产欧美综合在线观看第七页| 国产不卡一级毛片视频| 天堂岛国av无码免费无禁网站 | 久久大香伊蕉在人线观看热2| 幺女国产一级毛片| 中文字幕无码电影| 91视频区| 日韩欧美国产三级| 99中文字幕亚洲一区二区| 国产小视频在线高清播放| 国产亚洲精品91| 六月婷婷综合| 制服无码网站| 成人福利在线免费观看| 亚洲精品第1页| 亚洲精品男人天堂| 国产麻豆aⅴ精品无码| 欧美一级一级做性视频| 国产18在线播放| 亚洲不卡无码av中文字幕| 欧美日韩综合网| 国产免费人成视频网| 欧美不卡二区| 久久国产精品国产自线拍| 亚洲精品无码在线播放网站| 精品丝袜美腿国产一区| 国产精品入口麻豆| 亚洲一区二区三区国产精华液| 国产亚洲欧美日韩在线观看一区二区| 国内精品一区二区在线观看| 嫩草国产在线| 国产欧美在线观看一区| 色综合五月婷婷|