999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于無錨框的目標檢測方法及其在復雜場景下的應用進展

2023-08-04 13:56:46劉小波蔡之華鄭可心
自動化學報 2023年7期
關鍵詞:特征檢測方法

劉小波 肖 肖 王 凌 蔡之華 龔 鑫 鄭可心

深度學習方法在目標檢測領域具有優秀的性能,在視頻監控、智能交通、國防安全等領域得到了廣泛應用[1].基于深度學習的目標檢測方法在海量數據的驅動下,能通過特征提取網絡學習到具有更強語義表征能力的特征,同時在神經網絡前向傳播過程中避免了大量窗口的冗余計算,提升整體的檢測速度的同時,檢測精度也得到大幅度的提升.其中,基于深度學習的目標檢測方法根據樣本選擇方式可分為: 基于錨框的目標檢測方法和基于無錨框的目標檢測方法.

基于錨框的目標檢測方法首先對每個像素點預設不同尺度和寬高比的錨框;其次使用特征提取網絡來獲取特征并生成特征圖;然后利用檢測頭(Head)模塊選擇包含待測目標的錨框并計算目標類別置信度,利用位置損失和類別損失分別修正錨框的具體位置和類別;最后利用非極大值抑制(Non-maximum suppression,NMS)[2]篩選同一目標的冗余錨框,實現最終的檢測任務.其中,在訓練階段,常設置1:1、1:2和2:1 等比例的錨框寬高比,并且常通過實驗經驗、K-means 聚類等方法選擇錨框尺寸,用以適配不同目標.但由于預設錨框無法有效匹配小目標、寬高比例較大的目標,因此常根據特征金字塔來合理分配預設錨框,以提高檢測的有效性和靈活性.此外,通過計算錨框和真實框的交并比(Intersection-over-union,IoU)來選擇正負樣本,即將大于IoU 閾值的錨框作為正樣本,剩余為負樣本.在損失函數設計部分,常使用 L1損失、Smooth L1損失作為回歸損失,用于回歸錨框中心點坐標以及寬高參數,并且利用交叉熵損失或者焦點損失(Focal loss)來預測錨框類別的分類得分.此外,在預測階段,計算每層特征金字塔的分類得分和位置回歸偏置值,在對所有層的輸出分類按類別進行排序后,將得分最高的部分錨框進行位置回歸,最后利用非極大值抑制處理來得到最后的檢測結果.其中,具有代表性的有錨框檢測算法是SSD (Single shot MultiBox detector)[3]、R-CNN (Region based convolutional neural network)[4-5]、YOLO (You only look once) v2[6]和YOLO v3[7]等算法,這類算法在標準目標檢測數據集上取得了較好的效果,推動目標檢測的新發展,廣泛應用于人臉識別、車牌識別、交通路況檢測、農業病蟲害監測、海洋救援等領域[8].但由于此類檢測方法對錨框依賴性較強,從而導致以下問題:

1) 錨框的設計需要尺度、特征和類別等先驗信息,而固定錨框尺寸、錨框預測寬高比和錨框數量在一定程度上影響檢測網絡的普適性;

2) 錨框的設置方法需引入大量冗余超參數,網絡調節過程更加困難,且訓練時需使用IoU 計算錨框與真實框匹配程度,整體計算資源消耗較大;

3) 為了盡可能地精準匹配目標,需要預設數量繁多的錨框,而其中大部分錨框為僅含背景信息的負樣本,只有少量為包含目標信息的正樣本,因此會加劇目標檢測存在的正負樣本失衡問題.

針對有錨框檢測方法的缺陷,Huang 等[9]率先提出一種無錨框目標檢測方法DenseBox.該方法無需錨框預設過程,直接預測目標的邊界框,不僅減少了大量錨框相關超參數,而且提升了整體模型的檢測效率、降低模型復雜度,在無人駕駛、交通指揮以及國土安全等領域得到廣泛應用.圖1和圖2分別表示有錨框和無錨框目標檢測方法的整體框架,兩類方法的不同之處在于是否定義先驗錨框來提取候選預測框.

圖1 基于錨框的目標檢測方法整體框架Fig.1 The overall framework of anchor-based object detection method

圖2 基于無錨框的目標檢測方法整體框架Fig.2 The overall framework of anchor-free object detection method

除了目標檢測算法外,數據集也是目標檢測發展的重要基石.公共數據集能有效地對不同算法進行橫向比較,極大地促進了目標檢測算法的發展,近年涌現一批目標檢測公共數據集,具體統計特征如表1 所示.其中Pascal VOC (Pattern analysis statistical modeling and computational learing visual object classes)[10]、COCO[11]數據集專用于評價通用水平框檢測模型的性能;DOTA (Dataset for object detection in aerial images)[12]有針對性地檢測高分辨率復雜圖像中飛機、船艦等分布不均、角度多變的多類目標,且同時使用水平框和旋轉框,其中目標方向多變、尺度變化范圍大,是目前使用最廣、挑戰性最強的數據集之一;此外,UCAS-AOD[13]包含汽車和飛機兩類目標;ICDAR2015[14]針對場景文本數據進行歸納;CUHK-SYSU[15]、PRW[16]、CrowdHuman[17]等數據集專用于行人檢測,其中CrowdHuman 數據集擁有規模龐大的行人數據,是評價行人檢測效果的代表性數據集之一;在遙感船艦目標檢測方面,HRSC2016[18]、SSDD[19]、HRSID[20]對多源船艦數據進行整理,對復雜遙感船艦目標檢測性能的提升發揮了至關重要的作用.

表1 目標檢測公共數據集對比Table 1 Comparison of public datasets for object detection

本文首先圍繞樣本標簽分配方式來展開無錨框目標檢測算法的分類;其次關注近期無錨框目標檢測算法的發展,探索無錨框算法和有錨框算法的本質區別,在主流數據集上對比典型算法的性能表現;然后討論和研究基于無錨框的目標檢測方法在目標重疊排列、目標尺寸小和目標角度多等情形下的算法設計與應用;最后對無錨框目標檢測方法進行總結并展望未來的研究方向.

1 基于無錨框的目標檢測方法

無錨框是指無需對每個像素點預設寬高不同的錨框,而直接對像素點進行類別判斷或匹配多個同類像素點的操作,避免了錨框相關超參數的設計步驟,提高了模型對多類目標的普適性并且降低了模型復雜度.根據樣本分配方式,無錨框的目標檢測方法分為基于關鍵點組合、中心點回歸、Transformer、錨框和無錨框融合4 大類,各類方法的對比情況如表2 所示.本節分別闡述各類無錨框目標檢測方法的主要思想、網絡架構和檢測效果,分析歸納無錨框目標檢測方法的創新點及優缺點.

表2 基于無錨框的目標檢測方法對比Table 2 Comparison of anchor-free object detection method

1.1 基于關鍵點組合的無錨框目標檢測方法

關鍵點是指預測框中有代表性目標特征的像素點.基于關鍵點組合的目標檢測方法首先利用特征提取網絡獲得信息豐富的特征圖,然后使用多個關鍵點預測模塊定位特征提取后的預測框關鍵點,通過組合關鍵點來回歸目標預測框,即計算兩條邊界框長度(寬、高)來生成目標的檢測框,實現目標檢測任務.該類方法通過關鍵點匹配操作,尋找圖像中特征關鍵點的對應關系,從而確定預測框的位置和類別,用于解決不同類別目標間的像素點誤匹配和“背景-目標”像素點誤匹配的問題.

Wang 等[21]首次提出一種基于點連接網絡(Point linking network,PLN)的目標檢測方法,將檢測問題視作點檢測和點連接問題,充分利用局部特征以提升重疊目標及極端寬高比目標的檢測精度,但由于感受野的范圍限制,導致角點難以定位目標位置.針對該問題,Law 等[22]提出CornerNet 算法,整體網絡結構如圖3 所示.該網絡使用角點來作為關鍵點,并利用修正后的殘差模塊、角池化模塊和卷積模塊來分別預測出左上角點和右下角點(圖4(a))的熱力圖(Heatmaps)、嵌入向量(Embeddings)和偏移量(Offsets),充分利用了目標的邊界信息.此外,CornerNet 通過角點對來調整預測框的位置,以完成目標檢測任務.CornerNet 首次使用角池化以獲取預測框角點,通過提高x,y方向像素點向量的正交程度來加強邊緣信息的獲取,達到修正角點位置的效果.雖然CornerNet 不使用預訓練模型也能獲得較理想的檢測效果,但該算法因角點匹配方法的類別誤判,導致不同類別角點誤匹配和誤檢等問題.針對CornerNet 中存在的角點誤匹配問題,Law 等[23]提出CornerNet-Lite 算法,其中包括CornerNet-Saccade和CornerNet-Squeeze,該類算法通過減少像素點的數量來改進角點匹配,在不犧牲精度的情況下同時提高檢測效率和準確性,且能應用于離線檢測和實時檢測任務.

圖3 基于角點組合的CornerNet 目標檢測方法Fig.3 CornerNet framework of object detection method based on corner points combination

圖4 預測框采樣方法Fig.4 The sampling methods of prediction box

由于CornerNet 及CornerNet-Lite 算法過度關注目標的邊緣信息,而忽略目標內部的特征信息.因此,Zhou 等[24]在沿用CornerNet 整體框架和損失函數的基礎上,提出一種自下而上的無錨框目標檢測算法ExtremeNet,將關鍵點分組方式從卷積映射轉換成幾何結構分組,該方法通過判斷目標的4 個極值點和1 個中心點(如圖4(b)),增加關鍵點的數量來充分學習目標的表征信息.ExtremeNet不足之處是使用極值點聚類而產生過多重疊預測框,且在關鍵點匹配時容易產生假陽性樣本,影響整體檢測效果.Duan 等[25]在CornerNet 的基礎上,提出一種旨在解決角點誤匹配問題的CenterNet-Triplets 算法,其關鍵思想在于將左上角點、右下角點和中心點替代兩個角點,使用級聯角池化來獲取豐富的角點信息,并且利用中心池化來獲取目標的內部信息、判斷檢測框的篩選、矯正角點的預測位置,有效減少誤檢并提高召回率,不足之處在于中心點漏檢會導致預測框位置偏移量過大.為了進一步增強目標內部特征的表達能力,并且優化角點匹配導致的誤檢,Dong 等[26]提出一種向心偏移量來匹配同類目標角點對的檢測算法CentripetalNet,該算法使用向心偏移模塊預測角點的向心偏移量(如圖4(c)),利用位置解碼操作對齊角點的向心偏移量,使用十字星可變形卷積來豐富角點的表觀特征,并且添加一個實例掩碼模塊,將向心位移預測區域作為候選區域,此外利用輕量卷積網絡對分割掩碼進行目標檢測,大幅提升了模型對不同類別目標的適應能力.在此基礎上,為了進一步加強局部和全局特征信息的表達能力,SaccadeNet[27]用5 個關鍵點(4 個角點和1 個中心點)來獲取目標信息.首先使用中心注意力模塊預測目標中心的類別和位置,其次使用注意力傳遞模塊預測相應邊界框角點的粗略位置,然后使用角點注意力模塊來提取目標信息的角點特征,從而使回歸邊界框更加準確,最后使用聚合注意力模塊來融合中心和角點信息,不斷調整預測目標的精確位置.該算法在提取目標多尺度特征的基礎上,同步提升檢測速度和檢測精度.

在充分利用特征表達能力的基礎上,為了減少不同幾何形狀目標的誤檢,Duan 等[28]提出分類和回歸相獨立的角點提議算法CPNDet (Corner proposal network for object detection),并建立角點和目標內部像素點間的聯系來細調預測框的位置和類別.該算法第1 階段利用CornerNet 的角點檢測方法來遍歷角點,并且組合成角點對構成候選預測框;第2 階段利用兩類分類器來濾除大部分誤檢的預測框,然后使用更精細的多類別分類器來確定預測框的類別以及相關置信度.該方法能根據對應的區域特征來區分目標和錯誤匹配預測框之間的關鍵點,在不降低檢測速度的情況下,整體網絡更靈活地定位任意幾何形狀的目標.上述算法均使用多角點和中心點來充分獲取目標的邊緣和內部信息,盡可能地利用豐富的目標信息,并且通過角點和中心點預測模塊不斷細化預測框的關鍵點調整過程,降低預測框位置的偏移量,實現更精準的目標定位.

綜上所述,基于關鍵點組合的目標檢測方法不再列舉大量可能存在目標的錨框,而是從邊緣關鍵點能夠獲取目標的代表性邊界信息這一思想出發,不斷改進邊緣關鍵點的選取方式、分組方式,并且逐漸聚焦中心點對檢測效果的影響,通過中心點來同步加強內部信息和全局信息的利用,從而利用中心點聯合邊緣關鍵點來設計偏移量預測模塊,通過修正關鍵點的位置來生成高質量預測框,進一步減少誤檢和漏檢的問題[29].表3 詳細分析了各算法的性能和優缺點,其中包括每秒傳輸幀數(Frames per second,FPS)和平均檢測精度(Mean average precision,mAP).從表3 可知,大部分基于關鍵點組合的算法都在CornerNet 的基礎上進行改進,如CornerNet-Saccade 設計輕量級的網絡用于實時檢測,ExtremeNet 等通過結合中心點來減少預測框誤檢問題,CentripetalNet 等改進關鍵點選取和組合方式以提升檢測精度,但大多數關鍵點組合的方法仍有較多后處理操作,因此檢測速度有待進一步提升.

表3 基于關鍵點組合的無錨框目標檢測算法在COCO 數據集上的性能及優缺點對比Table 3 Comparison of the keypoints combination based anchor-free object detection methods on the COCO dataset

1.2 基于中心點回歸的無錨框目標檢測方法

中心點能反映目標的內部特征信息.基于中心點回歸的無錨框目標檢測方法首先利用特征提取網絡獲取目標的特征圖;其次用檢測頭模塊的熱力圖峰值表示目標中心點的位置,寬高預測分支用于回歸預測框的尺度信息,中心點預測分支用于修正中心點偏移量;最后利用后處理操作篩選出最優預測框,整體框架如圖5 所示.基于中心點回歸的無錨框目標檢測方法與基于關鍵點組合的無錨框目標檢測方法相比,減少了關鍵點匹配操作,緩解了因關鍵點類別誤判導致的誤檢問題,提高了模型的整體性能.

圖5 基于中心點回歸的無錨框目標檢測方法整體框架Fig.5 The overall framework of anchor-free object detection method based on center point regression

在無錨框目標檢測算法研究初期,UnitBox檢測網絡[30]首次使用預測框和真實框4個頂點的IoU 損失LIoU(如式(1)所示)來替代DenseBox[9]的 L2損失(如式(2)所示),以考慮預測框坐標間的相關性,實現更精準的預測位置修正,更好地適應目標的尺寸和外觀變化,在人臉檢測上獲得良好的檢測效果,為通用無錨框檢測算法的精準定位奠定了堅實的基礎.Redmon 等[31]受此啟發,利用回歸的思想提出YOLO v1,將輸入圖像劃分為子網格單元并對每個網格內進行目標中心點的檢測,即獲取包含目標中心點的網格并預測網格內相應目標的邊界框以及類別概率向量.該檢測網絡能夠通過劃分輸入圖像區域來實現快速目標檢測,但由于每個網格只能檢測一個目標中心點,因此當多個目標中心落入同一網格內,易出現漏檢問題.為了分別提升Head 模塊中的分類、回歸分支的檢測性能并且解決同網格多目標的漏檢問題,Ge 等[32]在YOLO v3[7]基礎上提出YOLOX.該算法把正樣本限定在目標中心的一定網格區域內,通過增大正樣本數量來減少重疊漏檢問題,并且通過解耦檢測頭來拆分回歸和分類分支結構,以此來加快模型收斂速度、提高檢測精度.此外,YOLOX 使用SimOTA 樣本匹配方法,緩解極端寬高比的物體的檢測效果差、極端大小目標正負樣本不均衡的問題,整體YOLOX檢測模型還提供多平臺的資源部署版本,擴大使用平臺和范圍.

IoU 損失計算如下:

其中,B為預測框,Bgt為真實框.

L2損失計算如下:

除了可以劃分輸入圖像來篩選目標中心點位置的范圍外,Tian 等[33]使用全卷積網絡逐像素預測的全卷積單階段目標檢測算法(Fully convolutional one-stage object detector,FCOS),該算法將落入真實框邊界范圍內的中心點視為正樣本,相比有錨框檢測方法增大了正樣本的數量,緩解正負樣本不均衡的問題,并且使用多尺度特征預測方法來預測不同尺度的目標邊界框,解決YOLO v1 中的中心點重疊的漏檢問題,加入中心置信度(Centerness)子分支來篩除遠離目標中心點的低置信度預測框,并采用NMS 后處理篩除冗余框,得到最終與目標適配度高的檢測結果.其中,中心置信度計算如下:

FCOS 的中心置信度分支能降低遠離目標中心的預測框得分,此外針對同一像素點同時包含兩個目標的情況,FCOS 直接回歸出當前像素點所指向目標的類別和最小預測框,極大緩解了重疊目標的類別模糊問題,相比有錨框檢測算法減少了正樣本數量和訓練內存占用并提高檢測精度,然而仍會出現同尺度層的誤檢問題.由于FCOS 仍使用后處理操作來篩除多余的預測框,增加了訓練和預測的計算復雜度.因此,Sun 等[34]設計一個端到端的目標檢測算法OneNet.該方法同樣使用FCOS 的中心點來定位預測框,額外提出最小化損失分配策略,僅對每個目標分配一個預測框,并將損失最小的預測框視為唯一正樣本,去除計算量大的后處理操作,緩解正負樣本不均衡的問題并提高檢測速度,但檢測精度有待進一步提升.

Zhou 等[35]提出一種無需劃分輸入圖像的目標檢測算法CenterNet,該算法將多點檢測轉換成單中心點檢測問題(如圖4(d)),利用中心點感知目標內部信息的思想,解決了多點匹配導致的類別判斷錯誤、定位不準確的問題.此外,CenterNet 無需NMS后處理操作來去除冗余預測框,減少超參數數量并降低模型復雜度,實現檢測速度和精度的平衡,但缺點是僅利用中心點回歸目標,導致無法充分利用全局信息,出現因中心點重疊所產生的漏檢問題.為了解決CenterNet 的漏檢問題,Zhou 等[36]進一步提出CenterNet2 算法.該算法分為兩個階段,首先在第1 階段使用CenterNet 提取區域級別的特征并對其分類,判斷校準后目標和背景的相似性;然后在第2 階段使用級聯分類器,最大化真實目標邊界框的對數似然,并在預測時使用對數似然計算最終的檢測分數.CenterNet2 與兩階段有錨框目標檢測算法相比,更加精準有效地選擇感興趣區域.此外,CenterNet2 與CenterNet 相比,其Head 模塊更加精簡,減少類別預測數量并加速檢測,顯著提升檢測準確率.

由于CenterNet 系列方法過于依賴中心點局部信息,因此HoughNet[37]受廣義Hough 變換的啟發,利用對數極坐標投票機制從近距離和遠距離位置收集選票,增加局部和全局信息都有效正樣本的比例.為了進一步體現模型的有效性,提取Hough-Net 的投票模塊來篩選正樣本并嵌入到兩個生成對抗網絡(Generative adversarial networks,GANs)模型(CycleGAN[38]和Pix2Pix[39])中,提高生成對抗網絡模型的樣本生成效果.除此之外,Gird RCNN[40]在Faster R-CNN[5]的基礎上,選擇4 個角點、預測框的邊界中點和目標中心點作為網格點,利用網格定位機制選擇候選區域,在回歸分支利用空洞卷積和反卷積網絡替代全連接層,實現候選區域的修正,加入特征融合模塊以聚合深層語義信息和淺層位置信息,從而增強有效特征的表達能力,然而特征點的采樣區域范圍較廣,加重了正負樣本不均衡的問題.在Gird R-CNN 的基礎上,Grid R-CNN Plus[41]利用閾值去除無關鍵點的候選區域,減少特征相關的冗余計算,縮小目標的檢測范圍、減少計算量的同時聚焦區域性特征,提升整體檢測速度.

綜上所述,表4 總結了基于中心點回歸的無錨框目標檢測方法,能夠利用IoU 來加強目標類別和位置的聯系、使用子網格劃分圖像的方法減少中心點采樣數量、使用熱力圖等方法獲取目標的有效特征中心點.在直接使用中心點來回歸目標的基礎上,添加網格定位點提高定位精度、并利用中心置信度過濾低質量預測框等方法,在無需進行計算復雜并且誤差較高的角點匹配思想下,進一步簡化模型復雜度和提升檢測性能,提供了無錨框目標檢測方法的新思路.然而基于中心點回歸的方法仍使用多尺度檢測的方法,計算效率有待提升,因此針對特征金字塔的耗時問題需進一步優化.

表4 基于中心點回歸的無錨框目標檢測算法在COCO 數據集上的性能及優缺點對比Table 4 Comparison of the center point regression based anchor-free object detection methods on the COCO dataset

1.3 基于Transformer 的無錨框目標檢測方法

近年來,Transformer 利用注意力機制有效捕捉目標的感受野,廣泛用于機器翻譯、語音識別等結構化任務.基于Transformer 的目標檢測方法主要由堆疊的編碼器和解碼器組成,而編碼器由交替的自注意力機制模塊和多層前饋神經網絡組成.自注意力機制能為輸入的目標向量學習得到一個權重,尋找當前目標和預測目標之間的關系,解碼器則在編碼器的基礎上增加“編碼-解碼”注意力模塊,用于尋找編碼前后特征向量間的關系.整體網絡無需手工設計參數,無需由于后處理操作,實現了端到端的目標檢測結構,簡化了目標檢測流程.

基于Transformer 的端到端目標檢測器(Endto-end object detection with Transformers,DETR)[42]首次將Transformer 成功地整合到目標檢測中,整個DETR 架構如圖6 所示.

圖6 DETR 整體框架Fig.6 The overall architecture of DETR

在圖6 中,DETR 首先使用骨干網絡提取、合并目標特征集并添加位置編碼,然后輸入到Transformer 組成的“編碼器-解碼器”結構,使用自注意力機制顯式地對序列中所有特征組合進行交互式建模,最后將解碼器的輸出傳遞給固定數量的預測頭來獲取預測框的類別和位置信息.DETR 能夠結合二分匹配損失和Transformer,同步完成并行解碼,預測目標和全局圖像上下文之間的關系,僅用單次傳遞就能預測、刪除無目標錨框和完成非極大值抑制操作,刪除重復預測并簡化檢測流程,建立了一個新的目標檢測范式.然而,二分匹配損失在訓練初期無法穩定地匹配預測框和真實框,導致小目標的檢測性能較差且模型收斂速度較慢.針對Transformer 解碼器交叉注意力機制的訓練收斂速度極慢、二分匹配損失穩定性較差的問題,Sun 等[43]結合FCOS 采樣方式和DETR 的編碼器來構成新的檢測網絡TSP-FCOS (Transformer-based set prediction of FCOS),通過在骨干網絡和編碼器之間加入并行的輔助子網和分類子網模塊,并且在分類子網上引出一個感興趣特征選擇器來篩選多尺度特征.此外,還設計一個新的二分圖匹配損失來精確定位目標,在檢測速度均衡的情況下有效提高DETR和FCOS 的檢測精度.同時為了提高檢測效率,Deformable DETR[44]在DETR 的基礎上,使用多尺度可變形注意力機制替代DETR 的注意力機制模塊,融合可變形卷積的稀疏空間采樣與Transformer 的特征關聯性建模能力,有效關注稀疏空間的目標位置,且能在有效信息中區分各特征的重要程度,選擇并生成目標特征信息豐富的特征圖.此外,該算法優化高分辨率圖像的特征圖選擇和樣本選擇,通過改進標簽分配策略來增大正樣本比例,解決DETR 訓練周期長、收斂速度慢的問題,同時提升小目標的檢測性能,然而整體模型的計算量較大.同時,Dai 等[45]提出基于動態注意力機制的算法Dynamic DETR,針對DETR 編碼器的自注意力模塊計算復雜度較高的問題,使用動態編碼器以兼顧空間、尺度和代表性特征的動態調整,并且將解碼部分的交叉注意力機制替換為基于感興趣區域的動態注意力機制,使Transformer 有效區分粗粒度和細粒度感興趣區域的關注程度,加速模型的收斂速度.另一方面,DETR 的收斂速度慢的原因是目標查詢與目標特征的匹配過程比較復雜,因此,Zhang 等[46]提出一種語義對齊匹配的目標檢測算法(Semantic aligned matching DETR,SAM-DETR).該網絡利用對齊語義將目標查詢投射到與編碼圖像特征相同的嵌入空間里,且使用具有代表性的目標特征來搜索目標關鍵點,高效地實現語義對齊特征匹配,較好地緩解現有模型收斂速度慢的問題.

上述方法在利用骨干網絡提取特征后,通過修正Transformer 編碼器、解碼器的注意力機制來提高DETR 的收斂速度,提升整體檢測精度.同時,仍有其他改進策略來提高DETR 的檢測性能,如YOLOS[47]算法不使用卷積模塊組成的骨干網絡來提取特征,轉而從視覺Transformer (Vision Transformer,ViT)[48]的角度出發,參照DETR 的“編碼器-解碼器”架構設計并進行適當調整.該網絡丟棄ViT 用于圖像分類的分支并添加隨機初始化的標簽檢測分支,避免圖像與標簽先驗信息的偏置計算,而且使用DETR 的二分匹配損失替換分類損失,不斷調整整體網絡權重.此外,YOLOS 僅需對ViT結構進行微調,即可成功遷移到極具挑戰性的COCO 目標檢測任務中,進一步揭示Transformer在目標檢測的有效性,然而檢測性能有待進一步提升.在YOLOS 的基礎上,ViDT (Vision and detection Transformer)[49]引入了一個重配置的注意力模塊RAM,將基于層級和滑窗的Transformer骨干網絡擴展為一個獨立的目標檢測器,其次采用輕量級的無編碼器檢測頸(Neck)架構來減少計算開銷,在不增加計算負載的情況下輕量化模型并提高檢測性能.除上述方法外,Li 等[50]首次提出全新的去噪訓練方法(Denoising DETR,DN-DETR)來解決DETR 二分圖匹配不穩定的問題.該方法給解碼器的嵌入向量加入噪聲并作為標簽,并在訓練時通過去噪模塊來訓練含噪聲的預測數據,在預測階段丟棄去噪模塊,在不改變模型結構的前提下,模型收斂速度翻倍并顯著提升檢測精度.

從表5 中可以看出,模型浮點計算量(Floating point operations,FLOPs)等參數能反映模型整體復雜度,基于Transformer 的目標檢測網絡能夠將“編碼器-解碼器”結構作為部分網絡結構或整體檢測網絡來實現目標檢測,并且能夠通過注意力機制模塊來降低編碼器和解碼器結構復雜度,通過修改二分匹配損失的結構來解決損失穩定性較差的問題,此外還能夠提高特征匹配程度來解決模型收斂速度慢的問題.然而現在常用多尺度特征、高分辨率特征圖來提高小目標檢測精度,而基于Transformer 的檢測方法大幅增加計算量和空間復雜度,難以處理高分辨率圖像的特征,在小目標上的檢測精度需進一步提高.

表5 基于Transformer 的無錨框目標檢測算法在COCO 數據集上的性能及優缺點對比Table 5 Comparison of the Transformer based anchor-free object detection methods on the COCO dataset

1.4 基于錨框和無錨框融合的目標檢測方法

基于錨框的目標檢測方法能夠通過錨框枚舉得到定位較精準的預測框,而基于無錨框的方法能利用目標特征點來直接對目標位置進行預測,減少相關超參數調節過程,降低模型參數量和計算量.因此合理融合有錨框和無錨框的目標檢測方法有助于提高檢測精度和檢測效率,有效提高目標檢測的性能.

針對有錨框方法因預設錨框寬高比、尺寸無法精準匹配寬高比較大、尺度變化較大的目標的問題,Wang 等[51]受啟發于UnitBox[30]檢測大尺度范圍目標的思想,集成有錨框和無錨框檢測方法并構成檢測各類人臉的SFace 網絡.該網絡使用有錨框預測分支來充分利用目標的預定義信息,精準定位常規尺度目標,并在金字塔底端引出一個無錨框檢測分支,用于處理大尺度變化的人臉.此外提出基于IoU回歸的重打分機制來標識分類結果,以更好地聯合兩個分支的分類和回歸策略,實現兩個分支的有效互補.然而SFace 方法僅用單特征層來檢測多尺度目標,無法針對目標尺寸選擇最合適的特征層.因此Zhu 等[52]在RetinaNet[53]網絡的基礎上加入無錨框特征選擇模塊(Feature selective anchor-free,FSAF),該模塊在每一層特征金字塔上引出一個無錨框分支對實例進行編碼,以獲取用于分類和回歸的參數,在訓練過程中動態調整金字塔網絡的不同感受野和目標空間信息,并為目標選擇合適的特征層尺寸來提取特征,改善特征選擇不準確、像素點采樣重疊的問題.為了進一步優化特征選擇,Zhu 等[54]又提出加權錨點目標檢測算法(Soft anchor-point object detection,SAPD),在FSAF 基礎上加入與FCOS 的中心置信度相似的錨點權重注意力機制,對每個錨點賦予不同的損失權重因子,降低目標邊緣點的權重值,使網絡更加關注代表性強的目標中心區域.此外,SAPD 利用特征金字塔選擇模塊和聯合訓練策略,對不同級別特征層的每個特征進行預測并分配不同權重,尋找目標的最優特征層并選擇出最具代表性的目標特征,在不影響預測速度的情況下提高檢測精度.然而SAPD 的有錨框和無錨框分支仍相互獨立,未能實現真正融合.

由于有錨框的目標檢測方法需預設置錨框、手動調整樣本超參數等策略來進行標簽分配,為實現標簽自動化分配、探索標簽分配問題對檢測網絡的影響,涌現了大量相關新方法,圖7 表示基于優化標簽分配各算法的關系.

圖7 基于優化標簽分配算法的關系Fig.7 The relationship between label assignment optimization algorithms

FreeAnchor[55]在RetinaNet 的基礎上,將檢測器的訓練過程定義成一個極大似然估計問題,通過構建損失函數以實現自適應錨框設置過程,使網絡能夠自主學習與目標相匹配的錨框.Zhang 等[56]通過對比有錨框檢測算法RetinaNet[54]和無錨框檢測算法FCOS[57]發現,RetinaNet 借助IoU 閾值來劃分正負樣本,FCOS 則利用目標中心區域和目標尺度選擇正負樣本,它們的本質區別在于正負訓練樣本的選擇方式不同.因此Zhang 等[56]提出一種自適應的訓練樣本選擇方法(Adaptive training sample selection,ATSS),根據目標的統計特性自動選擇正負訓練樣本,縮小兩類檢測算法之間的性能差異,在不增加額外開銷的情況下,大幅提高檢測性能.但是FreeAnchor和ATSS 本質上仍是通過中心先驗、IoU、空間和尺度約束來進行標簽分配,無法避免大量超參數的手動調整,未完全實現樣本的自適應選擇.為了實現無需參數調節的自適應標簽分配,Zhu 等[57]在FCOS 的基礎上首次提出了一種基于可微樣本分配策略的目標檢測算法AutoAssign.該網絡使用一個中心加權模塊來調整特定類別的先驗分布,適應不同類別目標的外觀和尺度分布,利用一個置信度加權模塊,動態地對目標在空間和尺度上的位置進行權重映射,改進樣本分配來優化重疊目標共用邊界類別模糊的情況,完成端到端的動態樣本分配,能夠在無任何參數修改的情況下擴展到其他數據集和檢測任務上,但樣本分配策略的權重機制較復雜.

除上述方法外,Duan 等[58]又發現目標檢測、實例分割和姿態估計都能視為位置敏感的計算機視覺任務,并研究出統一的位置敏感網絡(Location sensitive network,LSNet)來實現3 類視覺識別任務.該網絡使用ATSS 的正負樣本采樣策略,額外將可變形卷積的偏移量等比例映射至相鄰的特征金字塔網絡(Feature pyramid network,FPN),利用多層金字塔特征融合方法充分提取預測點的標志性特征信息,并且在CenterNet 的中心點樣本選擇策略基礎上,額外添加指向極值點的4 個向量來確定預測框的位置,有效獲取極值點包含的目標語義信息并提升獲取顯著性特征的能力.此外,LSNet 使用新的Cross-IoU 損失LCIoU(如式(4)所示)來替換CenterNet 的損失函數,將二維IoU 損失壓縮到一維,從垂直和水平方向分解預測框與真實框計算向量的重合程度,細化預測框定位步驟,整體網絡實現了精度和速度的同步提升.Li 等[59]針對上述FCOS、AutoAssign 等標簽分配方法的正負樣本權重相關性高、無法有效賦予樣本權重等問題,提出基于雙權重加權的標簽分配方法(Dual weighting,DW).該網絡使用分類和回歸置信度的一致性來動態賦予正樣本權重,使用負樣本的概率和重要程度來調整負樣本權重,有效過濾位置偏移量大的預測框,篩選出分類置信度高和位置精準的預測框,此外還提出預測框細化模塊,通過聚合預測框中心以及4 個邊界點來精確預測框位置,整體性能得到大幅提升.

Cross-IoU 損失計算如下:

其中,vpx,vpy為預測框向量的x分向量和y分向量,vgx,vgy為真實框向量的x分向量和y分向量.

表6 根據分析對比有錨框和無錨框相結合的各檢測方法,說明現有的標簽分配策略使用錨框或者中心點預測等方式,為了讓檢測方法對多類型數據分布的適配性更好,標簽分配策略使用多維度標簽分配等策略,緩解正負樣本不均衡的問題.ATSS也說明無錨框和有錨框方法的不同之處在于正負樣本的選擇方式不同,有錨框分支能夠在無錨框檢測方法中提高預測框定位精度,無錨框方法能夠用中心點替代錨框預設過程,增加正樣本所占比例,兩類方法能夠相互促進,共同實現檢測精度和速度的同步提升.然而由于理想的標簽分配策略需為連續的計算過程,上述大部分模型使用離散化的IoU 閾值來劃分正負樣本,因此如何設計連續的自適應標簽分配方案是待解決的研究問題.

表6 基于錨框和無錨框融合的目標檢測算法在COCO 數據集上的性能及優缺點對比Table 6 Comparison of the anchor-based and anchor-free fusion object detection methods on the COCO dataset

1.5 分析與總結

根據上述對比和分析,基于關鍵點組合的方法利用角點、極值點和中心點等來作為關鍵點,以獲得充足的目標內部信息和邊緣信息,不斷修正目標定位機制以校準最終預測框,提高整體檢測精度和檢測效率.基于中心點回歸的方法不使用多關鍵點組合,直接獲取目標的特征中心點并以此判斷中心點類別,減少了因類別誤判產生的預測框數量和多關鍵點匹配產生的計算復雜度.此外近期發展迅速的基于Transformer 目標檢測方法,將文本檢測的結構擴展到目標檢測領域,通過優化樣本標簽方法,修正Transformer 的“編碼器-解碼器”結構,聚焦于目標的局部信息,極大程度上簡化模型設計復雜度,且有望在未來進一步提出目標檢測新范式.除了上述方法外,融合無錨框和有錨框的目標檢測方法充分利用有錨框的定位分支,并引申出一系列改進標簽分配的方法,不僅緩解正負樣本不均衡的問題,而且有效提高目標檢測的性能.

總而言之,基于無錨框的目標檢測方法在不斷發展的過程中,去除錨框的預設以及相關計算過程,降低了模型復雜度,逐步優化了模型誤檢、漏檢等問題,使得目標檢測更加簡單、快速.此外,基于無錨框的目標檢測方法在目標密集、目標尺寸小和目標角度多變等復雜場景下也得到了廣泛應用,并逐漸在自動駕駛、工業自動化和衛星遙感圖像目標檢測等領域占據重要地位[60].

2 無錨框目標檢測方法在復雜場景下的應用

目前基于深度學習的目標檢測算法在普通場景下已經達到較為理想的檢測效果,但在目標重疊、目標過小、目標旋轉等復雜場景下的檢測任務仍有較大的挑戰性[61-63].本節針對復雜場景下存在的各種問題,從重疊目標、小目標、旋轉目標等3 個方面介紹無錨框目標檢測方法在不同問題上的模型設計,并分析各方法之間的優勢與不足.

2.1 基于無錨框的重疊目標檢測方法

重疊目標是指包含共用的像素點表示目標信息的相鄰目標,重疊目標檢測在復雜場景下的應用十分廣泛,然而因目標間的相互遮擋,導致目標部分信息的缺失,因此出現目標重復檢測、漏檢等問題(如圖8(a)和圖8(b)所示).

圖8 重疊目標檢測問題Fig.8 The detection problems of overlapping object

現有的目標檢測算法為了更有效地篩除冗余預測框,常用Soft-NMS[64]、Adaptive-NMS[65]和R2NMS[66]的柔和篩選與密集程度判斷等方法來篩選密集排列預測框,然而計算成本有所增加.此外,Aggregation Loss[67]、Rep-GIoU Loss[68]和NMS Loss[69]等算法通過修正損失,擬合密集排列場景的目標形狀和位置.但此類方法對高置信度預測框的作用不明顯,無法充分利用低質量預測框的特征信息.本節針對重疊目標檢測的問題,闡述各算法在不同場景下目標檢測方法的模型架構、檢測性能和優缺點,最后對算法進行縱向對比分析與總結.

密集行人是重疊目標檢測場景的典型應用,中心和尺度預測算法(Center and scale prediction,CSP)[70]作為重疊目標檢測的先驅,對行人的位置和尺寸進行分解,將目標檢測簡化為預測目標的中心點和尺度等高級語義特征信息的任務.通過堆疊的卷積模塊預測兩個映射圖,其中一個映射圖利用熱力圖獲得預測框的中心位置和對應預測框的置信度,另一個映射圖利用尺度變化預測對應預測框的尺寸,兩個映射圖共同作用得到最終預測框的位置及類別,在密集人群檢測數據集上獲得良好的檢測效果.缺點是中心點無法充分利用特征與預測框之間的關聯性,從而導致多個重疊目標的漏檢問題.針對行人檢測任務中的重疊目標漏檢問題,特征對齊行人搜索網絡(Feature aligned person search network,AlignPS)[71]考慮行人重識別特征優先的原則,利用可變形卷積將采樣點聚焦于行人內部,重點關注ReID 特征的學習,使用一個特征對齊和融合模塊,解決特征學習中區域和尺度不對齊的問題,在重疊排放目標中獲得良好的檢測效果.除此之外,Cao 等[72]提出一個新型Transformer 的行人搜索網絡(Transformer-based person search,PSTR),通過引入特定行人搜索模塊(Person search-specialized,PSS),并使用具有多級監督方案的結構共享解碼器,提高重識別特征的可判別性,并額外引入包含顯著性特征重識別解碼器的注意力模塊,尋找各特征間的關聯性.綜上,PSTR 作為首個端到端的單步Transformer 行人搜索網絡,使用多尺度解碼器來精準實現行人多尺度特征匹配,大幅提高行人檢測精度.

除了密集行人的檢測方法得到不斷發展之外,解決目標重疊排列的通用方法也得到飛速發展.如第1.2 節中所提及的FCOS[33]能直接回歸出當前像素點所指向目標的類別和最小預測框,優化目標中心區域和目標樣本的標簽分配方法,極大緩解了重疊目標的類別模糊問題.在此基礎上,一系列優化特征提取和表達能力的方法獲得啟發.其中,FCOS v2[73]替換FCOS 的部分網絡結構.該網絡將正樣本點的選擇范圍從目標內部縮小成位于目標的中心區域,使用加權雙向特征金字塔網絡(Bidirectional feature pyramid network,BiFPN)替代特征金字塔網絡,獲得信息更豐富的多尺度特征,加入可變形卷積來改變感受野范圍,增強目標特征的獲取能力,在分類分支修改中心度的計算方式,更精確回歸出預測框的位置,修改原有的IoU 損失為廣義IoU (Generalized IoU,GIoU)[74]損失LGIoU(如式(5)所示),用于準確計算重疊預測框的位置損失.通過對FCOS 的改進,FCOS v2 能增強多尺度目標特征的選擇和利用,減少同類別目標的誤檢問題,在密集目標檢測中取得了較好的效果.與此同時,為了提升FCOS 的特征表示能力,Qin 等[75]在FCOS[33]和ATSS[56]架構上去除中心度分支,構建了一個新的密集目標檢測器VarifocalNet,將位置預測合并到分類損失計算中,通過預測定位相關的感知IoU分類得分(IoU-aware classification score,IACS),優化檢測結果的排序過程.此外設計一種高效星型預測框的特征表示方法,獲取預測框的幾何信息和上下文信息,并且充分利用焦點損失的加權思想,提出變焦損失(Varifocal Loss),通過調制因子來回歸每張圖上連續的IoU 關聯分類分數IACS,用于均衡正負樣本權重和聚焦難分類樣本,從大量預測框中選擇位置和類別平衡的最優預測框,顯著提升檢測精度.針對FCOS 使用單特征點無法完整表達重疊目標邊界信息的問題,BorderDet[76]通過分析重疊目標檢測的特征表達能力,使用一種邊界對齊(Border align,BA)的特征提取操作,以實現自適應的邊界特征提取.此外,將邊界對齊操作封裝成邊界對齊模塊(Border align module,BAM)并集成到FCOS 網絡中,以高效的邊界特征提取策略來提高重疊目標檢測精度.

GIoU 損失計算如下:

其中,B為預測框,Bgt為真實框,C為包含預測框和真實框的最小方框,|C/(Bgt∪B)|為最小方框C的面積減真實框Bgt和預測框B相與的面積.

在樣本標簽分配方面,第1.4 節所提及的ATSS[56]、AutoAssign[57]等方法雖然能夠動態地選擇正負樣本,調整目標預測框的相對位置,但未考慮目標尺寸、形狀或邊界遮擋的情況.因此,Cheng 等[77]提出一種弱監督多模式注釋分割模型(Weakly supervised multimodal annotation segmentation,WSMA-Seg),去除NMS 操作以及相關超參數,利用多模式分段注釋的拓撲結構提取每個目標的輪廓,使用多尺度池化分割MSP-Seg 提高多尺度目標的邊緣提取,用靜態樣本分配策略來有效提高嚴重遮擋目標的檢測精度.然而上述方法需手動設置層和層內部空間的各種參數和結構,無法動態地選擇正負樣本,因此會導致正負樣本不均衡的問題.在靜態和動態樣本分配方法的基礎上,為了尋找全局最優的樣本分配方法,Ge 等[78]丟棄了為每一個目標對象單獨尋求最優分配的方法,提出基于最優傳輸理論的目標檢測樣本匹配策略(Optimal transport assignment,OTA),利用全局信息來尋找全局最佳樣本分配結果,為圖像中的所有目標尋找全局置信度高的樣本分配方式,應用于FCOS 方法且取得了良好的檢測效果.在此基礎上,Ge 等[79]又提出基于損失感知的樣本分配策略(Loss-aware label assignment,LLA),通過聯合計算分類和回歸損失,解決錨點和對應真實框樣本分配不一致的問題,提高人群場景中行人檢測的性能,并且通過實驗證明了這種簡單的樣本分配策略能大幅提升FCOS的檢測精度.除此之外,Zhang 等[80]將FreeAnchor擴展為LTM (Learning-to-match)檢測算法,該網絡將目標與特征的匹配定義為極大似然估計問題,并將極大似然概率轉換為損失函數,使手動設計的錨點轉變為自動特征選擇,解決目標遮擋或特征中心不對齊時,預測框和真實框間的IoU 難以度量目標與特征匹配的問題.LTM 不僅在COCO 數據集上獲得良好的檢測效果,而且大幅提升密集、重疊目標的檢測性能.

除了上述方法外,前文所描述的Transformer檢測算法DETR[41]、Deformable DETR[44]等也能夠通過層疊的解碼器級聯結構在一定程度上提高重疊目標的特征匹配程度.為了進一步提高密集場景中各類目標的檢測性能、簡化整體結構,Yao 等[81]在DETR 基礎上提出了一種簡單有效的端到端檢測算法Efficient DETR.該算法利用密集先驗知識初始化檢測網絡,降低解碼器層數較少造成的性能抑制,同時共享一個檢測頭來簡化結構,僅用3 個編碼器和1 個解碼器就達到較高的檢測精度并提高收斂速度,優于Deformable DETR 等算法的密集目標檢測效果.此外,Yu 等[82]提出了用于端到端行人搜索的級聯閉塞注意變換檢測算法(Co-scale convattentional image Transformers,COAT),使用三段級聯設計來檢測和提升目標的檢測性能,實現每個階段注意力結構的緊密特征交叉效果,使網絡從粗到細地學習目標特征,更清晰地區分目標和背景特征,并通過實驗模擬目標遮擋的效果,驗證該方法的先進性.在同一時期,Zheng 等[83]在Deformable DETR 基礎上,提出一種適用于密集場景的漸進式端到端目標檢測器.通過選擇低置信度檢測點進行后續的漸進式優化,設計關聯信息提取模塊,尋找低質量預測點與附近高置信度像素點的相關性,此外通過局部自注意力機制構建隊列更新模塊,尋找相鄰像素點的空間關聯性,并使用一對一的標簽分配策略,解決Transformer 在重疊目標場景下的重復檢測問題.

表7和表8 說明各通用密集目標檢測方法分別從加強邊緣特征信息、對齊區域和特征、優化正負樣本分配和優化Transformer 等方面,改變目標位置的獲取方式,提取并強化目標的語義信息,優化共用像素點的分類方法,充分聚焦局部特征信息與整體信息的聯系,精準定位各類別密集排列的目標,有效提高重疊目標的檢測性能.綜上所述,重疊目標因共用邊界導致的類別模糊、漏檢和誤檢等,可以從尋找多尺度特征間關聯、加強特征重識別等角度解決密集行人的重復檢測等問題.現已有大量重疊目標檢測方法并取得了豐碩的成果,但是在訓練數據有限的情況下,考慮到遮擋問題的復雜性,未來可以從半監督、無監督的學習方式,利用對抗神經網絡擴充數據集,優化Transformer 的注意力機制等方面著手,進一步優化通用場景下的重疊目標檢測性能.

表7 解決目標重疊排列問題的不同檢測方法的性能對比Table 7 Performance comparison of detection methods to solve the problem that objects are densely arranged

表8 解決目標重疊排列問題的不同檢測方法優缺點對比Table 8 Feature comparison of detection methods to solve the problem that objects are densely arranged

2.2 基于無錨框的小目標檢測方法

小目標是圖像中尺寸小于32×32 像素或尺寸占比小于0.12%的目標(如圖9 所示).小目標像素點占比少、覆蓋面積小、可視化特征信息極少,因此難以將小目標與背景、相似目標區域進行區分.雖然已有CoupleNet[84]、NETnet[85]和AF R-CNN[86]等算法聚焦目標的主要特征、不斷增強并充分利用目標特征信息,以此來提高小目標檢測的性能.然而,真實場景通常會存在光照劇烈變化、目標遮擋、目標稠密相連和目標尺度不一等錯綜復雜的變化情況,這些因素進一步增大了小目標檢測的難度,因此檢測任務在小目標場景下仍然充滿挑戰.此外在實際應用中,精確地從人群中檢測出犯罪嫌疑人,能夠有助于案件的偵破;在自動駕駛中準確檢測出行人或障礙物,能夠減少交通事故的發生;在海洋安全中精確檢測出尺寸小的船舶,有助于尋找非法漁船、禁止非法入侵,因此小目標檢測具有廣泛的實際應用價值和重要的研究意義.本節主要聚焦無錨框的小目標檢測方法,從增強特征選擇和利用樣本標簽分配來進一步提高復雜背景下小目標檢測的性能.

為了給不同尺度的特征圖選擇最豐富的小目標特征,Samet 等[87]提出一種基于預測池化的檢測算法(Prediction pooling detection network,PPDet).該網絡使用一種新的樣本分配策略來匯總各個特征的預測值,減少訓練過程中非判別性特征的影響,并且遵循尺度分配策略來預測類別概率矢量和邊界框坐標,自動降低訓練過程中非目標區域特征和非判別性目標特征的貢獻,減少目標上非判別性特征、預測框內背景特征、遮擋物的標簽噪音.在樣本標簽分配方面,第1.3 節的Deformable DETR[44]也使用可變形注意力機制替代基于Transformer 的注意力機制,進一步關注稀疏空間的小目標位置,提升小目標檢測精度.He 等[88]為了提高船艦小目標的檢測性能,提出了自適應特征編碼策略(Adaptive feature encoding strategy,AFE),逐步將深層語義特征融合到淺特征層,實現自適應的空間權重信息融合,以此來自適應地增強小目標信息的表達能力.此外,針對樣本分配不均衡的問題,根據軟采樣的思想和FCOS 整體架構來構造高斯引導檢測頭,進一步優化目標定位準確度,在小目標船艦數據集中獲得良好的檢測性能.

在增強小目標有效特征信息獲取能力的基礎上,為了加強小目標特征的表達能力,Yang 等[89]提出一種新的用于表征目標特征的點集(Representative points,RepPoints).該方法通過自上而下的方式自適應學習特征圖的極值點和關鍵語義信息,并構建基于RepPoints 的目標檢測算法RPDet,減少背景內容或前景區域無效信息,使特征包含更豐富的形狀和姿態等目標語義信息,提高小目標的定位精準度,但仍過度依賴回歸分支.為了更進一步減少誤檢的概率,RepPoints v2[90]在RepPoints 的基礎上融合回歸和輔助分支來對驗證任務建模,增加角點驗證分支來判斷當前像素點為角點的概率,同時借助高斯分布平滑正負樣本的分布曲線;利用多任務學習、驗證模塊判斷特征映射點是否位于目標對象框內,進一步提升小目標檢測性能.RepPoints及其改進方法,利用點集替代邊界框(如圖10 所示),改變特征的采樣和選擇、重分配分類分支的像素點權重,能獲得更具目標內部和邊緣信息的特征,此類方法適合特征不充足的小目標檢測,還能應用于其他計算機視覺任務.針對空中目標環境復雜且目標擺放角度多樣的問題,Li 等[91]提出一種基于自適應學習樣本點的方法Oriented RepPoints.該算法在RepPoints 的基礎上,提出極值函數、局部極值函數和基于矩的函數來替換原有損失,以用于捕獲任意方向目標的幾何信息、方便準確地定向定位和分類小目標.針對RepPoints 的關鍵點定位不準確的問題,提出一種質量評估和樣本分配方法(Adaptive points assessment and assignment,APAA),用于在訓練期間選擇具有代表性的定向正樣本點.該方法引入空間約束來懲罰非特征點,提升相鄰對象或背景噪聲中非軸對齊目標特征的捕獲能力,在空域小目標、旋轉目標等場景下有較好的檢測效果.

為了充分利用和融合小目標的淺層位置信息和深層語義信息,DuBox[92]使用具有多尺度特性的雙尺度殘差單元,加入先驗框來提高模型處理尺度不變性特征的能力,優化小目標預測框的定位準確度,擴大邊界框中心點正樣本范圍,減少小目標邊緣信息的漏檢.此外,FoveaBox 算法[93]聯合預測目標中心區域的位置以及預測框的有效位置,在多層特征圖上檢測不同尺度目標的特征,直接學習分類目標類別并回歸出目標的位置,模型具備良好的魯棒性和泛化能力,大幅提高小目標檢測精度.為了拓寬尺度多樣性、降低背景與目標的強關聯性,Fu 等[94]提出了一種新的特征均衡與精煉的檢測方法(Feature balancing and refinement network,FBRNet),直接學習編碼后的邊界框,解決船舶排列稀疏的漏檢問題,并使用基于多尺度的注意力機制來平衡不同層次的小目標語義信息,實現特征平衡與網絡細化.FBR-Net 整體網絡優化小目標尺度多樣性、減少近岸背景與船舶的強關聯性,顯著提升小目標的檢測精度.為了無需提高圖像分辨率且實現快速有效的小目標檢測,Yang 等[95]提出一種基于級聯稀疏查詢機制(Cascading sparse query mechanism,CSQ)的檢測網絡QueryDet.該網絡利用特征金字塔的特征查詢來加快目標檢測網絡的預測速度,該網絡在低分辨率特征圖上預測小目標的粗略位置,利用稀疏卷積來獲取高分辨率特征,用粗調聯合精調的方式進行動態預測,減少淺層檢測頭的計算開銷并提高小目標的位置精確度.

綜上所述,從樣本標簽分配、特征注意力機制和特征重要程度等方法中能充分利用目標相關的特征信息,解決小目標因各類正負樣本比例極不平衡、類間不平衡導致的特征學習困難等問題.通過表9和表10 分析各算法的檢測性能可知,多尺度特征融合方法同時考慮了淺層的表征信息和深層的語義信息,提高小目標的特征提取能力,利用稀疏查詢機制進一步緩解因特征圖分辨率下降導致的小目標采樣丟失、定位不準確和復雜背景誤報等問題,減少計算開銷,大幅提升小目標的檢測效果.雖然已有的無錨框小目標檢測方法已獲得了良好的檢測性能,但檢測精度和速度與大、中目標檢測還有一定差距,并且隨著小目標應用場景的迅速擴張,小目標檢測仍值得進一步研究.

表9 解決目標尺寸過小問題的不同檢測方法性能對比Table 9 Performance comparison of detection methods to solve the problem that object pixels are too few

表10 解決目標尺寸過小問題的不同檢測方法優缺點對比Table 10 Feature comparison of detection methods to solve the problem that object pixels are too few

2.3 基于無錨框的旋轉目標檢測方法

由于實際檢測場景的高復雜性,目標呈現排列密集、排放方向任意的特點,僅用水平框檢測目標會使每個預測框內包含大量非待測目標的像素點和無關背景信息,導致邊界框的重疊度較高、邊界不連續和預測框位置偏移等問題.如艦船目標密集排列且旋轉角度多樣,使用水平矩形框表示船艦目標會產生大量重合,具體情況如圖11(a)所示.因此引入旋轉矩形框來檢測目標(如圖11(b)所示),獲取充足的目標特征信息,如目標的姿態等,減少冗余背景信息,且能更準確地反映目標的位置信息,減少相鄰預測框的重疊.除此之外,在農業病蟲害檢測、交通車輛檢測等任務中有更強的實用性.

圖11 多角度目標檢測結果示例Fig.11 The detection result of arbitrary rotation objects

旋轉目標的預測框回歸依賴于不同坐標系,為了減小目標在不同坐標系中的參數量和回歸難度,Yi 等[96]將水平框的目標檢測算法擴展到旋轉目標檢測任務中,提出一個基于邊緣感知向量的目標檢測算法(Box boundary-aware vectors,BBAVectors).該方法回歸一個邊緣感知向量來替代原有參數(寬度w、高度h和旋轉角度θ),使所有的回歸參數均位于同一坐標系內,簡化旋轉預測框的計算復雜度,且進一步將有方向的預測框分成了水平框和旋轉框兩大類,解決目標旋轉角度較小時預測框類型難以區分的問題.另一方面,Zhou 等[97]首次將極坐標系應用于目標檢測任務中,提出一個基于極坐標的檢測算法(Polar remote sensing object detector,P-RSDet).整體網絡通過回歸一個極半徑和兩個極角來實現任意方向物體的檢測,此外還構建了極坐標環形面積損失函數,避免角度回歸的周期性及多邊形預測框的頂點排序問題,減少回歸參數的數量、簡化檢測模型結構.

在第2.2 節提出的Oriented RepPoints 算法[91]不僅能精確檢測小目標,該算法的標簽分配方案APAA 也能有效提取具有顯著性特征的非軸對齊目標信息,提高空域旋轉目標的檢測精度.在優化正負樣本分配策略方面,Li 等[98]將FCOS 擴展為帶有角度旋轉的檢測算法(Rotated FCOS,FCOSR).其中使用基于高斯分布的橢圓中心采樣策略,用于定義合適的旋轉框正負樣本選擇區域,并設計模糊樣本分配策略,解決FCOS 樣本分配方法在航空場景下忽略模糊樣本的問題,解決相鄰水平框的目標區域重疊問題,額外加入多尺度采樣模塊來解決像素點采樣不充分的問題.在優化正樣本選擇的基礎上,增大正樣本比例、有效提高空域目標的檢測效果.除此之外,為了解決水平框檢測目標所占預測框整體比例較少的問題,Cheng 等[99]提出基于選擇提議生成器的檢測算法(Anchor-free oriented proposal generator,AOPG).該算法將特征圖映射到圖像上,并將位于真實框中心區域的頂點視為正樣本,以此來構建新的區域標簽分配模塊,緩解正樣本所占比例少的問題.此外將特征金字塔的每一層特征輸入到粗定位模塊(Coarse location module,CLM)來生成粗定位的旋轉預測框,然后使用對齊卷積來消除特征和旋轉框間的不對齊,采用Faster R-CNN 的檢測頭來生成精確定位和分類的高質量預測框,并在多個旋轉目標數據集上進行實驗來驗證其有效性.同時,Huang 等[100]提出一種無錨框的目標自適應標簽分配策略(General Gaussian heatmap label assignment,GGHL),用于定義基于二維定向高斯熱力圖的正樣本點,從熱力圖中獲取任意方向目標的形狀和方向特征.此外,在標簽分配策略的基礎上開發用于定向預測框的標簽分配組件(Oriented bounding box representation component,ORC),通過卷積層自適應地調整高斯中心先驗權重以適應不同目標的特征,并且設計具有面積歸一化和動態置信度加權的聯合優化損失(Joint optimization loss,JOL),以完善不同分類和回歸子任務的非對齊優化任務,除了提升檢測精度外,檢測速度也得到大幅提升.

為了充分利用旋轉目標的特征,Wei 等[101]提出逐像素點預測的旋轉目標檢測算法(Oriented objects detection network,O2-DNet).該算法將二值化熱力圖中連通區域中線的交點作為關鍵點,通過回歸映射來預測兩條相應的中線,解決旋轉目標角度邊界不連續的問題,且使用感知方向中心度的方法,優化正樣本點的加權方式,引導網絡從復雜背景中學習可判別性特征.此外,在損失函數內加入中心度損失,更精準定位目標預測框的位置.在此基礎上,為了獲得更具判別性的方向信息,Wang 等[102]提出一種基于尺度感知的旋轉目標檢測算法(Scaleaware rotated object detection,SARD).該算法首次使用一種新的特征融合模塊FPSN (Feature pyramid stack network),充分獲取高級語義信息和低級位置信息,以適應各類大尺度變化的目標,同時聯合IoU 損失LIoU(如式(1)所示)和Smooth L1損失(如式(6)所示)修正回歸分支的權重參數,提高預測框的位置判斷準確度.此外,使用歸一化策略,更精準地檢測任意方向和密集排列的目標.在另一方面,Zhang 等[103]提出一個直接預測像素點邊界框全部參數的網絡DARDet (Dense anchor-free rotated object detector),該網絡設計了一個高效對齊卷積模塊來提取對齊特征,此外還引入Pixels-IoU (PIoU)損失[104]LPIoU(如式(7)所示)來有效處理邊界不連續性問題.為了進一步改進旋轉目標損失不連續和小目標檢測性能較差的問題,Lang 等[105]提出一種面向對象的無錨框檢測網絡DAFNe (Dense anchor-free network).該網絡結合中心點與角點間的間距來聯合調整邊界框預測策略,以提高檢測器的定位精度,并引入一種基于方向感知的邊界框中心度函數,首次將中心度函數推廣到任意四邊形,以此來充分利用目標特征并降低低質量預測框的權重,進一步提高旋轉小目標的定位精度.

Smooth L1損失[5]的計算如下:

其中,x表示預測值.

PIoU 損失[104]的計算如下:

其中,b′為旋轉預測框,b為旋轉真實框,Sb∩b′、Sb∪b′分別表示定向預測框和真實框的交集和并集,M為正樣本集.

在提高特征的獲取和融合能力后,提高旋轉目標檢測模型的自適應能力成為焦點.Pan 等[106]提出一種適應定向和密集目標任務的動態優化檢測算法(Dynamic refinement network,DRN),通過自適應的特征選擇模塊來自動提取、融合各形狀和方向的有效特征,緩解各類目標與軸對齊感受野之間的不匹配問題,同時提出兩種檢測頭來分別動態優化分類和回歸任務,完成對樣本唯一性和特殊性的建模,提高檢測性能的同時增強模型的靈活性.為了進一步充分利用目標的尺寸和方向等先驗信息,Zhang 等[107]提出一種基于中心點提取的檢測算法(Center-head point extraction detector,CHPDet).該算法通過將角度回歸任務轉化為中心點估計任務,解決角度周期性導致的邊界不連續問題,不僅實現任意方向的目標檢測,而且可判斷目標的朝向(如船首和船尾),適應多類復雜場景下的檢測任務.

由表11和表12 可知,上述方法從改變坐標表示、修正樣本標簽分配方法、充分利用特征信息、提高特征融合效率、充分映射方向不變性特征和修正損失函數等策略,利用旋轉框代替水平框檢測目標,解決旋轉目標的特征利用不充分、預測框和目標間的特征不對齊、預測框位置偏移等問題,在各旋轉目標檢測數據集上定位準確度高、誤判概率低,檢測效率高.雖然無錨框旋轉目標檢測方法已經獲得良好的檢測性能,然而旋轉目標損失函數仍存在不連續和小尺寸目標占比過小的問題.目前現存基于錨框的目標檢測方法GWD[108]、KLD[109]、RSDet++[110]等所提出的損失函數能在保證連續的基礎上,進一步擬合旋轉目標形狀,并在復雜目標數據集中獲得良好的檢測效果,未來可以將此類損失函數應用于基于無錨框的目標檢測任務中.

表11 解決目標方向變化問題的不同檢測方法性能對比Table 11 Performance comparison of detection methods to solve the problem that object direction changeable

表12 解決目標方向變化問題的不同檢測方法優缺點對比Table 12 Feature comparison of detection methods to solve the problem that object direction changeable

3 總結與展望

本文簡要回顧和介紹了基于錨框的目標檢測方法整體流程和問題,系統地對比了現有基于無錨框的目標檢測方法,并針對密集目標、小目標、旋轉目標的檢測任務,總結目前的研究現狀.雖然硬件條件不斷完善,但是隨著圖像分辨率的提高,數據量逐漸增大,對目標檢測也提出新的挑戰.例如在實際應用中,目標檢測面臨的樣本數量少、背景復雜等檢測問題.因此,在后續的研究中應考慮以下幾個研究方向:

1)由于目標檢測算法通常依賴于大量高質量標注的圖像數據集,而標注過程復雜且效率較低,現常用樣本生成方法來擴充樣本數量.然而該方法本質上是數據增強操作,無法從根本上解決數據匱乏的問題.因此使用弱監督目標檢測技術,通過對部分標注的數據集進行小樣本訓練,使用生成對抗網絡來擴充數據集是后續的重要研究方向.

2)圖像數據在獲取過程中會受到氣候、光照等因素的影響,現已有圖像去霧去噪、多尺度感知等方法來生成清晰且無顏色失真的圖像,但實際場景下仍會造成圖像細節丟失、目標邊緣模糊等問題.如何更好地實現復雜多變場景下的目標檢測,是后續研究的重要發展方向.

3)由于圖像中存在多類不同尺寸的目標,且提升多種尺度目標的檢測精確度有一定挑戰,現有方法利用多尺度信息提取多樣的目標特征,但是多尺度檢測方法僅對目標的尺寸進行區分,并未關注目標類別和尺寸間的相關性.現已將文本檢測的Transformer 結構引入至目標檢測任務,即通過對輸入圖像的切片化處理,不斷聚焦目標局部特征信息的提取并加強特征的聯系.在后續研究中應考慮將其他視覺任務擴展至目標檢測領域,以自適應的方式提高不同輸入圖像尺寸、目標尺寸的檢測性能,并獲得泛化能力更強的模型.

4)針對圖像中目標密集排列、重疊擺放所導致預測框定位困難的問題,現存的解決方案SCRDet[111]等算法利用傾斜框替代水平框,使預測框包含更多目標像素點,但是未從根本上解決密集目標邊界特征提取難的問題.未來可以將目標檢測與圖像分割任務相結合,先對密集目標進行分割,再利用分割后的目標完成特征提取和檢測.

5)現有的目標檢測算法通常針對單張圖像進行目標檢測,忽略了視頻幀之間的相關性.而高清視頻中的實時目標檢測/跟蹤對于視頻監控和自動駕駛具有重要意義,現已有MOT[112]、FairMOT[113]等算法來實現多目標跟蹤任務,在目標檢測基礎上實現應用更廣泛的視頻跟蹤任務.因此未來應繼續探索視頻幀序列之間的空間、時間相關性,以進一步改善檢測性能并擴大應用范圍.

6)現存目標檢測方法檢測速度較慢,為了能夠在移動設備上獲得流暢的運行結果,通常會投入大量資金來購買算力更高的設備去加速算法檢測過程,這在一定程度上阻礙了各類檢測算法的落地進程.MobileNet[114]、ShuffleNet[115]和Pelee[116]等輕量化網絡簡化網絡結構并降低算力要求,提供了移動端的目標檢測的堅實基礎,為在輕量設備上檢測目標提供可能性.因此,研究輕量快速且高精度的無錨框目標檢測方法是未來必不可少的一個發展趨勢.

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 欧美高清三区| 国产女人18毛片水真多1| 好紧好深好大乳无码中文字幕| 国产丰满成熟女性性满足视频| 亚洲精品欧美重口| 中文字幕66页| 亚洲人成色77777在线观看| 亚洲日本一本dvd高清| 国产新AV天堂| 71pao成人国产永久免费视频 | 一级看片免费视频| 亚洲福利视频一区二区| 制服丝袜一区| 无码aⅴ精品一区二区三区| 久热这里只有精品6| 99久久精品免费看国产电影| 国产精品视频a| 国产精品福利尤物youwu | 一级不卡毛片| 中文字幕久久波多野结衣| 国产99视频免费精品是看6| 小13箩利洗澡无码视频免费网站| 成人国产精品视频频| 久久久久青草大香线综合精品| 国产在线无码av完整版在线观看| 一区二区三区国产| 伊人久久综在合线亚洲2019| av尤物免费在线观看| 全部免费特黄特色大片视频| 欧美午夜网站| 四虎国产在线观看| 国产精品入口麻豆| 亚洲综合久久成人AV| 性69交片免费看| 亚洲无码高清一区| 小说区 亚洲 自拍 另类| 国产成人亚洲日韩欧美电影| 制服丝袜在线视频香蕉| 一本大道视频精品人妻 | 另类综合视频| 久久99国产视频| 毛片在线播放a| 日韩毛片免费| 亚洲动漫h| 99re热精品视频中文字幕不卡| 久久综合九色综合97婷婷| 久久成人国产精品免费软件| 欧美一级在线看| 久久成人国产精品免费软件 | 91午夜福利在线观看| 男人天堂伊人网| 免费a级毛片视频| 无码国产偷倩在线播放老年人| 伊人成人在线视频| 日韩欧美国产综合| 97免费在线观看视频| 国产成人高精品免费视频| 最新国产精品鲁鲁免费视频| 国产成人高清精品免费5388| 成人午夜免费观看| 成人福利在线视频| 亚洲色偷偷偷鲁综合| 色国产视频| 成人免费视频一区二区三区| 国产成人一区在线播放| 国产亚洲视频在线观看| 亚洲国产欧洲精品路线久久| a天堂视频在线| 97青草最新免费精品视频| 无码丝袜人妻| 综1合AV在线播放| 久久久久亚洲AV成人网站软件| 亚洲欧美在线综合图区| 成人国产三级在线播放| 国产精品99在线观看| 国产特级毛片| 青青操国产| 国产午夜看片| 中日韩一区二区三区中文免费视频| 亚洲第一色网站| 亚州AV秘 一区二区三区| 国产一区二区三区日韩精品|