999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習中的單階段小目標檢測方法綜述

2022-01-18 11:38:36李科岑王曉強李雷孝楊艷艷
計算機與生活 2022年1期
關鍵詞:特征融合檢測

李科岑,王曉強+,林 浩,李雷孝,楊艷艷,孟 闖,高 靜

1.內蒙古工業大學 信息工程學院,呼和浩特010080

2.天津理工大學 計算機科學與工程學院,天津300384

3.內蒙古工業大學 數據科學與應用學院,呼和浩特010080

4.內蒙古農業大學 計算機與信息工程學院,呼和浩特010011

目標檢測是計算機視覺的一部分,根據整張圖像內容進行描述,并結合目標物體的特征信息,確定該物體的類別與位置。目標檢測將目標的定位和識別合二為一,能夠在特定的環境下實時且準確地檢測出目標。目標檢測技術常用于人臉檢測、智慧交通、無人駕駛、遙感目標檢測、行人計數、安全系統等各大領域。隨著深度學習的發展,卷積神經網絡(convolutional neural networks,CNN)被廣泛應用,基于深度學習的目標檢測技術將目標檢測推向發展新高潮。其中,在追求速度與精度并行的算法中,基于深度學習的單階段目標檢測算法脫穎而出。與其他深度學習目標檢測算法不同的是,單階段目標檢測算法結構簡單,可以直接檢測圖像輸出結果,沒有候選區域的分類,因此相比其他深度學習目標檢測算法速度更快,計算效率更高。典型的單階段目標檢測算法包括YOLO(you only look once)系列和SSD(single shot multibox detector)系列。但在單階段目標檢測算法的研究過程中出現了很多問題,例如模型檢測精度較低,尤其對小目標及遮擋目標的檢測更為困難。為解決單階段目標檢測與兩階段目標檢測之間的精度差距,Lin 等人提出RetinaNet,解決了正負樣本不均衡的問題,改進了背景樣本的權重,使得模型更能關注較難檢測的樣本。

由于小目標物體分辨率較低且特征信息不明顯,如何更精準地檢測到小目標是目標檢測領域的熱點研究問題。文獻[11]針對視頻目標檢測算法面臨的挑戰,從骨干網絡、算法結構和數據集等方面總結了改進后的視頻目標檢測算法的優勢和劣勢。文獻[12]針對邊界/語義增強、全局/局部結合和輔助網絡三方面的基于深度學習的顯著性目標檢測進行對比分析。文獻[13]總結了目標類別檢測核心技術與該研究的難點和發展方向。文獻[14]從單階段目標檢測、兩階段目標檢測以及結合生成對抗網絡等方面總結了各種算法的改進過程。這些綜述在目標檢測的基礎上從數據類別、檢測特點以及算法改進等方面總結了當前主流的目標檢測研究趨勢。但目前存在的基于深度學習的目標檢測文獻綜述僅綜合了各種算法的優缺點,未系統地從某一方面歸納目標檢測的改進方法。

綜上所述,本文從單階段目標檢測算法的角度出發,總結了在此基礎上改進的適用于小目標檢測的方法。通過優化Anchor Box、引入注意力機制、優化殘差網絡和密集連接模塊、特征融合、特征增強、引入其他網絡、改進損失函數等幾個方面的研究,總結歸納了基于深度學習的單階段小目標檢測的最新研究成果及未來的研究方向。

1 小目標檢測簡介

1.1 小目標的定義

在目標檢測中對小目標的定義有兩種方式,即相對尺寸的定義和絕對尺寸的定義。相對尺寸是根據國際光學工程學會(Society of Photo-Optical Instrumentation Engineers,SPIE)的定義,小目標為在256×256 像素的圖像中目標面積小于80 個像素,即小于256×256 像素的0.12%就為小目標。另一種是絕對尺寸的定義,在MS COCO數據集中,尺寸小于32×32像素的目標被認為是小目標。2016年,Chen等人將小目標定義為在640×480 像素的圖像中,16×16 像素到42×42 像素的目標。Braun 等人針對交通場景中的行人和非機動車駕駛人等數據,認為在30 像素到60 像素且被遮擋小于40%的物體是小目標物體。在航空圖像數據集DOTA與人臉檢測數據集WIDER FACE中將像素值范圍在10 像素至50 像素之間的目標定義為小目標。在行人識別數據集CityPersons中,定義高度小于75 像素的目標為小目標。對于航空圖像中的行人數據集TinyPerson,則將小目標定義為分辨率在20 像素至32 像素之間,而且進一步將像素值范圍在2 像素至20 像素之間的目標定義為微小目標。總的來說,小目標沒有精確唯一的定義,需要根據應用場景確定。

1.2 小目標檢測的難點

小目標物體在圖像中覆蓋的區域較小,像素值在幾十像素甚至幾像素之間,其分辨率較低,特征信息涵蓋較少,缺乏特征表達能力。經調研,導致小目標物體在檢測過程中精度較低的原因主要有以下幾點:

(1)特征信息較少。在常用的小目標數據集中,小目標樣本分辨率較低,標注面積占比小,包含的特征信息不明顯,且易受噪音點的干擾,進而導致模型無法對小目標進行精確定位。

(2)卷積神經網絡的下采樣率較大。卷積神經網絡及其衍生算法是小目標檢測的主流算法。在檢測過程中,經過不斷地下采樣和特征提取,輸出的特征圖尺度會不斷縮小。這很有可能導致下采樣步幅大于小目標的尺寸,以致向下傳遞的特征圖中可能未包含小目標的特征信息。

(3)數據集中正負樣本分布不均。在大多數目標檢測數據集中包含的小目標樣本數占比較小,而大中目標樣本數量居多。在訓練過程中,模型會更關注大中目標樣本,而忽略小目標樣本,使得小目標樣本只出現在樣本集中很少被訓練到的位置,為網絡適應數據集帶來困難。

(4)先驗框設置不合理。在設置Anchor Box 時,可能只有一小部分與小目標的真實目標框(Ground Truth)重疊,并且Anchor Box 寬高比多變,很難精確定位到小目標物體。

(5)交并比閾值設置不合理。目前大部分檢測器的匹配策略是用檢測生成的Bounding Box 與Ground Truth 之間的交并比(intersection over uion,IoU)來劃分正負樣本。一般設定Bounding Box 與Ground Truth之間IoU≥0.5 所對應的Anchor Box 中的目標為正樣本,其余為負樣本。自定義閾值會對正負樣本的選取造成很大的影響,而且該匹配方式更適合大中目標樣本,容易出現小目標樣本匹配較少、大中目標樣本匹配較多的問題。

2 基于深度學習的單階段小目標檢測優化方法

2.1 優化Anchor Box

YOLO V3 算法使用-means 聚類從Ground Truth 中得到一些不同寬高比的框,即Anchor Box,并通過實驗的方式在這些Anchor Box 中找出了9 個最優值。但通過這種方式產生的Anchor Box 往往定位不準確,容易造成正負樣本不均衡的問題。同時,基于不同面積和寬高比的錨點框是一組預先定義的超參,通常的錨點框分為大、中、小三類尺寸,對于小目標數據集,固定錨點框得到候選框的設計方式會約束目標檢測模型。

周慧等人提出自適應錨點框(adaptive anchor boxes,AAB)。該方法采用基于形狀相似距離的DBSCAN(density-based spatial clustering of application with noise)聚類算法生成Anchor Box,提高了對目標區域的定位技術。采用基于形狀相似距離的DBSCAN 聚類結果如圖1 所示。

圖1 原始錨點框與自適應錨點框對比Fig.1 Comparison of original anchor boxes and adaptive anchor boxes

從圖1 中可以看出自適應錨點框相比原始錨點框尺寸變化較大,能適應不同尺寸的目標,應用于SAR圖像的船舶目標能更好地反映目標的尺寸信息。

改變聚類方式可以訓練得到不同的Anchor Box。采用DBSCAN 結合-means 的聚類形式產生Anchor Box,解決了-means 需要手動設定值的問題。李云紅等人在DBSCAN 聚類之后,將經過誤差平方和計算得到的值作為-means 聚類算法的輸入,然后對數據集進行訓練得到聚類候選框。改進后的算法提升了小目標物體與遮擋目標物體識別的準確率。羅建華等人和劉家樂等人采用-means++聚類的思想來代替-means 提取先驗框中心點。但后者通過-means++聚類算法初始化Mini Batch-means的方法對數據集進行訓練得到先驗框,相比前者的設計大大加快了數據集的聚類時間。Mu 等人改進SSD 算法中Default Box 的設置,使用-medoids 算法計算Default Box 的初始橫縱比,優化了傳統SSD 算法的訓練過程,緩解了應用在水面目標檢測領域定位和分類不準確的問題。

通過改變聚類機制可以充分體現不同聚類算法對訓練產生的Anchor Box 的友好程度。但一些聚類算法對輸入參數較敏感,不能處理離群點或邊緣點,對于密度不均勻的數據集,聚類效果差異較大。

2.2 優化網絡模型

在目標檢測的過程中往往需要骨干網絡(Back-Bone)作為目標的特征提取器,常見的骨干網絡有VGG-Net、SPPNet、ResNet、MobileNet、DenseNet、GoogleNet、ShuffleNet等。

YOLO V3 模型采用DarkNet-53 作為骨干網絡,但對于特定的數據集,BackBone 中不同尺度對應的特征重要性不同。MobileNet_YOLO V3模型采用MobileNet 作為骨干網絡,將標準卷積換為深度可分離卷積,使用逐通道卷積和逐點卷積的方式,優化了標準卷積中對所有通道都進行操作的缺陷。王建軍等人通過稀疏訓練統計不同尺度特征圖中無效特征圖的比例來調整網絡深度,進而改善網絡模型的性能。DarkNet-53 作為骨干網絡時不能滿足實時性要求。Li等人參考ShuffleNet和通道注意力機制中SENet(squeeze-and-excitation network)的思想構造BackBone,在保證速度的同時提升了準確度。

雖然YOLO V3 借助殘差網絡的思想實現了三尺度預測,融合了多特征信息,但其模型結構較復雜,損失了一定的檢測速度,且其改進算法在提升小目標檢測精度的情況下,忽略了大、中目標的檢測效果。2020 年4 月,Bochkovskiy 等人在Redmon 等人的研究基礎上提出YOLO V4 模型。該模型借鑒跨階段局部網絡(cross stage partial network,CSPNet)的思想,構造CSPDarkNet53作為骨干網絡,降低了模型中參數的運算量,豐富了梯度組合信息。但在YOLO V4 模型中隨著網絡層數的不斷加深,過多的卷積操作直接導致小目標特征信息的減少甚至消失,尤其對遙感小目標更是如此。謝俊章等人分析了遙感目標尺寸較小且分布密集的特點,簡化了YOLO V4的特征提取網絡。同時為防止網絡退化和梯度消失,采用殘差網絡取代連續的卷積操作,將深層特征信息加深提取,提升了密集小目標檢測的準確率和召回率。

Jocher提出YOLO V5 模型,該模型分為YOLO V5s、YOLO V5m、YOLO V5l、YOLO V5x 四種。與YOLO V4 模型不同的是,YOLO V5 提出兩種結構的CSPNet,并分別用于特征提取階段與特征增強階段。其次,YOLO V5 在骨干網絡中引入Focus 模塊,該模塊可以實現特征圖的切片操作,降低特征圖尺寸,提升通道數。各模型在COCO 數據集測試性能如圖2所示。其中,YOLO V5s網絡結構最簡單,AP精度最低,但可用于檢測大目標,保證最快的檢測速度。

圖2 YOLO V5 算法性能測試對比圖Fig.2 Comparison chart of YOLO V5 algorithms performance

在YOLO 網絡結構的基礎上設計輕型網絡結構可以加快網絡訓練速度。Pan 等人使用DenseNet作為YOLO-Tiny 模型中的BackBone,將自身的特征層用作所有后續層的輸入,提高了網絡的特征利用率,減少了冗余參數。李航等人借鑒DenseNet 設計了slim-densenet,使得特征可以跳過部分網絡層直接傳遞至后端網絡,并將網絡中7×7、5×5、3×3 的卷積層改為深度可分離卷積,進一步加快了特征在模型中的傳遞。輕量級的網絡架構主干網絡較淺,難以提取出更深層次的語義信息。對于特定領域的數據集,輕量級網絡檢測精度高,速度快,訓練效果好。但由于官方數據集中含有的數據類型較多,模型泛化能力較差,導致檢測精度降低。優化YOLO 系列模型中的骨干網絡如表1 所示。

表1 優化YOLO 系列模型中的骨干網絡Table 1 Optimizing backbone network in YOLO series models

SSD 算法中采用VGG16 作為骨干網絡,但未進行批量歸一化操作,使得梯度更新不穩定。并且深層特征圖位置信息弱,對深層次的特征信息學習能力不足,對小目標檢測不友好。為提取更多的特征信息,需要增加更多的網絡層數,但直接增加會存在模型損耗問題。ResNet 網絡構造殘差塊解決了由于卷積層加深而導致的模型退化問題。利用這一優點,Fu 等人提出DSSD(deconvolutional single shot detector)檢測器。該模型將SSD 中的骨干網絡修改為ResNet101,同時增加Deconvoluational 模塊和Prediction 模塊,提升了模型對小目標物體的識別和分類能力。張侶等人在骨干網絡中引入注意力機制和ResNet 的思想,并在殘差模塊外層增加skip connection 構成嵌套殘差結構,大幅提升了網絡的特征提取能力。趙鵬飛等人采用分組殘差的方式重新構建DarkNet-53,結合不同特征通道的特征信息,大幅提升了模型對通道特征信息的利用。

雖然ResNet 解決了梯度消失等問題,但該網絡具有較明顯的冗余性,對每層的目標信息提取能力不足。引入DenseNet 可以實現特征的重復利用,降低冗余。Shen 等人提出DSOD(deeply supervised object detectors)算法,該模型無需預訓練,可直接從零開始訓練檢測模型。其骨干網絡基于DenseNet,能夠為檢測器提供深度監督,避免梯度消失的問題。在此基礎上,奚琦等人通過實驗對比分析,將DenseNet 作為骨干網絡,并對其進行改進,最大程度地保留了目標物體的細節信息,提升了對小目標物體的檢測。優化SSD 骨干網絡如表2 所示。

表2 優化SSD 骨干網絡Table 2 Optimizing SSD backbone network

為滿足RetinaNet 網絡在小目標檢測領域的實時性要求,Cheng 等人提出Tiny-RetinaNet。該網絡結合特征金字塔網絡(feature pyramid network,FPN)提出MobileNetV2-FPN 作為骨干網絡,采用輕量化的深度可分離卷積模塊減少參數,然后結合Stem Block和SENet 減少原始圖像的信息丟失。在PASCAL VOC2007 和PASCAL VOC2012 數據集上的mAP 分別為73.8%和71.4%。

根據骨干網絡各自擁有的性能,可以將其優點很好地應用在單階段目標檢測中作為特征提取網絡,減少模型訓練參數,加強特征的前向傳播。不同的優化骨干網絡算法在公共數據集上的測試結果如表3 所示。雖然改進骨干網絡后的檢測精度已得到大幅提升,但目前骨干網絡仍存在模型較復雜、泛化能力較弱的問題。如何在加強小目標特征提取能力的同時減少內存消耗,仍是小目標檢測的重點關注問題。并且當小目標處于復雜的背景環境時,傳統的骨干網絡易受背景信息的干擾,對小目標的特征提取能力不足,不能很好地適應小目標。

表3 不同算法在公共數據集上的測試結果Table 3 Results of different algorithms in public datasets

針對小目標檢測來說,當卷積神經網絡想要學習更多的特征信息時,就需要加深網絡結構,模型會變復雜。同時,小目標本身特征表達能力較弱,因此對小目標特征信息的增強是必不可少的。引入通道注意力機制和空間注意力機制往往可以使神經網絡關注與任務相關的通道和區域,然后為其分配合適的權重。通道注意力機制中的SE(squeeze-andexcitation)如圖3 所示。

圖3 SE 模塊Fig.3 SE block

圖3 中對于任意給定的變換:→,特征通過Squeeze 操作,獲得通道響應的全局分布,形成通道描述符;然后通過Excitation 操作,學習對各通道的依賴程度,并根據依賴程度對不同的特征圖進行調整,特征圖被重新加權;最后將輸出結果直接饋送至后續層。

徐誠極等人為使邊界框定位更加準確提出Attention-YOLO。該算法結合兩種注意力方式,將只引入通道注意力機制和同時引入兩種注意力機制進行對比,最后在殘差連接時加入二階項來減少特征融合過程中的信息損失,得到泛化性能更好的網絡。在目標檢測網絡中,淺層特征圖缺乏小目標的上下文語義信息。為了提升MobileNet_YOLO V3 的檢測能力,張陶寧等人提出多尺度特征融合注意力網絡(multi-scale feature-fusion attention network,MSFAN)。該網絡設計了一個特征融合注意力機制,特征融合模塊獲取特征的全局空間信息,注意力機制產生通道間的非線性關系。兩者結合提升了網絡前向傳播時的特征表達能力,充分提取了小目標的細節信息。Li 等人針對小目標和遮擋目標提出YOLO-CAN,該模型在殘差結構中引入注意力機制,然后通過上采樣融合不同尺度的特征圖,提高小目標物體的特征表達能力。

結合注意力機制可以使模型聚焦于局部信息。李文濤等人針對SSD 算法的不足設計了一種鄰域局部通道注意力模塊。該模塊首先對各通道分別進行不降維全局平均池化;通過1×1 卷積來獲得各通道及其個鄰域通道間的局部交換信息;對每個通道進行權值重分配。然后在特征融合模塊提出包含通道注意力機制的Bottleneck 模塊。該模塊將融合之后的特征縮減,得到7 組不同尺度的特征圖,實現了不同通道間的信息交互。麻森權等人針對SSD 算法目標信息提取不充分的問題,提出在SSD 模型中引入注意力機制,并通過特征融合抑制無關信息,提高檢測精度。趙鵬飛等人采用高效通道注意力模塊(efficient channel attention module,ECAM),加深對不同通道重要性的學習,加強淺層特征的感知能力。

RetinaNet 算法不能充分提取不同階段的特征信息,使用密集檢測造成了大量的無用邊界框,占用了不必要的存儲空間。同時,該算法忽略了邊界框回歸的重要性,導致邊界框回歸不準確。于敏等人引入多光譜通道注意力(multi-spectral channel attention,MCA)模塊優化RetinaNet 的骨干網絡。在ResNet中插入MCA,提取不同信息的頻率分量并將其合并,以此來強化不同階段特征信息的提取。不同注意力機制融合策略在公共數據集測試結果如表4 所示。

表4 引用注意力機制在公共數據集上的測試結果Table 4 Test results of using attention in public datasets

復雜環境下的小目標物體易受背景信息的影響,特征提取網絡能夠提取的語義信息十分有限。在目標檢測特征提取過程中,淺層特征圖含分辨率較高的特征位置信息,可用來提升邊界框回歸精度,但其語義信息較少,易受噪音點的干擾;深層特征圖含較強的語義信息,但其分辨率較低,細節表達能力較差。引入特征融合與特征增強模塊可以有效地將兩者結合,取長補短,提升對小目標的檢測能力。

為實現小目標細粒度檢測,鄭秋梅等人將YOLO V3 中的3 個尺度檢測擴展為4 個尺度檢測,分別對13×13、26×26、52×52 像素的特征圖進行2 倍上采樣操作,并將其與淺層特征圖進行級聯,分別檢測融合后4 個分支上的特征信息。而對于圖像背景信息較復雜的小目標,多尺度檢測利用高分辨率特征會引入過多的背景噪聲,造成模型收斂速度緩慢甚至難以收斂的結果。宋忠浩等人針對YOLO V3中未區分不同特征之間重要性的差異,提出具有加權策略的自適應特征融合,使得不同尺度的特征圖在融合階段具有不同的權重。改進后的模型在DIOR遙感數據集上的mAP 達到60.3%。為加強通道間的特征交互,鞠默然等人在特征融合模塊之后加入SENet,利用自動學習特征通道間的重要性輸出各尺度的預測結果。

在SSD 檢測器中,由淺層生成的小目標特征缺乏語義信息,并且小目標嚴重依賴于上下文。針對此問題Li 等人結合FPN 的思想將輕量級的特征融合引入SSD,合并不同層的特征圖生成特征金字塔,充分利用了小目標特征信息。Shi等人提出FFESSD(single shot object detection with feature enhancement and fusion)。該方法采用SFE(shallow feature enhancement)模塊增強淺層語義信息,采用DFE(deep feature enhancement)模塊使深度特征映射具有關于輸入圖像的更多信息。趙鵬飛等人為豐富淺層特征信息,提出特征增強模塊(feature enhancement moudle,FEM),并將經過FEM 模塊后的特征圖與通道降維后的特征圖進行拼接。但通道拼接操作忽略了各通道之間的相互關系,因此在融合操作后又加入ECAM(efficient channel attention module)模塊充分挖掘小目標的上下文特征信息。不同特征融合策略在公共數據集測試結果如表5 所示。

表5 不同特征融合策略在公共數據集上的測試結果Table 5 Test results of different feature fusion strategies in public datasets

特征融合與特征增強能夠結合淺層與深層的特征信息,充分利用多尺度輸出。但特征融合的串聯操作不能反映通道間的相關性,特征之間信息交互不完全。而注意力機制可以通過不同的權重分配學習通道間的特征信息。采取特征融合與注意力機制結合的方法能夠加強特征的提取能力。但如何合理地使用注意力機制以及合理地進行特征融合仍是未來的研究方向。

在傳統的深度學習目標檢測算法中會結合一些網絡結構,融合這些網絡結構的優點可以使網絡模型具有更好的泛化能力。傳統的目標檢測網絡經過不斷的卷積之后,得到分辨率很低的特征圖,損失了空間結構。趙文清等人針對關聯度較高的數據集,改進HRNet網絡并引入長短期記憶網絡(long short term memory,LSTM),構建了一種高分辨率的網絡結構。該模型采用先降低分辨率再提升分辨率的特征串聯交互方式提高模型性能。

魯博等人對YOLOv3-Tiny 做出改進,在原網絡模型的基礎上引入Bi-FPN 特征金字塔結構,并重新定義了一種上采樣模式,豐富了目標的語義信息,提高了對小目標檢測的精確度。潘昕暉等人在YOLO V3 的基礎上結合了CSPNet。該網絡將某一特征層分為兩部分,一部分經少量處理與特征提取后的另一部分融合,形成局部過渡層;然后通過分塊合并,使梯度路徑的數量變為原來的兩倍,實現了更豐富的梯度組合,加強了模型自主學習能力,降低了內存消耗;之后引入Bi-FPN 網絡對特征進行增強,通過自頂向下以及自底向上的方式對特征層進行新一輪融合,實現了對小目標檢測效果的明顯提升。

在單階段目標檢測算法中引入其他功能的網絡結構,不僅能增強小目標的檢測能力,還可以根據不同網絡結構的功能適應不同環境下的小目標,如對密集型數據的處理以及對關聯性較強數據的處理。但是該類方法需要針對特定的數據融合恰當的網絡結構,對普遍的小目標數據不適用,遷移學習能力較弱。

2.3 優化交并比函數

IoU 是進行目標檢測算法性能評價的一個非常重要的函數,交并比的值代表預測框和真實框交集和并集的比值。周慧等人利用聚類生成的Anchor Box 計算自適應IoU 閾值(adative threshold section,ATS)。ATS首先選取候選樣本中心點與Ground Truth中心點距離最小的為候選正樣本;其次計算每個候選正樣本與Ground Truth的IoU值,并計算每一層特征圖IoU 的均值和方差;最后規定若其IoU 值大于該層IoU均值和方差之和,則認為是正樣本,否則為負樣本。

但若預測框和真實框之間不相交,如圖4 所示,IoU 的值為0,無法得到優化方向。

圖4 兩目標框IoU 為0Fig.4 IoU of two boxes is 0

為解決這一問題,Rezatofighi 等人提出GIoU(generalized intersection over union)來優化兩個目標框的面積。對于任意的兩個預測框和真實框、,首先找到、的最小閉包區域,并計算其面積A;然后計算閉包區域中不包含、的區域占閉包區域的比值;最后使用IoU 減去該比值得到GIoU,如式(1)所示。

Yang 等人使用GIoU 代替YOLO V3 模型 中的IoU,進一步提高了目標檢測的定位精度。鄒承明等人對GIoU 進行討論,優化網絡中真實框與預測框的重疊度。但若、重疊,此時的GIoU 便退化為IoU。因此,Zheng等人提出DIoU。DIoU可以最小化兩個目標框之間的距離,DIoU的表達式如式(2)所示。

式(2)中,表示預測框與真實框中心點的距離,表示兩者閉包矩形的對角線長度。

Liang 等人采用DIoU 作為YOLO V3 模型中的邊框回歸機制,考慮了Ground Truth 與Anchor Box 之間的距離和重疊率,使得邊界框回歸更加穩定,避免了IoU、GIoU 等訓練過程中出現的發散問題。潘昕暉等人引用DIoU 并對其做出改進,對分子上的歐氏距離開平方降低其權重值,然后在DIoU 中加入懲罰項,來控制預測框的寬高盡快地向真實框的寬高靠近。改進后的DIoU 表達式如式(4)所示。

式(4)中,用來衡量長寬比的一致性,為人工設置的懲罰項。

但若兩個目標框的中心點重合,長寬比不同時,DIoU 便不再發生變化,因此在DIoU 的基礎上Zheng等人又提出CIoU。CIoU 總結了兩個目標框之間的重疊面積、中心點距離和長寬比,相比DIoU 來說CIoU 的收斂效果更好,其表達式如式(5)所示。

式(6)中,和表示真實框的寬和高,和表示預測框的寬和高。

Li 等人總結了YOLO V3 中GIoU 的優缺點,采用CIoU 計算預測框與真實框的寬高比。將CIoU 損失作為Bounding Box 的回歸損失,有效地提高了模型訓練過程中Bounding Box 的收斂速度,使模型檢測的準確性達到了預期的效果。

隨著對交并比函數的不斷優化,目前的交并比函數已經考慮到預測框與真實框之間的面積比、中心點距離比以及長寬比,并且可以全面且綜合性地評價兩個目標框之間的重合程度,能很好地適應各種情況的目標數據,使得預測框可以盡可能地向真實框靠近。但對于IoU 閾值的選取大多還是自定義閾值,未能充分地考慮正負樣本之間的平衡性。此外,CIoU 作為目前最優的交并比函數并不是每次都能達到最好的訓練結果,對交并比函數的選取還應視實際情況而定。

2.4 優化損失函數

傳統的YOLO 損失函數包含定位損失、置信度損失以及分類損失。YOLO 采用誤差平方和的方式計算損失函數,其表達式如式(8)所示。

對于不同的檢測方法選取不同的損失函數會得到不同的收斂效果。通過改進YOLO、SSD 算法的損失函數,可以使小目標物體的定位和檢測更加準確。單美靜等人對Tiny YOLO 進行改進,提出L-YOLO模型。該模型使用高斯損失函數作為邊界框的定位損失,同時考慮到定位的不確定性、邊界框置信度以及類別概率,降低了對目標的誤檢和漏檢。L-YOLO的高斯邊界框定位損失如式(9)所示。

為了加快損失函數的收斂速度,解決正負樣本不均衡的問題,越來越多的人參照RetinaNet 中的損失函數將Focal Loss 函數作為邊框損失,既解決了正負樣本不均衡的問題,也解決了較易分類樣本與較難分類樣本不均衡的問題。Focal Loss函數表達式如(10)所示。

其中,用來平衡正負樣本的權重;為經過激活函數的預測輸出,其值在(0,1)之間;(1-)聚焦較難訓練的負樣本,且≥0。

張炳力等人針對夜間小目標檢測效果差的問題,分別優化了RetinaNet 網絡的分類損失和定位損失。在分類損失中分別對正負樣本設置系數并增加與IoU 關聯系數,在中心點的定位損失中引入綜合預設框、目標框以及預測框信息的系數,消除了模型對不同大小目標框的敏感度。

張思宇等人針對行人檢測將SSD 損失函數改為二分分類損失函數,為使損失函數更快地收斂,將與按1∶1 的比例進行計算,并將正則化項加入損失函數。鄭秋梅等人針對小目標輸出損失函數較小的問題對待檢測物體寬高進行加權,降低大目標誤差對小目標檢測的影響,改進后的損失函數使用平方和損失且考慮真實邊框的尺寸,加速了模型收斂。

在目標檢測任務中損失函數的主要功能是保證定位更加準確,識別精度更高。然而不同的模型所需的損失函數不同,對于預測框分類和回歸的結果也不同。在選取損失函數時,應通過實驗綜合評價損失函數對模型的影響,取長避短,提升對小目標的定位和識別精度。

2.5 其他方法

針對YOLO 系列算法實現多尺度檢測進行改進,結合特征金字塔的思想,可以提取不同尺度的特征分支,既利用了更多的高分辨率特征信息,又未對模型收斂速度造成影響,在實時性和檢測精度之間實現了較好的平衡。同時,增加檢測尺度、使用圖像分割以及根據不同尺度分配不同Anchor Box等方法可以增強小目標的識別能力,滿足不同尺度特征圖對不同Anchor Box 的敏感程度。

但大多數的多尺度檢測采用FPN 來解決目標實例尺度變化對模型檢測的影響。FPN 旨在根據內部多尺度對目標進行檢測分類,特征金字塔中的特征圖不能完全包含目標檢測任務,且每層特征圖僅包含本層特征信息,在實際檢測時與小目標實例的外表差異較大。針對該問題,Zhao 等提出M2Det,采用多層次特征金字塔(multi-level feature pyramid network,MLFPN)實現不同尺度目標檢測。MLFPN 主要包含三部分,即特征融合模塊(feature fusion module,FFM)、U 型模塊(thinned U-shape module,TUM)和尺度特征聚合模塊(scale-wise feature aggregation module,SFAM)。其中,FFMv1 融合骨干網絡的基本特征信息;TUM 產生多尺度特征,并利用TUMs 和FFMv2 提取多層次多尺度特征;SFAM 通過多尺度特征拼接以及自適應注意力機制聚合特征信息。M2Det在MS COCO 數據集上的訓練速度達84.7 frame/s,mAP 達41.0%。

特征輸出受感受野區域內像素點的影響。感受野過大,易導致模型過擬合;感受野過小,難以學習深層次的復雜特征信息。為使淺層特征圖的感受野適應小目標檢測,王鵬等人在不同尺度的特征層后加入空洞金字塔模塊和特征空洞金字塔模塊構成新型網絡結構PDSSD(pyramid dilated SSD),擴大卷積核感受野,增強對小目標的特征提取能力。在PACCAL VOC 數據集上,輸入尺寸為512×512 像素的mAP 可達82.1%。張新良等人為保證模型能夠保留更多的特征信息,在SSD 模型中融合多維空洞卷積算子(multiple dilated convolution,MDC)和多層次特征的深度網絡來提升小目標物體的檢測能力。在VOC2007測試集上,MDC模型mAP達到80.4%。陳灝然等人在SSD 特征提取網絡中加入RFB(receptive field block)結構,通過多分支卷積和空洞卷積獲得不同尺度的感受野,加強對小目標的檢測。該模型在VOC公開數據集上mAP 為81.8%。

在目標檢測中通常需要以某個設定的IOU 閾值來篩選正樣本和負樣本,IoU 閾值的不合理設置會對小目標的檢測結果造成影響。宋云博等人設計了平行級聯網絡,使用前一級的輸出作為下一級的輸入,IoU 閾值逐級提升,保證不同級別的分類器和回歸器在越來越高的樣本質量上進行訓練。該模型在COCO 數據集上的AP 達到44.2%。

目前大部分的目標檢測都基于Anchor,但基于Anchor 會引入過多的超參數,且錨框的尺寸固定,不利于處理形變較大的目標。Law等人設計了Corner-Net,該算法未涉及Anchor 的概念,整個模型不基于預訓練。該模型提出檢測Bounding Box 的一對角點來檢測目標,并使用Corner Pooling 來定位角點。CornerNet 在COCO 數據集上的AP 達到42.1%。但CornerNet 檢測角點來定位目標需要同時輸出熱圖、偏移和嵌入,若檢測結果丟失任何一個角都會導致該目標漏檢,并且該算法需要精確的偏移和正確的嵌入來生成準確的緊密邊界框。雖然使用Ground Truth 偏移量代替預測偏移量可以提升一定的檢測精度,但角點檢測和分組仍有很大的改進空間。

為進一步改進CornerNet,Duan 等人提出了CenterNet。該算法將目標檢測問題轉變為中心點預測問題,通過預測目標中心點偏移量和寬高來獲取目標矩形框。在COCO數據集上的AP提高到47.0%,但訓練速度不及CornerNet。

Tian等人設計了FCOS(fully convolutional onestage object detection)。該算法直接將特征圖上的每個位置都作為訓練樣本,若某一位置落入任何真實邊框則認為該位置為正樣本。但若標注真實框重疊,該位置映射到原圖中會落在多個真實邊界框中,產生模糊樣本問題。該算法采用FPN 進行多級預測解決模糊樣本問題,并引入center-ness 抑制由于距離中心位置較遠而產生的低質量預測邊界框。FCOS算法的提出顯著減少了模型參數數量,通過消除錨框避免了復雜的IoU 計算以及邊框回歸,降低了對內存的空間占用率。

3 常用小目標數據集

最近研究表明,利用數據量更大的數據集能有效地提升目標檢測的性能。為了更好地研究小目標數據,逐漸出現了很多針對小目標檢測的數據集。這些數據集大都包括人臉檢測數據、行人檢測數據、遙感圖像數據、紅外檢測數據、航空拍攝數據、醫學影像數據等。在交通應用場景中的數據集包括EuroCity Persons數據集和交通燈數據集等;航空領域中的數據集包括DOTA、AI-TOD、iSAID和BIRDSAI數據集等;在行人檢測領域的數據集包括TinyPerson、WiderPerson和NightOwls數據集等。相關小目標檢測數據集如表6 所示。

表6 相關小目標檢測數據集Table 6 Small object detection datasets

各種小目標數據集檢測結果如圖5 所示。其中,(a)(b)(c)(d)表示行人 檢測數據集,(e)(f)(g)(h)表示航空圖像數據集。這些待檢小目標在圖像中占比較小,分辨率較低,存在較復雜的背景環境,并且一些小目標密度較大,存在遮擋,適用于提升小目標檢測的研究。

圖5 小目標數據集檢測結果Fig.5 Detection results of small object detection datasets

4 總結與展望

本文系統地闡述了近年來對基于深度學習的單階段小目標檢測算法的研究。首先總結了小目標物體研究的難點;其次從優化Anchor Box、優化骨干網絡、在模型中引入注意力機制和其他網絡、對不同尺度的特征圖進行特征融合、優化IoU 和損失函數等幾個方面詳細地總結了優化小目標檢測的方法;最后介紹了常用的小目標數據集,使得小目標檢測能根據不同的領域具體分析其目標特征。雖然目前小目標檢測在精度上得到了很好的提升,單階段目標檢測技術也保證了模型的運行速度,但總的來說對各領域小目標的檢測仍未達到理想的效果。結合上述分析,提出以下幾點。

(1)構建高分辨率輕量級網絡。目前大多數網絡模型通過卷積和下采樣操作提取出的特征圖分辨率較低,不利于小目標的特征分析。在今后的研究中可以考慮高分辨率輕量級網絡,得到語義豐富且定位精確的特征圖。

(2)構建大規模數據集。到目前為止已經出現越來越多的小目標數據集,但這些小目標數據集大都針對各自的領域,樣本仍存在分布不均、數量不足的問題。構建小目標檢測數據集時可以運用數據增強的方法擴充數據量,調整樣本分布,降低數據的不平衡性。

(3)結合上下文信息。在小目標檢測的過程中可以充分利用小目標的區域特征,結合上下文信息增強對小目標的檢測。但引入一些網絡增強區域特征時會增加復雜度,因此平衡網絡的復雜度和精度是未來較為重要的研究方向。

(4)優化特征融合方式。通過一些簡單的特征融合可以增強小目標的特征表達能力,但沒有規律地一味融合反而會降低小目標檢測的準確度。因此,研究合適的特征融合方式并采取恰當的上采樣操作對提升小目標檢測十分重要。

(5)提升模型可遷移性。目前的小目標檢測技術通常是為研究某一特定領域而制定的,檢測技術可遷移性較差,無法適應復雜變換的場景。因此,研究可遷移性較好的網絡模型可以有效地提升小目標檢測技術。

綜上所述,基于深度學習的單階段小目標檢測技術已成為小目標檢測的主流。通過對單階段目標檢測的不斷改進與優化,大幅提升了小目標的檢測精度。但目前網絡模型仍存在模型較復雜、檢測精度較低的問題,因此提升小目標檢測技術仍需要較長時間的發展。

猜你喜歡
特征融合檢測
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 婷婷亚洲视频| 国产欧美日韩精品第二区| 国产精品亚洲а∨天堂免下载| 精品天海翼一区二区| 国产丝袜91| 欧美中文字幕一区二区三区| 国产精品久久国产精麻豆99网站| 婷婷综合色| 亚洲天堂网在线播放| 成年人免费国产视频| a级毛片免费播放| jijzzizz老师出水喷水喷出| 欧美α片免费观看| 亚洲天堂精品视频| 亚洲经典在线中文字幕| 国产精品尤物在线| 日韩在线第三页| 精品无码一区二区三区在线视频| 日本久久网站| 亚洲国产成人超福利久久精品| 国产精品福利尤物youwu| 在线看片中文字幕| 自拍亚洲欧美精品| 黄色国产在线| 国产一在线| 日韩a在线观看免费观看| 亚洲人成人伊人成综合网无码| 亚洲天堂在线视频| 日韩精品无码不卡无码| 无码人妻免费| 欧美精品亚洲日韩a| 成人福利视频网| 一级毛片不卡片免费观看| 亚洲美女一区| 国产精品九九视频| 国产激爽大片在线播放| 国产超薄肉色丝袜网站| 欧美高清三区| 国产一区二区影院| 又大又硬又爽免费视频| 精品自窥自偷在线看| 国产噜噜噜视频在线观看| 永久免费av网站可以直接看的 | 亚洲一区无码在线| 亚洲色偷偷偷鲁综合| 波多野结衣AV无码久久一区| 91系列在线观看| 中文字幕人妻无码系列第三区| 亚洲视屏在线观看| 免费三A级毛片视频| 红杏AV在线无码| 国产成人h在线观看网站站| 一区二区三区成人| 在线观看无码av免费不卡网站| 日韩乱码免费一区二区三区| 国产成人精品第一区二区| 国产原创演绎剧情有字幕的| 97国产在线视频| 国产欧美专区在线观看| 亚洲男人天堂网址| 国语少妇高潮| 国产精品久久久久久久久久98| 欧美国产三级| 国产色伊人| 91午夜福利在线观看| 久久成人免费| 毛片手机在线看| 九九久久精品免费观看| 国产成人91精品| 国产人免费人成免费视频| 国产伦精品一区二区三区视频优播| 男人天堂伊人网| 亚洲品质国产精品无码| 中文字幕精品一区二区三区视频| 97在线公开视频| 四虎精品国产永久在线观看| 尤物午夜福利视频| 五月天天天色| aaa国产一级毛片| 美女无遮挡拍拍拍免费视频| 最新国产精品鲁鲁免费视频| 国产成人禁片在线观看|