張勝虎,馬惠敏
遮擋對于目標檢測的影響分析
張勝虎1,馬惠敏2
(1. 清華大學電子工程系,北京 100084; 2. 北京科技大學計算機與通信工程學院,北京 100083)
當前目標檢測任務中遮擋問題是一項具有挑戰性的工作,由于存在遮擋導致物體的整體特征結構遭到破壞,在檢測過程中容易發生漏檢、誤檢等問題。常見遮擋處理方法在很大程度上提高了遮擋檢測效果,然而對遮擋構成因素和不同遮擋比例對于檢測性能的影響情況,目前并沒有具體量化分析。對此,從數據驅動方法出發,通過仿真方式構建生成大量均勻分布的遮擋數據集(MOCOD),在此數據集上分析不同遮擋比例下的檢測性能,量化分析了不同遮擋對于檢測性能的影響情況,在分析的基礎上,通過按遮擋比例引入衰減權重方式來篩選高質量的正樣本參與模型訓練,有效提升了遮擋情況下的檢測性能。
深度神經網絡;目標檢測;遮擋處理;遮擋數據集
目標檢測任務是計算機視覺領域的重要基礎,其目的是檢測圖像或視頻中是否存在特定類別的目標物體,并確定其所在區域坐標及類別信息。近年來隨著深度學習技術研究的快速發展,目標檢測任務在檢測準確率和速度上都得到了巨大提升,然而在實際場景中目標物體面臨復雜背景條件、多姿態旋轉、多尺度變化及遮擋等問題,檢測時可能造成存在不同程度的漏檢、誤檢現象,嚴重干擾、限制了檢測性能的提升。如何有效解決不同遮擋條件下的物體檢測,是當前目標檢測需要解決的難點問題之一。
在計算機視覺任務中,遮擋現象非常普遍且復雜,發生遮擋的位置不定且形式多變,由于存在遮擋導致目標物體整體結構受到破壞,由此導致識別性能下降的影響是顯而易見的,不管是目標檢測還是目標跟蹤都需要解決由遮擋問題帶來的影響。按照遮擋發生在目標間的相互關系,可分為類內、類間遮擋,類內遮擋是指同一類別的物體發生遮擋,如密集場景中行人間的相互遮擋,類間遮擋是不同類別的物體發生遮擋,如城市街景中車遮擋了行人。按照遮擋比例大小,可劃為一般遮擋、中等遮擋和嚴重遮擋。對于處理遮擋問題,目前現有常見的方法可以大致劃分為3類:基于約束可見部分和部件的檢測方法、基于優化損失函數的檢測方法以及基于數據驅動的檢測方法。
當前在目標檢測中常見處理遮擋問題的方法,可以劃分為基于約束可見部分和部件的方法、基于優化損失函數的方法及基于數據驅動的方法,其中基于可見部分與部件的方法主要利用可見部分與定義部件提供的信息,使得檢測框更貼近可見部分,或是采用不同部件區分遮擋發生的位置進行特征有效融合;優化損失函數主要是通過約束預測框和真實框的距離損失,使預測框更接近真實目標框;而基于數據驅動的方法主要是從遮擋數據集出發,通過產生大量的遮擋樣本來訓練檢測模型,一般采用數據增廣,利用對抗網絡生成隨機遮擋等方式增加遮擋多樣性,以提高遮擋檢測的效果和魯棒性。
基于可見部分及部件的檢測方法[1-4]是目標檢測任務中常用的有效處理遮擋問題方法,此類方法從發生遮擋時物體結構改變出發,待檢測物體在處理遮擋問題時很自然可區分為遮擋部分與可見部分進行,遮擋部分破壞了目標物體的正常結構,一般可作為推斷或是估計,而可見部分仍然保留了目標物體相應特征,在檢測時主要可以利用這一保留特征進行約束,篩選高質量的正樣本參與訓練,使得訓練的預測框能夠更加貼近目標真實框。同時可從遮擋發生部位出發,預先將待檢測物體定義劃分為若干個部件,如頭部、肩部、軀干等,針對各個特定部件訓練相應的檢測器,在測試時利用多個檢測器共同判定檢測圖像,融合多個部件信息得到最終遮擋情況下檢測結果。對于利用可見部分和部件的方法,需要遮擋數據集標注詳細的可見區域和部件結構信息,對于復雜場景的遮擋標注任務量較大,利用部件信息進行訓練時模型復雜且收斂較為困難。因此本文采用仿真方式構建包含大量均勻分布的遮擋樣本,僅利用仿真生成包含的目標物體的mask信息可輕松替代人工實現目標的標記與遮擋比例的計算等任務。
基于優化損失函數的方法[5-6]是處理遮擋問題的另一有效方法,一般通過優化檢測器的定位損失函數來提升遮擋處理。在遮擋檢測場景中,背景和周圍其他目標對模型的預測框存在較大的影響干擾,在檢測時會造成一定的漏檢,為了優化解決此問題,一般對檢測算法中常用的邊界框回歸方法進行修改,使得預測候選框更貼近相對應的真實目標框而遠離其他周圍框,同時屬于不同真實目標框的候選框相對也遠離,對此文獻[5]提出的排斥損失Reploss和文獻[6]提出的聚合損失Aggloss都是比較典型有代表性的優化方法。采用優化損失函數的方法,需要根據數據集獲取有一定的先驗知識,主要針對密集場景下發生的遮擋,對于不同數據集設置的閾值比較敏感,在訓練中采用優化loss的方法模型擬合較為困難。
數據是滿足各種任務需要實現模型訓練的基礎,在推動深度學習發展中起著重要作用,在目標檢測中遮擋是嚴重影響檢測算法性能的重要因素,對此從數據本身出發,擴充數據集的遮擋樣本也是解決遮擋問題的方法,通過大量遮擋數據驅動,挖掘圖像中更多遮擋信息特征就能夠訓練出檢測性能良好且魯棒的模型。目前在已有數據集的基礎上,通過對抗生成網絡等方式生成隨機遮擋[7],有效擴充了遮擋形式增加了遮擋樣本,在一定程度上能夠提升檢測模型的性能和魯棒性。然而采用隨機遮擋的方式產生的遮擋比例不可控,同時與實際場景中復雜遮擋情形不夠匹配。
目前針對目標檢測任務的數據集非常多,針對遮擋問題有遮擋標注的數據集有Caltech[8],Citypersons[9],EuroCity Persons (EUP)[10]和CrowdHuman[11]等。其主要采集城市街景中的大量行人,通過標記處理用于訓練遮擋檢測模型并測試性能,極大方便了遮擋檢測算法的訓練與提升。且標注了可見部分和目標整體框,如圖1所示,其中綠色框為物體可見部分,藍色框為物體整體框。

圖1 常見行人遮擋數據集標注
由于實際遮擋樣式具有多樣性和復雜性,當目標物體發生截斷或是不規則遮擋時,標記可見部分與整體框則存在一定困難,計算遮擋比例時存在一定誤差,圖1在對目標物體標記時,都對可見部分進行了截斷取舍,對整體框進行了預判估計,由此可見常見數據集對于遮擋的標注和劃分相對粗略,為了更好地研究遮擋問題對檢測性能的影響,需要更加細化分析遮擋因素及分布。
在視覺任務中,遮擋現象非常普遍且復雜,不僅存在類內、類間遮擋,也有目標物體受周圍物體及背景的影響,同時影響遮擋困難度的因素較多,有遮擋比例、遮擋區域位置和物體拓撲結構等,為了更好地度量遮擋復雜度問題,從遮擋物體對和目標物體性質出發,本文提出將逐像素加權的圖像矩陣(,)作為衡量物體被遮擋嚴重程度的因素,分析遮擋比例對于目標檢測的影響。其基本維度包括:遮擋面積比例、關鍵區域復雜度、物體表觀復雜度和幾何復雜度,相關定義分別為:遮擋面積比例是指遮擋部分面積占目標總體面積的大小;關鍵區域復雜度是指遮擋區域關鍵性權值和與目標物體關鍵性權值和的比例;物體表觀復雜度是指目標物體紋理與遮擋物紋理的相似度;幾何復雜度是指遮擋部分權值和與目標物體權值和的比例,綜合遮擋復雜度的定義為

通過仿真方式可實現構建包含多樣遮擋情況的數據集,是基于數據驅動有效解決遮擋檢測問題的方法之一。在仿真過程中主要詳細標注的數據有:圖像大小、每個物體類別及完整的Mask標注和Rgb文件、目標類別的bbox、遮擋情況及比例、關鍵區域信息等,其中遮擋比例定義為_= 1-/。數據集的具體標注情況如圖2所示。

圖2 MOCOD數據集標注情況
MOCOD是一個具有像素級標注的含有遮擋信息的多目標檢測的全仿真數據集,主要包含Car,Human,Plane和Ship等4類,其中各類目標物體具有不同姿態場景和遮擋比例,如圖3所示。
在仿真過程中,對數據集圖像包含的物體所有目標物體逐一都進行了Bounding Box標注,如圖4所示,綠色框表示該目標物體沒有發生遮擋,紅色框代表該物體存在被遮擋情況,對于生成的5個目標物體,其中目標5無遮擋,其余目標物體存在遮擋,遮擋比例分別為:目標1為0.64,目標2為0.21,目標3為0.02,目標4為0.46。量化遮擋比例主要是采用逐像素點累積的方式精確化計算可見部分與整體框的大小,通過兩者比值可實現遮擋比例的量化。

圖3 MOCOD數據集標注情況

圖4 MOCOD數據集遮擋比例計算示例
經仿真生成與標記,目前該數據集包含8 200張圖像(Car:1 900張,Human:1 700張,Plane:2 200張,Ship:2 400張),標記框目標大小32 166,每張圖像中平均包含4個目標物體,物體存在不同層級的遮擋比例。為了便于量化統計分布情況,將遮擋比例按照被遮擋部分大小取1位小數向上取整,從0到1共分為11級,其中0表示無遮擋,1.0表示遮擋比例大于0.9以上接近完全遮擋。
圖5是數據集中圖像在各級遮擋中包含目標物體數目的分布情況,相比于現有其他遮擋數據集,仿真數據集MOCOD在遮擋量化分級更加深入細致,遮擋層級分布相對均勻,同時具有復雜場景和多個類別。常見遮擋數據集對比情況見表1。
目標檢測的主要任務可以區分為定位和分類,即判定目標物體在圖像或視頻中的位置信息與類別。現階段,隨著深度學習技術的廣泛應用和計算機算力性能的提升,基于深度卷積神經網絡的目標檢測算法得到快速發展,主流的目標檢測技術可以分為以R-CNN系列為代表的雙階段法和以SSD,YOLO系列為代表的的單階段法,其中兩者的最大區別是:雙階段法需要通過RPN網絡生成Proposals,而單階段框架直接在特征圖上生成候選框。

圖5 MOCOD數據集遮擋分布情況

表1 常見遮擋數據集與仿真數據集對比
本文主要利用mmdetection檢測框架[12],采用經典雙階段法Faster-RCNN[13]為檢測網絡框架,RPN+Res50作為檢測主干網絡,在其基礎上根據仿真數據集和檢測任務調整改變部分結構完成遮擋檢測任務,采用線性預熱warm up[14]策略調整學習率。
為了分析MOCOD數據集中遮擋對于檢測準確率的影響情況,在模型訓練中按圖像標注信息中的遮擋比例_進行篩選樣本,僅在訓練過程中“剔除”大于該比例的目標物體,即存在嚴重遮擋的樣本不參與訓練過程,針對該遮擋比例范圍內的樣本進行側重訓練,從而根據不同遮擋情況訓練得出相適用的多個模型,然后在同一測試集中進行比較檢測準確率。與遮擋比例分布類似,將目標物體的遮擋比例對應按照大小劃分為11層級,在各層級的檢測結果如圖6所示,其中圖6(a)表示檢測的平均精確率mAP,圖6(b)表示各類的檢測精確率AP。

圖6 MOCOD數據集在各遮擋層級的檢測準確率
從以上檢測結果折線率變化可以看出,不管是mAP還是各類目標物體的AP,都與遮擋層級有一致相關影響,僅采用無遮擋目標樣本訓練得到的模型,其檢測準確率最低(mAP為0.473),隨著不斷引入不同層級遮擋樣本參與訓練,在遮擋比例小于0.3時,其模型檢測率迅速增加,當遮擋比例大于0.6之后,其模型檢測準確率增加趨于平緩。即遮擋對于檢測準確率有較大的影響,當遮擋比例小于0.3時,為一般遮擋,訓練得到的模型仍然能夠正常檢測,當遮擋比例大于0.6時,為嚴重遮擋,訓練得到的模型幾乎無法正常檢測。
為了更進一步分析遮擋對于檢測的影響情況,減少訓練樣本差異帶來的一定干擾,在之前實驗的基礎上,將遮擋層級區間歸并劃分為單一遮擋層級數據分布,對其分別進行訓練和測試,具體檢測情況見表2。

表2 不同遮擋層級的檢測準確率
通過以上實驗分析,由于存在遮擋導致物體檢測時存在一定的漏檢現象,使得物體檢測性能下降較為明顯。為了區分因物體存在不同程度遮擋時對檢測的影響,在訓練中加入遮擋比例衰減權重,篩選出質量較高的正樣本參與訓練,來提升遮擋檢測的性能。2次測試結果對比的情況見表3。

表3 MOCOD數據集上檢測結果
從表3可以看出,通過按遮擋比例衰減權重篩選高質量正樣本參與訓練,能夠有效提升各類別在遮擋情況下的檢測準確率。
通過仿真方式,可以獲得大量包含不同姿態、遮擋比例的具有詳細標注的數據集,在很大程度上能夠減輕現實中采集與標注數據的繁雜工作,同時仿真生成數據具有可控多樣性,可以完全滿足不同任務需要。一方面能夠完善補充現有數據情況,通過增強數據訓練出更為魯棒的模型,另一方面可以結合實際需求跨數據集進行訓練,為解決現有遮擋問題而起到輔助作用。本文通過構建大量均勻分布的仿真數據集,主要分析了不同遮擋比例對于檢測性能的影響情況,針對目標檢測中的遮擋問題,采取按遮擋比例篩選質量較高的正樣本參與訓練,使得模型能夠更加關注遮擋中的可見部分在檢測中的影響,這在處理遮擋問題時有較好效果。
[1] ZHOU C L, YUAN J S. Bi-box regression for pedestrian detection and occlusion estimation[C]//The 15th European Conference on Computer Vision. Heidelberg: Springer, 2018: 138-154.
[2] LU R Q, MA H M. Occluded pedestrian detection with visible IoU and box sign predictor[C]//2019 International Conference on Image Processing. New York: IEEE Press, 2019: 1640-1644.
[3] ZHANG Z S, XIE C H, WANG J Y, et al. DeepVoting: a robust and explainable deep network for semantic part detection under partial occlusion[EB/OL]. [2020-03-20]. https://arxiv.org/abs/1709.04577v2.
[4] NIKNEJAD H T, KAWANO T, OISHI Y, et al. Occlusion handling using discriminative model of trained part templates and conditional random field[C]// 2013 IEEE Intelligent Vehicles Symposium. New York: IEEE Press, 2013: 750-755.
[5] WANG X L, XIAO T T, JIANG Y N, et al. Repulsion loss: detecting pedestrians in a crowd[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7774-7783.
[6] ZHANG S F, WEN L Y, BIAN X, et al. Occlusion-aware R-CNN: detecting pedestrians in a crowd[C]//The 15th European Conference on Computer Vision. Heidelberg: Springer, 2018: 657-674.
[7] WANG X, SHRIVASTAVA A, GUPTA A. A-fast-rcnn: hard positive generation via adversary for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2606-2615.
[8] DOLLáR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: an evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761.
[9] ZHANG S S, BENENSON R, SCHIELE B. CityPersons: a diverse dataset for pedestrian detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. NewYork: IEEE Press, 2017: 4457-4465.
[10] BRAUN M, KREBS S, FLOHR F, et al. EuroCity persons: a novel benchmark for person detection in traffic scenes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1844-1861.
[11] SHAO S, ZHAO Z J, LI B X, et al. CrowdHuman: a benchmark for detecting human in a crowd[EB/OL]. [2020-04-09]. https://arxiv.org/abs/1805.00123.
[12] CHEN K, WANG J Q, PANG J M, et al. MMDetection: open MMLab detection toolbox and benchmark[EB/OL]. [2020-05-08]. https://arxiv.org/abs/1906.07155v1.
[13] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[14] HE T, ZHANG Z, ZHANG H, et al. Bag of tricks for image classification with convolutional neural networks[EB/OL]. [2020-02-19]. https://arxiv.org/abs/1812. 01187.
An analysis of occlusion influence on object detection
ZHANG Sheng-hu1, MA Hui-min2
(1. Department of Electronic Engineering, Tsinghua University, Beijing 100084, China; 2. School of Computer & Communication Engineering, University of Science & Technology Beijing, Beijing 100083, China)
The occlusion problem poses challenges to the current object detection. The presence of occlusion could destroy the overall structure of the object, which is likely to incur missing detections and false positives during the detection. Although the common methods for handling occlusion have greatly enhanced the performance of occlusion detection, there remains no specific quantitative analysis of the occlusion components and the impact of different occlusion ratios on the detection performance. In this paper, based on the data-driven method, a large number of uniform occlusion datasets were generated by simulation, named as More than Common Object Detection (MOCOD), and the detection performance under different occlusion ratios was analyzed quantitatively. On the basis of the analysis of occlusion’s influence, according to the occlusion ratios, the decay weight was introduced to select high-quality positive samples for the model training, thereby effectively improving the detection performance under occlusion conditions.
deep convolutional neural networks; object detection; occlusion handling; occlusion datasets
TP 391
10.11996/JG.j.2095-302X.2020060891
A
2095-302X(2020)06-0891-06
2020-07-21;
2020-07-24
21 July,2020;
24 July,2020
國家重點研發計劃項目(2016YFB0100901);國家自然科學基金項目(61773231);北京市科學技術項目(Z191100007419001)
National Key Basic Research Program of China (2016YFB0100901); National Natural Science Foundation of China (61773231); Beijing Science and Technology Project (Z191100007419001)
張勝虎(1990-),男,甘肅天水人,碩士研究生。主要研究方向為目標檢測。E-mail:zsh18@mails.tsinghua.edu.cn
ZHANG Sheng-hu (1990-), male, master student. His main research interests cover object detection. E-mail:zsh18@mails.tsinghua.edu.cn
馬惠敏(1972–),女,河南洛陽人,教授,博士,博士生導師。主要研究方向為圖像認知與機器學習、計算機視覺與目標識別、高動態復雜環境對抗仿真等。E-mail:mhmpub@ustb.edu.cn
MA Hui-min (1972-), female, professor,Ph.D. Her main research interests cover image cognition and machine learning, computer vision and object detection, high dynamic complex environment confrontation simulation, etc. E-mail:mhmpub@ustb.edu.cn