尹航 范文婷



摘要:目標檢測是計算機視覺領域三大任務之一,同時也是計算機視覺領域內一個最基本和具有挑戰性的熱點課題,近一年來基于Transformer的目標檢測算法研究引發熱潮。簡述Transformer框架在目標檢測領域的研究狀況,介紹了其基本原理、常用數據集和常用評價方法,并用多種公共數據集對不同算法進行對比以分析其優缺點,在綜述研究基礎上,結合行業應用對基于Transformer的目標檢測進行總結與展望。
關鍵詞:目標檢測;Transformer;計算機視覺;深度學習
中圖分類號:TP391? ? ? 文獻標識碼:A? ? 文章編號:2096-4706(2021)07-0014-04
A Summary of Research on Target Detection Based on Transformer
YIN Hang,FAN Wenting
(College of Information Science and Technology,Zhongkai University of Agriculture and Engineering,Guangzhou? 510225,China)
Abstract:Target detection is one of the three major tasks in the field of computer vision. At the same time,it is also a basic and challenging hot topic in the field of computer vision. In almost a year,the research of object detection algorithms based on Transformer has caused a boom. This paper sketches the research status of Transformer framework in the field of target detection,introduces its basic principle,common data sets and common evaluation methods,and compares different algorithms with several public data sets,so as to analyze their advantages and disadvantages. On the basis of summarizing the research,also combined the industry application,this paper summarizes and prospects of the object detection based on Transformer.
Keywords:target detection;Transformer;computer vision;deep learning
收稿日期:2021-02-26
基金項目:廣東省自然科學基金面上項目(2021A1515011605)
0? 引? 言
目標檢測是計算機視覺領域的核心任務,是實現目標跟蹤、行為識別的基礎,目前主流基于卷積神經網絡的目標檢測算法分為一階段和兩階段類型。由于Transformer[1]框架在自然語言處理(NLP)領域取得巨大成功,研究者嘗試將其遷移到計算機視覺領域。
2018年,Parmar首次將Transformer應用于圖像生成,提出Image Transformer模型[2]。2020年,Carion等人將CNN與Transformer結合,提出一個完備的端到端的DETR目標檢測框架[3],首次將Transformer應用到目標檢測。隨后的一年內,類似算法不斷涌現:Zhu[4]等人提出借鑒可變卷積神經網絡的Deformable DETR模型;Zheng[5]等人提出降低自我注意模塊計算復雜度的ACT算法;谷歌提出ViT模型[6]并應用于圖像分類。圖1為近年來基于Transformer目標檢測模型。
1? Transformer 模型
Transformer模型也稱為基于注意力機制模型,多應用于自然語言處理領域,模型包括Encoder和Decoder兩部分,結構如圖2所示。
其中Encoder編碼器由6個具有相同結構的層組成,每層包含2個子層:多頭注意力和前饋網絡,每組子層進行殘差連接,后做歸一化處理。每層Encoder輸出如式(1)所示:
(1)
其中,x為輸入序列。
Decoder解碼器與Encoder結構類似,但多一個掩碼層,該層用于掩蓋未預測的信息,保證每次預測結果都只基于已知信息。Decoder層的輸入為Encoder的輸出和上一層Decoder的輸出,把Encoder層的輸出作為K和V,上一層Decoder層輸出作為Q,將Q、K、V輸入到注意力模塊進行attention操作。Transformer通過Encoder編碼器對輸入序列進行編碼,將編碼結果輸入到Decoder,最后將Decoder的輸出通過線性變換和一個Softmax層來預測下一個輸出,此框架具有較強的語義特征提取和長距離特征捕獲能力,其并行計算能力與CNN相當。如果考慮圖像與文本的維度差異,將圖像轉換為序列,便可輸入到模型進行處理,因此將Transformer遷移到計算機視覺領域是有理論依據、切實可行的。
2? 常用目標檢測數據集及評價方法
2.1? 常用目標檢測數據集
數據集是衡量和比較算法性能的共同基礎[7]。常用的目標檢測數據集有VOC和COCO,行人檢測常用數據集有CityPersons,如表1所示。
2.2? 常用目標檢測評價方法
目標檢測常用評價方法包括:平均精度(AP)和每秒檢測圖片數量(FPS),行人檢測常用的評價方法為MR-2,下文進行具體說明。
2.2.1? 平均精度
平均精度AP特指PR曲線下方面積,式(2)式(3)描述了精確度(Precision)與召回率(Recall)的計算公式。
(2)
(3)
在PR曲線基礎上,通過計算每個召回率對應的準確率求平均,可以獲得AP。
各類AP的平均mAP是最常用的指標,它表示模型在所有類別上表現的好壞,通常數值越高表示效果越好。mAP公式為:
(4)
2.2.2? FPS
每秒檢測圖片數量(FPS)用于衡量模型的檢測速度,通常每秒處理圖片數量越多,模型效果越好。
2.2.3? MR-2
Log-average miss rate(MR-2)是行人檢測中最常用的度量標準,也被稱為漏檢率。它以對數標度計算每個圖像的假陽性漏檢率,范圍為[0.01,100]。
3? 基于Transformer目標檢測模型
3.1? CNN+Transformer目標檢測模型
基于CNN+Transformer目標檢測模型包括DETR和Deformable DETR。
3.1.1? DETR
2020年,Carion[1]等人成功將Transformer框架應用于目標檢測領域中,提出了DETR模型,將ResNet特征提取網絡與Transformer結合,把檢測任務分為特征提取和目標預測兩個部分,整體結構如圖3所示。
該模型將輸入圖片放入CNN特征提取網絡,得到低分辨率特征圖。將特征圖展平成一個序列并加上空間位置編碼后輸入到Transformer的編碼器中,得到各個物體編碼后的特征,隨后將其與Object Query輸入到解碼器中進行并行解碼。與原始解碼器不同,該解碼器在做Multi-Head Attention時也加上了空間位置編碼,在解碼器中的每個輸出都連上一個前饋網絡用于預測目標類型和邊界框。在訓練時使用Hungarian loss來計算預測值與真實標注之間的損失。
該模型在COCO和自定義數據集上的AP與Faster RCNN[6]效果相當,但其在小目標檢測上效果不如Faster RCNN,因此2020年10月Zhu[7]等人提出使用Deformable DETR來解決上述問題。
3.1.2? Deformable DETR
Deformable DETR借鑒了可變形卷積網絡的思想,使用可變形注意模塊代替DETR中Transformer注意力模塊,縮小K采樣范圍,讓Q與更有意義的K進行比較,減少計算量,提升速度。對于小目標檢測效果不佳的問題,該模型使用多尺度可變形注意力模塊,對不同尺度特征圖進行可變形注意,將每層的注意力結果相加得到多尺度注意力,從而提高小目標檢測效果,結構如圖4所示。
該模型與DETR相比,收斂速度快10倍、小目標檢測AP提升3.9%,大目標檢測AP與Faster RCNN相比,提高4.6%。雖然該模型在訓練速度和小目標檢測上得到了很大的改進,但對于遮擋目標的檢測效果仍然不佳。
3.2? 基于Transformer特征提取網絡目標檢測模型
2020年10月Dosovitskiy等[8]提出Vision Transformer(ViT)模型,在大型數據集JFT300M上的圖像分類效果超越當前SOTA的結果,因此Beal等人利用ViT模型作為特征提取網絡,提出用于目標檢測的ViT-FRCNN模型[9]。ViT-FRCNN模型結構如圖5所示。
ViT-FRCNN模型首先將圖片分割成N個P×P子圖,將其按順序排列,轉換為序列化數據,隨后將其輸入到ViT網絡,將每個子圖的輸出重新組合成特征圖,輸入到含有RPN模塊的檢測網絡中實現預測。
3.3? 對比實驗
本文為了衡量各基于Transformer目標檢測模型的性能,基于公共數據集開展對比實驗,如表2所示。通過對比實驗,可見基于Transformer模型的目標檢測精度優于Faster RCNN模型,但檢測速度明顯不足。在基于COCO數據集的對比測試中發現,基于Transformer模型算法平均響應時間為Faster RCNN模型的2.1倍;對水果、蔬菜等小目標檢驗測試平均響應時間為Faster RCNN模型的2.8倍,高于人物等較大目標檢測的平均響應時間,由此可見基于Transformer模型目標檢測在工業農業生產等領域的實際應用還不夠成熟。
4? 結? 論
本文對基于Transformer目標檢測模型進行了分析,雖然此類模型在目標檢測任務中有較好表現,但仍存在許多不足。如DETR系列模型的檢測速度較慢,對小目標檢測性能不佳;TSP模型提高了檢測速度,但大目標檢測性能退化。目前,基于DETR算法的改進主要是針對模型收斂速度和小目標檢測,收斂速度的改進通過調整注意力模塊的輸入來降低自注意的計算量來達到加速效果,而小目標檢測任務則通過加入多尺度特征融合來實現。基于特征提取網絡的ViT-FRCNN系列模型提升了收斂速度,但平均精度有待提高。同時,實際目標檢測應用場景環境復雜,反光倒影、灰塵遮擋等各類噪聲突出,SIRR等算法可用于基于Transformer模型的前期去噪處理,提高整體精度。
參考文獻:
[1] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]//Advances in Neural Information Processing Systems.Long Beach,2017:5998-6008
[2] PARMAR N,VASWANI A,USZKOREIT J,et al. Image Transformer [J/OL].arXiv:1802.05751 [cs.CV].(2018-02-15).https://arxiv.org/abs/1802.05751.
[3] CARION N,MASSA F,SYNNAEVE G,et al. End-to-End Object Detection with Transformers [M].Switzerland:Springer,2020.
[4] ZHU X Z,SU W J,LU L W,et al. Deformable DETR:Deformable Transformers for End-to-End Object Detection [J/OL].arXiv:2010.04159 [cs.CV].(2020-10-18).https://arxiv.org/abs/2010.04159.
[5] ZHENG M H,GAO P,WANG X G,et al. End-to-End Object Detection with Adaptive Clustering Transformer [J/OL].arXiv:2011.09315 [cs.CV].(2020-11-18).https://arxiv.org/abs/2011.09315v1.
[6] LIU L,OUYANG W L,WANG X G,et al. Deep Learning for Generic Object Detection:A Survey [J]. International Journal of Computer Vision,2020,128:261–318.
[7] DAI J F,QI H Z,XIONG Y W,et al. Deformable Convolutional Networks [C]//2017 IEEE International Conference on Computer Vision(ICCV).Venice:IEEE,2017:764-773.
[8] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].(2020-10-22).https://arxiv.org/abs/2010.11929.
[9] BEAL J,KIM E,TZENG E,et al. Toward Transformer-Based Object Detection [J/OL].arXiv:2012.09958 [cs.CV].(2020-12-17).https://arxiv.org/abs/2012.09958.
作者簡介:尹航(1978—),男,漢族,山東東明人,副教授,博士,研究方向:機器學習。