999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer目標檢測研究綜述

2021-10-16 12:45:01尹航范文婷
現代信息科技 2021年7期
關鍵詞:深度學習

尹航 范文婷

摘要:目標檢測是計算機視覺領域三大任務之一,同時也是計算機視覺領域內一個最基本和具有挑戰性的熱點課題,近一年來基于Transformer的目標檢測算法研究引發熱潮。簡述Transformer框架在目標檢測領域的研究狀況,介紹了其基本原理、常用數據集和常用評價方法,并用多種公共數據集對不同算法進行對比以分析其優缺點,在綜述研究基礎上,結合行業應用對基于Transformer的目標檢測進行總結與展望。

關鍵詞:目標檢測;Transformer;計算機視覺;深度學習

中圖分類號:TP391? ? ? 文獻標識碼:A? ? 文章編號:2096-4706(2021)07-0014-04

A Summary of Research on Target Detection Based on Transformer

YIN Hang,FAN Wenting

(College of Information Science and Technology,Zhongkai University of Agriculture and Engineering,Guangzhou? 510225,China)

Abstract:Target detection is one of the three major tasks in the field of computer vision. At the same time,it is also a basic and challenging hot topic in the field of computer vision. In almost a year,the research of object detection algorithms based on Transformer has caused a boom. This paper sketches the research status of Transformer framework in the field of target detection,introduces its basic principle,common data sets and common evaluation methods,and compares different algorithms with several public data sets,so as to analyze their advantages and disadvantages. On the basis of summarizing the research,also combined the industry application,this paper summarizes and prospects of the object detection based on Transformer.

Keywords:target detection;Transformer;computer vision;deep learning

收稿日期:2021-02-26

基金項目:廣東省自然科學基金面上項目(2021A1515011605)

0? 引? 言

目標檢測是計算機視覺領域的核心任務,是實現目標跟蹤、行為識別的基礎,目前主流基于卷積神經網絡的目標檢測算法分為一階段和兩階段類型。由于Transformer[1]框架在自然語言處理(NLP)領域取得巨大成功,研究者嘗試將其遷移到計算機視覺領域。

2018年,Parmar首次將Transformer應用于圖像生成,提出Image Transformer模型[2]。2020年,Carion等人將CNN與Transformer結合,提出一個完備的端到端的DETR目標檢測框架[3],首次將Transformer應用到目標檢測。隨后的一年內,類似算法不斷涌現:Zhu[4]等人提出借鑒可變卷積神經網絡的Deformable DETR模型;Zheng[5]等人提出降低自我注意模塊計算復雜度的ACT算法;谷歌提出ViT模型[6]并應用于圖像分類。圖1為近年來基于Transformer目標檢測模型。

1? Transformer 模型

Transformer模型也稱為基于注意力機制模型,多應用于自然語言處理領域,模型包括Encoder和Decoder兩部分,結構如圖2所示。

其中Encoder編碼器由6個具有相同結構的層組成,每層包含2個子層:多頭注意力和前饋網絡,每組子層進行殘差連接,后做歸一化處理。每層Encoder輸出如式(1)所示:

(1)

其中,x為輸入序列。

Decoder解碼器與Encoder結構類似,但多一個掩碼層,該層用于掩蓋未預測的信息,保證每次預測結果都只基于已知信息。Decoder層的輸入為Encoder的輸出和上一層Decoder的輸出,把Encoder層的輸出作為K和V,上一層Decoder層輸出作為Q,將Q、K、V輸入到注意力模塊進行attention操作。Transformer通過Encoder編碼器對輸入序列進行編碼,將編碼結果輸入到Decoder,最后將Decoder的輸出通過線性變換和一個Softmax層來預測下一個輸出,此框架具有較強的語義特征提取和長距離特征捕獲能力,其并行計算能力與CNN相當。如果考慮圖像與文本的維度差異,將圖像轉換為序列,便可輸入到模型進行處理,因此將Transformer遷移到計算機視覺領域是有理論依據、切實可行的。

2? 常用目標檢測數據集及評價方法

2.1? 常用目標檢測數據集

數據集是衡量和比較算法性能的共同基礎[7]。常用的目標檢測數據集有VOC和COCO,行人檢測常用數據集有CityPersons,如表1所示。

2.2? 常用目標檢測評價方法

目標檢測常用評價方法包括:平均精度(AP)和每秒檢測圖片數量(FPS),行人檢測常用的評價方法為MR-2,下文進行具體說明。

2.2.1? 平均精度

平均精度AP特指PR曲線下方面積,式(2)式(3)描述了精確度(Precision)與召回率(Recall)的計算公式。

(2)

(3)

在PR曲線基礎上,通過計算每個召回率對應的準確率求平均,可以獲得AP。

各類AP的平均mAP是最常用的指標,它表示模型在所有類別上表現的好壞,通常數值越高表示效果越好。mAP公式為:

(4)

2.2.2? FPS

每秒檢測圖片數量(FPS)用于衡量模型的檢測速度,通常每秒處理圖片數量越多,模型效果越好。

2.2.3? MR-2

Log-average miss rate(MR-2)是行人檢測中最常用的度量標準,也被稱為漏檢率。它以對數標度計算每個圖像的假陽性漏檢率,范圍為[0.01,100]。

3? 基于Transformer目標檢測模型

3.1? CNN+Transformer目標檢測模型

基于CNN+Transformer目標檢測模型包括DETR和Deformable DETR。

3.1.1? DETR

2020年,Carion[1]等人成功將Transformer框架應用于目標檢測領域中,提出了DETR模型,將ResNet特征提取網絡與Transformer結合,把檢測任務分為特征提取和目標預測兩個部分,整體結構如圖3所示。

該模型將輸入圖片放入CNN特征提取網絡,得到低分辨率特征圖。將特征圖展平成一個序列并加上空間位置編碼后輸入到Transformer的編碼器中,得到各個物體編碼后的特征,隨后將其與Object Query輸入到解碼器中進行并行解碼。與原始解碼器不同,該解碼器在做Multi-Head Attention時也加上了空間位置編碼,在解碼器中的每個輸出都連上一個前饋網絡用于預測目標類型和邊界框。在訓練時使用Hungarian loss來計算預測值與真實標注之間的損失。

該模型在COCO和自定義數據集上的AP與Faster RCNN[6]效果相當,但其在小目標檢測上效果不如Faster RCNN,因此2020年10月Zhu[7]等人提出使用Deformable DETR來解決上述問題。

3.1.2? Deformable DETR

Deformable DETR借鑒了可變形卷積網絡的思想,使用可變形注意模塊代替DETR中Transformer注意力模塊,縮小K采樣范圍,讓Q與更有意義的K進行比較,減少計算量,提升速度。對于小目標檢測效果不佳的問題,該模型使用多尺度可變形注意力模塊,對不同尺度特征圖進行可變形注意,將每層的注意力結果相加得到多尺度注意力,從而提高小目標檢測效果,結構如圖4所示。

該模型與DETR相比,收斂速度快10倍、小目標檢測AP提升3.9%,大目標檢測AP與Faster RCNN相比,提高4.6%。雖然該模型在訓練速度和小目標檢測上得到了很大的改進,但對于遮擋目標的檢測效果仍然不佳。

3.2? 基于Transformer特征提取網絡目標檢測模型

2020年10月Dosovitskiy等[8]提出Vision Transformer(ViT)模型,在大型數據集JFT300M上的圖像分類效果超越當前SOTA的結果,因此Beal等人利用ViT模型作為特征提取網絡,提出用于目標檢測的ViT-FRCNN模型[9]。ViT-FRCNN模型結構如圖5所示。

ViT-FRCNN模型首先將圖片分割成N個P×P子圖,將其按順序排列,轉換為序列化數據,隨后將其輸入到ViT網絡,將每個子圖的輸出重新組合成特征圖,輸入到含有RPN模塊的檢測網絡中實現預測。

3.3? 對比實驗

本文為了衡量各基于Transformer目標檢測模型的性能,基于公共數據集開展對比實驗,如表2所示。通過對比實驗,可見基于Transformer模型的目標檢測精度優于Faster RCNN模型,但檢測速度明顯不足。在基于COCO數據集的對比測試中發現,基于Transformer模型算法平均響應時間為Faster RCNN模型的2.1倍;對水果、蔬菜等小目標檢驗測試平均響應時間為Faster RCNN模型的2.8倍,高于人物等較大目標檢測的平均響應時間,由此可見基于Transformer模型目標檢測在工業農業生產等領域的實際應用還不夠成熟。

4? 結? 論

本文對基于Transformer目標檢測模型進行了分析,雖然此類模型在目標檢測任務中有較好表現,但仍存在許多不足。如DETR系列模型的檢測速度較慢,對小目標檢測性能不佳;TSP模型提高了檢測速度,但大目標檢測性能退化。目前,基于DETR算法的改進主要是針對模型收斂速度和小目標檢測,收斂速度的改進通過調整注意力模塊的輸入來降低自注意的計算量來達到加速效果,而小目標檢測任務則通過加入多尺度特征融合來實現。基于特征提取網絡的ViT-FRCNN系列模型提升了收斂速度,但平均精度有待提高。同時,實際目標檢測應用場景環境復雜,反光倒影、灰塵遮擋等各類噪聲突出,SIRR等算法可用于基于Transformer模型的前期去噪處理,提高整體精度。

參考文獻:

[1] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]//Advances in Neural Information Processing Systems.Long Beach,2017:5998-6008

[2] PARMAR N,VASWANI A,USZKOREIT J,et al. Image Transformer [J/OL].arXiv:1802.05751 [cs.CV].(2018-02-15).https://arxiv.org/abs/1802.05751.

[3] CARION N,MASSA F,SYNNAEVE G,et al. End-to-End Object Detection with Transformers [M].Switzerland:Springer,2020.

[4] ZHU X Z,SU W J,LU L W,et al. Deformable DETR:Deformable Transformers for End-to-End Object Detection [J/OL].arXiv:2010.04159 [cs.CV].(2020-10-18).https://arxiv.org/abs/2010.04159.

[5] ZHENG M H,GAO P,WANG X G,et al. End-to-End Object Detection with Adaptive Clustering Transformer [J/OL].arXiv:2011.09315 [cs.CV].(2020-11-18).https://arxiv.org/abs/2011.09315v1.

[6] LIU L,OUYANG W L,WANG X G,et al. Deep Learning for Generic Object Detection:A Survey [J]. International Journal of Computer Vision,2020,128:261–318.

[7] DAI J F,QI H Z,XIONG Y W,et al. Deformable Convolutional Networks [C]//2017 IEEE International Conference on Computer Vision(ICCV).Venice:IEEE,2017:764-773.

[8] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].(2020-10-22).https://arxiv.org/abs/2010.11929.

[9] BEAL J,KIM E,TZENG E,et al. Toward Transformer-Based Object Detection [J/OL].arXiv:2012.09958 [cs.CV].(2020-12-17).https://arxiv.org/abs/2012.09958.

作者簡介:尹航(1978—),男,漢族,山東東明人,副教授,博士,研究方向:機器學習。

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 综合天天色| 欧美日韩国产精品va| 久久亚洲黄色视频| 欧美日韩精品在线播放| 亚洲色图狠狠干| 成年人视频一区二区| 亚洲香蕉伊综合在人在线| 欧美一区中文字幕| 国产情侣一区| 婷婷六月在线| 午夜天堂视频| AV在线麻免费观看网站| 高清欧美性猛交XXXX黑人猛交| 久久久久国色AV免费观看性色| 欧美日本中文| 最新亚洲人成网站在线观看| 国产一区二区丝袜高跟鞋| 伊人丁香五月天久久综合 | 亚洲无码精品在线播放| 直接黄91麻豆网站| 国产精品浪潮Av| 香蕉在线视频网站| 亚洲一区二区视频在线观看| 成AV人片一区二区三区久久| 亚洲一级毛片| 欧美特黄一级大黄录像| 蜜桃臀无码内射一区二区三区| 亚洲精品爱草草视频在线| 欧美在线一二区| 亚洲色无码专线精品观看| 国内老司机精品视频在线播出| 免费看av在线网站网址| 亚洲视频一区在线| 99草精品视频| 欧美午夜理伦三级在线观看| 久久久久久久久久国产精品| 成人小视频网| 呦视频在线一区二区三区| 97青青青国产在线播放| 中日无码在线观看| 日本三区视频| 一本无码在线观看| 久久精品aⅴ无码中文字幕| 精品自拍视频在线观看| 亚洲精品无码不卡在线播放| 午夜少妇精品视频小电影| 国产精品久久久免费视频| 亚洲国产精品一区二区第一页免| 国产无遮挡裸体免费视频| 手机成人午夜在线视频| 污污网站在线观看| 92午夜福利影院一区二区三区| 无码一区二区三区视频在线播放| 欧美日韩一区二区在线播放| 波多野结衣亚洲一区| 亚洲不卡影院| 久久久久人妻一区精品| 亚洲国产91人成在线| 网久久综合| 91久久偷偷做嫩草影院精品| 亚洲欧美精品日韩欧美| 亚洲av片在线免费观看| 国产精品久久久久久久伊一| 热99精品视频| 制服丝袜在线视频香蕉| 国产精品55夜色66夜色| 亚洲αv毛片| 国产精品 欧美激情 在线播放| 无码区日韩专区免费系列| 中文字幕一区二区人妻电影| 欧美午夜在线观看| 91在线播放免费不卡无毒| 免费在线观看av| 日本免费新一区视频| 国产SUV精品一区二区6| vvvv98国产成人综合青青| 久久综合伊人77777| 久操中文在线| 国产精品亚洲专区一区| 亚洲性日韩精品一区二区| 亚洲欧美日韩成人高清在线一区| 女同久久精品国产99国|