向南,潘傳忠,虞高翔
融合優(yōu)化特征提取結(jié)構(gòu)的目標(biāo)檢測算法
向南*,潘傳忠,虞高翔
(重慶理工大學(xué) 兩江國際學(xué)院,重慶 401135)(?通信作者電子郵箱xiangnan@cqut.edu.cn)
針對DETR對小目標(biāo)的檢測精度低的問題,基于DETR提出一種優(yōu)化特征提取結(jié)構(gòu)的目標(biāo)檢測算法——CF?DETR。首先通過結(jié)合了優(yōu)化跨階段部分(CSP)網(wǎng)絡(luò)的CSP?Darknet53對原始圖進行特征提取并輸出4種尺度的特征圖;其次利用特征金字塔網(wǎng)絡(luò)(FPN)對4種尺度特征圖進行下采樣和上采樣后進行拼接融合,并輸出52×52尺寸的特征圖;最后將該特征圖與位置編碼信息結(jié)合輸入Transformer后得到特征序列,輸入到作為預(yù)測頭的前向反饋網(wǎng)絡(luò)后輸出預(yù)測目標(biāo)的類別與位置信息。在COCO2017數(shù)據(jù)集上,與DETR相比,CF?DETR的模型的超參數(shù)量減少了2×106,在小目標(biāo)上的平均檢測精度提高2.1個百分點,在中、大尺寸目標(biāo)上的平均檢測精度提高了2.3個百分點。實驗結(jié)果表明,優(yōu)化特征提取結(jié)構(gòu)能夠在降低模型超參數(shù)量的同時有效提高DETR的檢測精度。
目標(biāo)檢測;小目標(biāo);DETR算法;特征提取;跨階段部分網(wǎng)絡(luò);特征金字塔網(wǎng)絡(luò);Transformer
目標(biāo)檢測是一項應(yīng)用型研究,其目的是在數(shù)字圖像中快速準(zhǔn)確地檢測出目標(biāo)物體的種類和位置。隨著近年來硬件的發(fā)展以及深度學(xué)習(xí)的廣泛應(yīng)用,基于深度學(xué)習(xí)的目標(biāo)檢測取得了突破性的進展。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)能夠提取數(shù)字圖像信息的特征,提升了目標(biāo)檢測的精度。現(xiàn)代基于深度學(xué)習(xí)的目標(biāo)檢測方法大多是在文獻[1]提出的CNN基礎(chǔ)上,通過不斷地卷積間接地得到目標(biāo)信息,需要考慮大量的邊界框、anchor以及窗口中心點等信息。本文提出一種以DEtection TRansformer(DETR)算法[2]為基礎(chǔ),結(jié)合改進跨階段部分(Cross Stage Partial, CSP)網(wǎng)絡(luò)[3]與特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)[4]結(jié)構(gòu)的目標(biāo)檢測算法,該算法無需考慮anchor、邊界框等信息,能直接輸出目標(biāo)物體在圖像中的類別以及位置信息,在保證目標(biāo)檢測的速度同時能夠進一步提升在小目標(biāo)物體上的平均檢測精度(Average Precision, AP)。
近年來,基于CNN的目標(biāo)檢測算法逐漸成為主流的檢測算法。基于CNN的目標(biāo)檢測算法基于階段數(shù)的不同,可分為單階段、二階段、多階段。Grishick等[5]提出了R?CNN(Regions with Convolutional Neural Network)二階段目標(biāo)檢測算法,需要先在圖像上獲取候選區(qū)域,再對候選區(qū)域進行分類和回歸,在傳統(tǒng)的方法上引入深度學(xué)習(xí)方法極大提高了檢測的精度。Cai等[6]提出的Cascade?RCNN作為多階段目標(biāo)檢測算法,其檢測步驟與二階段相似,不同的是多階段目標(biāo)檢測算法會反復(fù)修正候選區(qū)域,在不降低檢測速率的情況下提高了目標(biāo)檢測的準(zhǔn)確率。二階段目標(biāo)檢測算法在精度上取得了階段性的勝利,但是由于體量大而無法達到實時同步檢測的速度。于是單階段端到端的YOLO算法[7-9]、RetinaNet算法[10]、EfficienDet算法[11]等優(yōu)秀目標(biāo)檢測算法被提出。在2020年,Bochkovskiy等[12]提出了YOLOv4算法,這是YOLO目標(biāo)檢測算法的第四代版本,作為輕體量模型在檢測精度堪比二階段的同時檢測速度大幅提高。YOLOv4的Backbone是在CSP?Darknet53基礎(chǔ)上引入CSP結(jié)構(gòu)的CSP?Darknet53,與作為Neck部分的PANet(Path Aggregation Network)算法[13]搭配后,大幅提高了算法的精度與速度。江金洪等[14]在YOLOv3的基礎(chǔ)上提出了深度可分離卷積,顯著地降低了超參數(shù)量,提高了運算效率。徐利鋒等[15]提出將FPN結(jié)構(gòu)應(yīng)用到DenseNet,構(gòu)建多尺度特征模塊以達到提高小目標(biāo)檢測精度的目的。
DETR是Facebook AI Research提出的基于Transformer算法[16]的端到端目標(biāo)檢測算法,屬于單階段端到端目標(biāo)檢測算法的延伸,它沒有非極大值抑制(Non?Maximum Suppression, NMS)處理步驟,沒有anchor,在COCO2017數(shù)據(jù)集上訓(xùn)練300個epoch后的檢測精度與Faster RCNN算法[17]相當(dāng),但在小目標(biāo)的檢測上存在精度不足的問題。
針對DETR在小目標(biāo)檢測精度低的問題,本文工作主要體現(xiàn)在以下兩個方面:1)基于DETR的baseline修改其Backbone部分,將ResNet[18]替換為優(yōu)化CSP結(jié)構(gòu)的CSP? Darknet53,并將輸出階段由1個增加到4個;2)引入Neck部分,通過改進FPN結(jié)構(gòu)擴充輸出特征圖尺度,降低小目標(biāo)的漏檢率。
DETR結(jié)構(gòu)如圖1所示,由作為Backbone的特征提取網(wǎng)絡(luò)ResNet50、Transformer Encoder?Decoder和Prediction Heads組成。ResNet50可分為5個階段,對圖片進行特征提取后在第5個階段輸出特征圖。先對原始圖進行位置編碼,然后調(diào)整為Backbone輸出特征圖同等尺度,將重新調(diào)整尺度的位置編碼與特征圖進行結(jié)合后輸入Transformer編解碼器。經(jīng)過Transformer處理好的數(shù)據(jù)分別輸入前向反饋網(wǎng)絡(luò)集(Forward Feedback Network, FFN)后便可得到預(yù)測的類別和位置信息。DETR的總體思路是把檢測看成一個集預(yù)測的問題,并且使用Transformer來預(yù)測邊界框的集合。DETR利用標(biāo)準(zhǔn)Transformer架構(gòu)執(zhí)行傳統(tǒng)上特定于目標(biāo)檢測的操作,從而簡化了檢測的流水線技術(shù)。
圖 1 DETR網(wǎng)絡(luò)結(jié)構(gòu)
最初的檢測方法中,無論是R?CNN系列還是YOLO系列,均無法像生物一般直接標(biāo)記指出物體的位置與類別,而是用密集的先驗覆蓋整幅圖中可能出現(xiàn)目標(biāo)的部分,然后預(yù)測該視野區(qū)域中目標(biāo)的類別與位置。DETR將檢測方法回歸到了本質(zhì),不需要考慮anchor,也沒有非極大值抑制(Non? Maximum Suppression,NMS)等,采用真正的端到端。并且在300個epoch訓(xùn)練后的DETR,在檢測速率上達到28 FPS(Frames Per Second),與高度優(yōu)化的Faster RCNN[15]持平,且在大目標(biāo)檢測效果上DETR的APL值為61.1,要優(yōu)于Faster RCNN的52.0。
雖然DETR對大目標(biāo)檢測精度有所提升,但是仍然存在以下問題。DETR采用ResNet50作為特征提取網(wǎng)絡(luò),ResNet50由眾多的1×1卷積層和3×3卷積層組成。由于池化操作的下采樣會導(dǎo)致部分特征信息丟失,而且經(jīng)過不斷卷積,最后輸出的位置信息較少。在Transformer階段由于位置信息的缺乏,DETR檢測小目標(biāo)時易發(fā)生漏檢及錯檢。針對以上問題,本文提出了CF?DETR(DETR combined CSP? Darknet53 and FPN)目標(biāo)檢測方法。
CSP?Darknet53結(jié)構(gòu)如圖2所示,由下采樣卷積層以及包含1×1卷積層和3×3卷積層殘差模塊的CSPResNet結(jié)構(gòu)組成。相較于ResNet50與ResNet101,CSP?Darknet53的最小輸出尺寸更大,能輸出的階段數(shù)更多,所以會有更好的FPN結(jié)構(gòu)效果。相較于YOLOv3的Darknet53,結(jié)合CSP結(jié)構(gòu)后Backbone的超參數(shù)量大幅減少,能夠有效提高檢測速率。以416×416尺度的圖像作為輸入,經(jīng)過一次步長為2的下采樣卷積后通過第一個階段的一次殘差后得到2倍下采樣特征圖。繼續(xù)下采樣通過2次殘差得到尺度為104×104的4倍下采樣特征圖。通過后續(xù)的卷積下采樣與殘差塊,依次得到作為輸出的8倍下采樣尺度52×52特征圖、16倍下采樣尺度26×26特征圖、32倍下采樣尺度13×13特征圖。
FPN是傳統(tǒng)CNN增強圖片信息進行表達輸出的一種方法。其目的是改進CNN的特征提取方式,以使最終輸出的特征更好地表示出輸入圖片各個維度的信息。它可以分成兩個階段進行:自底向上的通路,即自下至上的不同維度特征生成;自上至下的通路,即自上至下的特征補充增強。自底向上的通路就是特征提取網(wǎng)絡(luò)的前向過程,即CSP?Darknet53中各尺度特征圖的生成;自上至下的過程采用上采樣結(jié)合同等大小的特征圖進行融合,最終可輸出多個尺度的特征增強的特征圖。
在CNN中,在多次卷積下,低層的特征圖含有較少的語義信息,但是含有較多的位置信息;而高層的特征圖中則含有較多的語義信息,但是含有較少的位置信息。CSP?Darknet53采用了類似ResNet的方式,使用了大量跳躍連接結(jié)構(gòu)保證了訓(xùn)練不會出現(xiàn)梯度彌散的現(xiàn)象。CSP? Darknet53還采用了步長為2的卷積層代替最大池化操作實現(xiàn)下采樣,這樣不僅減少了下采樣過程中的計算量,還極大地保留了更多低層的特征信息。所以使用CSP?Darknet53結(jié)合FPN結(jié)構(gòu)進而將高層與低層的信息相融合,可以提升目標(biāo)檢測的準(zhǔn)確率。
圖 2 結(jié)合FPN結(jié)構(gòu)的Darknet53
本文提出的CF?DETR目標(biāo)檢測方法是在DETR算法主框架下使用改進CSP?Darknet53,同時結(jié)合FPN結(jié)構(gòu)的改進方法。如圖3所示,其中前端數(shù)據(jù)輸入在包含改進CSP結(jié)構(gòu)的Backbone中進行預(yù)處理,在對數(shù)據(jù)處理前的Neck部分采用FPN結(jié)構(gòu)對特征圖進行上采樣與下采樣后融合,進而放大特征圖尺度,從而保留更多小目標(biāo)的特征信息。經(jīng)過Neck部分的FPN輸出的52×52尺度的特征圖結(jié)合位置編碼輸入Transformer進行編譯碼后,通過預(yù)測頭輸出預(yù)測目標(biāo)的類別和位置信息。CF?DETR在增加網(wǎng)絡(luò)深度、提高檢測精度的同時,使模型輕量化,大幅降低模型檢測所需超參數(shù)量。
圖 3 CF?DETR網(wǎng)絡(luò)結(jié)構(gòu)
為提高融合多尺度特征和準(zhǔn)確識別小目標(biāo)的能力,本文改進了CSP?Darknet53多尺度特征圖輸出網(wǎng)絡(luò),稱為Im?CSPR(Improved CSPResNet),其結(jié)構(gòu)如圖4所示。為了避免CSPR(CSPResNet)對于前段通道特征圖的語義信息提取的忽視,Im?CSPR將原本的特征圖通過兩個階段6次Split卷積形成4個與原特征圖尺寸大小相同、但通道數(shù)為原特征圖1/4的子特征圖,并對前后段通道的子特征圖進行殘差卷積處理以充分提取圖像的語義信息。Im?CSPR保留了ResNet的特征復(fù)用特性的優(yōu)點,同時也通過截斷梯度流,防止了過多的重復(fù)梯度信息。這一思想通過設(shè)計分層特征融合策略并用于ResBlock層來實現(xiàn)。
在特征提取過程中經(jīng)過卷積層數(shù)越多的特征圖,所經(jīng)歷的卷積核越多,在眾多卷積核超參數(shù)的特征提取后所蘊含的語義信息越豐富。由于卷積過程涉及大量卷積核超參數(shù),所以增加了內(nèi)存成本與計算瓶頸。設(shè)卷積核大小為,輸入通道數(shù)為,輸出通道數(shù)為,則一個卷積層的超參數(shù)的數(shù)量可由式(1)計算得到。
而ResBlock中使用的一個1×1卷積結(jié)合一個3×3的卷積后疊加組成,那么在CSP結(jié)構(gòu)中可計算卷積所需超參數(shù)量如式(2)所示。
Im?CSPR結(jié)構(gòu)中計算卷積所需要的超參數(shù)量如式(3)所示。
一般情況下,輸入的圖片矩陣以及后面的卷積核,特征圖矩陣都是方陣,設(shè)卷積輸入矩陣大小為×,卷積核大小為,卷積步幅為,padding為,則卷積后產(chǎn)生的特征圖大小可通過式(4)計算獲得。
本文輸入圖像大小為416×416像素。Im?CSPR將輸出階段由CSP?Darknet53的三個階段增加到了四個階段,經(jīng)過5次為2、為2、為1的下采樣卷積后,輸出的特征圖尺度由13×13、26×26、52×52、104×104這組不同尺度組成。
在Backbone特征提取的前向過程中,特征圖的大小在經(jīng)過某些層后會改變,而在經(jīng)過其他一些層時不會改變。本文將不改變特征圖大小的層歸為一個階段,這樣就能構(gòu)成特征金字塔。原本的CSP?Darknet53第二個階段中對104×104尺度的特征圖進行兩次殘差,Im?CSPR額外地將第一次殘差后的104×104尺度的特征圖進行輸出。將有較多位置信息、尺度較大的104×104特征圖輸入FPN,再對多尺度的特征圖進行融合處理。相較于ResNet50只輸出1個階段,Im?CSPR包含4個輸出階段,將多尺度特征的語義信息與位置信息輸出到Neck階段進行特征增強,從而提高了目標(biāo)檢測的準(zhǔn)確率。
圖 4 三種不同殘差結(jié)構(gòu)的對比
FPN是利用深度CNN固有的多尺度、多層級的金字塔結(jié)構(gòu)去構(gòu)建,同時使用一種自上而下的側(cè)邊連接方式,在多尺度構(gòu)建了高級語義的特征圖。這就需要使用FPN來融合多層特征以及改進CNN的特征提取。DETR的ResNet50直接輸出縮小到原尺寸1/32的下采樣特征圖去檢測目標(biāo),所以當(dāng)目標(biāo)在輸入為416×416像素大小的原圖中,其所占的像素面積小于13×13時,是無法檢測到的。為了降低這一小目標(biāo)物體容易被誤篩的概率,引入了改進的FPN結(jié)構(gòu)。
CF?DETR中引進了FPN結(jié)構(gòu)以減小輸出特征圖的下采樣倍數(shù),增大輸出特征圖的尺度。FPN往往用于上采樣并配上三個尺度逐漸縮小的特征圖,改進的FPN結(jié)構(gòu)通過輸入四個不同尺寸的特征圖,對多尺度特征圖進行上采樣與下采樣相結(jié)合的方法進行處理。最終拼接融合后輸出一張52×52的特征圖,從而保留更多的位置信息并提高小目標(biāo)檢測的精度。
本文實驗選取COCO2017數(shù)據(jù)集進行訓(xùn)練與驗證。COCO2017數(shù)據(jù)集一共有五種標(biāo)注類型,本次實驗使用實例類型的標(biāo)注信息。COCO2017包含90個類,訓(xùn)練集包含共11 GB大小的118×103張圖片,驗證集包含共1 GB大小的5×103張圖片。訓(xùn)練集中平均每張圖片包含7個目標(biāo),最多單張圖片包含63個目標(biāo),這些目標(biāo)覆蓋小、中、大三種尺寸。本文實驗會計算每個訓(xùn)練輪次后驗證集的AP值并記錄log文件中。
選取DETR不同Backbone模型中的DETR?R50?DC5、DETR?R50、DETR?R101、DETR?Dn53?FPN與CF?DETR進行對比實驗,以驗證本文方法CF?DETR的有效性。其中DETR?R50?DC5、DETR?R50、DETR?R101在50個epoch下訓(xùn)練結(jié)果的實驗數(shù)據(jù)根據(jù)Facebook AI實驗室所發(fā)布的數(shù)據(jù)作為參照;DETR?Dn53?FPN則為DETR模型使用Darknet53作為Backbone并結(jié)合FPN結(jié)構(gòu),且未加入CSP結(jié)構(gòu)的消融對比實驗所用模型。模型參數(shù)量對比數(shù)據(jù)如表1所示,模型精度對比如表2所示。
表2中:AP表示平均檢測精度;50表示廣義交并比閾值為50%時的檢測精度;S、M、L表示對小、中、大三種尺寸目標(biāo)的檢測精度。對比實驗表明:未加Im?CSPR結(jié)構(gòu)的Darknet53+FPN使DETR檢測精度提高了2.7個百分點,F(xiàn)PS降低了8,且超參數(shù)量相對DETR增加了63%,與其他對比模型比較,在小、中、大三種尺度的目標(biāo)檢測精度上均表現(xiàn)SOTA(State Of The Art)。而加入Im?CSP結(jié)構(gòu)的CF?DETR的超參數(shù)量是所有對比DETR模型的中最小的,且FPS相對未加入Im?CSP結(jié)構(gòu)前增加了6。
本文模型檢測效果如圖5所示。Im?CSPR?Darknet+FPN結(jié)構(gòu)的引入使檢測速度有一定下降,雖然改進的CF?DETR參數(shù)量少于對比的其他模型,但是由于其結(jié)構(gòu)的復(fù)雜性使檢測速率降低。本實驗暫時只做了50個epoch訓(xùn)練結(jié)果的數(shù)據(jù)對比,通過更多epoch訓(xùn)練后的模型檢測精度可以優(yōu)于DETR對標(biāo)的Faster RCNN模型。
表1 模型參數(shù)量與每秒傳輸幀數(shù)的對比
表 2 模型精度對比 單位: %
圖 5 測試圖片檢測效果
針對DETR模型在小目標(biāo)檢測上精度難以保證的問題,本文提出了CF?DETR目標(biāo)檢測方法,融入了豐富的位置信息及上下文信息,同時減少了特征圖下采樣導(dǎo)致的特征丟失。實驗結(jié)果表明CF?DETR有效提高了小目標(biāo)檢測的精度,減少了小目標(biāo)的錯檢漏檢;但是由于引入FPN結(jié)構(gòu)后模型復(fù)雜度增加,以及Im?CSPR需要計算卷積次數(shù)的計算量增加,檢測速度有所降低。雖然CSP結(jié)構(gòu)對于超參數(shù)量的減少有較大作用,從而提高了模型的檢測速率,但同時也降低了模型的檢測精度。其他諸如DeepWise卷積結(jié)構(gòu)、倒殘差卷積結(jié)構(gòu)這類降低超參數(shù)量結(jié)構(gòu)的引入,可能在降低超參數(shù)量、提高檢測速率的同時不降低檢測精度。另一方面,在提高檢測速率、降低超參數(shù)量的同時,引入注意力模塊也可彌補檢測精度不足的問題。下一步的研究計劃就是如何平衡檢測精度與檢測速度的問題。
[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2012: 1097-1105.
[2] CARION N, MASSA F, SYNNAEVE G, et al. End?to?end object detection with transformers[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12346. Cham: Springer, 2020: 213-229.
[3] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2020: 1571-1580.
[4] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 936-944.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 580-587.
[6] CAI Z W, VASCONCELOS N. Cascade R?CNN: delving into high quality object detection[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6154-6162.
[7] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real?time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.
[8] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6517-6525.
[9] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08)[2021-09-23]. https://arxiv.org/pdf/1804.02767.pdf.
[10] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2999-3007.
[11] TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 10778-10787.
[12] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2021-09-08]. https://arxiv.org/pdf/2004.10934.pdf.
[13] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8759-8768.
[14] 江金洪,鮑勝利,史文旭,等. 基于YOLO v3算法改進的交通標(biāo)志識別算法[J]. 計算機應(yīng)用, 2020, 40(8): 2472-2478.(JIANG J H, BAO S L, SHI W X, et.al. Improved traffic sign recognition algorithm based on YOLO v3 algorithm[J]. Journal of Computer Applications, 2020, 40(8): 2472-2478.)
[15] 徐利鋒,黃海帆,丁維龍,等. 基于改進DenseNet的水果小目標(biāo)檢測[J]. 浙江大學(xué)學(xué)報(工學(xué)版), 2021, 55(2):377-385.(XU L F, HUANG H F, DING W L, et al. Detection of small fruit target based on improved DenseNet[J]. Journal of Zhejiang University (Engineering Science), 2021, 55(2): 377-385.)
[16] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017:6000-6010.
[17] REN S Q, HE K M, GIRSHICK R, et al. Faster R?CNN: towards real?time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[19] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 658-666.
Object detection algorithm combined with optimized feature extraction structure
XIANG Nan*, PAN Chuanzhong, YU Gaoxiang
(,,401135,)
Concerning the problem of low object detection precision of DEtection TRansformer (DETR) for small targets, an object detection algorithm with optimized feature extraction structure, called CF?DETR (DETR combined CSP?Darknet53 and Feature pyramid network), was proposed on the basis of DETR. Firstly, CSP?Darknet53 combined with the optimized Cross Stage Partial (CSP) network was used to extract the features of the original image, and feature maps of 4 scales were output. Secondly, the Feature Pyramid Network (FPN) was used to splice and fuse the 4 scale feature maps after down?sampling and up?sampling, and output a 52×52 size feature map. Finally, the obtained feature map and the location coding information were combined and input into the Transformer to obtain the feature sequence. Through the Forward Feedback Networks (FFNs) as the prediction head, the category and location information of the prediction object was output. On COCO2017 dataset, compared with DETR, CF?DETR has the number of model hyperparameters reduced by 2×106, the average detection precision of small objects improved by 2.1 percentage points, and the average detection precision of medium? and large?sized objects improved by 2.3 percentage points. Experimental results show that the optimized feature extraction structure can effectively improve the DETR detection precision while reducing the number of model hyperparameters.
object detection; samll target; DEtection TRansformer (DETR) algorithm; feature extraction; Cross Stage Partial (CSP) network; Feature Pyramid Network (FPN); Transformer
This work is partially supported by National Natural Science Foundation of China (61872051), Science and Technology Research Program of Chongqing Municipal Education Commission (KJQN202001118), Application Research Project of Banan Science and Technology Commission (2018TJ02).
XIANG Nan, born in 1984, Ph. D., associate professor. His research interests include affective computing, social computing, object detection.
PAN Chuanzhong, born in 1995, M. S. candidate. His research interests include object detection.
YU Gaoxiang, born in 1995, M. S. candidate. His research interests include object detection.
1001-9081(2022)11-3558-06
10.11772/j.issn.1001-9081.2021122122
2021?12?17;
2022?02?13;
2022?02?14。
國家自然科學(xué)基金資助項目(61872051);重慶市教委科學(xué)技術(shù)研究計劃項目(KJQN202001118);巴南區(qū)科委應(yīng)用研究項目(2018TJ02)。
TP391.41
A
向南(1984—),男,陜西旬陽人,副教授,博士,CCF會員,主要研究方向:情感計算、社交計算、目標(biāo)檢測;潘傳忠(1995—),男,湖北咸寧人,碩士研究生,主要研究方向:目標(biāo)檢測;虞高翔(1995—),男,江西上饒人,碩士研究生,主要研究方向:目標(biāo)檢測。