















摘要:針對車輛檢測模型參數量大,以及對小目標和遮擋目標漏檢問題,提出了一種基于MobileVit輕量化網絡的車輛檢測算法。首先,在數據預處理階段使用GridMask圖像增強方法,提升模型對遮擋車輛目標的檢測性能;其次,使用基于MobileVit網絡作為模型的主干特征提取網絡,充分提取特征信息且使得模型輕量化;最后,在預測層網絡中,使用基于PANet實現多尺度的車輛檢測,提升模型對小目標車輛的檢測能力。實驗結果表明,該模型的平均檢測精度達98.24%,檢測速度達每張圖片0.058 s,模型大小為136 MB,與對比算法相比綜合性能更好。
關鍵詞:車輛檢測;MobileVit;輕量化;圖像增強
中圖分類號:TP391.4文獻標志碼:A
文章編號:1001-3695(2022)08-053-2545-05
doi:10.19734/j.issn.1001-3695.2021.12.0684
Vehicle detection method based on MobileVit lightweight network
Xiong Liyan1a,Tu Suocheng1a,Huang Xiaohui1a,Yu Junying1a,Xie Yunchi2,Huang Weichun1b
(1.
a.School of Information Engineering,b.Network Information Center,
East China Jiaotong University, Nanchang 330013,China;2.
Dept. of Transport,Traffic Monitoring amp; Command Center of Jiangxi Provincial,Nanchang 330036,China)
Abstract:In view of the large amount of vehicle detection model parameters and missing detection of small targets and occluded targets,this paper presented a vehicle detection algorithm based on lightweight MobileVit.Firstly,in the data preprocessing stage,the method used GridMask image enhancement to improve the performance of occluded target detection.Secondly,the method used MobileVit network as the backbone feature extraction network of the model to fully extract the feature information and make the model lightweight.Finally,in the prediction layer network,the method used multiscale vehicle detection and recognition based on PANet network to improve the detection performance of the model for small targets.The experimental results show that the average detection accuracy of this algorithm is 98.24%,the detection speed is 0.058 s per picture,and the model size is 136 MB,compared with the comparison algorithm,the comprehensive performance is better.
Key words:vehicle detection;MobileVit;lightweight;image enhancement
0引言
計算機視覺在智能視頻監控、無人駕駛和機器人等領域有著廣泛的應用。近年來,隨著中國汽車保有數量的飛速增長,違反交通法規事件的數量越來越多,這給交通管理人員帶來了很大的壓力。通過監控視頻對道路上的車輛進行快速準確的檢測是構建智能交通系統必不可少的部分。
傳統的車輛檢測算法流程大致可以分為區域選擇、特征提取、分類器分類三個階段。區域選擇采用滑動窗口的方法,特征提取采用HOG[1]、Haar-like[2]、SIFT[3]等方法,分類器使用SVM等實現對車輛目標的分類。其中,最為重要的是特征提取階段,人工設計的特征直接影響著模型性能的好壞。然而,人工設計的特征依賴于具體的應用場景,且滑動窗口的方法提取了過多的冗余信息,這就導致了傳統的車輛檢測算法泛化能力差、檢測精度低、檢測速度慢。
近年來,隨著深度學習的發展,卷積神經網絡不需要針對具體場景人工設計特征,因而具有很強的泛化能力,獲得了許多優秀的成果。基于深度學習的車輛檢測主流算法大致可以分為一階段方法和兩階段方法。一階段方法直接對圖像中的先驗框進行類別預測和回歸,這使得模型的檢測速度較快,但檢測精度相對較低,代表算法有YOLO系列[4~7]。兩階段方法通過候選框生成器從圖像中提取候選區域,然后將獲得的候選區域進行分類和回歸。兩階段算法檢測精度較高,但因候選區域提取過程中計算復雜,導致實時性較弱,代表算法有R-CNN系列[8~10]。厙向陽等人[11]提出了基于殘差網絡的車輛檢測方法實現了較高的檢測精度,但檢測速度較低,難以達到實時性要求。宋煥生等人[12]通過改進Faster R-CNN算法實現了對復雜場景下車輛的目標檢測,雖然基本能滿足實時性要求,但模型對遠場景下的小目標無法識別和檢測。以上方法在檢測精度和實時性兩個方面難以取得較好的平衡。
本文提出一種基于MobileVit[13]輕量化網絡模型,在保證檢測精度的同時也具有較好的實時性,其融合了卷積神經網絡和vision transformer,提取圖像中車輛的局部信息和全局信息;引入GridMask圖像增強方法,在數據預處理階段適當地刪除圖像中的部分信息。本文使用了真實場景下采集的數據,通過實驗對模型的檢測精度、檢測速度和模型參數量進行評估。實驗結果表明,與對比算法相比,本文算法綜合性能更好。
1本文算法
1.1預處理階段
特征提取的過程中,車輛遮擋目標的特征提取不充分會導致模型對遮擋目標漏檢現象。在數據預處理階段加入信息刪除的圖像增強方法,可以對訓練集圖片中的目標區域進行部分刪除,進而模型在訓練過程中通過對車輛目標部分特征的學習,將被遮擋的車輛目標準確檢測出來。但是,當區域被過度刪除時,將會導致數據成為噪聲;當區域被過度保留時,將會導致對圖像中的目標遮擋不充分,使得模型的泛化能力降低。因此,這種方法需要在區域的過度刪除和過度保留之間取得一個較好的平衡。為了提高模型對遮擋目標的檢測能力,本文在數據預處理階段采用信息刪除方法,引入GridMask[14]數據增強算法,能夠適當地刪除圖像中待檢測目標的部分信息,實現過程如圖1(a)所示。輸入的圖像可以表示為X(X∈Euclid Math TwoRApH×W×C),H、W、C分別表示輸入圖像的高、寬和通道數。GridMask生成一個與輸入圖像尺寸一致的mask并表示為M,M中灰色部分對應的像素值為1,黑色部分的像素值為0。GridMask數據增強操作將輸入圖像與mask矩陣點乘,結果灰色區域的信息被保留,黑色區域的信息被刪除。表達式如下:
=X×M(1)
如圖1(b)所示,黃色虛線框是mask的一個單元,mask由四個參數定義,即(r,d,x,y)。假設圖像尺寸為1×1,r表示的是一個單元中灰色短邊的占比,d代表的是一個單元的邊長,x和y分別表示圖像的邊界到第一個完整單元的距離。對訓練集中目標的真實框進行K-means聚類,得到聚類框的尺寸為[138,243],相對面積約為0.09,為了減少過度刪除的情況,設置d為0.3,即一個單元面積也為0.09。在圖像中能放下9個這樣的完整單元,最左上角完整單元到圖像的邊界分別為0.1和0.1,所以x為0.1,y為0.1。對于超參數r,本文2.4節研究了不同的r值對模型效果的影響,通過對實驗結果分析,r設置為1/3。綜上所述,對于超參數r、d、x和y,本文分別取1/3、0.3、0.1、0.1。
GridMask數據增強方法對圖像中的信息進行離散的有序刪除,從而減少區域過度刪除和過度保留的情況,進而實現對車輛目標模擬部分遮擋。隨著模型對這種含有部分遮擋目標的數據進行訓練,模型能夠提高對遮擋目標的檢測能力。
1.2輕量化車輛檢測網絡設計
為了在保證精度的同時也具有較好的實時性,本文提出一種基于MobileVit輕量化網絡模型。網絡整體結構如圖2所示。主干特征提取網絡使用改進后的MobileVit,預測層網絡使用基于PANet[15]的多尺度融合網絡。本文使用基于輕量級的網絡MobileVit作為模型的主干網絡。卷積神經網絡善于提取局部特征信息,基于自注意力機制的vision transformer[16]善于提取全局特征信息。MobileVit網絡將vision transformer視為卷積,它結合卷積神經網絡和vision transformer的優勢構建了一個輕量級、通用的網絡模型。
MobileVit的網絡結構如表1所示。input表示網絡中每個模塊輸入的尺寸;operator表示每個特征層所經歷的模塊;#out表示經過每個特征層后輸出的通道數;L表示的是MVIT模塊中transformer模塊的個數;s表示每一次操作的步長;MVIT表示MobileVit模塊;MV2表示MobileNetV2[17]模塊。
MobileVit模塊的結構如圖3所示。它由三個子模塊組成,分別為局部信息編碼模塊、全局信息編碼模塊和特征融合模塊。三個子模塊分別對應的功能是提取局部特征信息、提取全局特征信息和特征信息的融合。它能夠在具有較少參數量的情況下充分提取圖像的特征信息。
MobileNetV2模塊的結構如圖4所示。它先將特征圖的通道數上升然后再下降,緊接著連接殘差模塊。特征圖的通道數越少,卷積層的計算量越少;但是只使用通道數少的特征圖,難以提取足夠的特征信息。MobileNetV2在這兩者之間進行取舍,采取先提升通道數再降低通道數的策略。因此,MobileNetV2模塊能夠以較少的計算量獲得較高的檢測精度。
淺層特征包含更多的位置信息,深層特征包含更多的語義信息。MobileVit網絡為圖像分類網絡,本文任務是車輛檢測任務。分類任務只需要提取語義信息,車輛檢測任務不僅需要提取語義信息,還需提取位置信息。MobileVit網絡第十層的特征信息已經下采樣32倍,繼續提取特征將會丟失大量的位置信息,且后續網絡涉及到分類任務。因此,將MobileVit網絡的第十層之后舍棄,將剩下的網絡作為模型的主干特征提取網絡。為了實現多尺度預測,將網絡的第七層、第九層和第十層提取的特征輸入PANet中進行特征融合來獲取豐富的特征信息。
為了提升模型對小目標的檢測性能,預測層網絡使用基于PANet的特征融合網絡。在特征提取過程中,淺層網絡和深層網絡提取的特征信息是不同的。淺層特征學習更多的是目標位置信息,而深層特征學習更多的是目標的語義信息。特征融合網絡融合了深層與淺層的特征信息,從而實現了特征增強,同時避免了單一特征信息的使用造成的大量信息損失。PANet設計了兩條特征融合路徑,一條自下而上,另外一條自上而下,這使得該網絡能將淺層特征和深層特征進行充分融合。充分融合的特征能夠提升模型對小目標的檢測性能,從而實現多尺度預測。
1.3損失函數
損失函數決定著模型的訓練方向,它是評價模型訓練效果的重要指標。本文算法對應的損失函數由定位損失函數(losscdiou)、置信度(lossconfidence) 損失函數和類別(lossclass)損失函數三部分組成,如式(2)~(5)所示。
Loss=losscdiou+lossconfidence+lossclass(2)
losscdiou=∑s2i=0∑Bj=0Iobji,j[1-IoU+AE+BF+CG+DH4AG](3)
lossconfidence=-∑s2i=0∑Bj=0Iobji,j[C^jilog(Cji)+(1-C^ji)log(1-Cji)]
-λnoobj∑s2i=0∑Bj=0Inoobji,j[C^jilog(Cji)+(1-ji)log(1-Cji)](4)
lossclass=-∑s2i=0Iobji,j∑c∈classes[P^jilog(Pji)+(1-P^ji)log(1-Pji)](5)
其中:s2為劃分的網格數;B為每個網格中包含的先驗框數;Iobji,j和Inoobji,j意思是第i個網格的第j個先驗框是否有目標和是否沒有目標,是取1,反之取0;λnoobj為不含目標的先驗框置信度誤差權重,因為先驗框中正樣本和負樣本極度不平衡(含目標的先驗框極少),所以λnoobj設置很小;C、C^和P、P^分別代表預測框和真實框的置信度和類別概率。
置信度和類別的損失函數采用交叉熵損失函數,定位損失函數采用CDIoU loss[18]。與定位損失函數CIoU loss[19]相比,CDIoU loss沒有涉及到計算先驗框和真實框長寬比的反三角函數,因此,在模型訓練過程中能減少計算開銷。CDIoU的公式和示意圖如式(3)和如圖5所示,其中AE、BF、CG、DH分別代表著預測框和真實框四個對應頂點之間的距離,AG為包圍這兩個框的最小矩形的對角線距離。盡管CDIoU沒有直接考慮中心點距離和長寬比,但是它的計算結果仍能反映預測框和真實框的差異程度,即CDIoU loss值越大,差異度越大,反之相似度越高。
如圖2所示,經過PANet輸出了三個不同尺度的特征圖。這三個特征圖分別輸入到對應的三個detection head中,得出預測框的位置、置信度和類別信息。各個detection head均使用三類損失函數且相互之間獨立,優化模型的訓練方向。
2實驗與分析
2.1實驗條件
本文實驗數據采用KITTI數據集,KITTI數據集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦,它包含市區、鄉村和高速公路等場景采集的真實圖像數據,每張圖像中最多達15輛車,還有各種程度的遮擋與截斷[20]。根據本文車輛檢測任務,選取數據集中三類車輛目標,分別是truck、van和car。此數據集共有7 481張圖片,取5 984張圖片作為訓練集、748張圖片作為驗證集、749張圖片作為測試集。數據集隨機劃分后的詳細情況如表2所示。
實驗環境如下:操作系統為Windows 10;深度學習框架為PyTorch;CPU為Intel Core i3-9100F;內存大小為16 GB;GPU為NVIDIA GeForce GTX 1660 6 GB。
2.2評價指標
本文采用檢測速度、AP(average precision)和mAP(mean average precision)作為算法性能評價指標。檢測速度為每張圖片檢測所需的時間。在計算AP值的時候,當真實框與預測框的IoU大于0.5時定義為正樣本,反之為負樣本。mAP是針對多類目標檢測精度的情況,它是多類目標AP的平均值,表達式如下:
mAP=∑APN=∑∫10P(R)dRN(6)
2.3模型的訓練與收斂性分析
為了減少模型訓練的時間,將在COCO數據集上面預訓練好的權值文件載入模型進行訓練。本文提出的模型輸入圖像大小為608×608,優化器采用Adam,第一階段凍結模型的主干網絡層,初始學習率為0.001,訓練輪次(epoch)為50次,迭代次數為37 400。第二階段訓練整個網絡,初始學習率為0.000 1,輪次設置為50次,迭代次數為74 800。
圖6為模型訓練過程中損失值的趨勢變化圖。從圖中可以看出,前50個訓練輪次損失值逐漸降低且降低速度逐漸放緩,到了第51個訓練輪次,由于主干網絡也參與了訓練,損失值突然增加,緊接著損失值逐漸降低且大約在第80個訓練輪次模型開始收斂。
2.4實驗結果分析
如表3和4所示,將本文算法與Faster R-CNN、YOLOv3、YOLOv4、YOLOX、YOLOv4_MV3算法在KITTI數據集訓練后并將在測試集上面的結果從檢測速度、平均類別檢測精度和模型參數量方面進行對比。
本文算法與YOLOv4算法相比,檢測速度提高了約44.2%,檢測精度提高了2.46%,模型參數量減少44.3%。與兩階段算法Faster R-CNN相比,檢測速度是其3.6倍且檢測精度提高了9.61%。與YOLOv3算法相比,檢測速度提升了10.3%,檢測精度提升了3.71%,模型參數量是其57.9%。與anchor-free算法YOLOX相比,檢測精度提升了0.37%、檢測速度提升了22%,模型參數量為其65.7%。YOLOv4_MV3為將MobileNetV3[21]網絡替換YOLOv4的主干網絡,與它相比,除檢測速度略低,本文算法的檢測精度和模型參數量均優于它。小目標和遮擋目標因為缺乏特征信息,從而容易造成漏檢,是車輛檢測中的難點問題。在本文的測試集中,存在著許多小目標和遮擋目標,故模型的檢測精度可以客觀地反映模型解決小目標和遮擋目標問題的能力。綜上所述,本文算法表現出了更好的性能,能更好地滿足車輛檢測任務的要求。
為了更清晰地理解模型的各個模塊對模型效果的影響,本文進行了消融實驗,結果如表5所示。
A為將模型的定位損失函數改為CIoU loss,B為將模型的主干網絡換為CSPDarkNet53,C為在數據預處理階段不引入GridMask數據。由表可知替換定位損失函數模型的檢測精度下降1.38%,檢測速度沒有變化。緊接著,再替換模型的主干網絡,模型的檢測精度下降0.26%,檢測速度下降約30%。最后,去除GridMask數據增強,模型的檢測精度下降1.04%,檢測速度幾乎沒有改變。因此,CDIoU loss和GridMask數據增強可以提升模型的檢測精度,改進的MobileVit主干網絡既能提升模型的檢測精度,也能提升模型的檢測速度。
如表6所示,對本文中GridMask圖像增強方法中的超參數r進行研究,展示了不同的r取值對模型性能的影響。r分別取值為1/6、1/3、1/2、2/3和5/6。由表可知,隨著r值的增大,模型性能先提升后降低。當r取值為1/3時,模型的性能相對較好。因此,本文中GridMask方法的超參數r取值為1/3。
2.5本文算法檢測效果
為了更直觀地感受本文提出模型的性能,從測試集中選取一些圖像進行檢測。檢測效果如圖7~9所示。在第一組檢測圖片中,從原圖可以看到遠處有4輛車,屬于小目標場景。本文算法能夠將4個目標準確地檢測出來。在第二組檢測圖片中,從原圖可以看出車輛處于低光照強度環境且道路上有5輛車,本文算法能準確地將它們檢測出來。在第三組檢測圖片中,從原圖可以看出,場景十分復雜,存在高光照強度、低光照強度和遮擋環境。圖中左邊處于低光照場景下有3輛嚴重遮擋的車輛,右邊處于高亮度光照場景下也有3輛嚴重遮擋的車輛。本文算法能將這6個目標準確地檢測出來。上述檢測效果表明,本文模型能夠實現對小目標和遮擋目標的準確檢測。
3結束語
為了解決車輛檢測過程中對小目標和遮擋目標漏檢問題,本文提出了一種輕量化的車輛檢測模型。首先,在數據預處理階段采用GridMask圖像增強方法;其次,使用改進的MobileVit網絡作為主干特征提取網絡;最后,使用基于PANet的預測層網絡,提出了本文算法。實驗結果表明,本文算法在具備輕量化的同時,對小目標和遮擋目標也能夠實現很好的檢測效果,并且能夠更好地滿足車輛檢測任務的實時性要求。今后的研究工作中,在此研究基礎上嘗試將anchor-free方法引入本文模型,使模型擺脫對錨框的依賴,從而提升模型的檢測速度。
參考文獻:
[1]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2005:886-893.
[2]Papgeorgiou C P,Oren M,Poggio T.A general framework for object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2002:555-562.
[3]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-11.
[4]Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:779-788.
[5]Redmon J,Farhadi A.YOLO9000:better,faster,stronger[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:6517-6525.
[6]Redmon J,Farhadi A.YOLOv3:an incremental improvement[EB/OL].(2018)[2021-12-18].https://arxiv.org/pdf/1804.02767.pdf.
[7]Bochkovskiy A,Wang C Y,Liao H Y M.YOLOv4:optimal speed and accuracy of object detection[EB/OL].(2020)[2021-12-18].https://arxiv.org/pdf/2004.10934.pdf.
[8]Girshick R,Donahue J,Darrel T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2014:580-587.
[9]Girshick R.Fast R-CNN[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:1440-1448.
[10]Ren Shaoqing,He Kaiming,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[11]厙向陽,韓伊娜.基于殘差網絡的小型車輛目標檢測算法[J].計算機應用研究,2020,37(8):2556-2560.(She Xiangyang,Han Yina.Small vehicle target detection algorithm based on residual network[J].Application Research of Computers,2020,37(8):2556-2560.)
[12]宋煥生,張向清,鄭寶峰,等.基于深度學習方法的復雜場景下車輛目標檢測[J].計算機應用研究,2018,35(4):1270-1273.(Song Huansheng,Zhang Xiangqing,Zheng Baofeng,et al.Vehicle target detection in complex scene based on deep learning method[J].Application Research of Computers,2018,35(4):1270-1273.)
[13]Mehta S,Rastegari M.MobileVit:light weight general purpose,and mobile friendly vision transformer[EB/OL].(2021)[2021-12-18].https://arxiv.org/abs/2110.02178.pdf.
[14]Chen Pengguang,Liu Shu,Zhao Hengshuang,et al.GridMask data augmentation[EB/OL].(2020)[2021-12-28].https://arxiv.org/abs/2001.04086.pdf.
[15]Liu Shu,Qi Lu,Qin Haifang,et al.Path aggregation network for instance segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2018:8759-8768.
[16]Dosovitskiy A,Beyer L ,Kolesnikov A, et al.An image is worth 16×16 words:transformers for image recognition at scale[EB/OL].(2021)[2021-12-28].https://arxiv.org/abs/2010.11929.pdf.
[17]Sandler M,Howard A,Zhu Menglong,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2018:4510-4520.
[18]Chen Dong,Miao Duoqian.Control distance iou and control distance IoU loss function for better bounding box regression[EB/OL].(2021)[2021-12-18].https://arxiv.org/abs/2103.11696.pdf.
[19]Zheng Zhaohui,Wang Ping,Liu Wei,et al.Distance IoU loss:faster and better learning for bounding box regression[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:12993-13000.
[20]Geiger A,Lenz P,Urtasun R.Are we ready for autonomous driving? The KITTI vision benchmark suite[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2012:3354-3361.
[21]Howard A,Sandler M,Chu G,et al.Searching for MobileNetV3[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2019:1314-1324.
[22] Zheng Ge,Liu Songtao,Wang Feng,et al.Exceeding YOLO series[EB/OL].(2021)[2021-12-18].https://arxiv.org/abs/2107.08430.pdf.
收稿日期:2021-12-18;修回日期:2022-02-07基金項目:江西省交通廳科技資助項目(2021X0011,2022X0040);國家自然科學基金資助項目(62067002,61967006,62062033);江西省自然科學基金資助項目(20212BAB202008);江西省教育廳資助項目(GJJ190317)
作者簡介:熊李艷(1968-),女,江西南昌人,教授,碩導,碩士,主要研究方向為計算機視覺、自然語言處理等;涂所成(1997-),男(通信作者),江西南昌人,碩士,主要研究方向為計算機視覺、目標檢測(tusuocheng@163.com);黃曉輝(1984-),男,江西宜春人,副教授,碩導,博士,主要研究方向為機器學習、數據挖掘;余俊英(1997-),女,江西南昌人,碩士,主要研究方向為機器視覺、深度學習、目標檢測;謝云馳(1994-),男,江西南昌人,高級工程師,碩士,主要研究方向為機器學習;黃衛春(1968-),男,江西撫州人,教授,碩導,碩士,主要研究方向為云計算、高性能計算.