張小俊,曹梓樓,張明路
面向地下停車場(chǎng)的輕量級(jí)目標(biāo)檢測(cè)算法研究
張小俊,曹梓樓,張明路
(河北工業(yè)大學(xué)機(jī)械工程學(xué)院,天津 300400)
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法能夠取得良好的檢測(cè)速度離不開高性能GPU硬件設(shè)備的支持。然而,在智能車中搭載高性能、高功耗、大尺寸的硬件設(shè)備與汽車的長續(xù)航理念不符。因此,文章以YOLOv3目標(biāo)檢測(cè)算法為基線模型進(jìn)行改進(jìn),提出輕量化的目標(biāo)檢測(cè)模型Mobile-YOLO,并在采集制作的地下停車場(chǎng)數(shù)據(jù)集中進(jìn)行訓(xùn)練測(cè)試。實(shí)驗(yàn)結(jié)果表明,提出了Mobile-YOLO相較于YOLOv3,在平均精度均值略微提升的情況下,檢測(cè)速度提升了47.1%。在移動(dòng)端平臺(tái)TX2上每秒能夠檢測(cè)31張圖像。
深度學(xué)習(xí);目標(biāo)檢測(cè);輕量化;移動(dòng)端
近幾年,自動(dòng)駕駛得到了廣泛關(guān)注。環(huán)境感知系統(tǒng)主要通過攝像頭、激光雷達(dá)及毫米波雷達(dá)等傳感器檢測(cè)識(shí)別車輛周圍的場(chǎng)景信息,為路徑規(guī)劃和決策提供依據(jù)?;谝曈X的目標(biāo)檢測(cè)技術(shù)主要負(fù)責(zé)檢測(cè)車輛、行人。傳統(tǒng)的檢測(cè)方法大都利用一些諸如顏色、形狀、紋理、對(duì)稱性等簡單特征進(jìn)行檢測(cè)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,行人和車輛檢測(cè)技術(shù)也取得了突破性的進(jìn)展。
Jiang等人[1]將深度學(xué)習(xí)目標(biāo)檢測(cè)算法與汽車尾燈特征相結(jié)合提出了一種夜間車輛檢測(cè)方法。Sri等人[2]在YOLOv3的基礎(chǔ)上改進(jìn)特征提取網(wǎng)絡(luò)和金字塔池化得到一種輕量級(jí)車輛檢測(cè)方法。俞依杰[3]利用雙路金字塔結(jié)構(gòu)改善了小目標(biāo)車輛漏檢的問題。Liu等人[4]利用卷積網(wǎng)絡(luò)直接檢測(cè)行人的中心和尺寸,將行人檢測(cè)作為一種高級(jí)的特征檢測(cè)任務(wù)。Chen等人[5]利用熱感相機(jī)和深度相機(jī)共同檢測(cè)行人,兩種相機(jī)信息互補(bǔ),大幅度地減小了行人誤檢率。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法的高效性依賴于高性能硬件設(shè)備,導(dǎo)致算法落地較為困難。因此,本文在YOLOv3的基礎(chǔ)上提出一種輕量級(jí)目標(biāo)檢測(cè)算法,并將其應(yīng)用于地下停車場(chǎng)中。
MobileNet系列[6-8]檢測(cè)算法的核心為深度可分離卷積。常規(guī)卷積在空間維度是稀疏連接,但是在通道維度確實(shí)全連接形式。深度可分離卷積將卷積操作分解為用于深度卷積和逐點(diǎn)卷積。深度卷積分別進(jìn)行單通道的卷積操作,逐點(diǎn)卷積采用1×1的卷積對(duì)深度卷積地輸出進(jìn)行調(diào)節(jié)使其與常規(guī)卷積地輸出維度相同。
假設(shè)卷積層的輸入為D×D×,輸出的尺寸為D×D×。卷積核尺寸為D×D。則常規(guī)卷積的計(jì)算量為D×D×××D×D。深度可分離卷積打斷空間與通道之間的連接,深度卷積的計(jì)算量為D×D××D×D,逐點(diǎn)卷積的計(jì)算量為××D×D。相較于常規(guī)卷積,深度可分離卷積的計(jì)算量變?yōu)榱嗽瓉淼?/D2。當(dāng)采用3×3卷積時(shí),計(jì)算量減小到原來的1/9。
采用swish激活函數(shù)代替Leaky ReLU。swish同樣具有下界、平滑等特性,但由于其中包含指數(shù)運(yùn)算,這在移動(dòng)端設(shè)備上計(jì)算成本較高,可將swish函數(shù)中的sigmoid替換為ReLU。但當(dāng)>0時(shí),ReLU進(jìn)行正向激活,可能造成激活后的值無限大,影響模型穩(wěn)定性,并且在低性能的移動(dòng)端設(shè)備上可能帶來誤差。因此,將其替換為更適用于移動(dòng)端的ReLU6激活函數(shù)。改進(jìn)后的swish激活函數(shù)計(jì)算方式為:

在網(wǎng)絡(luò)的深層中,隨著特征圖尺寸的下降,應(yīng)用非線性激活函數(shù)的計(jì)算成本會(huì)降低。因此,在網(wǎng)絡(luò)的后半段采用-swish激活函數(shù)。
骨干網(wǎng)絡(luò)主要有三部分組成:其起始分、中間部分和分類輸出層。其實(shí)部分一般采用32或者64通道的卷積層進(jìn)行濾波,為了減少參數(shù)計(jì)算量,在其實(shí)部分采用16通道的卷積層,卷積核大小為3×3,卷積步長為2,實(shí)現(xiàn)對(duì)輸入圖像的下采樣功能,激活函數(shù)采用-swish。
中間部分用來進(jìn)一步提取圖像特征,主要由多個(gè)卷積層、深度可分離卷積、批歸一化層、激活層和跳躍連接組成的四種塊結(jié)構(gòu)組成。第一種結(jié)構(gòu)由1個(gè)1×1卷積層、深度卷積和逐點(diǎn)卷積組成。每層卷積后都接有批歸一化層和激活層,激活層采用ReLU6,深度卷積的尺寸為3×3或5×5。第二種結(jié)構(gòu)在第一種結(jié)構(gòu)的基礎(chǔ)上增加跳躍連接。將兩種結(jié)構(gòu)分別稱為bneck1和bneck2。

圖1 Bneck1、bneck2、bneck1-SE和bneck2-SE
第三種結(jié)構(gòu)在bneck1的基礎(chǔ)上增加輕量級(jí)SE注意力機(jī)制。SE注意力機(jī)制能夠通過顯示建模道之間的相互依賴關(guān)系,自適適應(yīng)的校準(zhǔn)道的特征響應(yīng)[9]。換句話說,就是使得網(wǎng)絡(luò)能夠自動(dòng)評(píng)價(jià)每個(gè)通道的重要程度,使得網(wǎng)絡(luò)更關(guān)注信息量大的通道。將SE注意力模塊添加到深度卷積與逐點(diǎn)卷積之間。SE注意力機(jī)制首先對(duì)深度卷積的輸出進(jìn)行全局池化,得到一個(gè)1×1×C大小的通道描述符。為了減輕計(jì)算量,將原有的兩層全連接層替換為組卷積,第一層卷積起到降維的作用,第二層卷積進(jìn)行升維,激活函數(shù)均采用ReLU6。將各個(gè)通道的權(quán)重系數(shù)與輸入特征相乘即得到輸出,最后經(jīng)過逐點(diǎn)卷積輸出。第四種結(jié)構(gòu)在第三種結(jié)構(gòu)的基礎(chǔ)上增加跳躍連接。第三種、第四種結(jié)構(gòu)分別稱為bneck1-SE和bneck2- SE。四種結(jié)構(gòu)的結(jié)構(gòu)圖如圖1所示。圖中conv表示卷積層,表示卷積核的尺寸,表示卷積核滑動(dòng)的步長,BN表示批歸一化層,Depth表示深度卷積,Point表示逐點(diǎn)卷積,Avg pool表示平均池化層。

圖2 Mobile-YOLO網(wǎng)絡(luò)結(jié)構(gòu)圖
將MobileNetv3中用于輸出分類結(jié)果的全連接層裁剪,得到用于目標(biāo)檢測(cè)的骨干網(wǎng)絡(luò)將該骨干網(wǎng)絡(luò)作為YOLOv3中Darknet53的替換,并將特征金字塔結(jié)構(gòu)中的激活函數(shù)全部替換為-swish,組成新的目標(biāo)檢測(cè)網(wǎng)絡(luò)Mobile-YOLO。其結(jié)構(gòu)圖如圖2所示,圖中CBH表示卷積層、批歸一化層、-swish組成的基本卷積單元,UP表示對(duì)特征圖進(jìn)行上采樣,1、2、3分別表示三種不同尺度的輸出。
為了訓(xùn)練適用于地下停車場(chǎng)的目標(biāo)檢測(cè)算法,在地下停車場(chǎng)中采集包含行人和車輛兩種目標(biāo)的圖像共2 888張,并采用Labelimg和Makesense軟件對(duì)圖像進(jìn)行標(biāo)注,標(biāo)注格式與MS COCO數(shù)據(jù)集格式相同。采用Mixup、mosaic、cutout、隨即擦除、隨機(jī)亮度變化、翻轉(zhuǎn)、隨機(jī)裁剪等方式進(jìn)行數(shù)據(jù)增強(qiáng)。
將Mobile-YOLO在8G NVIDIA RTX 2080顯卡上進(jìn)行訓(xùn)練。共訓(xùn)練400輪,初始學(xué)習(xí)率為0.001,batch size為16,采用余弦衰減方式進(jìn)行學(xué)習(xí)率衰減。采用多尺度訓(xùn)練方式進(jìn)行訓(xùn)練,每10輪隨機(jī)更換一種尺度,圖像尺寸范圍為416~618。模型的初始化權(quán)重為在公開數(shù)據(jù)集MS COCO中訓(xùn)練好的骨干網(wǎng)絡(luò)權(quán)重參數(shù)。
余弦學(xué)習(xí)率衰減是指學(xué)習(xí)率按照COS函數(shù)進(jìn)行衰減,從0.001按照公式(2)的計(jì)算方式逐步衰減為0。

根據(jù)上述參數(shù)對(duì)Mobile-YOLO進(jìn)行訓(xùn)練,圖3為IOU閾值為0.5時(shí)的平均精度均值隨訓(xùn)練過程的變化曲線。在訓(xùn)練到第350輪之后,模型逐漸趨于穩(wěn)定,在第372輪時(shí),模型的平均精度均值達(dá)到了最大值0.806,之后,模型的平均精度均值在0.804上下進(jìn)行小幅度震蕩。

圖3 IOU閾值為0.5時(shí)的AP變化曲線
將YOLOv3與YOLOv3-tiny在同等參數(shù)設(shè)置下進(jìn)行訓(xùn)練。表1為三者之間的性能對(duì)比,測(cè)試平臺(tái)為高性能主機(jī)。Mobile-YOLO相較于YOLOv3的平均精度均值提升了0.55%,速度卻增長了41.7%,達(dá)到了83.3幀每秒。雖然速度與YOLOv3-tiny相差較大,但二者的平均精度均值卻相差了19.14%。
表1 模型性能對(duì)比
模型APAP50AP75APFLOPs YOLOv371.9579.774.758.850G YOLO?t53.3660.156.8166.64.24G M?YOLO72.580.677.383.314.5G

圖4 Mobile-YOLO檢測(cè)結(jié)果
將訓(xùn)練好的模型在改裝智能車奇瑞eQ1上進(jìn)行車載實(shí)驗(yàn),攝像頭放置于擋風(fēng)玻璃前,算法嵌入到NVIDIA Jetson TX2開發(fā)板上。測(cè)試過程中保持車輛的行駛速度在8 km/h左右,Mobile-YOLO的運(yùn)行速度為31幀每秒,能夠滿足實(shí)時(shí)檢測(cè)的要求。圖4為Mobile-YOLO對(duì)測(cè)試集中圖像的檢測(cè)結(jié)果。
正文提出適用于地下停車場(chǎng)的了輕量化目標(biāo)檢測(cè)模型Mobile-YOLO。將常規(guī)卷積、深度卷積、輕量化注意力模塊SE、逐點(diǎn)卷積和跳躍連接組成四種塊結(jié)構(gòu),在注意力機(jī)制中采用組卷積代替全連接層以減小計(jì)算量,并且網(wǎng)絡(luò)的前半段采用更適用于移動(dòng)端的ReLU6激活函數(shù),在網(wǎng)絡(luò)的第一層和后半段采用-swish激活函數(shù)。將改進(jìn)后的MobileNetv3與三個(gè)尺度的特征金字塔結(jié)構(gòu)組成輕量化目標(biāo)檢測(cè)模型Mobile- YOLO,并在采集的地下停車場(chǎng)數(shù)據(jù)集中進(jìn)行訓(xùn)練測(cè)試。試驗(yàn)結(jié)果表明,提出了Mobile-YOLO相較于YOLOv3的平均精度均值提升了0.55%,檢測(cè)速度提升了41.7%,在移動(dòng)端測(cè)試平臺(tái)TX2中運(yùn)行速度達(dá)到了31幀每秒。
[1] Jiang S, Qin H, Zhang B, et al. Optimized Loss Functions for Object detection and Application on Nighttime Vehicle De- tection[J]. arXiv e-prints,2020:arXiv:2011.05523.
[2] Sri J S, Esther R P. Little YOLO-SPP:A Delicate Real-Time Vehicle Detection Algorithm[J].Optik,2020,225.
[3] 俞依杰.基于改進(jìn)Faster R-CNN的視覺車輛檢測(cè)算法研究[D].鎮(zhèn)江:江蘇大學(xué),2020.
[4] Liu W,Liao S,Ren W,et al.High-level semantic feature detec- tion:A new perspective for pedestrian detection[C]//Procee- dings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:5187-5196.
[5] Chen Z,Huang X.Pedestrian detection for autonomous vehicle using multi-spectral cameras[J].IEEE Transactions on Intelli- gent Vehicles, 2019,4(2):211-219.
[6] Howard A G,Zhu M,Chen B,et al.Mobilenets:Efficient conv- olutional neural networks for mobile vision applications [J].arXiv preprint arXiv:1704.04861,2017.
[7] Sandler M,Howard A,Zhu M,et al.Mobilenetv2:Inverted resi- duals and linear bottlenecks[C]/Proceedings of the IEEE con- ference on computer vision and pattern recognition.2018: 4510-4520.
[8] Howard A,Sandler M,Chu G,et al.Searching for mobilenetv3 [C]/Proceedings of the IEEE/CVF International Conference on Compu- ter Vision.2019:1314-1324.
[9] Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]/Pro- ceedings of the IEEE conference on computer vision and pat- tern recognition.2018:7132-7141.
Lightweight Object Detection Algorithm for Underground Parking
ZHANG Xiaojun, CAO Zilou, ZHANG Minglu
( School of Mechanical Engineering, Hebei University of Technology, Tianjin 300400 )
The object detection algorithm based on deep learning cannot achieve good detection speed without the support of high-performance GPU hardware devices. However, the hardware equipment with high performance, high power consump-tion and large size in the intelligent car does not conform to the concept of long endurance of the car. Therefore, this paper takes YOLOV3 object detection algorithm as the baseline model for improvement, proposes a lightweight object detection model, Mobile-YOLO, and conducts training and testing in the collected and produced underground parking lot dataset. The experimental results show that compared with Yolov3, the proposed Mobile-YOLO has a 47.1% increase in detection speed with a slight increase in the mean accuracy. It can detect 31 images per second on the mobile terminal platform TX2.
Deep learning; Object detection; Lightweight; Mobile terminal
TP183
A
1671-7988(2022)02-16-04
TP183
A
1671-7988(2022)02-16-04
10.16638/j.cnki.1671-7988.2022.002.004
張小俊(1980—),男,博士,教授,就職于河北工業(yè)大學(xué)機(jī)械工程學(xué)院,研究方向:自動(dòng)駕駛技術(shù)、汽車電子控制技術(shù)等。
天津市新一代人工智能科技重大專項(xiàng)(18ZX ZNGX00230)。