摩托車駕駛員和行人檢測算法綜述

2023-02-10 12:12:32陳俊豪蘇山杰

汽車文摘 2023年2期

關鍵詞：特征檢測模型

陳俊豪蘇山杰

（重慶交通大學機電與車輛工程學院，重慶 400074）

主題詞：深度學習目標檢測行人檢測頭盔檢測摩托車檢測

縮略語

SIFT Scale-Invariant Feature Transform

HOG Histogramof oriented gradient

NMS Non-Maximum Suppression

FPN Feature Pyramid Network

YOLO You Only Look Once

IOU Intersection Over Union

GIOU Generalized Intersection Over Union

CIOU Complete Intersection Over Union

SSD Single Shot Multibox Detector

ROI Region Of Interest

CA Coordinate Attention

mAP mean Average Precision

SE Squeeze-and-Excitation

SK Selective Kernel

SS Selective Search

CBAM Convolutional Block Attention Module

MLP Multilayer Perceptron

SVM Support Vector Machine

RCNN Region-CNN

RPN Region Proposal Network

CNN Convolutional Neural Network

NLP Natural Language Processing

FC Fully Connected

CV Computer Vision

QKV Query-Key-Value

TPU Tensor Processing Unit

LBP Local Binary Patterns

DIOU Distance Intersection Over Union

FPGA Field Programmable Gate Array

HLS HTTPLive Streaming

RGB Red-Green-Blue

BCNN Binary Complex Neural Network

FLOPs Floating Point Operations Per second

AP Average Precision

KL Kullback-Leibler Divergence

LBP Local Binary Pattern

1 引言

2018年，世界衛生組織發布了《2018年全球道路安全狀況》報告[1]，報告顯示每年全球約有135萬人死于道路交通事故，其中28%的交通事故由摩托車引發。特別是在一些不發達地區，由于城市基礎設施結構和經濟條件的限制，摩托車已經成為主要的交通工具，這些地區的道路交通死亡率大約是發達地區的3倍。比如印度、越南、印度尼西亞等國家，摩托車交通事故死亡人數分別占所有交通事故死亡人數的43%和36%。世界衛生組織指出，事故發生的主要原因是駕駛員以及行人違反交通規則。摩托車手的頭部受傷是死亡的主要原因[2]，行人闖紅燈也會增加事故發生率。因此，非常有必要對駕駛員及行人的違規行為進行管控，但要人為督促駕駛員與行人遵守交規，需要投入極大的警力和財力。通過監控抓拍違規車輛與行人，可以對事故多發地段進行精準管控，從而有效地降低成本和風險。

行人與摩托車是重要的交通參與者，國內外少有文獻對摩托車、行人檢測進行概述。本文通過綜述國內外文獻，總結常用的摩托車、行人檢測方法與難點，前沿的改進措施，以及可行的改進方向。

2 檢測特點與難點

由于摩托車頭盔與行人檢測不同于交通路況中的車輛檢測，需要從摩托車頭盔與行人的檢測特點與任務出發才能更好的應對復雜環境。

2.1 檢測特點

監控視頻中的頭盔類目標與行人目標尺度變化大，容易出現小目標。在小目標檢測過程中，隨著檢測網絡層數的增加與圖片進行池化操作容易造成信息丟失。摩托車頭盔與行人這類目標容易發生聚集現象，導致目標之間互相遮蔽，增大檢測難度。復雜的背景，如光線、天氣、噪音等不確定因素，可能將自行車、電瓶車檢測為摩托車，從而出現誤檢。駕駛員頭盔的顏色與行人的姿態多種多樣，使得檢測樣本不均衡。

2.2 檢測任務

精準捕捉到監控視頻或圖片信息中的駕駛員與行人的信息，并判斷駕駛員和乘員是否佩戴頭盔，檢測任務主要分目標定位與分類：

（1）目標定位：邊界框（Bounding box）在目標檢測中用來找到檢測物體并分類。用邊界框框選出駕駛員頭部與行人范圍，并標記其中心位置。

（2）目標分類：定位到頭部位置與行人后，需要判斷出頭部是否佩戴頭盔，以及行人是否出現違反交通規則的行為。

3 目標檢測算法

傳統的機器學習算法需要手工提取特征，對操作人員的實際操作經驗和理論知識都有較高要求，而且有泛化能力差的劣勢。隨著近年來軟件、硬件和大數據的發展，深度學習算法得到了飛躍發展，深度學習算法精度、速度、泛化能力都明顯優于傳統的機器學習算法。因此，利用深度學習網絡檢測成為了目標檢測發展新方向[3]。

3.1 二階段算法

過去十幾年中，目標識別算法主要是以尺度不變特征變換方法（Scale-Invariant Feature Transform,SIFT）[4]和方向梯度直方圖方法（Histogram of Oriented Gradient,HOG）[5]為主流的傳統機器學習算法。2012年Krizhevsky等提出的AlexNet[6]在ILSVRC目標識別大賽中獲得第1名，Top5錯誤率達到15%。之后涌現出VGG[7]、GoogleNet[8]、ResNet[9]等網絡，隨后R-CNN將AlexNet在ImageNet目標識別的能力泛化到PASCAL VOC目標檢測上來。表1為R-CNN[10]、Fast RCNN[11]、Faster R-CNN[12]的網絡組成。

表1 R-CNN、Fast R-CNN、Faster R-CNN網絡組成

3.1.1 R-CNN[10]

R-CNN的流程圖如圖1所示，具體流程如下：

圖1 R-CNN流程[10]

（1）圖片使用選擇性搜索（Selective Search，SS）生成1 000～2 000個候選區域；

（2）依次將候選區域送入深度網絡提取特征；

（3）將特征送入支持向量機（Support Vector Machine，SVM）分類器，判斷類別；

（4）使用回歸器精修候選區域位置。

3.1.2 Fast R-CNN[11]

Fast R-CNN的流程圖如圖2所示，具體流程如下：

圖2 Fast-RCNN流程[11]

（1）圖片通過SS生成1 000～2 000個候選區域；

（2）將圖片輸入深度網絡獲取相應的特征圖，將第一步生成的候選框投影到特征圖上獲得特征矩陣；

（3）將每個特征矩陣通過興趣池（ROIPooling）縮放到統一大小的特征圖（如7×7）；

（4）展平特征矩陣，通過一系列全連接層得到預測結果。

3.1.3 Faster R-CNN[12]

Faster R-CNN的流程圖如圖3所示，具體流程如下：

圖3 Faster R-CNN流程圖[12]

（1）圖片通過深度網絡生成特征圖；

（2）特征圖使用區域生成網絡（Region Proposal Network,RPN）生成候選框，再將候選框投影到特征圖上獲得特征矩陣；

（3）特征矩陣通過ROIPooling縮放到統一大小的特征圖（如7×7）；

（4）展平特征圖并通過一系列全連接層獲得預測結果。

R-CNN先將SS網絡中生成候選區域依次輸入網絡中，所以消耗的時間較長。R-CNN雖然將檢測率從35.1%提升到53.7%，但訓練速度慢。在Fast R-CNN中，圖片分別通過RPN網絡與特征提取網絡，隨后將RPN網絡生成的候選區域一起映射到特征圖中，速度得到了改善，但是候選區域的生成還是依靠SS，所以耗時仍然較長，每張圖片耗時3 s。Faster R-CNN將原本的SS算法替代為RPN網絡，速度得到了較大的提升，速度達到了10 ms但仍然達不到實時檢測的要求。

3.2 一階段算法

二階段算法需要先通過CNN網絡得到候選框，再進行分類與回歸，所以檢測速度較慢，Faster RCNN檢測速度最快，但只能達到17幀/s，達不到實時檢測的要求。一階段算法直接對物體進行分類與預測，主要是單次多邊框檢測（Single Shot Multibox Detector，SSD）算法與YOLO系列算法，速度上能夠達到實時檢測的要求。

3.2.1 SSD算法[13]

SSD算法與YOLO算法都屬于一階段算法，SSD算法在算法推出時，其速度和精度都優于YOLO算法，相對于Faster R-CNN而言，SSD算法不需要先獲取候選框再進行分類與回歸，這是SSD算法在速度上優于二階段算法的原因。SSD算法與YOLO算法主要分為3個方面：

（1）采用卷積直接做檢測；

（2）SSD算法提取了不同尺度的特征圖來做檢測，大尺度特征圖（較靠前的特征圖）可以用來檢測小物體，而小尺度特征圖（較靠后的特征圖）用來檢測大物體；

（3）SSD算法采用了先驗框，特征圖的每個像素處都會生成不同尺寸、不同長寬比例的先驗框，SSD 300中一共有5個不同尺寸的特征圖，每個像素有4個先驗框，經過計算一共有8 732個先驗框。SSD算法算采用了密集采樣方法，避免了正負樣本不平衡的問題。

YOLO算法缺點是難以檢測小目標，而且定位不準，SSD算法使用先驗框、多尺度檢測的方法在一定程度上克服這些缺點。

3.2.2 YOLOV1算法[14]

2016年，Joseph Redmon等提出了YOLO算法，YOLO算法的核心思想就是利用整張圖作為網絡的輸入，直接在輸出層回歸邊界框的位置及其所屬的類別，將目標檢測問題轉換為回歸問題。損失函數由坐標損失、置信度損失和類別預測損失構成。

YOLOV1算法將圖片分為7×7的網格，每個網格負責預測中心點落到該網格內部的目標，這無需通過RPN網絡來獲得感興趣區域，所以YOLO算法可以獲得快速的預測速度。

主要步驟如下：

（1）劃分圖片為S×S個網格；

（2）每個網格負責B個邊界框的預測，邊界框由（x,y,w,h,Confidence）張量組成（圖4）；

圖4 YOLO V1預測張量[14]

（3）每個網格預測一個類別信息（一共有C類）；

（4）網絡輸出S×S×（5×B+C）的張量。

YOLOV1算法的優點：

（1）速度快，標準版可達到45幀/s，極速版達到150幀/s，能以小于25 ms的延遲進行實時檢測；

（2）在實時檢測系統中，YOLO算法的實時檢測精度是其它系統的2倍；

（3）遷移能力強，能夠應用到其它領域。

YOLOV1算法的缺點：

（1）小目標和擁擠的目標檢測（由于一個網格只能預測2個框，并且只能是同一類），當一個網格同時出現多個類時，無法檢測所有類；

（2）定位誤差大（損失函數影響）；

（3）對不常見的角度目標泛化性較差。

3.2.3 YOLOV2算法[15]

YOLOV2算法在速度與精度上都超過了YOLO V1算法，同時速度上也超過了SSD算法，在YOLOV1算法的基礎之上進行了8項改進。

（1）批標準化（Batch Normalization）使得性能提高了2%；

（2）高分辨率分類器，圖片從224×224分辨率增加到448×448的分辨率，使得mAP提高了4%；

（3）引入錨框（Anchor box）；

（4）使用聚類方法選擇合適的錨框；

（5）特征融合；

（6）去掉了全連接（Fully Connected，FC）層；

（7）多尺度訓練；

（8）使用了Darknet-19。

YOLOV2算法主要是提高了召回率和定位能力，借鑒Faster R-CNN的思想預測邊界框的偏移，移除了全連接層，刪掉了一個池化層（Pooling）使特征的分辨率更大。調整了網絡的輸入，使得位置坐標為奇數，這樣就只有一個中心點。加上錨框能預測超過1 000個檢測目標，將mAP提高了15.2%。通過表1可以看出YOLOV2算法在精度上已經超過了SSD算法，速度上已經達到了實時檢測的要求。YOLOV2算法雖然在YOLOV1算法的基礎上精度得到了改良，但仍存在正負樣本不平衡的問題。

3.2.4 YOLOV3算法[16]

YOLOV3的主要創新點如下：

（1）骨干網絡（Backbone）使用更深的網絡，采用Darknet-53替換掉原來YOLOV2的Darknet-19；

（2）利用特征金字塔進行多尺度融合。選擇3種不同形狀的Anchor，每種Anchor有3種不同的尺度，一共使用9種不同的Anchor預測目標；

（3）分類方法上使用邏輯回歸代替Softmax；使用多標簽分類替換YOLOV2中的單標簽分類。

3.2.5 其它YOLO算法

2020年Redom退出計算機視覺（Computer Vision，CV）領域，關于YOLO算法的研究大多數是在YOLO系列算法的基礎上利用數據增強、Backbone、損失函數方法進行改進，精度和速度上都取得了進步。

Alexery Bochkovskiy在2020年推出了YOLO V4算法[17]，同年ULtralytics發布了YOLOV5算法，首次在YOLO算法中引入Focus結構。

2021年，曠視科技[18]推出了YOLOX，YOLOX-L版本，以68.9幀/s的速度在COCO數據集上實現了50.0%的mAP，比同版本的YOLO V5-L算法高出1.8%，YOLOX算法最大的改進如下：

（1）拋棄了YOLO算法以往的檢測頭，使用雙檢測頭（Decoupled head），實現分離、分類與定位操作；

（2）增加無錨框（Anchor-free）機制，預測框的數量從3個降為1個，直接預測網格左上角的偏移量、預測框的寬與高。減緩了YOLO正負樣本不匹配帶來的影響，同時降低了參數量與GFLOPS，加快預測速度；

（3）搭配SimOTA標簽分配策略。

3.3 轉變器（Transformer）模型

Transformer模型[19]開始用于NLP領域，隨著多模態的發展趨勢，Transformer模型被用于分類、檢測、分割等圖像領域。Transformer模型的工作原理是利用QKV矩陣計算檢測圖片各像素的相關性，采用Encoder-Decoder結構，不斷的實現解碼與編碼，結構如圖5。

圖5 Encoder-decoder結構[19]

在CV領域中采用Transformer模型的結構主要有2種結構框架。一種是純Transformer模型，另一種是CNN與Transformer結合的混合模型。

純Transformer模型中主要以Vit[20]模型為代表，2020年Vit推進Transformer模型在視覺領域的發展。金字塔視覺轉換器（Pyramid Vision Transformer，PVT）和Swin Transformer都是建立在Vit的基礎之上的。主要流程是將圖片切塊，通過FC將圖像轉換為向量，然后加上位置編碼，最后輸入Enconder中，通過MLP head完成分類任務。通過JFT300M的預訓練，訓練結果可以超過ResNet152和EfficienNet[21]，需要的TPU消耗更少，得到結果數據量越大，訓練的結果越好，因為沒有限制網絡自身的表達能力，在數據量增大的情況下，卷積網絡效果會出現瓶頸（圖6）。

圖6 Vit結構[20]

原始的Transformer模型需要計算每個像素間的相關性，計算規模與圖片的大小成平方關系，此時在目標檢測領域仍然是卷積神經網絡處于主導地位。2021年3月，微軟推出了Swin Transformer[22]，設計思想吸收了殘差神經網絡（ResNet），從全局到局部，極大減小了運算規模，并應用到目標檢測領域，檢測效果超過了Faster R-CNN、YOLO、SSD檢測算法。

對Transformer模型的改進方面，主要是注意力窗口（Window attention）與滑動注意力窗口（Shift window attention）（圖7）。Window attention是按照一定的尺寸將圖像劃分為不同的Windows，每次Transformer的Attention只在Window內部進行計算，只是使用Window attention會使得像素點的感受野（Receptive Field）受到限制；Shift window attention則是劃分Window的方式，起到提高像素感受野的作用。

圖7 Shift window attention結構[22]

從表2中可以看出，YOLO系列算法的精度趕上了一階段算法，速度上也是遠超一階段算法，達到了77幀/s，所以在智能駕駛行業，常用YOLO系列算法對道路安全進行實時監控。

表2 目標檢測算法在VOC數據集的mAP與FPS

4 基于深度學習的摩托車頭盔檢測研究進程與分析

4.1 摩托車頭盔檢測研究現狀

Doungmala等[23]使用Haar特征提取器對全頭盔進行檢測，使用圓形霍夫變換（Hough transform）對半頭盔進行檢測。Dhwani等[24]采用閾值法對移動車輛進行檢測。根據寬高比和面積判斷是否為摩托車手，然后確定感興趣區域用級聯分類器檢測相應區域。Li等[25]使用ViBe背景減法來檢測移動的物體，使用梯度直方圖和SVM分類器對頭盔進行檢測。Adam等[26]在安全帽的位置獲得圓弧，利用質心位置計算圓弧參數，使用幾何特征來驗證該集合中是否存在安全帽。Silva等[27]根據幾何形狀和紋理特征的模型檢測無頭盔的車輛，然后使用Hough transform和SVM來檢測摩托車手頭部。

Shine等[28]得出CNN網絡在檢測速度與精度上更優于手工提取特征。Vishnu等[29]使用自適應背景減法來獲得運動目標，利用CNN網絡在運動對象中選擇摩托車手，最后在圖片局部應用CNN來進一步識別不戴頭盔駕駛的摩托車手。Yogamccna等[30]利用高斯混合模型對前景目標進行分割并標記，然后采用Faster R-CNN檢測已標記的前景對象中的摩托車，利用字符序列編碼的CNN模型和空間轉換器識別無頭盔摩托車手的編號。這類算法先使用傳統機器學習算法從前景分割出摩托車，然后使用深度學習網絡對頭盔進行分類，與傳統機器學習算法比，這類算法速度與精度更好。雖然頭盔檢測采用了深度學習的方法，但在摩托車檢測階段使用傳統方法來獲取前景目標，在擁擠的場景中效果會很差。

Kietikul等[31]使用目標濾波技術和2個CNN從監控攝像機中檢測出無頭盔的摩托車手。Khan[32]使用YOLO V3-tiny，在COCO數據集上預訓練，然后在摩托車檢測數據集進行微調，實現對摩托車駕駛員頭盔佩戴情況的檢測。Saumya等[33]使用YOLOV3模型來識別自行車駕駛者，二值圖像的垂直投影用于計算超超載人數。Han等[34]在SSD低層特征中加入空間注意力機制，在高層特征采用通道注意力機制，最終設計了一種錨框的自適應方法。

Dailey M等[35]使用YOLO摩托車檢測和頭盔違章分類。Santhosh等[36]與Dasgupta等[37]分別使用SSD算法與YOLOV3算法來檢測摩托車區域，最后提取圖像的上部，使用分類算法來識別是否佩戴頭盔。當摩托車上有多人時，分類算法容易失效。Jiawei等[38]使用改進的YOLOV5算法從視頻監控中檢測出摩托車，再次通過改進YOLOV5以判斷是否佩戴頭盔。其中YOLOV5算法設計了三通道（Tiplet）注意力機制，加強特征融合，使用緩和極大值（Soft—NMS）取代NMS，解決遮蔽問題。Boonsirisumpun等[39]使用SSD算法檢測頭盔。用一個CNN網絡來檢測摩托車和騎手的包圍盒區域，同時對配戴頭盔進行分類。Lin等[40-41]在泰國的7個城市收集了91 000幀摩托車安全帽佩戴視頻數據集，使用RetinaNet設計新的位置編碼，克服了正負樣本不平衡的問題。蔣良衛等[42]使用YOLO V3算法，骨干網絡（Backbone）使用ResNeXt50[43]作為新的特征提取網絡并融合SPPNet,使用CIOU優化損失函數，結合DeepSort完成對安全頭盔佩戴情況的實時跟蹤。

4.2 行人檢測研究現狀

Mu等[44]基于行人特點對局部二值模式（Local Binary Pattern，LBP）的2種變化進行運用；Wang等[45]利用SVM同時融合HOG與LPB特點，解決圖片遮蔽問題的缺陷；鄧健鋒等[46]使用FPGA采集圖像信息，利用HLS對圖像進行加速，然后使用CENTRIST+SVM完成定位。

Ren等[47]融合R-CNN與SSD來檢測RGB圖像中的人物，在光線不足的復雜背景下，mAP達到91.5%。

Wu等[48]提出了一種增強卷積神經網絡（Binary Complex Neural Network，BCNN）系統，該算法提出了一種加權損失函數，該函數在訓練CNN時突出了對可能目標的選定加權，增加了檢測的真陽率，同時算法復雜度較低，檢測時間對比同等級算法并不處于劣勢。在Caltech數據集上對數平均缺失率為11.40%。

Mao等[49]針對行人檢測中行人與背景區分度低的情況，改進Faster R-CNN算法，提出超參數學習（Hyper-Learner）算法。

陳一瀟等[50]針對擁擠行人檢測難點，使用Res2Block作為主干網絡，提高網絡的特征融合能力，使用坐標注意力機制（Coordinate Attention，CA）增加目標定位能力，最后在行人檢測任務中，速度達到了51幀/s，精度提高了3.75%。

4.3 研究改進方向分析

對摩托車的頭盔與行人檢測需要實時性能，所以一階段目標檢測成為了首選，在檢測上主要會遇到以下難點，即遮蔽、誤判、小目標和輕量化網絡所帶來的精度減少的問題。一般從數據、主干網絡、注意力機制、損失函數和輕量化出發解決以上的檢測問題。

4.3.1 數據

數據增強可以防止訓練過程中模型過擬合，以及降低標注成本與擴充數據集。為了防止CNN過于關注一個小的中間激活集或輸入圖像上的一個小區域，提出了隨機特征去除正則化。在隨機失活（Dropout）用于隨機刪除隱藏激活，用于刪除輸入上的隨機區域。特征去除策略通過讓模型不僅關注對象中最具辨識性的部分，而且關注整個對象區域，從而提高泛化和定位能力。

YOLO V4、YOLO V5、YOLOX算法沒有在YOLO V3的結構上進行明顯改進，而是使用各種數據增強方法在數據層面使得模型的精度與速度得到提升（如Focs，Cutmix，Cutout，Mosaic等）。

關于使用位置編碼，Chen等[51]提出一種將騎車人數量、位置和頭盔使用情況數據進行集成的新方法。利用一種新的編碼方案，將摩托車頭盔使用分類問題由多類分類問題轉化為多類二值分類問題的組合（圖8）。

圖8 位置編碼[53]

4.3.2 主干網絡

優化網絡結構方面，多尺度特征融合通過融合低層位置信息和高層分類信息,可以明顯提高檢測精度。張永亮等[52]在YOLOV4算法中采用設計多尺寸特征，提取模塊和增強特征融合模塊，改進算法同時提升了定位和分類交通標志的能力。金雨芳等[53]在YOLOV4的基礎上，增加128×128特征圖的輸出，基于密集連接的思想，將特征提取網絡輸入的4個不同尺度的特征層進行重新連接，平均精度高達91.17%，相比原網絡檢測精度提高了2.96%，檢測速度達53幀/s。

Wang等[54]在YOLOV4中采用像素洗牌法代替插值采樣法，解決了低分辨率特征圖與高分辨率特征圖融合時信息丟失的問題。引入Ghost Net和Squeeze Net減少了網絡的時延和網絡參數。頭盔類和無頭盔類的mAP增加了約5%，相應層的參數和浮點數（FLOPs）都減少了50%，模型尺寸減少了20%。

4.3.3 注意力機制

通道注意力機制（Squeeze-and-Excitation Networks,SE）使用2維全局池化計算通道注意力，以相當低的成本提升了性能，基于卷積核的注意力機制（Selective Kernel Networks,SK）則是在SE的基礎上增加不同尺寸的卷積核，完成對不同尺寸目標的注意，SE與SK只考慮編碼通道間信息而忽略位置信息的重要性。通道空間注意力機制（Channel Block Attention Model,CBAM）使用空間注意力完成了對位置信息的利用，而卷積只能獲得局部的位置關系。坐標注意力機制（Coordinate Attention,CA）使用2種轉化分別沿著2個空間方向聚合，一個保存沿著一個空間方向的長期依賴關系，并保存另一個方向的精確位置關系。

趙夢等[55]針對模糊情況、失真場景使用了SK結合YOLOV5算法，有效的解決了水下模糊圖片的識別問題。

王玲敏等[56]在YOLOV5的主干網絡中加入了CA，使網絡可以在更大的感受野中進行注意，使用加權雙向特征金字塔網絡加權雙向特征網絡（BiFPN）網絡替代原有的特征融合層，實現高效的雙向尺度連接與特征融合，在自制安全帽數據集上進行了測試，平均精度提高了5%。

王靜等[57]針對白細胞數據樣本量上、類間差別小以及目標尺寸小的問題，在YOLOV5的主干網絡中添加坐標注意力機制CA，同時使用四尺度特征檢測來提高小目標的識別精度，mAP提高了3.8%。

Zhang等[58]在YOLOV5算法的骨干網絡中加入深度方式坐標注意力機制（Depthwise Coordinate Attention，DWCA）和K-Means++，使網絡可以獨立學習各個通道的權重，增加區分前景、背景的能力，提高了先驗錨框的匹配度，比YOLOV5頭盔檢測的平均精度提高了3%。

4.3.4 損失函數

對于一階段檢測模型的損失函數，定位信息與分類信息適合不同的卷積參數，如YOLOX的雙檢測頭。

交并比（IOU）作為損失函數時，如果2個物體不重疊，不會反映2個形狀之間的距離，此時梯度為0，無法進行梯度回傳。廣義交并比（GIOU）則是采用IOU減去2框交集與并集的比，解決了損失（Loss）為零時梯度不回傳的問題，但出現邊界框覆蓋真實框（Ground truth）時，只要邊界框與真實框的面積不變，不管2個框的位置在哪里，IOULoss與GIOU Loss都是一個定值，因此可以忽略2個框的中心位置。距離交并比（DIOU）則是引入了2個框中心的距離作為懲罰項來限制中心點的位置。考慮到邊界框回歸3要素中的長寬比還沒被考慮到計算中，進一步在DIOU的基礎上提出了完整交并比完整交并比（CIOU）。

表3 IOU、GIOU、DIOU、CIOU在COCO數據集上的表現

于娟等[59]針對無人機圖像中的小目標與遮蔽目標，在YOLO V5的基礎上使用相對熵（Kullback-Leibler,KL）散度損失函數替代原有的置信度損失的交叉熵函數，提高模型的泛化能力。研究人員將殘差模塊替換為沙漏（LSandGlass）模塊，減少低分辨率的語義損失。

Wu等[60]采用多尺度骨干網絡增強結構（Im-Res2Net），利用增強的EN-PAN進行特征融合，并使用焦點損失（Focal loss）緩解了正負本不平衡的狀況，在IOU等于0.5的水平上獲得92.8%的高準確率。徐守坤等[61]通過對Faster-RCNN運用多尺度訓練和增加錨點數量，提高網絡檢測不同目標的魯棒性，使用在線困難樣本的挖掘策略，解決了正負樣本的不均衡問題，提高了對安全帽檢測精度，比原始的Faster R-CNN準確率提高了7%。Zhang等[62]在YOLOV3的基礎上使用Anchor free和Focal loss方法避免正負樣本的不平衡帶來的問題，同時采用GIOU作為損失函數，改善了均方誤差。

4.3.5 輕量化

實現網絡輕量化使網絡參數、模型結構變小，不可避免的犧牲檢測精度。

經典目標檢測依賴于CNN作為主干進行特征提取。一些優秀的基礎網絡，如VGGNet、ResNet等，雖然能很好地提取特征，但是這些網絡的計算量很大，特別是用于嵌入式設備時，依靠這些網絡設計的物體檢測模型很難達到實時性的要求。因此要對模型進行加速，一方面對訓練好的復雜模型進行壓縮得到小模型，另一方面直接設計小模型并進行訓練，如Mobilenet、Shufflenet、Mixnet等。

在摩托車頭盔檢測領域中，主要分為傳統的檢測算法、混合算法、深度學習算法。傳統的檢測算法通過頭盔的外形輪廓進行目標定位與分類，忽略了更深的語義信息導致檢測效果偏差。混合算法利用傳統算法對目標進行摩托車與背景分類，再通過深度學習算法對檢測出的摩托車進行頭盔分類，混合算法在檢測的第一步依賴傳統算法，難以在復雜工況下檢測出摩托車，導致混合算法的精度較低。深度學習算法直接通過檢測網絡從圖片中檢測出駕駛員與乘客的頭部，可以成功地從復雜工況下檢測出駕駛員是否佩戴頭盔。近年來深度學習算法成為了摩托車頭盔檢測領域的主流算法。

在行人檢測領域中，傳統的檢測算法大多數建立在二值法的基礎上，檢測中圖片丟失了顏色信息，不利于模型分類，同時傳統算法對遮蔽情況的處理也是不利的；使用深度學習算法，解決了傳統算法常見的色彩丟失問題，精度上超過了傳統的檢測算法，所以深度學習算法是行人檢測算法的發展趨勢。

近年來深度學習算法成為摩托車頭盔檢測與行人檢測的主流算法，出現了大量針對模型改進的方法。主要從數據、主干網絡、注意力機制、損失函數輕量化5個角度出發。數據主要使用各種的數據增強方法，近年來出現的位置編碼成功解決了樣本的不平衡問題。骨干網絡主要從位置與分類信息出發，融合低層位置信息與高層分類信息。注意力機制從通道、空間、位置之間的關系出發，增強模型對目標的敏感程度。損失函數從預測框的角度出發，文章研究趨勢傾向于無錨框方式。輕量化趨向使用輕量化網絡替換檢測網絡中的骨干網絡。

5 總結與展望

本文首先對摩托車頭盔與行人的檢測特點與任務進行總結。其次針對常見的目標檢測模型進行分析，二階段算法精度高但是速度慢，滿足不了實時檢測的要求，一階段算法在精度上已經滿足了檢測精度，速度也可以滿足實時檢測的要求。然后總結國內外具有代表性的摩托車與行人檢測相關文獻，深度學習算法在速度與精度上都遠超傳統算法，更適合作為檢測模型。最后從數據、主干網絡、注意力機制、損失函數、輕量化5個角度出發，總結最新的檢測模型改進方向。

學者可以通過閱讀本文對摩托車違規檢測與行人檢測進行了解，通過本文總結的改進方向，得到高精度、高速度、泛化能力強、小參數的檢測模型，應用于交通的監管中，提高檢測效率，降低事故率。