摘要:在復雜道路場景下檢測圖像存在光照變化、遮擋、背景雜亂等問題,導致對場景里多目標的檢測難度增大,尤其是在山地城市的道路場景下的檢測。為解決此類問題,提出了一種基于YOLO算法的目標檢測模型YOLO-MIS(YOLO for Multi-target in Infrared Scene)。在典型山地城市數據集上的實驗結果表明:YOLO-MIS在滿足網絡模型輕量的情況下,與原模型相比其檢測精度提升了57%,實現了在復雜交通場景中對目標的精確檢測。
關鍵詞:智能交通;復雜交通場景;目標檢測;深度學習
中圖分類號:U495" 收稿日期:2024-11-13
DOI:1019999/jcnki1004-0226202502019
1 前言
在自動駕駛技術中,目標檢測是極其重要的一部分,利用檢測算法可以有效對道路場景中的目標進行實時捕捉。精確地辨識并定位道路目標能為行駛中的車輛提供實時的路況數據,輔助車輛進行行車決策,從而確保行車安全。近年來,深度學習技術取得了顯著進步,極大地增強了計算機視覺在行人及車輛識別方面的可行性。將深度學習驅動的目標檢測算法融入行人車輛識別技術,對于自動駕駛汽車環境感知能力的提升及其研究應用而言,具有深遠的意義[1]。
用于目標檢測的深度學習算法可分為兩大類[2]。第一類是建立在候選區域生成的基礎上(即兩階段方法),其工作流程分為兩大步驟:首先,通過算法的一個子網絡來產生一系列可能的候選區域框;接著,對這些候選框進行細致的分類與精確定位。R-CNN[3]、Fast R-CNN[4],以及Faster R-CNN[5]等,均屬于這一類方法的代表算法。另一類檢測方法是基于直接回歸的檢測(單階段法),這種方法省去了生成候選框的步驟,而是直接在最終的特征映射圖上產生候選邊界框,并同時進行分類與定位處理。YOLO[6-9]系列算法和SSD[10]算法便是此類方法的典型代表。
兩階段算法參數較多、較為復雜,其通常具有較高的檢測水平,但對于有實時檢測需求的車輛來說,其檢測速度過慢;單階段算法的模型結構相對簡單,檢測速度也更快,但其精度沒有雙階段算法高。
隨著近幾年的深度學習算法的發展,單階段目標檢測算法在滿足實時檢測的基礎上,準確率也接近雙階段算法的水平,這對于自動駕駛領域的研究仍有較高的研究意義。
因此,本文以單階段算法中的YOLOv5檢測網絡為基礎,做了以下改進:
a.使用了輕量化RepViT結構,提高模型對場景內目標關鍵特征的關注度,降低復雜背景信息的影響。
b.在特征融合網絡上添加高效多尺度注意力模塊(EMA),以增強模型在不同尺度下的檢測能力。
c.添加MemoryEfficientMish 激活函數,使不同層級間特征圖的信息充分融合。
d.將原有的損失函數改進為Wise-IoU,使錨框的質量得到改善,提高模型的整體性能。
2 改進后的YOLO模型
圖1所示為優化后的目標檢測模型YOLO-MIS的網絡框架。首先,在Neck中替換高效的RepViTBlock主干網絡,極大地提升了模型在復雜場景下對目標特征融合的能力;其次,對C3模塊引入EMA注意力機制,以多尺度的手段提取目標特征,有效抑制場景中的特征不明顯、特征差異大的現象;最后,分別對激活函數和損失函數進行調整,增強訓練的平滑性。
21 新型輕量化RepViT結構
在原模型中,YOLOv5通過在Neck網絡層中使用“FPN-PAN”的結構,實現了精度的提升,但由于特征金字塔網絡結構受限于單向信息傳遞的約束,使得模型變得冗余。因此,本文將輕量化RepViT[11]添加至Neck網絡中,對于復雜場景中同一類目標變化大、特征信息差距大的情況,加入了RepViT結構的網絡,整合了不同階段的目標特征信息,增強了模型特征表達能力,進一步增強了場景中對多個目標的檢測能力。RepViT在MobileNetV3的基礎上,將DW卷積模塊提前,使通道混合器和令牌混合器分開,在推理期間又合并到一起。然后,引入了結構重參數化技術來增強模型的訓練學習,使模型獲得最大化的準確性收益和最小化的延遲增量,消除了推斷期間的計算和內存成本,大大提高了模型的整體性能。
22 高效多尺度EMA注意力機制
Efficient Multi-Scale Attention(EMA)注意力機制模塊[12] 模塊使用了一種跨空間學習策略,首先,把輸入的通道維度(c×h×w)重塑為批量維度(3×g×h×w),從而得到多個并行子網絡,接著在并行子網絡中構建局部的跨通道交互連接,同時整合兩個并行子網絡的輸出特征,建立通道之間的短和長依賴關系,即在提高了目標的特征表示的同時,避免了注意力機制進行通道降維時的影響。EMA的網絡結構圖如圖2所示,其中輸入維度為c×h×w。
23 基于動態非單調聚焦機制的WIOU
本文采用的WIOU_Loss(wise intersection over union loss)[13]很好地處理了預測框與目標框之間方向一致性的問題,基于特殊的聚焦方法,使用了新的標準方法來評估錨框質量,減少了對低質量目標的關注,避免了模型學習到不利梯度的影響,大大提升了預測框與目標框之間的對應關系,使得模型可以很好地處理目標特征信息弱的問題。其公式如下:
式中,[x]、[y]為預測框的中心點橫縱坐標;[w]和[h]分別為預測框的寬度和高度;[xgt]、[ygt]是真實框中心點的橫縱坐標;[wgt]和[hgt]是真實框的寬度和高度;[Wg]和[Hg]為預測框與真實框區域構成的最小封閉盒的寬度和高度;[Wi]和[Hi]為兩者重疊區域的寬度和高度;[LIOU]為[LIOU](交并比損失)的滑動平均值;[r]作為一個梯度增益因子,通過調整其值可以加快或減慢模型的學習速度,并影響模型的穩定性;[β]用于衡量樣本的離群程度,其數值越大,意味著樣本的質量越低。
24 MEMish激活函數
Mish激活函數[14]在集成ReLU函數無上限且有下限特性的基礎上,還進一步融合了平滑性和單調性的優勢,這些特點使訓練過程中梯度下降更加順暢,有助于加速模型的收斂,并提高檢測的精確度。MEMish(Memory Efficient Mish)是為了在模型中節省內存而設計的改進Mish激活函數,通過近似的方式來簡化計算,以降低計算復雜度,從而節省內存。與原模型的SiLU函數相比,MEMish激活函數在分類的檢測準確率上要更高,對于模型面對復雜場景的訓練時,效果更加顯著。以下是SiLU函數與MEMish函數的數學表達式:
3 實驗結果與分析
31 實驗數據集和參數設置
為驗證本文改進算法的有效性,本文使用采自云南昆明的數據集作為實驗數據集,該數據集包含各種復雜場景以及山地城市的典型場景,共包含1 886張圖像,涵蓋7種較廣泛的檢測類別,如車輛、行人、騎車人、動物、交通設施、障礙物和雜項,具體細分了35個標簽。
表1為本文實驗的環境及訓練的基本參數。針對場景的特性,在訓練過程中采用如下參數進行優化:輸入圖像分辨率為460×460,使用SGD優化器,學習率設為001,batch_size為16,啟用Mosaic數據增強技術,加載預訓練模型訓練200個epoch。
32 實驗評測指標
為了對改進后的模型進行性能評估,需要從多方面出發考量,通常使用以下指標進行評估:Params用來衡量模型的大小,Params越小,占用的內存就越小;AP表示單個類別的準確率;mAP表示所有類別的AP平均值,mAP的值越高,模型的性能越強;FPS為幀率的簡稱,直接表示的是每秒鐘顯示的圖像幀數量,即模型處理圖片的速度。公式如下:
3.3 消融實驗
為了驗證改進后的模型是否有效,進行了一系列消融實驗,實驗結果如表2所示,“√”表示針對原始模型進行的改進點。以YOLOv5s作為基準模型,并使用mAP、FPS等常用指標作為評價指標來評估實驗效果。
如表2所示,對于A組實驗,替換了輕量化的RepViT主干網絡,雖然模型的參數量和計算量略有增加,但是mAP相比于原始的算法提升了25 %,輕量化主干在參數量增加不大的前提下,使算法對復雜場景內的檢測性能得到了較大的增強。對于B組實驗,在上一組實驗的基礎上,添加了EMA注意力機制,其mAP較上一組實驗提升了15%,EMA高效、多尺度的特點,使其具有捕捉通道間短和長依賴關系的特點。對于C組實驗,又添加了損失函數WIOU,相比上一組mAP提升了14%。對于D組實驗,進行更換了Mish激活函數的實驗,mAP又提升了03%。整體實驗表明,改進后的模型精度達到了較大的提升,參數略有增加,處理圖片的能力仍然滿足需求。
4 結語
針對在山地城市場景下存在的目標檢測效率低的問題,本文提出了一種輕量化目標檢測模型,即YOLO-MIS,在本文的研究中取用了35個類別共1 886張圖像進行實驗,結果表明:a.YOLO-MIS與原始YOLOv5s相比,整體上得到較大改善,其表現在檢測精度、模型復雜度等方面,更適用于移動端;b.模型檢測精度、召回率、mAP均有不同程度的提升,最高精度可達995%,摩托車、嬰兒車、拖車、交通崗哨、花籃、路面散落物的檢測精度達到了90%以上;c.模型能夠很好地應對場景中復雜背景、行人目標密集以及小目標行人的檢測任務,可以解決在小目標場景、遮擋場景等復雜場景中多目標識別檢測難的問題,在一定程度上可降低行車的車禍發生率。
參考文獻:
[1]段續庭,周宇康,田大新,等深度學習在自動駕駛領域應用綜述[J]無人系統技術,2021,4(6):1-27
[2]肖雨晴,楊慧敏目標檢測算法在交通場景中應用綜述[J]計算機工程與應用,2021,57(6):30-41
[3]Girshick R,Donahue J, Darrell T, et al Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2014:580-587
[4]Girshick R Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision,2015:1440-1448
[5]Ren Shaoqing, He Kaiming, Girshick Ross,et al Faster R-CNN: towards real-time object detection with region proposal networks[J]IEEE transactions on pattern analysis and machine intelligence,2017,39(6):102-110
[6]Redmon J, Divvala S, Girshick R, et al You only look once:Unified, real-time object detection[C] //Proceedings of the IEEE conference on computer vision and pattern recognition,2016:779-788
[7]Redmon J, Farhadi A YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2017: 7263-7271
[8]Redmon J, Farhadi A Yolov3: An incremental improvement [J] arXiv preprint arXiv:180402767,2018
[9]Bochkovskiy A,Wang C Y,Liao H Y MYolov4:Optimal speed and accuracy of object detection[J]arXiv preprint arXiv:200410934, 2020
[10]Liu W, Anguelov D,Erhan D,et alSsd:Single shot multibox detector[C]//European conference on computer vision Springer,Cham,2016:21-37
[11]Wang A,Chen H,Lin Z,et alRepvit:Revisiting mobile cnn from vit perspective[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2024:15909-15920
[12]Ouyang D,He S,Zhang G,et alEfficient multi-scale attention module with cross-spatial learning[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP)IEEE,2023:1-5
[13]Tong Z,Chen Y,Xu Z,et alWise-IoU:bounding box regression loss with dynamic focusing mechanism[J]arxiv preprint arxiv:230110051,2023
[14]Su X,Zhang J,Ma Z,et alIdentification of Rare Wildlife in the Field Environment Based on the Improved YOLOv5 Model[J] Remote Sensing,2024,16(9):1535
作者簡介:
郭躍強,男,1999年生,碩士研究生,研究方向為新能源汽車關鍵技術。