郭飛
(合肥工業大學電子科學與應用物理學院 安徽省合肥市 230601)
隨著基于深度學習的目標檢測在軍事,工業,智能監控,人臉識別,自動駕駛等領域應用廣泛,具有重要研究意義。
在2014年之前,目標檢測算法處于傳統目標檢測算法時期,此后基于深度學習的目標檢測算法飛速發展起來。基于深度學習的目標檢測算法分為兩種,一種為基于R‐CNN 系列模型的Fast R‐CNN[1],R‐FCN[2]等雙階段(two‐stage)目標檢測算法,雙階段算法的主要特點是先產生一個目標的候選框,候選框包含有目標的位置信息,之后再對這些候選框分別進行分類和線性回歸[3]。另一種目標檢測是為單階段(one‐stage)目標檢測算法,例如:在2016年之后逐漸興起的You Only Look Once(YOLO)系列[4],SSD 系列[5]等,YOLOv1 和SSD 都在2016年被發布。此后,越來越多的基于深度學習目標檢測算法被提出。
YOLOv3 的屬于典型的單階段結構。YOLOv3 的骨干網絡為Darknet‐53,起到特征提取作用。整個網絡結構以DBL(Darknetconv2d_BN_Leaky) 結構為基礎,DBL 由1×1 與3×3卷積層,一個批量歸一化層(Batch Normalization)以及一個激活函數Leaky ReLU 層組成。整個網絡結構由三條支路分別輸出13×13×255,26×26×255 以及52×52×255 三種尺度的圖片。
改進的YOLOv3 網絡模型的思想有兩點,一是將主干網絡(Backbone)由Darknet53 替換成GhostNet 模塊,另一個是將損失函數中的邊界框損失函數(bbox_loss)由IoUloss 替換成GIoUloss。改進的網絡模型結構框圖如圖1所示。

圖1:提出的改進YOLOv3 的網絡模型結構框圖

圖2:輸入尺度為416 時GhostNet-GIOU-YOLOv3 在部分測試示意圖
GhostNet[7]特征提取網絡是由華為諾亞方舟實驗室的工程師們在2020年發表在頂級會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition,即IEEE 國際計算機視覺與模式識別會議)的研究成果。其核心思想是以更少的參數來生成更多特征。其結構如圖1 中GhostNet 特征提取器部分所示,核心模塊是Ghost模塊,在不改變輸出特征圖尺度大小的前提下,確保參數總量與計算復雜度得到有效降低。
同時,GhostNet 引入了SE 注意力機制模塊,一共插入了7 個SE 模塊在一系列G‐bneck 模塊結構中。通過注意力機制,使得提取的特征針對性更強,特征利用更充分。
由于YOLOv3 所用的損失函數IoUloss 存在以下不足:預測框與真實框不相交時,IoU=0,此時無法反映預測框與真實框之間的距離大小(重合度);IoU 無法精確的反映兩者的重合度大小,當預測框與真實框處在不同位置相交時,卻可以有相同的IoU 值。因此,本文引入GIoUloss:

公式(1)中C 代表包圍A,B 的最小矩形框。可得:當A,B重疊時,,此時,GIoU=IoU=1。當A,B 沒有重疊時,且IoU=0。

因此,A,B 不重疊且相聚無窮大時,GIoU=‐1,所以GIoU 取值范圍是[‐1,1]。綜上,IoU 只能反應預測框和真實框有重疊的情況,GIoU 既能反應預測框與真實框重疊的情況,也能反應不重疊的情況。
本節實驗的實驗平臺是:Win10 操作系統,pycharm‐community‐2018.3.2,Anaconda3‐4.4.0,GPU 用的是6G 顯存的RTX2060。
實驗數據集用的是自制交通夜視場景數據集,此數據集一共有6 類目標,分別是:卡車,汽車,摩托車,電瓶車,自行車,行人。數據集共有600 張圖片,其中420 張用作訓練集,180 張用作測試集,訓練集:測試集=7:3,自制數據集的格式與VOC的數據集格式一致。
GhostNet‐SE‐GIoU‐YOLOv3輕量化網絡模型,分別設置416和608 作為網絡模型圖片輸入尺寸進行訓練與測試實驗。
由表1 可知,416 尺度相比608 尺度更有利于網絡模型GhostNet‐GIoU‐YOLOv3 的目標檢測的性能提高。

表1:GhostNet‐GIoU‐YOLOv3 在416 與608 輸入尺度下對比
本節實驗基于GhostNet‐YOLOv3輕量化網絡模型,分別運用IoU,CIoU,DIoU 以及GIoU 四種邊界框損失函數在自制交通夜視場景進行訓練與測試實驗。
由表2 可知,使用GIoUloss 比使用IoUloss,DIoUloss 或CIoUloss 更有利于性能指標的網絡模型的提高。

表2:GhostNet‐YOLOv3 在416 尺度輸入時四種損失函數下的性能
提出了一種面向交通夜視場景的改進YOLOv3 目標檢測輕量化網絡模型GhostNet‐GIoU‐YOLOv3。在自制交通夜視場景下進行訓練與測試,以416 為輸入尺度的時,mAP 達到了95.3%,權重文件為89.9M,比YOLOv3 的權重文件324M 降低了72.25%。并驗證了416 尺度比608 尺度更有利于改進的網絡模型性能,以及GIoUloss 比IoUloss,DIoUloss 與CIoUloss 更適合用于改進的模型和自制交通夜視場景數據集。