譚舒月
(西南交通大學計算機與人工智能學院,成都 611756)
高速公路作為我國出行和交通運輸的重要通道,近幾年來發展迅速。但由于高速公路存在路況復雜、車輛通行流量大等特點,交通事故頻頻發生。大量研究表明,擁堵混行是導致交通事故發生的重要原因之一,然而擁堵混行與車輛的密集分布有直接聯系,因此研究高速公路擁堵場景的密集車輛檢測,對擁堵路況和行為異常進行監控和預警,不僅能降低交通事故發生的概率,保障人們的出行安全,同時也可對形成運行高效、內暢外達的高速公路基本路網產生促進作用。
伴隨著人工智能技術水平的不斷提高,深度學習相關技術逐漸應用于高速公路智能化日常監測。然而,密集分布的車輛目標常常由于攝像頭拍攝視角、光線等因素的影響,而出現目標重疊或遮擋嚴重、目標與背景融合度高等問題,導致提取車輛目標的特征存在困難,從而出現目標誤檢、漏檢等情況,因此如何利用深度學習相關的目標檢測技術實現對擁堵場景車輛目標的準確檢測成為極具挑戰性的任務。
現有的通用目標檢測方法大多并未考慮到密集車輛的分布特性,因此普遍對遮擋嚴重等車輛目標檢測效果不佳。針對該問題,本文首先對已有目標檢測算法和密集目標檢測方法進行簡要介紹,隨后結合密集車輛目標的分布特性,提出多變化處理模塊和排斥力損失模塊,最后對實驗相關結果進行對比分析與總結,結果表明本文方法對高速公路擁堵場景車輛目標的檢測效果得到了提升。
目標檢測,即對于輸入的圖像或視頻提取感興趣目標,并識別其所屬的類別,定位其所處位置窗口。相較于傳統目標檢測方法,基于深度學習的目標檢測方法能夠學習到更為豐富的層級特征,因此能獲得更多的特征表達能力。目前主流的深度學習目標檢測算法主要分為兩類,一類是兩階段目標檢測算法,該類算法首先對輸入圖像生成候選框,并基于候選框進行精細修正,最終得到目標檢測框結果和分類結果,其優勢在于識別和定位的準確性,典型算法包括R-CNN(Region-based Convolutional Neural Network)、Fast R-CNN(Fast Region-based Convolutional Neural Network)、Faster R-CNN(Faster Region-based Convolutional Neural Network)等;另一類是單階段目標檢測算法,該類算法直接對圖像進行計算得到目標檢測框與分類結果,其優勢在于推理速度較快,典型算法 包 括SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)等。
目前對于密集場景的目標檢測仍處于發展階段,大多密集目標檢測被看作通用目標檢測的特例,由于通用目標檢測算法忽略了密集目標所具備的目標重疊、嚴重遮擋、光照變化等分布特點,僅適用于普通稀疏分布的目標場景,因此對密集目標檢測精度不高,針對密集分布的目標檢測任務還存在許多挑戰。Lin等經過對圖像前景背景類別出現極端不平衡現象的分析,在標準交叉熵損失基礎上提出了焦點損失解決類別不平衡問題,同時實驗表明對密集目標的檢測效果也得到了一定的提升。Chu等提出對于每個目標候選框,采用預測一組可能出現嚴重重疊情況的實例集合代替傳統預測單個實例,并引入EMD損失和Set NMS后處理方法,改善了高度重疊的密集目標的檢測效果。本文主要結合密集目標自身分布屬性和數據特點,對通用目標檢測方法的不足之處進行改進。
本文方法基于Faster R-CNN目標檢測網絡,使用ResNet50作為骨干網絡提取圖片特征。在訓練階段,每個原始圖像樣本通過多變化處理模塊后得到補充數據,以增強檢測器對密集車輛場景檢測的泛化性,隨后將圖像依次輸入特征提取網絡和檢測網絡,同時在檢測網絡原有損失的基礎上使用排斥力損失,防止預測邊界框向相鄰重疊目標的偏移,提高對密集場景遮擋目標的檢測性能,最終得到擁堵場景下密集車輛目標的分類與定位結果。
Faster R-CNN作為經典的兩階段目標檢測算法,在識別和定位方面有較高的準確率,同時Faster R-CNN將特征提取、候選框提取、目標分類與邊界框回歸整合到同一個網絡中,實現了完全端到端的網絡結構。Faster R-CNN網絡結構分為兩部分:RPN(Region Proposal Network)候選區域生成網絡和Fast R-CNN檢測器,兩部分共享特征提取網絡,提取得到的卷積特征圖分別輸入到RPN網絡和Fast R-CNN檢測器中,極大地減少了參數量的計算,實現參數共享,如圖1所示。

圖1 Faster R-CNN網絡結構圖
RPN候選區域生成網絡,替代了R-CNN和Fast R-CNN的Selective Search選擇性搜索方法,用來快速生成候選區域和區域得分。RPN網絡結構如圖2所示,使用滑動窗口對特征圖進行掃描后得到低維特征向量,同時計算出滑動窗口中心點對應原始圖像上的中心點,以此中心點為錨生成不同尺度和比例的個錨框。接著將低維特征向量分別輸入至分類層和回歸層,分類層計算得到錨框對應候選區域為背景和前景的概率,回歸層則對候選區域進行邊界框位置預測。RPN網絡大量節省了候選框計算時間,運行速度得以加快。

圖2 RPN網絡結構圖
Fast R-CNN檢測器將RPN網絡產生的候選區域投影到特征圖上獲得對應特征矩陣,并通過ROI池化層將特征矩陣處理后分別送入分類回歸兩并行支路,從而計算得到分類與邊界框回歸預測結果。
由于輸入圖像數據常受輸入尺寸、角度位置等限制,導致訓練得到的模型對相似但不相同場景的泛化能力較弱,針對該問題本文提出多變化處理模塊,在模型訓練階段實現對輸入圖像的預處理,以提高模型對于新場景密集車輛的檢測效果。該模塊共包含以下六種對圖像的變化處理:
(1)圖像尺度縮放:盡可能減小目標車輛的尺度差異。
(2)隨機翻轉、平移圖像區域:增加樣本視角和位置分布多樣性。
(3)調整圖像亮度、調整圖像對比度:降低光照對檢測效果的影響。
(4)添加圖像噪聲:進一步提高模型的魯棒性。
對于每個輸入圖像,經過多變化處理模塊后得到補充數據,緊接著隨機對變化得到的新圖像進行與當前處理方式不同的疊加變化。如圖3所示。

圖3 多變化處理模塊示意圖
分析擁堵高速公路場景分布特點,車輛的相互遮擋會對預測框定位造成較大干擾,預測框偏移導致檢測不準確,因此本文基于Faster R-CNN原有損失函數增添排斥力損失,在約束預測框向目標標注框趨近的同時對周圍非目標預測框和對應標注框進行限制和排斥,從而增強模型整體對于遮擋類型密集車輛情景的適應力,提高檢測器在密集場景的魯棒性。損失函數由一項吸引項和兩項排斥項組成,其定義如公式(1)所示:

其中L為吸引項,表示Faster R-CNN原有損失函數,即包括分類損失值和位置回歸損失值的多任務損失,L和L為排斥項,L表示目標預測框向周圍標注框偏移的損失值,L表示目標預測框向周圍其他預測框偏移的損失值,參數、用于對兩項排斥項進行損失值的平衡,本文設置參數、兩值均為0.5。
排斥項損失L目的是防止預測框向相鄰非目標標注框偏移,其計算值與距離呈負相關,預測框越向非目標標注框偏移,則會通過該損失對邊界框回歸器進行約束和懲罰,具體定義如公式(2)所示:

其中為候選框,為由{}構成的正樣本集合,B為預測邊界框,由候選框回歸得到,G為排斥目標標注框,定義為候選框除指定的真實目標框外所形成最大交并比值IoU(Intersection over Union)的標注框,定義如公式(3)所示:

其中G為候選框最大的所對應的標注目標框。受定義的啟發,以IoG(Intersection of Ground-truth)定義懲罰B和G之間的重疊區域,其定義如公式(4)所示:

排斥項損失L中為平滑ln函數,其定義如公式(5)所示:

其中閾值的區間范圍為(0,1),用以調整對異常值的敏感程度。
非極大值抑制NMS(Non-maximum suppression)處理作為目標檢測后處理的重要環節,其能去除相近冗余的預測框,但由于NMS閾值設定較為敏感,若閾值設定過大,則會出現誤檢的情況;若設定太小,會造成漏檢。而通過排斥項損失L可在一定程度上降低這種敏感性,同時約束目標不相同的兩個預測框之間的重疊面積,減少不同目標的回歸預測框合二為一的情況,其具體定義如公式(6)所示:

其中1是一個恒等函數,參數是一個數值很小的常數,避免出現分母為零的情況。
目前對于高速公路密集場景的公開數據資源較少,本文利用高速公路視頻采集系統收集整理了一個高速公路擁堵場景數據集。該數據集涉及到的場景主要包括河南、廣東等省份的高速公路擁堵道路場景,同時涉及到四種天氣環境,包括晴天、雨天、霧天和雪天。通過對監控視頻抽幀后,對稀疏車輛場景圖片進行數據清洗,最終共篩選得到1300張圖片,其中包括訓練集1000張,訓練集300張。
通用目標檢測評價指標主要包括平均精度(AP,average precision)、平均精度均值(mAP,mena average precision)等,其由精確率(Precision)、召回率(Recall)等計算得到。表1所示為混淆矩陣,共定義TN(True Negative)、FP(False Positive)、FN(False Negative)、TP(True Positive)四項指標:

表1 混淆矩陣
其中表示真陰率,即正確預測負樣本為負類的數量;表示假陽率,即將負樣本錯誤預測為正類的數量;表示假陰率,即將正樣本錯誤預測為負類的數量;表示真陽率,即正確預測正樣本為正類的數量,在目標檢測任務中,常通過設定預測框與標注框之間的閾值來衡量是否屬于真陽性情況,若值超過設定閾值,則滿足真陽性情況。
通過以上四項指標,就可計算得到精確率與召回率的值。精確率表示在預測為正類的樣本中預測正確的比例,其計算過程如公式(7)所示:

召回率表示在真實正樣本中預測為正類的樣本比例,其計算過程如公式(8)所示:

通常目標檢測會對精確率和召回率進行綜合評估,依據其具體值畫出對應P-R曲線,曲線下方所圍成的面積即為平均精度值。平均精度均值則常用于多分類目標檢測,代表每類目標的平均精度。本文由于車輛未進行細分類,只包含車輛目標一類,故值與值等價,本文使用值作為密集車輛目標檢測算法的評價指標。
本文實驗均基于TensorFlow深度學習框架實現對網絡模型的搭建和訓練,實驗平臺包括兩個NVIDIA TITAN X的GPU,實驗系統為Linux操作系統。為證明本文算法的可行性,將本文算法的實驗結果與主流目標檢測算法結果進行對比,參與對比的檢測方法包括SSD、YOLO V3和GANet(Guided Attention Network),結果如表2所示。可以看出,本文提出的方法與現有方法相比,在該數據集上取得了最佳成績,平均精度達到85.1%。圖4為本文方法的主觀效果圖,本文方法對嚴重遮擋、部分遮擋的密集車輛檢測均有提升效果,一定程度上解決了視覺遮擋所引起的預測框偏移問題,減少了對相鄰車輛目標漏檢和誤檢的情況。

圖4 本文方法主觀效果圖

表2 本文方法與其他主流方法的結果對比
為驗證本文算法在高速公路擁堵場景下對密集車輛目標檢測的有效性,本文設計了對于所提出的多變化處理模塊和排斥力損失的消融對比實驗。實驗結果如表3所示,可以看出,本文所提出的兩個模塊均對該模型檢測性能有一定的提升作用。在Baseline(Faster R-CNN)的網絡基礎上添加排斥力損失后,檢測精度提升1.6%,側面說明了排斥力損失的有效性,對相鄰車輛目標的重疊區域進行準確分析,提高了遮擋目標的檢測準確度。在上述實驗的基礎上添加多變化處理模塊,算法的整體檢測性能進一步提高,充分說明在網絡訓練過程中加入多變化處理模塊對輸入圖像進行多種形式的變化擴展,是行之有效的方式。

表3 消融實驗結果
本文以高速公路擁堵場景為背景,以密集分布車輛為研究目標,從目標自身特征入手,提出了一種新的密集車輛目標檢測算法,提高了對密集車輛檢測的準確率。基于Faster RCNN網絡結構,精準把握通用目標檢測方法的不足,結合多變化處理模塊與排斥力損失解決目標重疊導致的檢測框偏移等問題,在所構建的高速公路擁堵場景數據集上取得了超出通用目標檢測算法的效果。該研究可應用于擁堵交通道路場景中,實時監測異常交通情況,盡量降低擁堵導致的高速公路危險事故發生的概率,對實現高速公路安全的智能化監測發揮重要的作用。