楊浩杰,王璐,楊省偉
(1. 鐵道警察學院網絡信息中心,河南 鄭州 450053;2. 鐵道警察學院圖像與網絡偵查系,河南 鄭州 450053;3. 河南質量工程職業學院計算機技術學院,河南 平頂山 467000)
隨著我國經濟和社會的發展,汽車作為主要的交通工具步入了千家萬戶,城市交通擁堵等問題愈發嚴重。雖然我國已經采取機動車限行、提高停車費、車牌搖號等措施限制城市的汽車總量,但卻難以從根本上解決城市交通擁堵的問題[1]。在汽車總量大、交通事故頻發的背景下,如何通過相關的技術手段在一定程度上緩解道路交通壓力成了學者們重要的研究方向。道路目標檢測是保障道路交通安全的關鍵技術,在當前智慧交通的應用大背景下,道路交通場景的繁雜性以及道路目標的多樣化,給道路目標的檢測帶來了困難。在復雜場景下,密集物體相互遮擋以及小目標的檢測是影響檢測精度的關鍵因素。解決目標檢測過程對中小目標及遮擋目標的誤檢和漏檢問題,是當前目標檢測的研究熱點[2]。
傳統的目標檢測方法在圖像檢測方面彰顯了獨特的優勢,能夠在一定程度上實現對道路交通目標的有效檢測。但由于道路交通場景中目標尺度分布的特殊性和復雜多變性,傳統的基于手工特征的目標檢測方法和經典的深度學習目標檢測方法在實際道路交通場景中的目標檢測應用上還存在著一定的困難,主要表現為無法提取到能夠適用于道路多目標檢測的有效特征,從而影響目標檢測的準確性。目前,針對智慧公安及智慧交通領域中道路目標檢測實際應用需求,如何使用更具適用性的目標檢測方法從復雜的道路交通場景中提取出更有效的特征并更精準地檢測出道路目標,成了道路多目標檢測中一個亟待解決的問題。
文章針對道路目標精準檢測中的技術難點,以當前先進的卷積神經網絡技術為基礎,研究并提出了一種基于特征融合的特征學習和目標檢測方法,為當前復雜交通環境下的道路目標檢測問題提供一些技術參考。
在當前的視覺圖像處理領域,尤其是道路交通場景圖像中,很多使用深度神經網絡方法的場景都是在同一尺寸感受野的單一尺度上進行特征的提取和學習的。這種方法具有一定的可取之處,但在道路交通場景繁雜以及圖像上下文結構信息復雜的視頻圖像場景中,單一尺度的特征學習方法表現出了一定的局限性[3]。因此,為了更進一步地提高對道路交通場景各類復雜多目標特征提取的性能,文章提出了一種基于多尺度特征融合的道路目標特征學習方法。該方法通過多尺度方式的特征表達,可以提升道路目標特征的學習和表達能力,進而也能夠提高網絡模型對圖像上下文結構信息的捕獲能力。
基于多尺度特征融合的道路目標特征學習模型如圖1 所示。

圖1 基于多尺度特征融合的目標特征學習模型
從圖中可以看出,該目標特征學習模型主要分為三個部分,即多尺度特征提取模塊、多尺度特征融合模塊和多尺度特征優化模塊。
此模塊是為了解決單一尺度提取輸入數據特征時所表現出的提取特征表達能力不足的問題而設計的。在這種多尺度卷積核并聯結構中,每一個卷積核具有一個與其他卷積核不同的尺寸,可以用來對輸入圖像數據在該尺度卷積核上進行一次特征的提取,而不同尺寸的卷積核則可以同時對輸入圖像數據進行并行式的特征提取,從而獲取到輸入圖像數據的不同尺度的特征。在多尺度特征提取的設計上,可以采用1×1 卷積核、3×3 卷積核、5×5卷積核、7×7 卷積核以及9×9 卷積核的不同卷積核尺寸。同時使用五個不同尺度的卷積核,將會提取到五個不同尺度的圖像特征。
根據神經網絡和卷積神經網絡的設計思想,需要使用非線性激活函數對網絡模型進行非線性激活,從而使其具有良好的非線性性能。設整個網絡的輸入圖像數據為X,并且該網絡模型包含多個卷積層,每個卷積層操作過程中的多尺度卷積核也都不相同,那么,各卷積層的帶有非線性激活函數的卷積操作表達式可以表示為:

在式(1)中,i代表某一卷積層的所有多尺度卷積核中的第i個卷積核,Wi表示第i個卷積核的權值參數,Bi表示第i個卷積核的偏置參數,σi表示第i個卷積核在卷積操作之后的非線性激活函數。而在卷積神經網絡中,常使用的非線性激活函數是線性整流函數ReLU,因而,此處σi的表達式為:

上述式子中,x代表輸入到非線性激活函數中的卷積值。
在對輸入圖像數據進行多尺度特征提取之后,每個卷積層得到了n個卷積特征圖(n亦為該卷積層中不同的卷積核的數目)。然后文章對這n個卷積特征圖進行特征的融合操作和處理,即多尺度特征融合。在對這n個多尺度卷積特征圖進行融合的時候,將特征融合方法設計為:對各個不同尺度卷積核得到的不同特征圖進行疊加。疊加后的特征圖通道數等于多尺度特征提取過程中各個不同卷積核的總通道數。多尺度特征融合的原理如圖2所示。

圖2 基于多尺度的目標特征融合原理
對這n個由不同尺度卷積核所得到的卷積特征圖使用上述基于多尺度的特征融合方法,則有:

在式(4)中,i代表某一卷積層的所有多尺度卷積核中的第i個卷積核,X表示輸入數據。
在對輸入圖像數據進行多尺度特征提取的過程中,所使用的不同尺度的卷積核都有一定數量的通道數,因此能從輸入圖像數據中提取到豐富的特征。然而,當各個不同尺度的卷積核都具有較多的通道數并且對這些卷積核并聯式地進行操作時,多尺度特征的進一步融合將會使融合后的通道數相當多。因此,文章使用1×1 的卷積核對其進行優化處理。在具體的實現上,將1×1 的卷積核設計為少于特征融合后的特征通道數,即可保證卷積操作之后的特征圖的通道數也相應減少,而使用1×1 的卷積核又可以確保融合后的特征圖中所有的特征信息不會丟失。對多尺度特征融合后的特征圖進行優化的表達式如下:

該式中的X表示輸入的圖像數據,f(X)表示進行了多尺度特征融合后的輸出特征圖,W代表進行優化的權值參數,B代表進行優化的偏置參數,而σ則表示該卷積操作之后所使用的ReLU 非線性激活函數。
同時,針對上述基于多尺度的目標特征學習和提取方法,還可以進行級聯式的設計和使用。其表達式為:

式(6)所表示的級聯式的目標特征學習方法能夠更好地提取到原始圖像數據的特征,因此具備更好的表達性能。但在具體使用時,還需考慮卷積計算時的時間性能,尋求最為適中的設計模型和相關網絡參數。
文章基于當前經典的卷積神經網絡Faster-RCNN 模型,將所提出的基于多尺度的道路目標特征學習方法提取出的道路目標特征應用到該模型中,充分利用基于多尺度方法所提取出的目標特征進而獲得更高效的表達,構建更加高效的目標檢測方法和模型,更有效地實現對道路目標的檢測。
文章所使用的Faster-RCNN 目標檢測模型,是在原有Fast-RCNN 目標檢測模型的基礎上,使用區域生成網絡(Region Proposal Network,RPN)代替Fast-RCNN 模型中的Selective Search(選擇性搜索)方法[4-5],即使用RPN 首先對圖像中的每個像素點生成錨框而形成的模型。當總共有n個錨框大小以及m個錨框縮放比例時,將會生成n×m個錨框。在卷積神經網絡模型框架中對每個錨框進行判斷,過濾掉那些屬于背景的錨框,而對那些屬于目標的錨框進行進一步ROI(感興趣區域)池化以及邊框回歸處理等操作。圖3 為Faster-RCNN 目標檢測模型中的錨框選取。

圖3 Faster-RCNN 目標檢測模型中的錨框選取
實驗基于以上Faster-RCNN 目標檢測模型,在設計上將基于多尺度的目標特征學習方法所獲取到的目標特征輸出結果應用到Faster-RCNN目標檢測模型的RPN 中,使用表達性能更強的多尺度特征融合后的目標特征進行下一步的目標檢測,進而從整體上達到更精準的目標檢測性能。
文章在Faster-RCNN 目標檢測模型的基礎上,提出的基于特征融合的目標檢測模型如圖4 所示。

圖4 基于特征融合的目標檢測模型
實驗使用KITTI 數據集所提供的數據圖像對文章所提出的方法進行驗證。KITTI 數據集是國際上當前使用最為頻繁,并且具有較完備道路交通場景的計算機視覺相關算法評估的道路交通數據集。該數據集包含城市市區、公路、村莊等實景采集圖像,每張圖像中都包含不同類別的車輛和形態各異的行人等諸多復雜道路目標。在實驗的具體設計上,選取KITTI 數據集中具有代表性的圖像組成訓練集和測試集。其中,組成訓練集的圖片共有7 481 張,組成測試集的圖片共有3 600 張。使用文章所提出的方法,將基于多尺度的目標特征融合方法提取出的特征輸入到Faster-RCNN網絡中,分析驗證該方法用于Faster-RCNN 網絡后的目標檢測性能。并在此基礎上,分別采用Faster-RCNN網絡和基于多尺度特征融合的Faster-RCNN 網絡對其進行評測。實驗平臺電腦配置為Windows7 64位,CPU i7 6700K,內存16G,顯卡GTX1080(8G顯存)。
表1 為兩種方法下對平均精度均值mAP 這一目標檢測性能指標的對比統計分析。

表1 兩種方法下的道路目標檢測性能統計
從表1 中可以看出,使用Faster-RCNN 網絡模型,對道路交通圖像中的各類目標車輛的檢測準確率為65.56%,對目標行人的檢測準確率為63.12%。而使用文章所提出的方法,對各類目標車輛以及目標行人的檢測準確率均稍有提升。這說明文章所提出的方法通過使用不同尺度的卷積核對原始目標圖像進行特征的提取,并對各種不同尺度下所提取的特征進行融合和優化,能夠更有效地得到道路交通目標的表達特征,通過所獲得的更具豐富表達能力的目標特征,能達到相對更高的目標檢測精度。
為進一步驗證所提出方法的有效性,分別開展3 次對比實驗,對mAP 性能指標進行對比統計分析,如表2 所示。

表2 兩種方法下的3 次對比實驗性能統計
從表2 中可以看出,在3 次獨立的對比實驗中,文章所提出的方法在各類目標車輛以及目標行人的檢測準確率上相對原始的Faster-RCNN 網絡模型均有一定的提升,說明該方法在道路交通目標檢測方面具有一定的適用性和可行性。
同時,為了驗證多尺度特征對道路交通目標特征學習和檢測的性能影響,文章選取了不同的卷積核尺寸組合作為多尺度特征融合進行對比實驗,所獲得的mAP 性能指標結果如表3 所示。

表3 多尺度特征對道路交通目標檢測的性能影響
從表3 中可以看出,不同卷積核尺寸的特征融合對道路交通目標特征學習和檢測也有不同的性能影響。在實驗的設計范圍內,所融合的不同尺寸的卷積核越多,網絡的性能就越好,所檢測的道路交通目標的效果也就越好。這表明不同尺寸的卷積核能夠更好地提取到局部或全局等不同結構空間的特征,這為之后的目標檢測提供了更高效的特征表達,也充分證明了文章所提出的方法的有效性。
然而,從表2 中還可以看出,在對目標圖像進行特征提取和檢測的過程中,文章所提出的方法的平均檢測時間比Faster-RCNN 方法的更長,反映出文章所提出的基于特征融合的目標檢測方法在具體的實現過程中耗費了一定的時間,而這增加了網絡模型的計算成本。這種時間上的消耗是文章所提出的方法有待優化和改進的地方。
道路交通場景中目標尺度分布的特殊性和復雜多變性,使傳統的基于手工特征的目標檢測方法和經典的深度學習目標檢測方法在實際道路交通場景中的目標檢測應用上存在一定的困難。文章針對這一問題,以當前先進的卷積神經網絡技術為背景,以特征融合為主要研究對象,在分析探討了基于特征融合的特征學習方法的基礎上,進一步提出了基于特征融合的道路目標檢測方法,并通過模型框架的構建,對道路目標檢測技術進行了深入研究,為道路目標檢測領域相關理論的進一步研究提供了思路,也為構建安全的道路交通出行環境提供了技術支持。