李晨 汪楊
摘要:在真實的駕駛場景中,由于光照變化、拍照角度等因素,所采集的圖片質量往往不高,這就對交通標志識別的準確性提出很高要求。針對這種問題,我們提出一種基于卷積神經網絡的交通標志識別方法。該方法采用兩步驟方案,在檢測步驟中,目標是提出圖片中交通標志的邊界框。在識別步驟中,是識別裁剪圖像的標簽。實驗結果表明,我們提出的方案能夠有效解決光照變化、各種天氣等實際駕駛環境中的問題。
關鍵詞:深度學習;卷積神經網絡;交通標志
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2018)06-0096-02
智能汽車是未來汽車行業的發展趨勢,道路交通標志的檢測與識別作為自動駕駛的基本技術之一,受到人們的日益重視。道路交通標志檢測與識別分為兩個基本環節:先是檢測交通標志,包括交通標志的定位、提取。然后是交通標志的識別,包括交通標志的特征提取與分類。
近年來,深度學習方法對許多任務(例如圖像分類和語音識別)表現出優越的性能,顯示出它們在圖像分類,定位和檢測等任務中的優勢。在這篇文章中,我們提出一個基于卷積神經網絡的兩步驟方案進行交通標志的檢測與識別。在檢測步驟,采用級聯卷積網絡快速定位并裁剪圖像中的交通標志;在識別步驟,用Inception-ResNet-v2網絡提取裁剪標志的特征并通過SVM或者計算距離進行識別。
1 基于級聯卷積神經網絡的交通標志檢測
1.1 TsingHua-Tencent 100k數據集
廣泛用于評估檢測性能的兩個數據集是PASCAL VOC和ImageNet ILSVRC。在這些數據集中,目標對象通常占據每個圖像的很大比例。然而,一個典型的交通標志可能會是80*80像素,在2000*2000像素的圖像,或只有圖像的0.2%。因此,我們采用TsingHua-Tencent 100k數據集訓練檢測網絡。此數據集具有如下特征:
(1)數據集具有很高的分辨率,每張圖片的分辨率都接近2000*2000。
(2)數據集覆蓋了實際交通環境中的各種情況,在光照和天氣條件等方面有很大的變化,還包括遮擋的例子。
(3)數據集包含的交通標志類別多樣,覆蓋了當前中國三大類交通標志。
(4)交通標志占據圖片的比例很小,或只有圖像的0.2%。
1.2 級聯卷積網絡
聯卷積網絡結構在人臉檢測的精度與速度上具有有較好的效果。我們借鑒此人臉檢測網絡設計我們的交通標志檢測網絡。檢測過程可以分為三個步驟:
(1) PNET找到圖像中可能存在的交通標志候選區域并進行二分類,丟棄90%的不包含交通標志的候選區域,保留的候選區域作為SNET的輸入圖像;
(2) RNET完成與PNET相同的任務,RNET網絡較PNET深提升對候選區域的分類能力,此步驟再次減少90%候選區域;
(3) RNET網絡保留的候選區域作為ONET輸入圖像進行最后二分類并確定交通標志的坐標。
多尺度訓練有利于小目標檢測,關鍵點檢測有助于檢測遮擋、模糊的目標。我們的交通標志檢測網絡同時采用多尺度訓練與關鍵點檢測,對于運動模糊導致的圖像質量不高、僅占圖像比例很小一部分的交通標志具有很好的檢測效果并且級聯卷積網絡檢測交通標志能夠達到實時的性能,對于復雜環境、天氣狀況具有很好的魯棒性。
2 基于卷積神經網絡的交通標志識別
交通標志是人為設計的具有規定顏色和固定形狀或圖形的公共標志。我國的交通標志主要有警告、禁令、指示和指路等類型,通常使用顏色來區分類型,用形狀或圖形表示具體內容。在交通標志設計上,不同類型的交通標志在形狀或圖形上差異較大;相同類型的標志在形狀或圖形上差異較小,如禁令標志中的禁止直行、禁止掉頭等。所以,卷積神經網絡在場景理解上會出現同類指示信息的標志之間比不同類型的標志之間更容易引起誤識別。
2.1 Inception-ResNet-v2網絡
inception-resnet-v2把殘差網絡融入inception v4,使用了比之前網絡更廉價的Inception塊。每個Inception塊之后是濾波器擴展層(1×1卷積,無激活函數),用于放大濾波器組的維數添加以匹配輸入的深度。inception-resnet-v2具有與inception v4原始版本相當的計算成本但有著更高的準確度。在ILSVRC 2012識別任務上取得很好的效果。我們基于Inception-ResNet-v2設計交通標志識別網絡,主要有兩點變化:1)除網絡最后的分類層(softmax層)進行訓練;2)采用softmax loss結合 center loss作為損失函數。
與大多數深度卷積網絡作為中間瓶頸不同,我們去除卷積網絡最后的softmax層進行訓練,直接優化特征向量本身。去除softmax層基于深度卷積網絡學習每個圖像的歐式距離,訓練網絡使得特征空間中的L2距離的平方直接對應于交通標志的相似性:同一個交通標志的距離很近,而不同交通標志的距離很遠。因此,交通標志的識別任務就可以轉化為計算特征之間的距離。
基于深度網絡的多數的交通標志識別方法使用分類層在一組已知類別的數據集上進行訓練,然后采用中間瓶頸層提取特征提交給網絡最后一層(softmax層)進行分類(識別)。與這些方法不同,我們使用基于softmax loss結合center loss函數直接訓練其輸出為緊致的128維特征向量。我們識別網絡對于光照變化、運動模糊具有很好的魯棒性。
2.2 center loss損失函數
由于不同類型的交通標志在形狀或圖形上差異較大;而相同類型的標志在形狀或圖形上差異較小。相比不同類型標志的識別,相同類型標志的識別更容易引起誤識別。所以,對于交通標志識別任務,深度學習的特征不僅需要可分離,而且還需要具有區分性。
center loss同時學習每個類別深層特征的中心,并懲罰深層特征與其相應類別中心之間的距離。Centloss的公式如下:
表示深層特征的類中心。該公式有效地表征了類內變化。 理想情況下,i應該隨著深層特征的變化而更新。
softmax loss迫使不同類別的深層特征保持分離。center loss有效地將同一類別的深層特征拉到它們的中心。通過softmaxloss和center loss的聯合監督訓練一個卷積網絡,以獲得具有兩個關鍵學習目標的深層特征即類別間的差異和類別內的緊湊性。不僅增加了組間特征差異,而且減少了組內特征變化。因此,卷積網絡的判別能力進一步提升。
3 實驗結果與分析
TsingHua-Tencent 100k數據集提供了訓練集包括圖像、坐標以及關鍵點,采用類似MTCNN的訓練方法訓練我們的級聯卷積網絡—檢測網絡。接著,訓練Inception-ResNet-v2網絡--特征提取網絡。我們首先把數據集中的交通標志裁剪出來,尺寸設置為160*160并保留了數量較多的45個類別。由于TsingHua-Tencent 100k數據集不同類別間數據的不平衡,我們采用數據增廣策略。對于數量超過1000的類別,剔除多余的圖像;對于數量少于1000的類別進行圖像增廣。具體的做法是,對數據較少類別中的圖像進行旋轉[-10°; 10°],水平偏移0.2,豎直偏移0.2,剪切強度0.2,隨機縮放0.2。經過數據篩選與增廣,我們得到45個類別交通標志,每個類別約有1000張尺寸為160*160的交通標志。
在交通標志的測試實驗中,我們采用TsingHua-Tencent 100k數據集中的測試集先對檢測與識別網絡進行分別測試,然后進行交通標志聯合檢測與識別。我們的檢測網絡可以達到87%準確率與96%的召回率,在所有測試集中我們的檢測網絡都能準確地檢測出交通標志,也包含少量的背景即誤檢測。識別網絡的測試采用準備訓練數據集的方法即從TsingHua-Tencent 100k測試集中把目標裁剪出來并設置尺寸為160*160。測試的識別率達到98.7%。最后,進行交通標志聯合檢測與識別的實驗。由實驗結果可知,我們提出的交通標志檢測與識別網絡對于實際場景中的交通標志具有較好的檢測效果。
4 結語
本文將深層卷積神經網絡應用于道路交通標志的檢測識別,使用兩步驟方案。檢測步驟,采用級聯卷積網絡檢測圖像中的交通標志并裁剪出目標物體送入識別網絡;識別步驟,采用Inception-ResNet-v2網絡對檢測結果進行識別。實驗表明,應用深層卷積神經網絡檢測與識別交通標志取得了良好的檢測與識別效果。
參考文獻
[1]中國計算機學會.深度學習:推進人工智能夢想[EB/OL].http://www.ccg.org.cn.2013-06-10.
Abstract:In real driving scenes, due to factors such as light changes and camera angles, the quality of the collected images is often not high, which puts high demands on the accuracy of traffic sign recognition. To solve this problem, we propose a traffic sign recognition method based on convolutional neural network. The method uses a two-step approach. In the detection step, the goal is to propose a bounding box of traffic signs in the picture. In the recognition step, it is a tag that recognizes the cropped image. The experimental results show that the proposed solution can effectively solve the problems in the actual driving environment such as illumination changes and various weather conditions.
Key words:deep learning; convolutional neural network; traffic sign