鄭秋梅 譚 丹 王風華
(中國石油大學(華東)計算機與通信工程學院 青島 266580)
交通標志是智能交通識別系統(tǒng)的重要組成部分,其中包含大量直觀、有用的交通信息。交通標志識別既為駕駛員提供安全駕駛的環(huán)境,也為解決交通擁堵問題提供了一定的指導信息。
交通標志識別算法有很多種,基于LeNet-5、VGG等網絡的卷積神經網絡識別方法由于分類精度改善而被廣泛采用[1~6]。但基于傳統(tǒng)LeNet-5網絡對交通標志進行識別,存在過擬合、梯度消失及分類識別精度不高等問題。汪貴平等[7]于2018年提出改進LeNet-5網絡算法對交通標志識別,有效解決過擬合及梯度消失現(xiàn)象,識別準確率也得到提升,但在更深的網絡中識別精度不高,網絡訓練較慢。基于VGG網絡對交通標志識別,隨著深度增加,使得網絡的計算速度變慢,并且出現(xiàn)梯度消失現(xiàn)象,識別精度下降。S.R.Zhou等[8]于2018年提出基于VGG的改進網絡,通過添加Dropout層及BN層,進一步加快了模型收斂速度,但識別精度仍然不高。針對LeNet-5、VGG等網絡的問題,殘差網絡(ResNet)算法可以有效解決深度增加后計算緩慢及梯度消失問題,但由于殘差網絡直接采用shortcut連接操作,對圖像中局部目標信息關注較低,仍然沒有解決識別精度不高的問題[9]。Wang F等[10]于2017年提出殘差注意力網絡,通過添加At?tention機制增強對多類別局部目標的關注度,提升了總體識別精度,但添加Attention機制后,增加了網絡參數,致使訓練收斂速度減慢。
針對網絡訓練收斂速度慢及分類識別精度不高的問題,本文提出一種改進ResNet網絡的A-ResNet模型,利用數據增強技術擴充GTSRB數據集,通過引入殘差注意力機制、Dropout層及微調網絡層架構對模型進行優(yōu)化,實驗證明此改進網絡在擴充后的GTSRB數據集上得到了更好的識別精度,并有效提高了訓練收斂速度。
自Alexnet[11]以來,CNN結構在不斷加深,VGG和GoogLeNet[12]分別有19個和22個卷積層。隨著網絡深度的增加,梯度消失問題的存在使得網絡訓練變得更為困難,收斂效果不好,進而引入了ResNet網絡[13]。ResNet網絡是2015年ImageNet比賽分類任務的冠軍,其特點是采用“shortcut”的連接方式,如圖1所示。
ResNet中殘差模塊輸出是由主干網絡與跳躍連接相加得到,shortcut連接采用恒等映射的方式。ResNet網絡可以較好地削弱梯度消失的現(xiàn)象,保留輸入圖像中更多的原始信息,減少損失,并且相比于傳統(tǒng)VGG網絡,在更深的網絡中收斂速度也得到提升,本質上降低了訓練過程中數據信息的冗余,但shortcut直接連接使其在多種類別的局部目標信息的關注度降低,從而降低分類精度。
大型網絡多存在訓練耗時長及模型易發(fā)生過擬合等問題,Dropout層能很好地解決這個問題。Dropout層的本質是在網絡訓練過程中,對神經元以一定概率進行暫時丟棄。當數據樣本較少時,可以防止模型過擬合,有效提升分類精度。G.E.Hin?ton等[14]將Dropout層引入進卷積神經網絡中,既解決了模型過擬合現(xiàn)象,又獲得了良好的分類精度。
Attention網絡可以突出局部目標信息,讓網絡更專注查找輸入圖像中與輸出有關的有用信息,從而提升圖像目標的分類精度[8,15~16]。Fei Wang等[8]于2017年提出殘差注意力網絡,通過殘差注意力網絡更專注目標信息,使分類精度得到提升。殘差注意力網絡是一個含有注意力機制的卷積神經網絡,是以端到端訓練方式與前向反饋網絡架構的結合,通過疊加注意力機制來構建。
殘差注意力網絡是由多個注意力模塊疊加而成,注意力模塊分為兩個分支:主干分支及掩模分支。注意力模塊結構如圖2所示。

圖2 注意力模塊結構圖
掩模分支包含上采樣層及下采樣層,既能快速前饋掃描采集圖像的全局信息,也能自頂向下進行反饋將全局信息與原圖特征相結合。每個主干分支都有其對應的掩模分支,用于學習其對應層特征的注意力信息,防止主干分支更新錯誤的權重參數,可通過疊加網絡結構逐步細化復雜圖像的注意力特征。殘差注意力塊的計算公式可以如式(1)所示:

Fi,c(x)表示卷積神經網絡輸出的結果,Mi,c(x)表示掩模分支權重輸出結果,其取值范圍在[0,1],越接近0,輸出越接近F(x),這時就可以將網絡表示為殘差學習網絡。Mi,c(x)作為特征選擇器,可以增強有用信息并抑制來自主干分支的不良噪聲信息,但注意力機制的增加使得網絡中參數增多,可能造成過擬合,使訓練收斂緩慢。
綜上所述,傳統(tǒng)ResNet網絡的shortcut連接可加快深層網絡的收斂速度,但由于直接連接使得識別精度降低,殘差注意力網絡利用Attention機制,增強目標信息,提升識別精度,但減緩了網絡收斂速度,Dropout層可解決神經網絡中的過擬合問題,以正確的正則化提升目標圖像分類精度,并利用暫時丟棄參數的特點,加快網絡訓練速度,為解決網絡收斂慢及識別精度不高等問題,需要對傳統(tǒng)ResNet網絡進行改進。
針對傳統(tǒng)網絡識別精度不高及殘差注意力網絡訓練收斂速度慢的問題,本文為提升訓練收斂速度及分類精度,對傳統(tǒng)ResNet網絡模型進行了改進,提出了A-ResNet網絡模型,并應用到交通標志識別系統(tǒng)中。
A-ResNet網絡是由卷積層、池化層、殘差單元、殘差注意力單元和softmax層組成。其結構組成如表1所示。

表1 A-ResNet網絡模型結構
A-ResNet網絡的輸入圖像為固定尺寸224×224,第一層卷積層之后生成112×112的特征圖,經過池化層降維之后,輸入到4個殘差單元及3個注意力單元,將輸出的14×14的特征圖輸入至平均池化層,將結果組合成特征向量輸入至softmax進行分類。相比于原始ResNet網絡,增加了注意力單元,并調整各單元結構及添加Dropout層,既能夠加快網絡訓練損失值收斂速度,也能夠提升網絡識別交通標志的分類精度。
傳統(tǒng)ResNet網絡中殘差單元采用圖3(a)的結構,此結構組成的ResNet網絡訓練速度慢,識別精度不高,因此為提升分類精度及訓練收斂速度而調整網絡后的殘差單元結構如圖3(b)所示。
將尺度歸一化層(BN層)以及激活層(ReLU層)調整到卷積層之前,BN層對數據進行標準化,用于穩(wěn)定網絡收斂,再將處理后的數據輸入至Re?LU激活函數進行激活,既可增加各層之間的非線性關系,又可以增強網絡稀疏性,防止過擬合現(xiàn)象發(fā)生,將激活后的數據輸入至卷積層,繼續(xù)提取特征,在卷積層之間添加Dropout層,可以避免網絡參數過度擬合。

圖3 改進前后殘差模塊
針對殘差注意力網絡在網絡訓練階段收斂速度慢的問題,為在穩(wěn)定識別精度同時加快網絡訓練收斂速度,本文提出一種改進后的殘差注意力網絡。采用的注意力網絡具體如圖4所示。

圖4 注意力模塊結構
其中殘差塊、上采樣、下采樣及跳躍分支模塊的基礎結構均采用與本文改進后的殘差單元相一致的結構。但不會直接使用shortcut連接機制,若直接采用shortcut機制作為掩模分支結構,會造成深層網絡梯度得不到反轉的問題,所以,掩模分支采用上采樣與下采樣過程相結合的結構,既能獲取圖像中的全局特征信息,又能將提取出來的全局信息轉換為維度一致的特征圖。最后將主干分支與掩模分支所得到的維度一致的特征圖用點乘方式組合起來,構成最后輸出的特征圖。其中在下采樣階段,采用最大池化層對提取的特征圖進行降維,降維到最小尺寸7×7,然后在上采樣階段,逐層采用雙線性插值方式擴張?zhí)卣鲌D維度,將下采樣得到的特征圖與之相加,得到最終特征圖。這樣做的目的在于結合全局與局部特征,使表征能力進一步加強。
本文在德國數據集基準GTRSB上進行實驗,使用caffe框架環(huán)境,在裝有Centos Linux release 7.4,NVIDIA Tesla-PCIE-16GB的linux機器上完成。
本文實驗采用德國標準數據集GTRSB,數據集有43類交通標志,其中訓練集有39209張圖像,測試集有12630張圖像,樣本圖像均包含交通標志區(qū)域以及周圍區(qū)域,尺寸范圍在15×15到250×250不等。本文使用固定224×224尺寸的圖像作為輸入,輸入格式為LMDB。數據集是通過裁剪現(xiàn)實場景圖像中的交通標志得到的,其中包括光照、尺寸、模糊程度等不定因素所造成影響的圖像樣本。數據集示例如圖5所示。

圖5 GTSRB數據集
可看出在數據集中,每一張圖像均含有不同尺寸變化,不同光照強度以及不同背景、模糊等影響因素的擴展圖像,但通過實驗發(fā)現(xiàn),數據集數目還是偏少,實驗數據的欠缺會導致實驗結果不理想,為降低實驗數據對最后分類精度的影響程度,本文使用數據增強技術對數據集進行增強。利用鏡像翻轉、90°和180°及270°旋轉、縮放裁剪、顏色亮度不同等操作下,對交通標志數據集進行擴充處理。通過數據擴充方式,在輸入圖像階段,提升數據的數量,從而進一步提升交通標志分類精度。交通標志數據集數據增強示例圖像如圖6所示。在經過數據增強之后,數據集增多,變?yōu)樵磾祿?倍,增強了數據集的表現(xiàn)能力,使分類結果更準確。

圖6 數據集的數據增強方式
針對傳統(tǒng)ResNet網絡中的殘差模塊存在識別精度低的問題,為驗證改進后殘差模塊可提升識別精度及進一步加快收斂速度,本文設計37層的ResNet網絡進行實驗,所得結果如表2所示。在訓練階段,改進網絡前后的損失值收斂情況如圖7所示。
因此,實驗證明,調整網絡后所的分類精度比調整之前在top1正確率上提升2%左右,在top5正確率上提升1%左右。但由于添加Dropout層后增加更多前向反饋參數,在運行速度上有些許犧牲。在訓練階段,改進后網絡比原網絡的損失值收斂更快,證明改進后網絡可以達到加快網絡收斂的目的。

表2 ResNet37改進前后實驗結果對比表

圖7 訓練損失值變化情況
針對識別精度和網絡訓練收斂情況兩方面,對傳統(tǒng)ResNet網絡、殘差注意力網絡以及A-ResNet網絡(本文),在GTSRB增強后數據集上進行實驗對比,經多次實驗發(fā)現(xiàn)設置學習率為0.05時分類精度最優(yōu),以訓練A-ResNet為例,部分結果如表3所示,因此實驗學習率為0.05,迭代4K次,識別正確率實驗結果如表4所示。殘差網絡與本文模型訓練時收斂情況如圖8、圖9所示。
因此,通過實驗比較看出,A-ResNet網絡在GTSRB數據集上得到的分類識別率在top1最高達到97%左右,在top5均達到99%左右,既比傳統(tǒng)ResNet網絡提升了2%左右的top1精度,也加快了收斂速度。結果證明,在網絡中調整結構可以加快網絡訓練時損失值收斂速度,在網絡中添加殘差注意力機制及添加Dropout層可以增強類別關注及防止過擬合,從而提升分類精度。

表3 A-ResNet不同經驗學習率實驗結果

表4 識別正確率實驗結果

圖8 18層殘差注意力網絡與本文訓練收斂情況

圖9 34層殘差注意力網絡與本文訓練收斂情況
本文對實際場景中的交通標志識別進行研究,針對傳統(tǒng)ResNet網絡識別精度不高,殘差注意力網絡收斂速度慢等問題,基于殘差注意力網絡對傳統(tǒng)ResNet網絡進行改進,提出了A-ResNet網絡。經實驗測試,本文提出的A-ResNet網絡通過調整網絡結構加快了訓練收斂速度,引入殘差注意力網絡及Dropout層可以提升網絡分類精度。