李偉娟 千凱琦 付昱 伍晨俊 劉保山



摘? 要:交通標志的識別對于自動駕駛與智能導航具有重要意義,針對已有深度學習網絡識別率不高的問題,提出一種基于ConvNeXt網絡模型的交通標志智能識別算法。該網絡以純粹的CNN模型為特點,具有更優的圖像分類及檢測分割任務的性能。文中使用GTSRB數據集進行實驗,與MobileNet、ResNet等網絡進行對比測試,測試結果表明,ConvNeXt網絡收斂速度最快并且穩定,最終交通標志的識別準確率達99%以上。實驗結果表明,該算法準確率高,具有一定的工程應用意義。
關鍵詞:ConvNeXt網絡;交通標志識別;CNN模型
中圖分類號:TP391.4? 文獻標識碼:A? 文章編號:2096-4706(2023)08-0075-04
Abstract: Traffic sign recognition is of great significance for automatic driving and intelligent navigation, and an intelligent recognition algorithm of traffic signs based on ConvNeXt network model is proposed to solve the problem that the recognition rate of existing deep learning networks is not high. The network features a pure CNN model with better performance for image classification and detection segmentation tasks. In this paper, GTSRB data sets are used for experiments and compared with MobileNet, ResNet, and other networks. The test results show that the ConvNeXt network has the fastest convergence speed and is stable, and the final traffic sign recognition accuracy rate reaches over 99%. Experimental results show that the algorithm has high accuracy and has certain engineering application significance.
Keywords: ConvNeXt network; traffic sign recognition; CNN model
0? 引? 言
交通標志的檢測識別是視覺輔助導航領域不可或缺的一部分,視障人群需要借助外部工具感知周圍復雜的環境以及時了解周圍的指示燈、方向牌、機動車道標志、人行道標志等交通標志,通過交通標志的識別可以為視障人群提供交通指引,從而方便其出行。在現實場景中,交通標志在城市交通中易受惡劣天氣、交通擁堵等影響而導致識別率低的問題[1]不可避免。因此,對于如何構建一個具有應變復雜場景以及惡劣天氣,同時具有高準確率的實時檢測交通標志的系統具有重大的研究意義。
目前已經有很多針對交通標志的目標識別算法,比如宋青松等[2]提出一種聚類殘差單次多盒檢測算法(Single Shot multibox Detector, SSD),具有較好的交通標志識別效果;Cao等[3]在LeNet-5卷積神經網絡模型基礎上,采用Gabor作為初始核,選擇Adam作為優化算法[4],能夠以較高精度對不同交通標志進行識別;Girshick等[5]提出了基于候選區域的RCNN(Regions with convolutional neural network features)算法,能夠提取多層信息,精準定位目標[6]。雖然,當前的算法在交通目標識別方向取得了一定的成果,但由于或者是減少了目標框的回歸,導致檢測結果有較大的定位誤差,存在檢測精度上的劣勢。或者是模型參數量與計算量過大,推理時間較長,不滿足交通標志識別的實時性要求[7]。因此,為更精準快速在惡劣環境、實時交通場景中識別出目標,本文提出了一種基于卷積神經網絡的交通目標識別系統,能夠滿足實時性、準確性較高的需求的同時,更具有魯棒性。
1? 相關工作
1.1? Faster RCNN算法
該算法主要是通過四個部分來實現目標檢測的,主要包括用來提取特征的體征提取網絡、判斷目標是否存在以及進行預處理的區域候選網絡、將上一級網絡挑選的特征圖提取出對應的語義信息用于送入下一級用于分類任務的興趣域池化網絡以及最后進行計算出具體類別的分類網絡。該算法主要是基于卷積神經網絡的一個端到端的目標檢測模型。
1.2? VGGNet算法
該算法使用多個小卷積核構成的卷積層代替較大的卷積層,兩個3×3卷積核的堆疊相當于5×5卷積核的視野,三個3×3卷積核的堆疊相當于7×7卷積核的視野。這種方式既減少了參數,同時也相當于進行了更多的非線性映射,增加了擬合能力,且更多的卷積核使得特征圖的通道數增多,特征提取更全面。
1.3? MobileNet算法
該算法的基本單元是深度級可分離卷積,本質為一種可分解的卷積操作,其可以分解為兩個更小的操作深度可分離卷積(depthwise convolution)和逐點卷積(pointwise convolution)。具體過程為首先采用depthwise convolution對不同輸入通道分別進行卷積,然后采用pointwise convolution將上面的輸出再進行結合,整體效果相當于標準卷積,但是大大減少計算量和模型參數量。保持模型性能的前提下降低模型大小、提升模型速度。
1.4? ResNet算法
該算法主要模塊使用了殘差連接的子模塊,從而緩解了網絡層數的加深會使梯度消失或者梯度爆炸造成的影響更加明顯[8]的難題。該算法主要是應用了添加恒等映射,使得在殘差模塊中,輸入數據可以通過殘差連接更迅速地向前傳播。如圖1所示。
1.5? ?ConvNeXt算法
近年來,因為深度學習中Transformer網絡的自注意力機制在計算機視覺中大量使用,并且效果比一般CNN算法更佳,因此,文獻[9]提出了ConvNeXt網絡,證明CNN網絡依然具有潛力。ResNet是CNN中非常具有影響力的一種結構,如圖2所示,本文的ConvNeXt網絡是在ResNet50網絡的基礎上做出改進。與傳統的殘差神經網絡不同,如圖3所示,ConvNeXt模塊采用的是兩頭細中間粗的結構,在輸入時通道數為96,中間層通道數為384,最后輸出時通道數不變仍為96,實現了整個網絡在識別精度上明顯優于ResNet50網絡。
注意力機制作為捕捉特征圖顯著特征、提高卷積神經網絡特征提取能力的新方法[10],其使用越來越頻繁,在2020年提出了一種僅使用純卷積的ConvNeXt網絡,該網絡主要是學習殘差連接網絡以及移動窗口自注意力網絡進而改進出的純卷積的神經網絡。整個網絡的實現全部使用現有的技術和方法,沒有創新結構,但是使用先用架構模仿搭建移動窗口自注意力網絡搭建出了更優化的模型。整個網絡達到了更優的結果。本文提出的交通目標檢測網絡是以該純卷積的神經網絡為基礎實現的。
如圖4所示,網絡首先對輸入圖像做非重疊卷積,然后送入4個ConvNeXt Block,其通道數Dim分別為96、192、384、768,逐次翻倍,并且每個模塊后帶一個下采樣,最后通過全局池化和全連接輸出識別結果。
2? 特征提取ConvNext網絡
2.1? 非重疊卷積策略
一般的卷積神經網絡都是由一個卷積核和最大池化構成的下采樣模塊,但基于移動窗口自注意力網絡中直接采用一個很大的并且各個特征提取窗口不重疊的卷積核,本網絡同樣選擇采用以卷積核大小為4步長為4的卷積核用于初始下采樣模塊。
2.2? 數據標準化
在研究交通標志識別網絡時,對于數據的正則化一般會有批歸一化和層歸一化兩種方式,這兩種方式都是為了防止出現梯度消失或梯度爆炸現象使得網絡當前隱藏層的穩定性下降。通常在自然語言處理領域,一般采用的是層歸一化方式,在利用卷積神經網絡做特征提取任務時,會采用批歸一化的方式,但是在本網絡中通過對比研究發現,采用層歸一化結果優于批歸一化結果。
2.3? 減少歸一化層
ResNet50網絡使用了較多的歸一化層,進行數據的歸一化,縮小數據偏差值,但是移動窗口自注意力網絡使用較少的歸一化層,因此整個網絡使用了較少的歸一化層,僅僅在深度可分離卷積層后使用歸一化層,使得整個網絡在準確度上得到了優化。
2.4? 下采樣層
對于卷積神經網絡而言,下采樣層的作用就是降低整個網絡的計算量,同時能夠防止出現過擬合的問題以及可以增大感受野,從而使后面的卷積層可以學習到更多的信息。本特征提取網絡采用了單獨的下采樣層,該下采樣層是通過在層歸一化之后添加一個卷積核大小為2,步長為2的卷積層構成的,從而實現降低特征圖大小。如圖5所示。
2.5? 深度可分離卷積
為了降低計算量和參數量,本網絡使用了深度可分離卷積。深度可分離卷積主要是通過保持輸入和輸出的維度相同,并且卷積在通道和空間維度上的可分離實現計算量的減少以及空間內信息的提取。通過卷積核與通道數量相等可以實現當輸入一個三通道的RGB圖片時,經過卷積運算之后得到對應通道的三個特征圖。
2.6? 激活函數
在卷積神經網絡中,為了給整個網絡添加非線性產生強大的擬合能力,通常會增加激活函數,一般使用ReLU函數(Rectified Linear Unit),而在本網絡使用的是高斯誤差線性單元——GELU函數(Gaussian Error Linear Unit),與常見的激活函數不同,高斯誤差線性單元由于其在零點可微性,使得可以處理零均值數據以及整個網絡性能更優化。
2.7? 翻轉瓶頸模塊
與一般的瓶頸模塊不同,為了與移動窗口自注意力網絡中多層感知機模塊相同,本網絡采用了翻轉的瓶頸結構,也就是中間粗兩頭細,通過翻轉瓶頸結構實現本網絡精度的提升。
3? 數據集
本網絡采用的是GTSRB(The German Traffic Sign Recognition Benchmark)數據集,屬于德國交通標志數據集,數據集一共分為了43類交通標志,其中一共有訓練集39 209張,測試集12 630張,圖片大小范圍在15×15到250×250像素之間[11]。由于實際環境中標志會受惡劣天氣以及遮擋物的影響而導致實時檢測交通標志類別時難度上升。在提供的樣本中考慮到實際情況的不同提供的樣本大小以及標志的區域大小都不相同,能夠更好地適應實際情況。如圖6所示。
4? 交通目標識別結果
4.1? 實驗環境介紹
本次實驗所使用的硬件設備環境CPU為AMD Ryzen 5800X 8-Core Processor,顯卡為NVIDIA GeForce RTX 3080 Ti,使用Python 3.7為編程語言,使用交叉熵損失函數。本實驗過程采用學習率為0.001進行訓練,學習率設置思路來源于文獻[12]。并且在實驗數據處理階段由于樣本大小不一致以及并非正方形,將輸入數據進行了大小重整為40×40,并經過了中心裁剪為32的正方形再進行訓練。
4.2? 實驗結果
4.2.1? 評價指標
在進行圖像分類與識別任務時,大多數采用的是測試時的準確率來作為指標,進行模型的效果評價。本文也采用該評價指標作為模型效果判斷,并且一般情況下,實驗過程中該評價指標會隨著迭代次數的增加進行增長,數值越大模型效果越好。
4.2.2? 實驗結果及分析
為了驗證本文網絡的性能,在GTSRB數據集上訓練過程中,每一次迭代結束后都進行一次驗證測試,觀察網絡模型的收斂速度。訓練與測試的數據如圖7所示。
圖中虛線是訓練準確率,實線是測試準確率,黑色是本文網絡數據,橙色是ResNet50網絡數據。從圖中可知,本文網絡迭代速率更快,第一輪訓練后準確率就達到93%,高于ResNet的71%,并且穩定上升,最終保持在96.70%附近;而ResNet50網絡最終識別的準確度保持在95.00%左右,并且有震蕩起伏。通過測試結果可看出,本文網絡訓練時收斂速度更快,并且更加穩定,最終的準確率也更高。
4.2.3? 與其他網絡模型對比實驗
為了檢驗本網絡對于交通標志識別的準確率,選用了常見的ResNet、MobileNet等網絡模型進行對比,在相同的GTSRB數據集下進行訓練得到結果如表1所示。
通過表中數據可以得出,本網絡數據集上訓練的準確度達到99.56%,明顯優于其他網絡。
5? 結? 論
本文提出的網絡是基于一個純卷積的神經網絡Convnext的交通標志分類識別網絡,主要是在ResNet50網絡和Swim-Transformer(Shifted windows Transformer)網絡的基礎上作出改進,并且與之相比,本網絡引入了不重疊卷積結構、倒置瓶頸結構、層歸一化結構以及深度可分離卷積結構等實現了網絡計算量和參數量的減少以及分類準確度和速度的提升。研究表明,本網絡可以實現較好準確率的實時識別交通標志為視障人群提供交通指引。接下來的工作主要是如何在于如何讓本網絡實現能夠在復雜的環境下快速檢測出交通標志并將其較為準確的識別出來。
參考文獻:
[1] 郭繼峰,孫文博,龐志奇,等.一種改進YOLOv4的交通標志識別算法 [J].小型微型計算機系統,2022,43(7):1471-1476.
[2] 宋青松,王興莉,張超,等.用于交通標志檢測的窗口大小聚類殘差SSD模型 [J].湖南大學學報:自然科學版,2019,46(10):133-140.
[3] CAO J W,SONG C X,PENG S L,et al. Improved Traffic Sign Detection and Recognition Algorithm for Intelligent Vehicles [J].Sensors,2019,19(18):4021-4021.
[4] 林軼,陳琳,王國鵬,等.改進的YOLOv3交通標志識別算法 [J].科學技術與工程,2022,22(27):12030-12037.
[5] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:580-587.
[6] 郭朦,陳紫強,鄧鑫,等.基于YOLOv5l和ViT的交通標志檢測識別方法 [J].科學技術與工程,2022,22(27):12038-12044.
[7] 徐兢成,王麗華.基于AlexNet網絡的交通標志識別方法 [J].無線電工程,2022,52(3):470-475.
[8] 張佳達,許學斌,路龍賓,等.基于深度殘差網絡的交通標志識別方法研究 [J].計算機仿真,2022,39(1):143-147.
[9] LIU Z ,MAO H Z,WU C Y,et al. A ConvNet for the 2020s [J/OL].arXiv:2201.03545 [cs.CV].[2022-10-02].https://arxiv.org/abs/2201.03545.
[10] 蔣博文.基于改進ResNet模型的圖像分類方法 [J].現代信息科技,2022,6(12):83-85.
[11] 陳立潮,張倩茹,曹建芳,等.復雜場景下基于復合膠囊網絡的交通標志識別 [J].計算機工程與設計,2021,42(9):2627-2633.
[12] 韓建鵬,王春生,鞏梨.基于優化卷積神經網絡的交通標志識別算法研究 [J].農業裝備與車輛工程,2022,60(5):33-38.
作者簡介:李偉娟(2001—),女,漢族,山東菏澤人,本科在讀,研究方向:通信工程;千凱琦(2002—),男,漢族,河南焦作人,本科在讀,研究方向:通信工程。