








作者簡介:張桐彬(1997—),工程師,研究方向:高速公路機電工程(監(jiān)控、收費、通信)相關系統(tǒng)設計。
摘要:針對高速公路場景下ETC車道車牌識別的準確度與速度需求,文章提出一種面向高速公路的文本檢測與文本識別算法整體方案。該方案選擇CTPN作為文本檢測網(wǎng)絡,通過CRNN+CTC、DenseNet+CTC兩種文本識別算法對比研究后,選擇前者作為該環(huán)境下的文本識別網(wǎng)絡。經(jīng)實際項目應用表明,該識別系統(tǒng)能夠準確識別車牌,具有速度快、識別率高等優(yōu)點,有較高的實用價值。
關鍵詞:車牌識別;文本檢測;文本識別;CTPN;CRNN
中圖分類號:U495
0 引言
目前,隨著自動化與計算機視覺技術的發(fā)展,高速公路管理方式逐漸向著調度自動化的智慧交通發(fā)展。全國高速公路基本取消了省界收費站,實現(xiàn)“收費一張網(wǎng)”。基于此背景,電子收費系統(tǒng)(Electronic Toll Collection,ETC)逐漸成為了研究熱點,而車牌識別的準確率則決定了整體系統(tǒng)能否高效且準確地運作。
場景文本檢測主要致力于實現(xiàn)將自然場景圖片中的文本信息發(fā)現(xiàn)并定位,而對文字的識別沒有要求[1]。文本檢測的方法分為傳統(tǒng)算法以及深度學習算法。Zhou X等[2]提出了基于管道的多分支結構,實現(xiàn)了圖像中不同文本方向和文本區(qū)域的劃分,通過非極大值抑制生成候選框。Tian Z等[3]提出了文本檢測連接網(wǎng)絡(Connectionist Text Proposal Network,CTPN),將整體文本檢測作為連續(xù)小尺度矩形文本框的檢測,利用長短期記憶網(wǎng)絡進行上下文的關聯(lián)檢測,并用VGG16作為網(wǎng)絡的特征提取。
在檢測到場景中的有效文本后,下一步則是對場景圖像中剪裁后的文本區(qū)域進行文字識別。傳統(tǒng)的光學字符識別(Optical Character Recognition,OCR)技術可以將打印的文檔文件識別出來[4]。高速公路的監(jiān)控圖像可通過圖像處理后利用OCR進行模板匹配,從而達到車牌文本的識別。但傳統(tǒng)圖像處理方法通常包含很多步驟,系統(tǒng)較為繁瑣。目前文本識別的主流方法一般采用深度卷積神經(jīng)網(wǎng)絡進行識別。Shi B[5]等提出了端到端的不定長文本識別網(wǎng)絡CRNN+CTC,該網(wǎng)絡利用BiLSTM學習字符圖像中的上下文關系,有效提升文本識別準確率,并根據(jù)CTC(Connectionist Temporal Classification)[6]轉錄層進行文本識別算法的優(yōu)化。Huang G[7]等提出了DenseNet+CTC網(wǎng)絡,利用Dense Block模型將所有網(wǎng)絡層連接起來,更好地利用特征中的信息,但由于Dense block層對特征圖的重復利用會導致顯存占用較高。
車牌識別的準確度直接影響聯(lián)網(wǎng)收費系統(tǒng)的聯(lián)動及管理。本文結合目前的研究成果及高速公路場景下車牌的特點,通過文本檢測與文本識別兩部分常用算法精度的對比,設計了一種面向高速公路場景的車牌檢測與識別算法方案。
1 方案與方法
1.1 車牌識別整體流程
高速公路車牌識別系統(tǒng)的主要步驟包括采集圖像,在圖像中檢測到車牌文本,將檢測到的文本進行識別,最終輸出結果。其中采集的圖像是高速公路道路監(jiān)控或收費車道攝像機拍攝的車輛行駛的視頻或圖像;檢測車牌文本為在采集的圖像中通過文本檢測算法定位出車牌字符;文本識別為將檢測出的文本通過神經(jīng)網(wǎng)絡進行識別,并得到最終的結果。
1.2 算法設計
1.2.1 文本檢測算法
CTPN適用于復雜場景圖像中以行為單位分布的字符檢測[8]。整體網(wǎng)絡利用字符高度的易檢測性,把圖像文本行的檢測轉換成多個小型候選框的檢測。首先利用CNN網(wǎng)絡進行特征提取,然后將結果輸入至雙向長短期記憶網(wǎng)絡中,通過Reshape操作得到空間序列,并設定好空間序列的寬高以定位文字位置。經(jīng)過上述計算與邊框回歸處理后,可以在文本圖像中得到豎直條狀的文本預測框,接著將所有相連的豎直條狀文本預測框聯(lián)通在一起,即可得到相應的文本位置。
1.2.2 文本識別算法
針對高速公路場景常用的中英文本及數(shù)字,根據(jù)文本檢測提取的文本特征,分別用CRNN+CTC網(wǎng)絡與DenseNet+CTC網(wǎng)絡進行文本識別,并將兩種算法的識別結果進行比對,得到更適用于高速公路的車牌識別網(wǎng)絡。
1.2.2.1 CRNN網(wǎng)絡
CRNN通過在卷積層中設置遞歸網(wǎng)絡,對序列上下文進行建模,最后利用CTC轉錄層把遞歸層中得到的標簽分布通過壓縮或合并,得到最終的結果。CRNN的網(wǎng)絡流程如圖1所示[9]。
1.2.2.2 DenseNet網(wǎng)絡
DenseNet網(wǎng)絡包括CNN層、RNN層和組成轉錄層的CTC(如圖2所示),其中每一層都以前饋方式直接與其他每一層連接。DenseNet網(wǎng)絡結構的設計可以讓網(wǎng)絡整體中某層的輸入是該層之前所有層的輸入累加組合值,同時每一層的特征圖也作為輸入傳遞給下面的所有層。
1.2.2.3 CTC轉錄層
CRNN與DenseNet網(wǎng)絡中均使用轉錄層CTC用于解決輸入和輸出序列長度不一的問題,并整合RNN層輸出的結果。CTC最基本的解決思路是對齊的思想,其利用后驗概率計算,對于給定的序列X={x1,x2……xn}及其對應的標簽數(shù)據(jù)Y={y1,y2……yn},其目的是找到X與Y之間的映射關系。對于已經(jīng)定位好的文字區(qū)域圖片,可以基于RNN網(wǎng)絡并結合CTC進行文本識別。例如,若得到一個單幀的預測結果為“-aa-p-pp-ll-e-”,其中-代表空白標簽。根據(jù)上述的規(guī)則,得到最終的序列為“apple”。將這個轉換的規(guī)則用B表示,可以得到CTCLoss,如式(1)。
CTC所定義的標簽序列的后驗概率為:
式中1表示標簽序列,其后驗概率等于通過CTC兩條規(guī)則得到的所有1和π的概率總和。
式(3)中右側的p為單幀預測序列第t項概率分布中πt對應標簽的概率值。CTC Loss是CRNN及DenseNet模型對應的損失函數(shù)。
1.3 評價指標
對于文字檢測樣本而言,目前常用精確率P(precision)、召回率R(recall)以及F值(F-Measure)作為評價模型好壞的指標。
本文所采用的評價指標為文本檢測相對應的競賽評價準則,其規(guī)則為:根據(jù)檢測結果的矩形框與Ground-truth矩形框進行比對,兩者重疊部分的面積和并集部分的面積相除,所得到的結果進行衡量,若用上文中提到的P、R、F表示則分別定義為公式(4)~(6)。
式中:Tp——正確檢測的結果集合;
T——Groundtruth的集合;
E——檢測結果的集合。
對于文本識別最終效果的評價指標,目前研究該課題的學者一般采用平均編輯距離正確率和文本識別全對率進行衡量。前者較為寬松,其通過真實文本與預測文本之間的編輯距離來衡量,指標值越高,預測值準確率越接近真實值,若兩者完全一致,則平均編輯距離為1;后者則十分嚴格,其要求圖片中的文本全部正確識別才可算作正向指標。由于車牌識別結果的準確性對高速收費或監(jiān)控系統(tǒng)的工作效率起到了關鍵作用,故本文采用全對率作為文本識別的評價指標。
2 結果與分析
2.1 數(shù)據(jù)集制作
以CTPN作為文本檢測網(wǎng)絡,選取高速公路場景中監(jiān)控攝像機所拍到的車輛圖片作為訓練數(shù)據(jù)集,通過LabelImg工具進行了標注,并使用python腳本將xml生成為txt標簽格式。如圖3所示。
以CRNN和DenseNet作為文本識別的網(wǎng)絡,選取車牌圖片作為數(shù)據(jù)集。車牌一般由各省份的漢字簡稱、26個英文字母、10個阿拉伯數(shù)字以及其他特殊漢字組成。特殊漢字包括且不限于“警”“電”等。將數(shù)據(jù)集分為兩類,第一類較為清晰,清晰測試集中均為分辨率較高的白底綠牌。第二類則為真實場景測試集。
2.2 實驗結果分析
2.2.1 文本檢測結果分析
CTPN網(wǎng)絡采用隨機梯度下降算法進行訓練。
由訓練結果可以看出,CTPN在圖像中的文本檢測表現(xiàn)較好,展示的高速公路監(jiān)控圖中的文本精確率均達預期值。根據(jù)本文上一節(jié)介紹的文本檢測評價指標中的公式(4)~(6)進行計算,最終得到測試結果精確率為98.3%,召回率為95.8%,綜合指標為97.3%。
2.2.2 文本識別結果分析
2.2.2.1 CRNN+CTC實驗結果
CRNN+CTC網(wǎng)絡的訓練分為預訓練及精確度調整訓練。最終將訓練完成的模型利用驗證集進行測試,準確率達到97.6%。為了進一步識別自然場景的文本,在預訓練權重模型的基礎上,加入了與CRNN數(shù)據(jù)集格式相匹配的黃綠車牌數(shù)據(jù)集共5萬張,將上述訓練數(shù)據(jù)集按照6∶2∶2的比例劃分成訓練集、驗證集以及測試集,進行CRNN模型的精確度調整。最終經(jīng)驗證集檢測,識別準確率達到98.8%。訓練過程中對驗證集的測試所得acc值與loss值如圖4所示。
2.2.2.2 DenseNet+CTC實驗結果
DenseNet+CTC網(wǎng)絡的訓練將數(shù)據(jù)集按照5∶2∶3的比例劃分成訓練集、驗證集及測試集。最終將訓練完成的模型利用驗證集進行測試,模型準確率達到0.940 3,其訓練過程中的loss值和acc值變化曲線如圖5所示。
2.2.2.3 網(wǎng)絡對比實驗結果
在網(wǎng)上隨機選取500張車牌圖片作為CRNN和DenseNet算法的評估樣本。表1為CRNN網(wǎng)絡與DenseNet網(wǎng)絡分別在車牌測試集的測試評價結果。經(jīng)計算,CRNN全對率為0.982 5;DenseNet全對率為0.893 2。經(jīng)綜合考慮,選擇CRNN作為高速公路場景下的車牌識別網(wǎng)絡。
3 結語
針對高速公路場景下車牌識別的需求,本文提出了面向高速公路的車牌檢測與識別算法解決方案。首先實現(xiàn)了基于CTPN的車牌文本檢測;其次對比了CRNN與DenseNet兩種車牌文本識別網(wǎng)絡的效果,并最終選用CRNN實現(xiàn)了車牌文本識別?;贑TPN進行車牌文本檢測和車牌文本識別,并將算法成果成功應用到大慶至廣州高速公路南康至龍南段改擴建工程項目的車牌識別實踐中,實現(xiàn)了準確識別的系統(tǒng)。針對高速公路環(huán)境的車牌識別,論文所提出的方法正確率較高,符合應用需求,解決了市場上車牌識別算法的局限性。此成果也可為場景文本檢測與識別提供一定的參考。
參考文獻
[1]曹 琎. 自然場景中漢字識別關鍵技術研究[D]. 西安:西安電子科技大學,2010.
[2]Zhou X Y,Yao C,Wen H,et al. EAST: An efficient and accurate scene text Detector[C]. IEEE Conference on Computer vision and pattern recognition,2017.
[3]Tian Z,Huang W,He T,et al.Detecting Text in Natural Image with Connectionist Text Proposal Network[C]. European Conference on Computer Vision. Springer (ECCV),Cham,2016.
[4]Pan H,Huang W,Yu Q,et al. Reading Scene Text in Deep Convolutional Sequences[J]. AAAI Press,2016(2):3 501-3 508.
[5]Shi B,Xiang B,Cong Y . An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence,2016,39(11):2 298-2 304.
[6]Billa J. Improving LSTM-CTC based ASR performance in domains with limited training data[J]. 2017(7):1707 00722.
[7]Huang G,Liu Z,Laurens V,et al. Densely Connected Convolutional Networks[J]. IEEE Computer Society,2016(1):2 261-2 269.
[8]Tian Z,Huang W L,He T,et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]. European conference on computer vision,2016.
[9]Wei L,Cao L,D Zhao,et al. CRNN: Integrating classification rules into neural network[C]. Neural Networks (IJCNN),The 2013 International Joint Conference on. IEEE,2013.
收稿日期:2023-04-08