999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種輕量化中文指路標志的文本識別算法*

2022-09-21 08:36:32宜超杰包宇翔
計算機工程與科學 2022年9期
關鍵詞:文本區域檢測

宜超杰,陳 莉,包宇翔

(西北大學信息科學與技術學院,陜西 西安 710100)

1 引言

指路標志牌是交通標志中最為復雜的一種,能夠靈活地傳達距離信息、路線信息等。因此,指路標志牌中的文字提取和識別對交通大數據、自動駕駛等具有重要的意義。

如今,使用機器視覺方法對指路標志進行提取和識別十分容易[1 - 4],但從指路標志中提取和識別文字仍然存在較大的困難。典型的指路標志牌如圖1所示。

Figure 1 Typical guide signs圖1 典型指路標志牌

傳統的文本識別方法主要通過對圖像色彩、形狀等維度的解析和變換來提取圖像特征。Wu等[3]使用特征點聚類的方法提取標志牌的水平文字區域;Liu等[5]使用圖像的二階導數來確定圖像中的字體邊緣信息,并進行區域融合以定位出圖像中的文字區域;Neumann等[6]通過邊緣和色彩等信息提取最大穩定極值區域MSER(Maximally Stable Extremal Regions)來確定字符位置,并訓練分類器實現文本識別。

Figure 2 Flowchart of the proposed algorithm圖2 本文算法流程圖

但是,傳統的檢測方法魯棒性較差,無法適應多變的拍攝環境和角度。近年來,深度學習技術憑借其強大的特征提取能力在機器視覺領域大放異彩,光學字符識別OCR(Optical Character Recognition)技術也隨之取得了較大進步。當前深度OCR框架主要由文本區域提取和文本識別2個子模塊構成。文本區域提取是指從自然場景中檢測和提取出文字區域。如Tian等[7]提出的CTPN(Connectionist Text Proposal Network)使用了錨框的思想來檢測水平排布的文本區域;Zhou等[8]提出的EAST(Efficient and Accuracy Scene Text)框架采用多方向的矩形區域來標識檢測出的文本區域;Long等[9]提出的TextSnake算法則使用了更為靈活的多圓形組件來定位出任意方向和角度的文本區域。文本識別的任務是從文本區域中識別出文本信息。Shi等[10]提出的CRNN(Convolutional Recurrent Neural Network)網絡結構融合了CNN(Convolutional Neural Network)與RNN(Recurrent Neural Network)的特性,可以在文本區域中定位和識別出文本內容;Graves等[11]提出的CTC(Connectionist Temporal Classification)算法能夠解決復雜的文本字符對齊問題;還有一些OCR框架將文本進行字符對齊后使用圖像分類網絡如VGG(Visual Geometry Group)[12]、ResNet(deep Residual Network)[13]等來完成文字識別。Tian等[14]提出的基于弱監督學習的文本檢測訓練方法WeText,使得在擁有少數已標注的圖像數據的情況下仍可以完成文本檢測框架的訓練。

本文針對中文指路標志的結構和特點,使用輕量化的思想,設計了一種指路標志多方向中文文本提取和識別算法。

2 算法設計

本文提出的算法將中文指路標志的文本識別分為3大步驟,分別為:(1)YOLOv5t(You Only Look Once)文本區域識別和提取;(2)M-split字符分割;(3)文本識別與整合。算法流程如圖2所示。

2.1 YOLOv5t文本區域提取

當前OCR技術中較為常用的文本區域提取算法有CTPN[7]、EAST[8]等。CTPN算法借鑒了經典目標檢測網絡Faster R-CNN[15]中使用的錨框來預錨定文本行對象;EAST算法使用多方向的矩形來標記文本區域。這些常用的深度OCR框架對于文字的方向和排布有一定的要求。盡管近年提出的TextSnake等框架可以靈活地定位多方向、多角度的文本內容,但訓練這些框架的數據集標注起來非常困難和耗時。另一種常用的方法是使用通用的目標檢測框架來提取文本區域,如SSD(Single Shot multibox Detector)網絡[16]、R-CNN(Regions with CNN features)系列和YOLO[17]系列網絡等。本文對YOLOv5l目標檢測框架進行輕量化改進以實現文本區域的檢測。YOLOv5l框架的開源代碼地址為https:∥github.com/ultralytics/yolov5.

為了與原網絡加以區分以及后期評估的方便,本文將所提算法中經過輕量化改進的YOLOv5l目標檢測網絡命名為YOLOv5t(YOLOv5 for Traffic)。

YOLOv5l的主要創新點有:

(1)在網絡淺層引入Focus切片操作,即對特征圖進行等間隔的切片,再對切片進行通道拼接和卷積。

(2)使用CSPNet[18]中的BottleneckCSP瓶頸層堆疊作為基本結構,以加深網絡的特征提取能力。

(3)將激活函數換為H-Swish(Hard-Swish),以激勵網絡學到更為稀疏的特征。設x為神經元的輸出值,則H-Swish的表達如式(1)所示:

(1)

YOLOv5l的網絡結構如表1所示。

Table 1 Structure of YOLOv5l

表1中,第1~10層為網絡的backbone部分,用來提取圖像的特征信息;第11~25層為網絡的head部分,用來進行特征融合和目標檢測。表中1次Conv操作代表1次卷積、批量歸一化BN(Batch Normalization)和H-Swish激活函數的組合,Concat表示通道拼接操作。在自動駕駛汽車等設備中,用于進行實時智能計算加速的資源通常十分有限,直接將完整的神經網絡部署在這些設備上難度較大,因此對網絡進行輕量化改進對于算法的移動布署具有重要意義。

Han等[19]提出的GhostModule通過對特征圖進行線性變換,可以得到足夠多的特征圖,足以代替標準卷積操作,其結構如圖3所示。該結構與殘差結構融合后,根據不同步長,得到了如圖4a和圖4b所示的2種GhostBottleneck結構。Howard等[20]在其提出的輕量化網絡MobileNetV1中給出了“深度可分離卷積”的概念,將卷積神經網絡中的卷積分解為1次“深度卷積”和1次“點卷積”,減少了卷積操作中的參數量。普通卷積和深度可分離卷積分別如圖5a和5b所示。

Figure 3 Structure of GhostModule圖3 GhostModule結構

Figure 4 Structure of GhostBottleneck圖4 GhostBottleneck結構

Figure 5 Normal convolution and depthwise separable convolution圖5 普通卷積與深度可分離卷積

本文基于上述技術,對YOLOv5l網絡進行了如下改進,以優化網絡性能:

(1)將YOLOv5l網絡的backbone部分改為類GhostNet結構,但將第1層的卷積操作替換為原Focus操作,同時去掉了GhostNet尾部的部分卷積與池化層。

(2)將head部分中BottleneckCSP模塊內部的卷積操作替換為深度可分離卷積,并在替換后的網絡中的每個BottleneckCSP后添加SE(Squeeze-and-Excitation)層[21]注意力模塊,使用全局最大池化的注意力機制來保持網絡精度。

(3)對模塊間的輸入與輸出通道進行統一調整,確保不同尺寸的特征能夠正常融合。

改進后的網絡結構如表2所示。

2.2 M-split字符分割算法

文本區域被提取出來后,需要再分割為單字符,才能輸入到神經網絡中進行識別。字符分割的方法有基于邊緣輪廓的字符分割[22]、基于投影閾值的字符分割等。漢字中,一個漢字可能包含多個獨立子結構,如“北”“昌”等字符就由多個“組件”組合而成。此外,某些圖像的檢測結果中還可能混入了一些噪聲(如圖6所示),因此上述2種方法都無法完整而準確地劃分中文字符。本文提出了一種改進的字符分割算法M-split,主要包括旋轉與二值化、投影直方圖生成、多項式擬合和極小值點分割等步驟。

2.2.1 旋轉與二值化

2.1節中提取出的文字區域中的文字存在橫排或者豎排2種排布方向。神經網絡可以通過訓練識別出多角度的文字,對于豎排的文字,算法直接將其逆時針旋轉90°并按照水平文本統一處理。

Table 2 Structure of YOLOv5t

當文本區域的寬高比大于或等于1.2時,算法判定文本是水平排布的,否則判定為垂直排布。

在文本區域角度調節完畢后,使用Otsu方法[23]對文本區域進行二值化處理,以去除部分顯著噪聲點,突出前景文字。文本區域的旋轉、二值化處理及其結果如圖6所示。

Figure 6 Rotation and binarization operations圖6 旋轉與二值化操作

2.2.2 投影直方圖生成

在圖6中,由于YOLOv5t框架只能使用矩形框標識目標,導致部分傾斜或質量較差的區域在進行旋轉和二值化處理后仍帶有文本以外的噪聲。對文本區域進行旋轉和二值化處理后,區域中只剩下前景和背景區域,接下來統計二值化后的圖像每一像素列中前景部分的像素點個數,得到圖像每一列中的白色像素點個數數組P,再對P繪制直方圖,以圖6中的“創匯路”圖像為例,繪制出的對應的水平投影直方圖如圖7所示。

Figure 7 Histogram of text projection圖7 文本投影直方圖

2.2.3 多項式擬合

由圖7可知,雖然字符之間存在明顯的、非零像素點數為0的界限,但由于噪聲的存在以及漢字結構本身的特性,無法直接通過固定閾值劃分出單個字符。因此,本文算法使用多項式來近似擬合直方圖,以精確得到分割點。首先將圖7所示的直方圖看作非0像素點個數y關于像素列p的k(k>0)次多項式函數,即使用如式(2)所示的函數f(p)對直方圖進行擬合:

f(p)=a0pk+a1pk-1+…+

(2)

其中,ai為系數,取值范圍為全體實數。由直方圖可以得到每一像素列pi對應的非0像素點個數yi,于是使用均方誤差構建如式(3)所示的損失函數:

(3)

其中w表示像素列總數。

在得到了損失函數后,只需要通過梯度下降法最小化損失函數,即可近似擬合2.2.2節中生成的直方圖分布。至此,算法將離散的像素點數值連續化為了多項式函數。

在擬合過程中,可以通過改變k值對直方圖進行不同精度的擬合,圖8展示了k=5,k=10和k=15時對圖6中“創匯路”文字區域的擬合結果。

Figure 8 Results of polynomial fitting圖8 多項式擬合結果

2.2.4 極小值點分割

由圖8知,當k值過小時,曲線并不能很好地擬合直方圖的變化,而當k過大時,曲線又會對噪聲和漢字內部結構變得過分敏感,因此,k的取值直接關系到M-split算法的分割性能。

在得到多項式f(p)以后,另一項工作是獲取f(p)在[0,w]內的極小值。最直接的方法是求解式(4)所示的方程:

f′(p)=0,p∈[0,w]

(4)

并根據解的性質找到f(p)的所有極值點。然而,由于f(p)是高次多項式,求解方程的時間復雜度極大。因此,本文算法以0.5為步長在[0,w]內遍歷f(p),以求得方程近似解。判定點M:(p,f(p))為可分割極小值的規則如下所示:

(1)round(f′(p),1)=0;

(2)f′(p-1)≤0且f′(p+1)≥0;

(3)f(p)值小于或等于數組P的下40%分位點。

其中,round(f′(p),1)表示f′(p)四舍五入保留小數點后1位的結果。在執行遍歷的過程中,當找到一個新的分割點時,應該與已找到的最近分割點進行比較,若兩點之間的距離與w之比小于或等于0.05,則算法認為該新的分割點是重復的,丟棄該分割點。

橫排文字和豎排文字的完整分割流程分別如圖9a和圖9b所示。

Figure 9 Flow chart of the character division圖9 字符分割流程

2.3 文本識別

由于拍攝條件的多樣性,最終分割出來的字符區域中可能會存在部分英文、色塊等“噪聲”,因此在文本識別時,算法需要具有強大的特征提取能力。本文算法使用學習能力較強的神經網絡來訓練和識別字符,以提高識別精度,出于對時間性能的考慮,算法選擇輕量化網絡MobileNetV3[24]來實現字符的識別訓練。MobileNetV3為MobileNets系列網絡的最新版本,其主要創新是引入了通道先擴張再收縮的“反轉殘差”結構,并使用了SE層[21]來增強網絡的學習能力。本文將文本識別任務作為多分類任務實現。訓練完成后的MobileNetV3網絡權重文件大小僅有18.4 MB,完全可以在邊緣計算設備中部署。

Figure 10 Text detect part of TS-Detect dataset圖10 TS-Detect文本檢測部分

3 仿真實驗

3.1 數據集

由于中文指路標志方面尚沒有公開數據集,因此本文使用自制的TS-Detect數據集進行網絡訓練和算法調試。數據集共包含3個部分:文本檢測部分、字符分割部分和文本識別部分。其中,文本檢測部分包含1 210幅中文指路標志圖像,均是從騰訊街景和百度街景中采集獲得的。文本檢測部分中含有近景(分辨率較高)和遠景(分辨率較低)2種尺度的指路標志圖像。文本檢測部分的數據如圖10所示。字符分割部分包含從文本檢測部分截取的多角度文本區域圖像,由于M-Split字符分割算法不需要進行訓練,因此字符分割部分全部用于測試和評估。文本識別部分的訓練集包含1 000幅常用漢字字符圖像,均進行了旋轉、二值化、仿射、添加隨機噪聲等隨機數據增強;測試集包含127幅不同的漢字圖像。文本識別部分的數據如圖11所示,TS-Detect數據集的劃分情況如表3所示。

Figure 11 Text recognition part of TS-Detect dataset圖11 TS-Detect文本識別部分

3.2 實驗環境及參數設置

本文算法使用Intel Core i9-10900K 3.8 GHz處理器進行數據處理,并使用NVIDIA RTX2080Ti GPU進行神經網絡訓練加速。算法在Ubuntu 18.04.5 LTS系統環境下進行開發和測試。YOLOv5t網絡與MobileNetV3網絡均使用PyTorch框架搭建。YOLOv5t網絡訓練的初始學習率為0.001,使用余弦退火方式調整學習率,batch-size為15;MobileNetV3文本識別網絡使用交叉熵作為損失函數,初始學習率固定為0.000 1,batch-size設置為100。

Table 3 Division details of TS-Detect表3 TS-Detect 數據集劃分情況

3.3 結果分析與評估

3.3.1 文本區域提取評估

本節中使用mAP@.5指標與mAP@.5:.95指標分別評估YOLOv5t網絡的文本區域檢測性能。mAP(mean Average Precision)為準確率-召回率(Precision-Recall)曲線使用峰值近似算法得到的與坐標軸圍成的近似面積。其中mAP@.5為將IOU(Intersection over Union)閾值設置為0.5時的mAP值;mAP@.5:.95為IOU閾值從0.5以步長0.05增長到0.95時計算得到的mAP平均值。前者評估算法對目標的檢出能力,后者反映算法對目標的定位精度。在訓練階段,mAP@.5和mAP@.5:.95的變化曲線分別如圖12a和圖12b所示。

Figure 12 Train curves of YOLOv5t圖12 YOLOv5t訓練曲線

本節使用TS-Detect的測試部分評估YOLOv5t網絡對中文文本區域的檢測效果,并與1.1節中的相關算法進行對比。此外,為了進一步驗證YOLOv5t網絡結構的輕量化性能,還將YOLOv5l中的卷積操作替換為深度可分離卷積,并將該結構加入對比實驗,為了方便評估,本文將該替換后的網絡命名為YOLOv5d。對比結果如表4所示。

由表4可知,YOLOv5t網絡的權重相較于原版YOLOv5l網絡的下降了93.3%,mAP@.5:.95僅下降了3%,mAP@.5甚至高于原版YOLOv5l網絡的,并優于YOLOv5d等其他對比網絡,在TS-Detect文本檢測部分的測試集上達到了最佳精度。可見,本文提出的YOLOv5t網絡能夠高效地檢測出指路標志中的中文文本區域,并過濾了英文、指示圖形等干擾元素。

Table 4 Comparison of text detection algorithms

3.3.2 字符分割評估

本節使用TS-Detect數據集中的字符分割部分對M-split字符分割算法進行評估,并與主流的字符分割算法進行對比。

當擬合多項式的指數參數k分別取5,10,11,12,13,14,15時,使用準確率(Precision)、召回率(Recall)及F1指數(F1-Score)3種指標評價M-split字符分割算法在 TS-Detect字符分割數據集上的文本分割性能。3種指標的相關定義如式(5)~式(7)所示:

(5)

(6)

(7)

其中,TP為真正例(True Positive),即被正確分割的字符數量;FP為假正例(False Positive),即結果中分割錯誤的字符數量;FN為假反例(False Negative),即測試集中未被分割出的字符個數。

M-split算法的測試結果如表5所示。

Table 5 Experimental results of character split algorthm

由表5可知,當k=13時,M-split算法的F1-Score值最高,效果最優。在得到字符分割參數后,使用2.2節中所述的投影閾值法和邊緣輪廓法(使用Sobel算子強化邊緣信息)在TS-Detect字符分割數據集上與M-split算法進行對比實驗,結果如圖13所示。

Figure 13 Comparison of different character split algorithms圖13 字符分割算法對比

由圖13可知,本文提出的M-split算法的F1-Score值達到了0.944,比投影閾值算法的高出50.3%,比邊緣輪廓分割法的高出57.1%,相較于其他字符分割算法,M-split算法具有更優異的性能,能夠勝任多角度、含有英文等噪聲圖像的字符分割任務。

3.3.3 文本識別評估

本文將文本識別作為圖像分類任務進行處理。文本識別訓練集包括了1 000幅常用漢字樣本圖像來檢驗算法的有效性。損失函數的下降曲線如圖14所示。本文采取分類任務的常用指標——正確率(Accuracy)來衡量分類結果,其計算公式如式(8)所示:

(8)

其中,P為所有正例(Positive),N為所有反例(Negative),P+N代表測試集中的所有文字個數,TP+TN代表被正確識別的文字個數。本文分別訓練了VGG16、ResNet50和AlexNet 3種圖像分類網絡作為對比分類器,還使用未經分割的水平文本數據訓練了主流的CRNN+CTC端到端文本識別網絡,測試結果如表6所示。

Figure 14 Loss curve of MobileNetV3圖14 MobileNetV3訓練損失下降曲線

Table 6 Experimental results of text recognition表6 文本識別結果

由表6可知,MobileNetV3文本識別網絡的識別精度達到了82.7%,能夠準確識別漢字,過濾噪聲。其余幾種文本識別網絡中,ResNet50網絡的識別精度最高,達到了83.5%。相比之下,本文算法所采用的MobileNetV3輕量化網絡與最佳結果僅相差0.8%,但權重文件大小只有后者的18.8%,十分輕量化,更加易于部署和實時計算。

3.3.4 算法整合

在各模塊分別開發完成后,對圖像的尺寸進行適應性調整和連接,最后融合為完整算法。本文使用TS-Detect文本檢測部分數據集中的驗證集+測試集共246幅測試圖像對完整算法進行性能綜合評估,并與當前主流的自然場景OCR算法進行正確率對比,還使用幀率(每秒可檢測的圖像數量)來衡量算法的實時性能,在幀率評估時不區分遠景與近景圖像。綜合評估結果如表7所示。

由表7可知,本文算法在TS-Detect文本檢測數據集上的近景檢測正確率達到了90.1%,遠景檢測正確率達到了70.2%,在近景和遠景圖像的文本檢測精度在所有參評算法中都是最佳。且本文算法的推斷速度達到了40 fps,相較于其他算法也具有明顯的優勢。在實際的部署場景中,還可以利用連續拍攝得到的冗余信息進一步提高檢測精度。部分檢測結果樣例如圖15所示。

Table 7 Experimental results of algorithms

Figure 15 Results of the proposed algorithm圖15 結果展示

4 結束語

本文設計了一種結合了CNN與傳統機器學習方法的輕量化中文指路標志文本提取與識別算法。算法分為文本提取、字符分割和文本識別3大模塊。在文本提取時對YOLOv5l網絡進行了輕量化改進,提出了YOLOv5t文本區域檢測網絡;在字符分割時,提出了一種基于投影直方圖和多項式擬合的M-split分割算法,充分利用漢字結構和漢字間距來達到快速、精準的分割效果;使用MobileNetV3輕量化網絡完成文本識別任務。最后通過實驗對整體算法和各個模塊分別進行了評估,驗證了本文算法的有效性和高效性。

猜你喜歡
文本區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 97影院午夜在线观看视频| 国产在线八区| 亚洲综合久久成人AV| 国产va在线观看免费| 无码中字出轨中文人妻中文中| 久996视频精品免费观看| 毛片三级在线观看| 成人免费视频一区| 麻豆精品视频在线原创| 毛片免费在线视频| 无码av免费不卡在线观看| 香蕉国产精品视频| 欧美精品H在线播放| 精品亚洲国产成人AV| 激情国产精品一区| 免费看美女自慰的网站| 久久国产精品麻豆系列| 在线观看精品国产入口| 无码精品一区二区久久久| 久久精品无码中文字幕| 国产男人天堂| 国产免费福利网站| 日韩成人在线网站| 国产在线精品香蕉麻豆| 亚洲精品va| 国产资源免费观看| 无码一区二区三区视频在线播放| 日a本亚洲中文在线观看| 人妻丝袜无码视频| 日本亚洲成高清一区二区三区| 亚洲欧洲日本在线| 亚洲综合第一页| 久久9966精品国产免费| 91久久大香线蕉| www欧美在线观看| 午夜欧美在线| 日韩在线欧美在线| 久久精品国产电影| 一区二区自拍| 亚洲欧州色色免费AV| 日韩av高清无码一区二区三区| 国产女人喷水视频| 中文字幕佐山爱一区二区免费| 精品一区二区三区视频免费观看| 久草性视频| 亚洲免费黄色网| 国产麻豆另类AV| 国产精品99久久久久久董美香 | 国产国产人成免费视频77777| 伊人久热这里只有精品视频99| 国产又爽又黄无遮挡免费观看| 国产香蕉一区二区在线网站| 欧美日本二区| 亚洲天堂久久| 激情影院内射美女| 欧美综合区自拍亚洲综合天堂| 五月天综合网亚洲综合天堂网| 欧美激情二区三区| 精品成人一区二区三区电影| 欧美成人手机在线观看网址| 在线看国产精品| 欧美综合激情| 亚洲另类第一页| 日韩精品无码不卡无码| 欧美日韩一区二区在线播放| 2020国产精品视频| 色哟哟色院91精品网站| 国产精品欧美激情| 经典三级久久| 日本国产一区在线观看| 91精品视频在线播放| 日本不卡在线视频| 亚洲精品777| 欧美国产日产一区二区| 99精品国产高清一区二区| 9丨情侣偷在线精品国产| 九九热视频精品在线| 亚洲国产中文欧美在线人成大黄瓜| 91丝袜在线观看| 天天躁夜夜躁狠狠躁图片| 国产精品太粉嫩高中在线观看| 国产乱人免费视频|