辜雙佳 栗智
摘??要:中文場景文字識別(STR)是光學字符識別(OCR)技術的重要研究方向,在拍照翻譯、無人駕駛等領域廣泛應用。但是,中文場景下的文字面臨著字體和字符種類多、文字背景復雜等問題。本文著眼于“中國街景”圖像,基于CRNN模型提出了一種免分割、端到端的中文場景文字識別方法。首先CNN提取圖像卷積特征,然后RNN進行序列特征預測,其中Bi-GRU有效抑制梯度消失或梯度爆炸,Dropout可以防止過擬合,最后引入CTC作為損失函數解決訓練時字符無法對齊的問題。本文用Python實現了算法,以較好的效果完成了實驗。
關鍵詞:中文OCR;CRNN;免分割;端到端;中國街景
Chinese?Scene?Text?Recognition?based?on?CRNN?model
Gu?Shuangjia1?Li?Zhi21.School?of?Computer?Science?and?Engineering,?Chongqing?University?of?Technology??Chongqing400054?2.School?of?Computer?Science,?Chongqing?UniversityChongqing???400044
Abstract:?Chinese?scene?character?recognition?(STR)?is?an?important?research?direction?of?optical?character?recognition?(OCR)?technology,?which?is?widely?used?in?the?fields?of?photo?translation?and?unmanned?driving.?However,?the?characters?in?Chinese?scene?are?faced?with?many?problems,?such?as?many?types?of?fonts?and?characters,?complex?text?background?and?so?on.?This?paper?focuses?on?the?"Chinese?street?view"?image,?and?proposes?a?segmentation?free,?end-to-end?Chinese?scene?text?recognition?method?based?on?crnn?model.?Firstly,?CNN?extracts?image?convolution?features,?and?then?RNN?performs?sequence?feature?prediction.?Bi?Gru?can?effectively?suppress?gradient?disappearance?or?gradient?explosion,?dropout?can?prevent?over?fitting.?Finally,?CTC?is?introduced?as?a?loss?function?to?solve?the?problem?that?characters?cannot?be?aligned?during?training.?In?this?paper,?Python?is?used?to?implement?the?algorithm,?and?the?experiment?is?completed?with?good?effect.
Keywords:?Chinese?OCR;?CRNN;?No?split;?End-to-End;?Chinese?street?scene
緒論
背景及意義
圖像和視頻中的文字包含了豐富而精確的高層語言描述,準確有效地提取這些文字信息在多媒體檢索、人機交互、機器人導航和工業自動化等領域具有重要的應用[1]。中國是一個世界性的大國,中文字符種類繁多,有篆書、楷書、行書等多種字體,如圖1所示。
目前CVPR、ICCV、ECCV?等國際頂級會議,已將場景文字檢測與識別列為其重要主題之一,場景文字檢測與識別技術廣泛運用在圖片搜索和無人駕駛[2]等方面,是當前研究的一個前沿課題。場景文字識別(STR,?Scene?Text?Recognition)是在各種復雜情況下將圖像輸入翻譯為自然語言輸出,需要包括文字檢測和文字識別兩個步驟,文字檢測即發現文字的位置和范圍,文字識別即將文字區域轉化為字符信息。如圖2所示。
在實際應用中,?場景文字的檢測和識別往往串聯在一起,能同時檢測到文字位置并對其進行識別的方法被稱為“端到端”文字識別方法[3]。由于中文場景中存在背景干擾、字體模糊、遮擋等多種復雜情況,如圖4所示,中文場景文本識別面臨更多的挑戰。
近幾年,國內外大量的專家學者們也關注到了這個方面。Wang[4]等最早提出用深度學習的方法實現文字檢測,用卷積神經網絡對每一處滑動窗進行分類。但這類方法算法復雜度高又不能夠完全實現端到端的訓練和測試。Zhou等[5]提出支持多方向文字定位的EAST網絡,該方法可以檢測各個方向的文字,但是對較長文字檢測效果不佳,感受野不夠長。杜薇[6]等人在驗證碼識別研究中指出字符分割有很明顯的弊端,如在文字重疊度高且文字結構不規范時分割難度較大,準確率低、效率低等問題。
研究內容
綜上,本文立足于“中國街景”,基于CRNN模型對圖像進行無分割、端到端的識別。CRNN并不像傳統的字符識別算法那樣對整行的字符串進行分割后單字識別,而是直接整行循環卷積識別。這樣就大大提高了識別正確率[7]。同時,訓練集的標注也更加簡單,以行為單位進行文字標注[8]。
CRNN模型對街景圖像中不定長度的字符串進行識別,該模型將整行文字作為一個文本單元,對圖像區域中的文字行進行預測,返回文字行的內容,直接端到端識別這個單元內的文字序列。首先CNN提取圖像卷積特征,然后RNN進一步預測圖像卷積特征中的序列特征,其中Bi-GRU有效抑制梯度消失或梯度爆炸,Dropout可以防止過擬合,最后引入CTC損失函數解決訓練時字符無法對齊的問題。我們用Python實現了算法,在飛漿平臺上完成了實驗,提交結果表明該模型具有良好的正確識別率。
CRNN模型
卷積循環神經網絡(CRNN,?Convolutional?Recurrent?Neural?Network)是一種新型的深度神經網絡模型,將CNN、RNN和CTC三個模塊有機結合。CRNN網絡結構如圖5所示。
其中卷積層CNN針對背景復雜的輸入圖像“母嬰用品”,提取圖像卷積特征,得到特征圖(feature?map)。循環層RNN對CNN輸出的每一幀特征序列進行預測,其中Bi-GRU有效抑制梯度消失或梯度爆炸,Dropout可以防止過擬合,RNN輸出未對齊的預測標簽序列“母-嬰嬰-用用用-品”。最后經過損失函數CTC獲取最大概率,對齊字符并輸出標簽序列“母嬰用品”。
CNN
卷積神經網絡(CNN,?Convolutional?Neural?Network)是第一個多層神經網絡結構學習的算法,具有很強的魯棒性和抗干擾性。CNN由輸入層、卷積層、激活層、池化層、全連接層以及輸出層構成[9]。
(1)卷積層。CNN的核心,用于提取特征,卷積核對圖像像素進行卷積,計算卷積核和圖像像素之間的點積產生輸出特征圖[10]。
(2)激活層。CRNN采取了ReLu函數作為激活函數。ReLu函數具有寬的激活區域,
并且單側移植,稀疏激活,緩解網絡的過擬合[11]。
(3)池化層。池化層進一步細化特征,保留主要特征,舍棄冗余特征。CRNN采取了最大值池化,它用大小為?2*2?的矩陣傳遞擁有最多特定屬性的像素[12]。
(4)全連接層。全連接層內的每一個神經元都與之前層每一個神經元相連可以接收
到之前層所有的局部信息。
本模型中,輸入圖像為(Height,Width,Channel),其中Height=48,Channel=3。CNN提取輸入圖像的卷積特征圖,維度從3維擴充到512維,維度增加有利于表達特征。
RNN
循環神經網絡(RNN,?Recurrent?Neural?Network)能夠訪問上下文信息,因此適合序列標記任務[13],廣泛應用于自然語言處理(NLP)中。對于本文要解決的中文場景文字識別問題,RNN能夠解決了不定長度中文文字識別的問題。
Bi-GRU。門控循環單元(GRU,?Gated?Recurrent?Unit)能夠有效捕捉長序列之間的語義關聯,緩解梯度消失或梯度爆炸現象。GRU的核心結構分為兩個部分:更新門和重置門。雙向門控循環單元(Bi-GRU,?Bi-directional?Gated?Recurrent?Unit)在隱藏層引入額外的一層神經單元,保證了同時處理上下文的能力。本文使用了Bi-GRU模型,在捕捉長序列語義關聯時,?能有效抑制梯度消失或爆炸。
Dropout
Dropout是Hinton[14]提出的,訓練神經網絡模型時,如果訓練樣本較少,容易出現過擬合,Dropout可以暫時移除神經網絡中的單元,進而防止過擬合。圖8為沒有用Dropout的標準神經網絡和應用了Dropout的神經網絡。
CTC模型。連接時序分類(Connectionist?Temporal?Classification,?CTC)也叫連結主義時間分類,用來解決輸入序列和輸出序列難以一一對應的問題。CTC將循環層輸出的每幀預測結果概率值轉換成標簽序列進行輸出,使得輸入序列和輸出序列對齊。數學模型上,CTC可以看作根據輸入的每幀預測信息,尋找具有最高概率的標簽序列進行輸出[15]。CTC的損失函數[16]定義為:
![]()
實驗
本次實驗的“中國街景”圖像來自飛漿平臺,共33萬張圖片,其中21萬張圖片作為訓練集,12萬張作為測試集。圖像經過一些預處理,將文字區域利用仿射變化,等比映射為一張高為48像素的圖片。最終實驗準確率達到78.87%。
結語
本文立足于“中國街景”,基于CRNN模型進行無分割、端到端的識別,將街景圖像中的整行不定長度的文字作為一個文本單元,對圖像區域中的文字行進行預測,返回文字行的內容。我們計劃下一步從參數上入手,進一步提高正確識別率。
參考文獻:
[1]YE?Q?X,?DAVID?D.?Text?Detection?and?Recognition?in?Imagery:?A?Survey[J].?IEEE?transactions?on?pattern?analysis?and?machine?intelligence,?2015,?37(7).
[2]趙逸群,劉富,康冰.基于車牌檢測的前方車輛識別方法[J].吉林大學學報:信息科學版,?2019,?37:168.
[3]白翔,楊明錕,石葆光,廖明輝.基于深度學習的場景文字檢測與識別[J].中國科學:信息科學,?2018,?48(05):?531-544.
[4]WANG?T,?WU?D?J.?COATES?A,?et?al.?End-to-End?Text?Recognition?with?Convolutional?Neural?Networks.?2012?International?Conference?on?Pattern?Recognition(?ICP?R?2012),?2012.
[5]ZHOU?X,?YAO?C,?WEN?H,?et?al.?EAST:?An?Efficient?and?Accurate?Scene?Text?Detector[J].?2017.
[6]杜薇,周武能.基于CTC模型的無分割文本驗證碼識別[J].計算機與現代化,?2018(09):?48-51.
[7]陳強,吳鍇,柏云濤.基于深度學習的車牌識別系統開發研究[J].現代計算機,?2019(35):?63-66+80.
[8]LECUN?Y,?BOTTOU?L,?BENGIO?Y,?et?al.?Gradient-based?learning?applied?to?document?recognition[J].?Proceedings?of?the?IEEE,?1998,?86(11):?2278-2324.
[9]Tan?T,?Qian?Y,?Hu?H,?et?al.?Adaptive?very?deep?convolutional?residual?network?for?noise?robust?speech?recognition[J].?IEEE/ACM?Transactions?on?Audio,?Speech,?and?Language?Processing,?2018,?26(8):?1393-1405.
[10]BOUVRIE?J.?Notes?on?convolutional?neural?networks[R].?Cambridge,?MA:?MIT,?2006.
[11]O'SHEA?K,?NASH?R.?An?introduction?to?convolutional?neural?networks[J].?arXiv?preprint?arXiv:?1511.?08458,?2015.
[12]AI?科技大本營.詳解計算機視覺五大技術[J/OL].(2018-04-19)[2019-08-03].https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/80016353.
[13]GRAVES?ALEX.?Supervised?sequence?labelling?with?recurrent?neural?networks[J].?Studies?in?Computational?Intelligence,?2008,?385(5):?37-45.
[14]Hinton?G?E,?Srivastava?N,?Krizhevsky?A,?et?al.?Improving?neural?networks?by?preventing?co-adaptation?of?feature?detectors[J].?Computer?ence,?2012,?3(4):?págs.?212-223.
[15]石鑫,?董寶良,王俊豐.基于CRNN的中文手寫識別方法研究[J].信息技術,?2019,?43(11):?141-144+150.
[16]GRAVES?A,?JAITLY?N.?Towards?end-to-end?speech?recognition?with?recurrent?neural?networks[C].International?conference?on?machine?learning,?2014:?1764-1772.
作者簡介:辜雙佳(1994—??),女,漢族,重慶人,碩士,研究方向:信息安全、深度學習。