999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)TextBoxes++的多方向場景文字識(shí)別算法的研究

2019-01-23 08:15:56李偉沖
現(xiàn)代計(jì)算機(jī) 2018年36期
關(guān)鍵詞:特征檢測

李偉沖

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

0 引言

自然場景文字識(shí)別有著諸多潛在的應(yīng)用,例如文檔分析、圖像檢索、情景理解以及機(jī)器導(dǎo)航等,因此其在計(jì)算機(jī)視覺已成為一個(gè)熱點(diǎn)研究領(lǐng)域。傳統(tǒng)光字符識(shí)別技術(shù)(OCR)主要面向高質(zhì)量的文檔圖像。此類技術(shù)假設(shè)輸入圖像背景干凈、字體簡單且文字排布整齊,在符合要求的情況下能夠達(dá)到很高的識(shí)別水平。與文檔文字識(shí)別不同,自然場景中的文字識(shí)別則面臨著圖像背景復(fù)雜、分辨率底下、字體多樣、分布隨意等挑戰(zhàn),傳統(tǒng)光學(xué)識(shí)別技術(shù)在此類情況下幾乎無法被應(yīng)用。近年來基于深度神經(jīng)網(wǎng)絡(luò)(DNN)技術(shù)在圖像識(shí)別及計(jì)算機(jī)視覺各領(lǐng)域取得重大進(jìn)展,相關(guān)方法也被逐步應(yīng)用到自然場景文字識(shí)別中并大大提高識(shí)別的效率和精度。作為大量相關(guān)技術(shù)的基礎(chǔ)工作,自然場景文字識(shí)別的不斷發(fā)展和突破具有深遠(yuǎn)的研究意義和實(shí)際價(jià)值。

過去的研究通常將自然場景文字識(shí)別視為兩個(gè)按順序執(zhí)行的單獨(dú)的子任務(wù):文字檢測和文字識(shí)別。文字檢測通常使用卷積神經(jīng)網(wǎng)絡(luò)提取場景圖像特征,然后通過目標(biāo)回歸(例如文獻(xiàn)[1、2、3])或使用基于語義分割的方法(例如文獻(xiàn)[4、5])確定文字位置。而文字識(shí)別被視作序列標(biāo)簽問題,其中為了提高識(shí)別準(zhǔn)確度有些方法加入了注意力機(jī)制,例如文獻(xiàn)[6、7]。分別訓(xùn)練兩個(gè)任務(wù),會(huì)導(dǎo)致大量的時(shí)間開銷,特別是對(duì)于具有多個(gè)文字區(qū)域的圖像。此外,單獨(dú)檢測和識(shí)別不能共享卷積特征。

經(jīng)上分析,本文通過改進(jìn)TextBoxes++[1]算法,提出一種端到端可訓(xùn)練的多方向場景圖像文字識(shí)別方法(即EX-TextBoxes++)。相比兩階段文字識(shí)別方法,本文提出的方法在檢測和識(shí)別之間共享卷積特征,并通過多任務(wù)學(xué)習(xí)進(jìn)一步提高檢測和識(shí)別的精度。綜上所述,本文的主要貢獻(xiàn)如下:

(1)本文通過添加一個(gè)文字識(shí)別分支擴(kuò)展TextBoxes++算法,提出一個(gè)端到端可訓(xùn)練的多方向場景圖像文字識(shí)別算法。

(2)為了將檢測和識(shí)別統(tǒng)一到端到端管道中,并從卷積特征映射中提取定向文字區(qū)域,本文引入RoIRotate模塊。

(3)本文提出的方法在多方向文字?jǐn)?shù)據(jù)集ICDAR 2015和ICDAR 2017 MLT上進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明:本文提出的方法在以上數(shù)據(jù)集上達(dá)到先進(jìn)水平。

1 相關(guān)工作

TextBoxes++是基于SSD[9]改進(jìn)的端到端全卷積網(wǎng)絡(luò),通過四邊形或者傾斜的矩形來表示圖像中文字框,因此具有檢測任意方向文字的能力。TextBoxes++在數(shù)據(jù)集ICDAR 2015的檢測F-measure值為0.829,屬于最先進(jìn)的多方向場景文字檢測方法之一。其網(wǎng)絡(luò)結(jié)構(gòu)如下圖1所示,Conv_n#c中的k,n和#c分別表示卷積層索引,卷積單元個(gè)數(shù)和網(wǎng)絡(luò)輸出特征圖通道數(shù)。主干網(wǎng)絡(luò)繼承流行的VGG-16[10]架構(gòu),保持Conv1_1到Conv4_3,并用兩個(gè)卷積層(Conv5_1和 Conv6_1)替換最后2個(gè)全連接層。在Conv6_1之后附加另外10個(gè)卷積層(Conv7_2到Conv10_2),以及6個(gè)連接到6個(gè)中間卷積層的文字框(text-box)層。文字框?qū)拥拿總€(gè)位置預(yù)測每個(gè)默認(rèn)框的n維向量,包括文字存在分?jǐn)?shù)(2維),水平邊界矩形偏移(4維)和旋轉(zhuǎn)矩形邊界框偏移(5維)或四邊形邊界框偏移(8維)。在本文中剪除旋轉(zhuǎn)矩形邊界框偏移的維度,并添加對(duì)旋轉(zhuǎn)角度的預(yù)測。改變后的文字框?qū)拥拿總€(gè)位置預(yù)測每個(gè)默認(rèn)框的n維向量,包括文字存在分?jǐn)?shù)(2維),水平邊界框偏移(4維),四邊形邊界框偏移(8維度)和四邊形邊界框旋轉(zhuǎn)角度(1維)。在測試階段應(yīng)用非最大抑制以合并所有6個(gè)文字框?qū)拥慕Y(jié)果。網(wǎng)絡(luò)受到SSD啟發(fā),使用多尺度輸出以適應(yīng)小目標(biāo)檢測。TextBoxes++是一個(gè)僅包括卷積和池化層的全卷積神經(jīng)網(wǎng)絡(luò),因此,可以在訓(xùn)練和測試階段適應(yīng)任意大小的圖像。

圖1 TextBoxes++的網(wǎng)絡(luò)體系結(jié)構(gòu)

2 本文提出的方法

2.1 EX-TextBoxes++網(wǎng)絡(luò)結(jié)構(gòu)

如圖2所示為本文提出的網(wǎng)絡(luò)結(jié)構(gòu)(EX-TextBoxes++),由圖可知本文擴(kuò)展了TextBoxes++的網(wǎng)絡(luò)結(jié)構(gòu),添加了連接用于文字識(shí)別分支(recognition-branch)和檢測分支與識(shí)別分支的RoIRotate模塊,其中檢測分支如圖2所示。首先使用共享卷積提取圖像特征,并在檢測分支和識(shí)別分支共享特征。卷積特征經(jīng)過檢測分支輸出文字的水平邊界矩形框,四邊形邊界框及其旋轉(zhuǎn)角度。RoIRotate模塊結(jié)合檢測分支的邊界框信息提取文字區(qū)域?qū)?yīng)的卷積特征,并通過仿射變換后輸入到識(shí)別分支。由于網(wǎng)絡(luò)中所有模塊都是可區(qū)分的,因此可以對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練。

圖2 EX-TextBoxes++的網(wǎng)絡(luò)體系結(jié)構(gòu)

2.2 RoIRotate

圖3 RoIRotate作用解釋圖

RoIRotate首先由FOTS[8]提出,對(duì)定向的特征區(qū)域應(yīng)用仿射變換來獲得與坐標(biāo)軸平行的特征圖,如圖3所示。在本文中使用固定的輸出高度并保持縱橫比不變以處理不同長度的文字。RoIRotate使用雙線性插值來計(jì)算輸出值,從而避免了提取的特征之間的未對(duì)準(zhǔn)的情況。RoIRotate操作后輸出特征的長度是可變的,這更適合于大小不定的文字識(shí)別。RoIRotate仿射變換的過程可分為兩個(gè)步驟。首先,通過文字檢測分支預(yù)測的水平邊界框或真實(shí)邊界框的坐標(biāo)計(jì)算仿射變換參數(shù)。然后,對(duì)于每個(gè)區(qū)域,將仿射變換應(yīng)用于共享特征圖。由此,可獲得文字區(qū)域?qū)?yīng)的水平特征圖。第一步的公式如下:

其中M為仿射變換矩陣,wt,ht表示仿射變換后特征映射的寬高(在本文的實(shí)驗(yàn)中ht設(shè)置為8),w,h表示預(yù)測或真實(shí)的文字水平邊界框的寬高,tx,ty表示對(duì)于邊界框內(nèi)共享特征映射中的點(diǎn)的坐標(biāo),θ為文字框旋轉(zhuǎn)的角度,在測試時(shí)w,h,θ由檢測分支預(yù)測,在訓(xùn)練時(shí)取值為真實(shí)標(biāo)注值。在得到仿射變換矩陣后,利用放射變形可以輕松生成最終的水平特征,其公式如下所示:

對(duì)?i∈[1...ht],?j∈[1...wt],?c∈[1...C]有:

其中是通道 c中位置(i,j)的輸出值是通道c中位置(n,m)的輸入值。h,w表示輸入的高度和寬度,Φx,Φy表示普通的采樣核k()的參數(shù),其定義了插值的方法。由于提取文字區(qū)域特征的寬度大小可能不同,因此本文使用最長寬度進(jìn)行填充,對(duì)于小于最長寬度的部分填充0,而在識(shí)別時(shí)損失函數(shù)中則忽略補(bǔ)0的部分。

一節(jié)課的回顧總結(jié)同樣也是一個(gè)提升學(xué)生數(shù)學(xué)交流的重要環(huán)節(jié)。教師引導(dǎo)學(xué)生回顧總結(jié),喚起學(xué)生對(duì)整節(jié)課內(nèi)容的回憶,幫助他們整理學(xué)習(xí)過程,理清新內(nèi)容與舊知識(shí)之間的聯(lián)系,讓學(xué)生體會(huì)到學(xué)習(xí)數(shù)學(xué)的快樂。讓學(xué)生談收獲與感受,有意識(shí)地交流,在交流中不斷進(jìn)步。

2.3 文字識(shí)別分支

表1 文字識(shí)別分支網(wǎng)絡(luò)結(jié)構(gòu)

文字識(shí)別分支旨在使用從共享卷積特征提取的,并由RoIRotate仿射變換的文字區(qū)域特征來預(yù)測文字標(biāo)簽,其網(wǎng)絡(luò)結(jié)構(gòu)如上表1所示,其中conv_bn_relu表示依次經(jīng)過卷積,批量正則和ReLU函數(shù)激活的卷積單元,height_max_pool表示僅沿高度軸減小特征尺寸。首先,經(jīng)過仿射變換的水平空間特征圖依次通過卷積和池化。然后,將提取更高層的特征圖L∈RC×H×W從寬度方向展開轉(zhuǎn)換為時(shí)間序列l(wèi)1...lw∈RC×H,并饋入雙向RNN進(jìn)行編碼。本文使用雙向LSTM,每個(gè)方向256個(gè)維度,以捕獲輸入特征間的長短依賴。接著,將在兩個(gè)方向的每個(gè)時(shí)間步長的隱藏狀態(tài)h1...hw∈RD相加并饋入|S|維的完全連接網(wǎng)絡(luò),其中|S|表示字符字典中字符的個(gè)數(shù)。完全連接網(wǎng)絡(luò)每個(gè)節(jié)點(diǎn)輸出每個(gè)狀態(tài)在字符類S上的分布xt∈R|S|。最后,CTC(Connectionist Temporal Classification)[14]用于將網(wǎng)絡(luò)輸出的分類分?jǐn)?shù)轉(zhuǎn)換為標(biāo)簽序列。對(duì)于給定每個(gè)狀態(tài)ht在字符類S上 的 概 率 分 布xt,及 真 實(shí) 標(biāo) 簽 序 列y*={y1,...,yT},T≤W,標(biāo)簽y*的條件概率是所有路徑π的概率之和,可表示為下式:

其中β定義了從具有空白和重復(fù)標(biāo)簽到y(tǒng)*的可能標(biāo)記集合中的多對(duì)一映射。訓(xùn)練階段文字識(shí)別損失就是對(duì)于整個(gè)訓(xùn)練集取公式(4)的最大似然。本文采用文獻(xiàn)[14]的損失函數(shù)如下式:

其中N為輸入圖像中文字區(qū)域的數(shù)量,y*n表示預(yù)測的字符標(biāo)簽。

2.4 損失函數(shù)

EX-TextBoxes++損失函數(shù)由檢測損失和識(shí)別損失組成,如下式:

其中Lrecog由上式(5)給出,λ為檢測和識(shí)別損失平衡因子,本文實(shí)驗(yàn)中λ取值為1。Ldetect的損失由置信度,幾何框(水平矩形框和四邊形框)和旋轉(zhuǎn)角度損失組成。更具體地,令x為默認(rèn)框和真實(shí)最小外接矩形框的匹配指示矩陣。對(duì)于第i個(gè)默認(rèn)框和第j個(gè)真實(shí)框,xij=1表示兩者重疊匹配(本文實(shí)驗(yàn)中IOU>0.5認(rèn)為重疊匹配),否則xij=0,此時(shí)幾何形狀損失為0。讓c表示置信度,l為預(yù)測位置,g為真實(shí)位置。檢測損失函數(shù)定義為:

其中N是與真實(shí)框匹配的默認(rèn)框的數(shù)量,?設(shè)置為0.2以便快速收斂。對(duì)Lloc采用平滑L1損耗[15],對(duì)Lconf采用2分類Softmax損失。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

ICDAR 2015[15]附帶的文字?jǐn)?shù)據(jù)集來自ICDAR 2015 Robust Reading Competition的挑戰(zhàn)。該數(shù)據(jù)集有1000個(gè)訓(xùn)練圖像和500個(gè)測試圖像組成。這些圖像由Google Glass以隨機(jī)的方式拍攝,因此,場景中的文字可以處于任意方向,或者具有運(yùn)動(dòng)模糊和低分辨率。ICDAR 2015提供了3個(gè)特定的單詞列表作為詞典,分別為“Strong”,“Weak”和“Generic”。“Strong”詞典每個(gè)圖像提供100個(gè)單詞,包括圖像中出現(xiàn)的所有單詞。“Weak”詞典包括出現(xiàn)在整個(gè)測試集中的所有單詞。而“Generic”詞典是一個(gè)90k字的詞匯。在訓(xùn)練中,首先使用ICDAR 2017 MLT[16]訓(xùn)練和驗(yàn)證集中的9000個(gè)圖像訓(xùn)練本文的模型,然后使用1000張ICDAR 2015訓(xùn)練集的圖像和229張ICDAR 2013[17]訓(xùn)練集圖像來微調(diào)模型。

ICDAR 2017 MLT[16]是一個(gè)大型多語言文字?jǐn)?shù)據(jù)集,包括7200張訓(xùn)練圖像,1800張驗(yàn)證圖像和9000張測試圖像。數(shù)據(jù)集由來自9種語言的自然場景圖像組成。該數(shù)據(jù)集中的文字區(qū)域可以處于任意方向,因此具有更加多樣性和挑戰(zhàn)性。該數(shù)據(jù)集沒有文字識(shí)別任務(wù),因此僅比較文字檢測結(jié)果。

3.2 實(shí)現(xiàn)細(xì)節(jié)

本文使用ImageNet[11]數(shù)據(jù)集訓(xùn)練的模型作為我們預(yù)先訓(xùn)練的模型。訓(xùn)練過程包括兩個(gè)步驟:首先使用Synth800k數(shù)據(jù)集[12]訓(xùn)練網(wǎng)絡(luò)10次,然后采用對(duì)應(yīng)的實(shí)驗(yàn)數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)直到收斂,如3.1小節(jié)所述。數(shù)據(jù)增強(qiáng)能增強(qiáng)網(wǎng)絡(luò)的魯棒性,本文使用了與文獻(xiàn)[8]類似的數(shù)據(jù)增強(qiáng)方式。首先,圖像的較長邊從640像素到2560像素調(diào)整大小。接著,圖像隨機(jī)旋轉(zhuǎn)-10°到10°。然后,圖像的高度以0.8到1.2的比例隨機(jī)縮放,同時(shí)寬度保持不變。最后,從變換的圖像中裁剪640×640個(gè)隨機(jī)樣本。為了解決目標(biāo)的不均衡分布問題,本文采用Hard Negative Mining處理訓(xùn)練圖像[13]。更確切地說,對(duì)相應(yīng)數(shù)據(jù)集的訓(xùn)練分為兩個(gè)階段。第一階段的負(fù)數(shù)和正數(shù)之間的比例設(shè)定為3:1,然后第二階段的比例變?yōu)?:1。

本文的實(shí)驗(yàn)在配備單個(gè)Titan Xp GPU的PC上使用TensorFlow框架完成。使用Adam[18]對(duì)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練。為了加快訓(xùn)練速度,取最小批量的大小為24,學(xué)習(xí)率從1e-3開始,每訓(xùn)練27300個(gè)小批量學(xué)習(xí)率衰減十分之一,最終停在1e-5。在訓(xùn)練階段輸入文字識(shí)別分支的幾何框和角度為真實(shí)標(biāo)簽值。在測試階段輸入文字識(shí)別分支的幾何框和旋轉(zhuǎn)角度為文字檢測分支預(yù)測的并經(jīng)過NMS提取的結(jié)果。

3.3 實(shí)驗(yàn)結(jié)果分析

圖4-5為EX-TextBoxes++的部分測試樣例,可以看出EX-TextBoxes++能夠處理各種具有挑戰(zhàn)性的場景,例如非均勻照明、低分辨率、任意方向和透視失真。

圖4 EX-TextBoxes++在ICDAR 2015數(shù)據(jù)集上的測試樣例

圖5 EX-TextBoxes++在ICDAR 2017 MLT數(shù)據(jù)集上的測試樣例

圖6

表2-3分別為在ICDAR 2015和ICDAR 2017 MLT數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)結(jié)果,單位為百分比,其中“P”,“R”,“F”分別代表精度,召回率和 F-measure。“S”,“W”,“G”分別表示對(duì)應(yīng)數(shù)據(jù)集的“Strong”,“Weak”和“Generic”的 F-measure。ICDAR 2017 MLT沒有文字識(shí)別任務(wù),因此僅比較文字檢測結(jié)果。在ICDAR 2015數(shù)據(jù)集的文字檢測上本文提出的方法優(yōu)于其他先進(jìn)的單步檢測方法,對(duì)此本文給出如下解析:如圖6(b)所示為錯(cuò)誤識(shí)別的結(jié)果。由于網(wǎng)絡(luò)共享卷積特征,識(shí)別誤差通過反饋傳播輔助檢測的修正。而在ICDAR 2015數(shù)據(jù)集的端到端的識(shí)別任務(wù)和ICDAR 2017 MLT的檢測任務(wù),本文的方法效果不如FOTS,但是優(yōu)于其他先進(jìn)的方法。經(jīng)過分析,F(xiàn)OTS采用實(shí)例分割的方法進(jìn)行檢測,在對(duì)小文字的檢測上優(yōu)于本文采用的基于區(qū)域建議框的目標(biāo)回歸方法。綜上分析,本文提出的方法在端到端文字識(shí)別上達(dá)到先進(jìn)水平,而在檢測方面優(yōu)于其他先進(jìn)的單步檢測方法。

表2 在ICDAR 2015數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)結(jié)果

表3 在ICDAR 2017 MLT數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)結(jié)果

4 結(jié)語

本文通過改進(jìn)目前先進(jìn)的多方向場景文字檢測算法TextBoxes++,提出一個(gè)統(tǒng)一的端到端可訓(xùn)練的多方向文字識(shí)別方法,用于文字的同時(shí)檢測和識(shí)別。為了適應(yīng)多方向文字的識(shí)別,在TextBoxes++文字檢測分支添加了對(duì)四邊形文字框角度的預(yù)測;并且通過添加文字識(shí)別分支擴(kuò)展TextBoxes++的網(wǎng)絡(luò)結(jié)構(gòu),用于文字的識(shí)別;最后本文引入RoIRotate以在檢測和識(shí)別之間共享卷積特征。在公開數(shù)據(jù)集ICDAR 2015和ICDAR 2017 MLT上的實(shí)驗(yàn)證明本文提出的方法的有效性。

猜你喜歡
特征檢測
抓住特征巧觀察
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
主站蜘蛛池模板: 国产成人高精品免费视频| 国产人前露出系列视频| 国产成人综合亚洲网址| 2021天堂在线亚洲精品专区| 国产第一页免费浮力影院| 午夜无码一区二区三区| 美女被操黄色视频网站| jijzzizz老师出水喷水喷出| 色视频国产| 高清不卡一区二区三区香蕉| 99久久精品美女高潮喷水| 一级黄色网站在线免费看| 国产原创演绎剧情有字幕的| 18禁色诱爆乳网站| 无码区日韩专区免费系列 | 国产一在线| 中美日韩在线网免费毛片视频| 久久久国产精品免费视频| 久久精品无码国产一区二区三区| 视频国产精品丝袜第一页| 97久久超碰极品视觉盛宴| 中文无码毛片又爽又刺激| 精品视频在线观看你懂的一区| 精品无码人妻一区二区| 国产91无毒不卡在线观看| 国产午夜无码专区喷水| 日韩最新中文字幕| 亚洲国产一成久久精品国产成人综合| 扒开粉嫩的小缝隙喷白浆视频| 91综合色区亚洲熟妇p| 91午夜福利在线观看精品| 亚洲女人在线| 精品欧美一区二区三区在线| 国产69精品久久久久妇女| 国产精品嫩草影院av| 九色综合伊人久久富二代| 熟妇丰满人妻av无码区| 九九热免费在线视频| 精品無碼一區在線觀看 | 香蕉eeww99国产在线观看| 青青久视频| 秋霞午夜国产精品成人片| 女人av社区男人的天堂| 欧美午夜性视频| 欧美日韩午夜| 国产精品亚洲五月天高清| 香蕉综合在线视频91| 熟妇人妻无乱码中文字幕真矢织江| 91精品视频播放| 国产一区在线视频观看| 国产91高清视频| 亚洲天堂视频在线播放| 亚洲国产成人综合精品2020 | 一级一级一片免费| 在线免费a视频| 91丨九色丨首页在线播放 | 久久国产成人精品国产成人亚洲| 天天做天天爱夜夜爽毛片毛片| 免费看美女毛片| 色男人的天堂久久综合| 久久夜色精品国产嚕嚕亚洲av| 日本高清免费一本在线观看| 亚洲品质国产精品无码| 午夜激情婷婷| 久久精品波多野结衣| 国产成人免费观看在线视频| 亚洲精品爱草草视频在线| 久久久亚洲色| 亚洲综合经典在线一区二区| 国产精品浪潮Av| 依依成人精品无v国产| 亚洲色图在线观看| 国产jizz| 亚洲午夜国产片在线观看| 亚洲另类国产欧美一区二区| 日韩国产黄色网站| 欧美日本在线| 久久黄色一级片| 国产麻豆另类AV| 欧美自拍另类欧美综合图区| 九九线精品视频在线观看| 亚洲成人播放|