999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的場景文本檢測與識別①

2021-09-10 07:31:34宮法明劉芳華李厥瑾宮文娟
計算機系統應用 2021年8期
關鍵詞:文本區域檢測

宮法明,劉芳華,李厥瑾,宮文娟

1(中國石油大學(華東) 計算機科學與技術學院,青島 266580)

2(山東電子職業技術學院 教務處,濟南 250200)

近年來,在場景圖像中瀏覽文本,因為其廣泛的實際應用,如圖像/視頻理解、視覺搜索、自動駕駛、盲輔助等,成為一個活躍的研究領域.場景文本檢測作為場景文本讀取的關鍵組成部分,對每個文本實例的邊界框或區域進行定位仍然是一項具有挑戰性的任務,因為場景文本往往具有各種尺度和形狀,包含水平文本、多取向文本和彎曲文本.基于分割的場景文本檢測由于其在像素級上的預測結果,可以描述各種形狀的文本,因此近年來受到了廣泛的關注.然而,大多數基于分割的方法需要復雜的后處理,在推理過程中造成了相當大的時間開銷.

針對文本識別問題,傳統的文本識別方法[1-3]適應性差、需要分離訓練目標,導致麻煩的預分割和后處理階段.在計算機行業飛速發展的今天,自動處理算法逐漸成熟,文本檢測和識別算法[4-7]的準確度都大大提升.近年來出現的CTC[8](Connectionist Temporal Classification)和注意力顯著緩解了這種訓練問題,但這兩種識別模型算法實現很復雜,可能會導致訓練成本增高并降低了識別準確率.

本文的貢獻在于提出了一種復雜場景下文本檢測和識別的新方法,記為TDRNet (Text Detection and Recognition Net).在原本檢測和識別網絡的基礎上加以改進,采用更高效的特征提取網絡,在文本區域檢測網絡中加入可微二值化進行優化,大大簡化了后處理過程.在文本識別網絡中,使用聚合交叉熵損失函數解決序列了識別問題,對CTC和注意力機制具有競爭性能,提高了檢測和識別性能.本文將文本定位網絡和文本識別網絡結合提高識別準確率,取得了較好的性能.該方法能有效地檢測和識別任意文本實例,具有很好的實用性.

1 相關工作

文本識別通常包含3 個部分:首先進行圖像預處理,緊接著進行文本檢測,最后進行文本識別.為了使圖像被檢測或掃描,通常需要對輸入圖像進行捕獲、二值化、平滑等處理,對輸入圖像進行校正,并根據文本大小對圖像進行裁剪.編輯圖像后,我們可以對文本進行檢測了.

近年來,文本檢測技術的研究取得了長足的進展.傳統的特征提取方法大多采用人工,在深入研究計算機視覺任務之后,文本檢測逐漸轉向基于深度的學習方法.目前基于深度學習方法包含兩大類:一種是從目標探測發展而來的,例如基于候選字段的文本檢測,其基本構想是基于默認框架集創建一系列候選文本框,再進行一系列調整、篩選,最終通過非極大抑制NMS(Non-Maximum Suppression)得到最終的文本邊界框,例如為文本檢測而設計TextBoxes[9]、SegLink[10]等網絡結構模型;一個是從語義分割發展而來的,例如基于圖像分割的文本檢測.其想法是分割網絡結構,達到像素的語義分區,然后根據分割的結果構建一個文本行.例如PixelLink[11]和FTSN[12],會 生成分段映射,然后在接下來的編輯之后,最終得到文本限制字段.這種方法可以準確定位文本位置,提高自然場景圖像中文本檢測的準確性,但是他們的后處理算法導致了思維速度的下降.文本識別又分為兩種識別方法,包括單字符識別和行識別.以往的文本識別是采用K 近鄰的方法識別單字符,在實時度要求高的系統中不適合這種計算量很大的方法.通過廣泛應用深層學習方法,出現了許多基于深入學習的優秀識別模型,大大提高了單字符識別的精度.現在主要使用文本行識別.有兩個主要的方法是為了識別文字,在最近的兩年里取得了更好的結果,分別是:CRNN OCR (Convolutional Recurrent Neural Network Optical Character Recognition)和Attention[13]OCR.這兩種方法在其特征學習階段都采用了CNN+RNN的網絡結構,CRNN 在對齊時采用了CTC算法,而Attention OCR 采用了注意力機制.但是,這些方法會導致很多計算和內存消耗.因此,解決后處理的繁瑣問題的方法成為了緊急問題.

2 文本檢測識別框架

本章詳細介紹了基于深度學習的場景文本識別方法.總體設計思路是先對整個圖像進行分割,然后通過閾值跟蹤分割結果,得到處理后文本區域的位置.利用位置信息對文本區域進行切割,并將裁剪后的文本區域發送到文本識別網絡中進行識別以得到結果.整個方法由兩部分組成:文本區域檢測器TLDNet (Text Location Detection Net)和文本區域識別網絡TRNet(Text Recognition Net).

2.1 文本區域定位網絡

識別的準確性取決于定位的準確性,所以確保文本區域定位的準確性尤為重要.為了確保文本區域定位網絡的準確性,本文在PSENet[14]的基礎上對其進行改進:(1)采用更高效的特征提取網絡來保證分類的準確性.(2)插入一個可微二值化[15]操作放到分割網絡里來一起優化,更能區分前景和背景.通過該兩方面的改進,確保了文本定位的準確性.

TLDNet中的骨干網絡采用了類似于FPN[16]和UNet的思路,因為ResneXt 相比ResNet 網絡結構更簡單,可以防止對于特定數據集的過擬合,而且更簡 單的網絡意味著在用于自己的任務的時候,自定義和修改起來更簡單,需要手動調節的參數少.與ResNet 相比,相同的參數個數,ResneXt 結果更好,且計算量少.因此將該網絡ResNet[17]換成ResneXt-101[18],然后將不同尺度的特征圖進行融合來讓最終進行回歸的特征圖獲得不同尺度的特征信息和感受野以處理不同尺寸大小的文字實例.接下來由骨干網絡輸出的特征圖得到一個分隔圖和一個閾值圖,二者由可微分的二值化而得到二值化圖,最后經過一系列后處理得到文本區域.網絡結構如圖1所示.

圖1 字符區域定位網絡結構圖

ResneXt-101中每個卷積組由卷積層,池化層,激活層構成,該網絡含有5 個卷積組,卷積組2-5 借鑒了GoogLeNet[19]的卷積范式split-transform-merge 思想,在大卷積核兩層加入1 ×1的卷積,控制核個數的同時減少參數個數.相比如Resnet 結構簡明,大大降低了參數,計算量小,提高了速度和精度.

輸入的圖像經過不同層的采樣之后獲得不同大小的特征圖,之后由這些特征圖構建特征金字塔,從而構建出統一尺度的特征圖F.這個特征圖用于預測分割概率圖P與閾值圖T,之后將P,T結合得到估計的二值圖.在訓練的時候P,B是使用同樣的表現作訓練,而T會使用單獨的閾值圖作訓練.對于分割特征圖P∈RH×W,使用下面的方式進行二值化處理:

在以往基于分割的文字檢測方法中,大部分都會采用預設的閾值進行二值化用來處理網絡輸出的分割圖,不能隨著訓練過程再分割網絡進行優化.所以實驗中引入了可微分的二值化函數,將二值化過程嵌入到網絡中實現了優化.F是生成的近似二值圖,T是生成的閾值特征圖,k是放大倍數.通過這樣的方式可以有效地將文本區域與背景區域分離,還可以減少文本之間重疊的情況.

本文中在閾值圖上應用了邊界的監督并將閾值映射作為二值化的閾值.利用對概率圖映射按固定的閾值進行二值化,得到二值映射,進而由二值映射縮小文本區域,最后利用偏移裁剪算法對縮小后的區域進行擴張得到最終的文本位置.

2.2 文本識別網絡

本文的文本識別網絡借鑒了文獻[20]的方法,可將網絡視為編解碼器結構,編碼器由特征提取網絡DenseNet[21]和雙向長短時記憶網絡(BiLSTM)[22]構成;引入聚合交叉熵損失(ACE)[23]的長短時記憶網絡(LSTM)組成解碼器.網絡結構如圖2所示.ResNet是每個層與前面的某層短路連接在一起,連接方式是通過元素級相加.而在DenseNet中,每個層都會與前面所有層都相連,即每層的輸入,在前面的所有層的輸出都相連.相比ResNet,這是一種密集連接.DenseNet是直接連接來自不同層的特征圖,這可以實現特征重用,提升效率.

圖2 字符識別網絡結構圖

雙向長短記憶網絡有兩個LSTM 組成,能夠同時利用過去時刻和未來時刻的信息,本文將兩個LSTM組成的方式由連接改為結合,提高識別的準確率.解碼器由加入聚合交叉熵損失(ACE)的長短時記憶網絡構成.長短時記憶網絡(LSTM)的長期存儲功能是有限的.如果序列信息特別長,經過多層之后,初始信息就會丟失.可以通過引入注意力機制重新計算得到當前時刻的特征,但需要復雜的注意力來幫助注意力機制實現其功能,進而產生額外的參數和時間,特別是對于較長的輸入序列,缺失或多余的字符很容易導致錯位問題,混淆和誤導訓練過程,從而降低識別準確度.聚合交叉熵損失可以沿時間維度聚合每一個列別的概率,并將累積的結果和標簽標準化為所有類別的概率分布,最后使用交叉熵來比較這兩個概率的分布,從而降低識別準確度.本文將聚合交叉熵損失代替注意力機制,只需要計算各類別字符出現次數,不用考慮特征的順序,識別速度更快.通過要求網絡精確預測標注中每個類的字符數來最小化一般損失函數,計算公式如下:

其中,|C|表示類別數,P(Nk|k,I;w)表示在圖像I的預測結果中,第k個類別的字符出現的次數等于標簽中給定次數Nk的條件概率.

本文通過CNN+BiLSTM 得到的特征序列維度為(T×K),其中T為序列長度,K為字符類別數,本文定義輸出的特征序列張量為Y,第t個時刻的特征向量為yt,第t個時刻第k個類別的預測概率為ytk.整個字符序列中所有位置第k個類別出現的總概率為

本文從回歸問題的角度調整損失函數,計算公式如下:

式中,T表示預測文本長度,|S|表示標簽文本長度,本文用 (T-|S|) 表示字符串中空白字符的個數,即N∈=T-|S|.

為了防止梯度消失問題,本文把第k個字符yk的累計概率標準化為=yk/T,把字符數量Nk標準化為然后,在yˉ和Nˉ 之間的交叉熵可以表示為:

LSTM 在最后輸出的概率矩陣中利用貪心搜索的方法獲得最終的文本字符序列.

3 實驗分析

3.1 實驗準備

本文使用了MSRA_TD500、TotalText和CTW1500三個數據集進行實驗.MSRA_TD500是一個包含英語和漢語的多語言數據集.CTW1500是一個聚焦于彎曲文本的數據集.Total-Text是一個數據集,其中包含各種形狀的文本,包括水平的、多取向的和彎曲的.這3 個數據集包含了中文和英文的數據集共6 萬張,用于文字檢測和識別.將每個數據集,按照5:1的比例分成訓練集和測試集.

3.2 實驗設計

訓練文本區域檢測模型:本文首先用隨機選取的3 個數據集中的5 萬張圖片進行預訓練,然后,本文在相應的其他數據集上進行調整,訓練時,批大小設為16,初始學習效率設為0.007.為了提高訓練效率,所有處理后的圖像都被重新調整為640×640,在推理階段,本文保持測試圖像的高寬比,并通過為每個數據集設置合適的高度來重新調整輸入圖像的大小,獲得最終模型.

訓練文本識別模型:將5 萬張圖片中裁剪下來的包含文本的數據集進行微調后進行了訓練,對于不規則數據集上的序列識別,本文的實驗基于DenseNet 網絡,其中conv1 變為4×4,步長為1,conv4_x 作為輸出,并使用ACE 損失函數最終得到文本識別模型.

3.3 主干網對比分析

隨著神經網絡層數的增多,則對輸入圖像提取的特征將會更加抽象,這是因為后層神經元的輸入是前層神經元的累加和,而特征的抽象程度越高,更有利于后期的分類任務或回歸任務.但要提高模型的準確率,都是加深或加寬網絡,但是隨著超參數數量的增加,網絡設計的難度和計算開銷也會增加.ResneXt 特征網絡增加了基數且用平行堆疊相同拓撲結構的blocks 代替原來 ResNet的三層卷積的block.在不明顯增加參數量級的情況下提升了模型的準確率,同時由于拓撲結構相同,超參數也減少了.

因此本文采用了更高效的特征提取網ResneXt-101 作為主干網絡提高分類效果,為了更好的證明該文本檢測網絡的性能,并在大規模TotalText 數據集上進行測試.事實證明,以ResneXt 作為主干網絡的檢測器比ResNet 性能更好,且更深的神經網絡可以提高大規模圖像分類和目標檢測的性能.如表1所示.在相同的設置下,將主干網絡由ResNet-50 改為ResneXt-50 性能從78.2%改善到83.6%,提高了5.2%,本文又將主干深度從50 提高到101,通過對比可以明顯性能從83.6%改善到85.8%,提高了2.3%.綜合發現本文的選取ResneXt-101 作為文本檢測的主干網絡在精度和速度上都達到了最先進的性能.

表1 檢測框架中不同主干網絡結果

在文本識別網絡框架中采用了DenseNet 作為骨干網絡.如表2所示,與之前的主干網絡相比,DenseNet在準確率上略好與之前最好的結果.

表2 識別框架中不同主干網絡結果

3.4 獨立性對比分析

為了驗證實驗中字符順序的獨立性與識別網絡使用的聚合交叉熵損失的關系,本文使用聚合交叉熵,CTC和注意力在3 個數據集上進行實驗.將標注的字符順序按照不同的比例隨機打亂,如圖3所示.可以發現,ACE的性能隨打亂比例的增加基本保持不變,而注意力和CTC的性能在不斷下降.所引入的ACE 損失函數對于打亂的字符順序識別結果基本一致.

圖3 ACE,CTC和注意力性能對比圖

3.5 實驗結果對比

檢測與識別是判別是否達到要求的重要條件.由于圖片太多,不利于展示,本文選取幾張代表性圖片用于結果展示.

本文將改進前后的檢測網絡進行了可視化比較,圖片4 左側是PSENet的部分檢測結果,可以看出有漏檢以及錯誤的定位現象.圖4右側是加入了可微二值化后的部分檢測結果,比較明顯的看出,本文提出文本區域定位網絡TLDNet 可以很好的定位出復雜的曲線文本位置.

圖4 文本區域定位結果對比圖

我們在兩個數據集上對本文改進后的方法和之前的方法進行了比較,如表3所示,文本的方法在精度和速度上都達到了最優.具體來說,本文的提出方法在TotalText和CTW1500 數據集上的表現比之前的方法要好.文本的方法比PSENet 方法要快,并且可以通過使用ResneXt 主干進一步提高速度.在表3中文本區域定位網絡TLDNet的準確率在兩個數據集上比PSENet高2.4%和3.4%,但自然場景采集的圖片由于采集環境等因素造成圖片的模糊、反光等現象,進而導致漏檢和定位不準確的現象發生,本文的方法可以有效緩解該現象,但不能完全消除.本文可以保證在干凈明亮采集環境下獲取清晰的圖片,可以從本質上防止上述現象的發生.

表3 TotalText和CTW1500 數據集的檢測結果(%)

本文將檢測后的圖片輸入到文本識別模型中,得到如圖5的識別結果.圖5右側為識別正確的效果圖.圖5左側為識別錯誤的效果圖,由此結果可以發現文本區域的定位直接影響文本識別的準確性,在確保定位準備的條件下,基本能夠正確識別文本信息.

圖5 文本識別效果圖

對于不規則的場景文本,本文提供了和以前注意力機制方法進行的比較,如表4所示,所加入的ACE損失函數在數據集TotalText和CTW1500 上表現出優異的性能,特別是在CTW1500 上,準確率提高了8.1%.因為數據集CTW1500是專門用于彎曲文本識別的,因此,充分展示了ACE 損失功能的優勢.同時,兩個數據集中有的圖像具有非常低的分辨率,這對語義上下文建模產生了非常高的要求,本文中的識別模型在使用詞匯時獲得了最高的結果,語義上下文可以訪問.這再次驗證了所提出的ACE 損失函數的穩健性和有效性.

表4 TRNet和之前的方法比較(%)

本文采用的方法減少了訓練神經網絡模型所需要的訓練數據、計算成本等.本文實驗對預訓練模型(TDRNet)和初始模型(PSENet+Aster)的準確率進行比較,如圖6所示.

圖6 準確率對比

由表5可知,將改進前的檢測和識別網絡結合的原始模型準備率為90.3%,經改進訓練后TDRNet 模型最終達到95.6%的識別準確率.根據上述實驗結果,本文有以下結論:(1)本文將使用了更高級的特征網絡并在后處理過程中加入可微二值化的方法在準確度上優于其他方法.(2)聚合交叉熵損失對于文本識別過程中字符序列預測至關重要,具有一定的通用性.(3)將檢測和識別網絡相結合,提高了文本識別的準確性以及識別速率.

表5 網絡準確率表

識別的準確性取決于定位算法的準確性.所以在實際應用中,為了提高文本區域定位算法的準確性,盡量保證采集環境干凈明亮.

4 結束語

在本文中,我們提出了一個新的框架檢測和識別任意形狀的場景文本,其中包括采用更高效的特征提取網絡并在檢測框架中加入了可微二值化過程分割網絡,在識別框架中基于聚合交叉熵的損失函數,優化了檢測和識別器網絡結構,簡化了后處理方法,較好地滿足了復雜場景下文本定位和識別的任務要求,實驗證明,本文的方法在3 個標準場景文本基準測試中,在速度和準確性方面始終優于最新的方法.在未來,如何實現端到端的檢測和識別問題將成為下一步主要研究的工作.

猜你喜歡
文本區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 黄色网址手机国内免费在线观看| 色噜噜久久| 精久久久久无码区中文字幕| 欧美a在线视频| 成人中文字幕在线| 精品亚洲国产成人AV| 91亚洲精选| 亚洲中文无码h在线观看| 国产精品亚洲片在线va| 熟妇丰满人妻| 日韩欧美色综合| 国产精品人人做人人爽人人添| 久久精品亚洲中文字幕乱码| 国产成人乱码一区二区三区在线| 国产精品精品视频| 夜夜拍夜夜爽| a亚洲视频| 国产精品19p| 久久情精品国产品免费| 91精品在线视频观看| 成年女人a毛片免费视频| 亚洲全网成人资源在线观看| 亚洲色婷婷一区二区| 99久久精品免费看国产免费软件| 欧美精品v欧洲精品| 日韩精品高清自在线| 中文字幕人妻无码系列第三区| 538精品在线观看| 噜噜噜综合亚洲| 22sihu国产精品视频影视资讯| 777国产精品永久免费观看| 亚洲高清在线天堂精品| 成人欧美在线观看| 亚洲天堂视频在线观看免费| 青草午夜精品视频在线观看| 国产欧美专区在线观看| 中国成人在线视频| 亚洲国产系列| 欧美伦理一区| 国产白浆在线观看| 看国产毛片| 992Tv视频国产精品| 1769国产精品免费视频| 成色7777精品在线| 色偷偷男人的天堂亚洲av| 91香蕉国产亚洲一二三区| 欧美精品综合视频一区二区| 国产成人无码AV在线播放动漫| 这里只有精品在线| 久久精品午夜视频| 久久这里只有精品8| 国产乱子伦视频三区| 成人夜夜嗨| 久久精品视频一| 五月激情婷婷综合| 国产欧美日韩va| 婷婷六月激情综合一区| 久久久黄色片| 国产视频只有无码精品| 在线欧美日韩国产| 99re在线免费视频| 午夜福利无码一区二区| 亚洲视频一区在线| 中文字幕波多野不卡一区| 久久性视频| 午夜视频www| 欧美一区二区三区不卡免费| 亚洲国产成人综合精品2020| 永久在线精品免费视频观看| 久久人妻xunleige无码| 日韩无码黄色| 国产亚洲精| 第九色区aⅴ天堂久久香| 久久亚洲天堂| 伊人久久青草青青综合| 最新亚洲人成网站在线观看| 91尤物国产尤物福利在线| 欧美三级自拍| 国产欧美另类| 无码中文字幕精品推荐| 免费可以看的无遮挡av无码| yjizz国产在线视频网|