



摘要:基于深度學習的區域定位研究,對文本區域檢測進行了介紹。同時為了提高財務系統效率,減少人為失誤率,實現良好的發票識別效果,對于發票識別算法進行了研究。因此通過定額發票為識別主體,設計了基于深度學習的定額發票識別算法進行訓練和測試,最終準確率達到96%。實驗結果表明,設計方法在實際應用中能夠達到良好的效果,減少錯誤率。
關鍵詞:深度學習;區域定位;發票識別
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)11-0098-02
隨著國民經濟健康發展與科學技術的提高,人類的經濟活動也變得更加頻繁。圖片以及文字成了記錄經濟活動的重要載體。近幾年隨著機器學習領域的深入研究,極大促進了人工智能在各種現實場景的應用。OCR技術的興起,給人們自動化地信息提取提供了極大便利。場景文字識別具有很高的研究價值[1],在實際應用的現實場景中,其應用需求包含了諸多領域,例如野外設備代碼識別,財務審核等。因此,區域定位與字符識別技術的應用研究具有重要意義。
發票識別是光學字符識別(Optical Character Recognition, OCR)技術[2]的一個應用分支。OCR的識別流程主要是通過檢測感興趣區域的圖像,對區域中所含的字符進行識別并輸出識別結果。隨著目標檢測與文字識別技術的日益成熟,無接觸與無感的圖像識別成了主流,同時也節約了工作所需的人力成本,提高勞動效率。高清攝像頭、無人機等智能終端的發展,可以隨時隨地進行區域定位、識別,在設備前端進行實時展示并存儲,實現遠距離無接觸辦公。在人文社會環境的影響下OCR識別技術研究前景廣闊,因此成了機器視覺領域和自然語言處理領域的研究熱點[3]。
1 基于深度學習的文字區域定位方法
文字區域檢測的傳統方法是根據字符之間的緊湊性以及其與背景像素具有互異性的特點定位文字區域,最終將其從初始圖像中提取出來。隨著深度學習的興起,坐標回歸算法成了目標檢測的主流,通過網絡模型學習回歸預測特征點的坐標定位文本區域。
感興趣區域檢測方法早期由Wang等[4]提出,利用尺取法多尺度地掃描圖像,再通過神經網絡對每一處掃描的圖像進行劃分,定位出感興趣區域。2014年,Huang等[5]通過區域特征提取MSER提取出文字區域,再使用卷積神經網絡進行感興趣區域的字符識別并進行字符分割,提出了與卷積神經網絡相結合的字符區域檢測模型。
近年來,文字區域定位在深度學習算法的影響下精準程度飛速提升。緊接著Faster R-CNN[6]和YOLO[7]等模型在學術界相繼提出,在保證字符提取準確度的同時,對感興趣區域進行快速定位。Ma等[8]發表的旋轉區域候選網絡--RRPN,適用于多角度方向的區域。Liao等[9]以SSD模型為理論基礎,提出了端到端訓練的TextBoxes模型,為了解決不同多尺度文字區域的檢測,該模型使用一個基于全連接的CNN。
為了深入文字區域定位領域的算法和網絡,本文基于PSEnet[10]網絡模型,在原有Resnet50上加深網絡層到101層,即網絡結構采用改進后的Resnet101+fpn作為特征提取的網絡結構。
2 數據預處理
2.1 目標檢測標注
LabelImg是基于Python的一個可視化的圖像標注程序。主流的目標檢測網絡(例如YOLO系列、SSD以及Faster R-CNN等) ,其訓練數據集都要借助此工具標注圖像中實驗所需的目標。
2.2 預處理流程
數據預處理流程如圖1所示。
3 實驗結果分析
3.1 實驗環境
本文實驗配置為Intel Xeon-Gold 5118 2.3GHz處理器,一塊Tesla V100 GPU,操作系統為LINUX CentOS-7.8,采用touch1.4開源深度學習框架作為實驗環境。數據集來源于運營商,主要類型為定額發票。
3.2 評價指標
一個算法模型的優劣主要通過相應的評價指標參數進行評判,在本文的文字區域檢測中,使用了圖片像素、檢測時間以及準確率作為評價指標。
圖片像素,定義為longsize,根據不同的像素大小表示圖像最佳的檢測大小。
檢測時間是指程序運行時,檢測每張圖片的運行時間。
準確率是指在全部樣本的判斷中有多少判斷正確的,表示為正樣本定義為正,負樣本定義為負。公式為:
[P=PTPT+PF] (1)
3.3 實驗結果分析
保持既定的研究環境和物理設備,在相同的數據集上進行訓練和測試,迭代過程中保存最優模型參數,僅在模型推理中改變圖片像素大小,實際數據如表1所示。
實驗結果表明,在圖片像素大小為2200像素時,在檢測時間和準確率上均能達到最好效果。
4 結論
在傳統方法下,針對自然場景的區域定位問題,本文設計的基于深度學習區域定位方法具有更強的適用性和準確性。當然不僅僅局限于定額發票,發票有許多種類,其復雜度也并不相同。因此基于深度學習區域定位方法仍然有改進空間,在面對復雜發票票面時進一步提高對文字區域劃分的準確性。
參考文獻:
[1] 劉仁軍.基于神經網絡的室內場景的文字識別研究[D].武漢:武漢工程大學,2017.
[2] 閆茹,孫永奇,朱衛國,等.基于CNN與有限狀態自動機的手寫體大寫金額識別[J].計算機工程,2021,47(9):304-312.
[3] 楊飛.自然場景圖像中的文字檢測綜述[J].電子設計工程,2016,24(24):165-168.
[4] Wang T,Wu D J,Coates A,et al.End-to-end text recognition with convolutional neural networks[C]//Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012).November 11-15,2012,Tsukuba,Japan.IEEE,2012:3304-3308.
[5] Huang W L,Qiao Y,Tang X O.Robust scene text detection with convolution neural network induced MSER trees[C]//Computer Vision – ECCV 2014,2014:497-511.
[6] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[7] Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:779-788.
[8] Ma J Q,Shao W Y,Ye H,et al.Arbitrary-oriented scene text detection via rotation proposals[J].IEEE Transactions on Multimedia,2018,20(11):3111-3122.
[9] Liao M H,Shi B G,Bai X,et al.TextBoxes:a fast text detector with a single deep neural network[J]. AAAI Conference on Artificial Intelligence,2017.
[10] Wang W H,Xie E Z,Li X,et al.Shape robust text detection with progressive scale expansion network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:9328-9337.
收稿日期:2021-12-20
作者簡介:劉奕杰(1996—) ,男,四川成都人,碩士,研究方向為深度學習,計算機視覺。