999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的圖像中文OCR 識別糾錯方法及系統的研究

2021-05-31 08:29:50杜訓祥
江蘇通信 2021年1期
關鍵詞:模型系統

杜訓祥

中電鴻信信息科技有限公司

0 引言

OCR(Optical Character Recognition)是指對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程。即將圖像中的文字進行識別,并以文本的形式返回。

OCR 技術可應用于財務票據、證件、文字資料、檔案卷宗、文案等的錄入和處理領域。在財務領域,將OCR 識別技術運用在財務系統中,通過OCR 技術自動提取票據要素,如金額、賬號、日期、證件號等,可代替手工完成票據信息的錄入;將通過OCR 技術識別的票據金額與系統中的金額進行比對,從而可替代操作人員完成財務稽核工作,使專職人員從枯燥的重復勞動中釋放出來,投入到更高價值的工作中。借助OCR技術,自動提取票據影像數據,進而推動財務系統智慧化、自動化轉型,從系統優化的角度來看,可有效減少人工核算工作量、減少工作差錯、為系統的數據安全保駕護航;從企業發展的角度來看,可激發員工的創造性、增強企業發展能力。

但由于OCR 的識別率并無法達到百分之百,一些除錯或輔助更正的功能,也成為OCR 系統中必要的一個模塊。

1 傳統OCR 方法存在的問題

OCR 對數字、英文字符的識別效果普遍較好,然而其對中文的識別相對效果較差,這與中文字體的復雜形狀有直接關系。傳統的OCR 方法,針對文字噪聲少,設計高性能的特征向量,使用模版匹配、支持向量機或者淺層神經網絡等得到很高的識別準確度,但當用于大量噪聲或者復雜的中文文字識別時,識別效果較差。

卷積神經網絡(Convolutional Neural Networks,CNN)是一種深度學習網絡,通過卷積運算由淺入深提取圖像不同層次的特征,利用神經網絡的訓練過程讓整個網絡自動調節卷積核的參數,從而無監督地產生最適合的分類特征,對中文這種復雜的文字,具有較好的識別效果。

2 基于VGGNet 的圖像中文OCR 識別糾錯系統設計方案

2.1 VGGNet 網絡結構特點分析

CNN 即卷積神經網絡擅長處理圖像分類的問題,具有參數較少以及平移不變性的優點。VGGNet 是CNN 的一種,其網絡結構如圖1 所示

圖1 VGGNet 各級網絡結構

在池化核的選擇方面,VGGNet 全部采用2x2 的池化核,池化層用于降維,使得VGGNet 網絡模型在架構上更深更寬的同時,控制了計算量的增加規模。

VGGNet 共包含A、A-LRN、B、C、D、E 六種網絡結構,因為VGG16 全程使用3x3 卷積核與2x2 池化核,其網絡結構統一、簡潔優美,所以本文在模型選擇上選擇VGG16網絡模型。如圖2 所示。

圖2 VGG16 網絡結構

2.2 系統整體設計思路

基于VGGNet 的圖像中文OCR 識別糾錯系統,首先對OCR 分析業務平臺生產中間數據進行預處理,然后對預處理后的數據進行數據清洗、接著基于Tensorflow 深度學習框架,訓練VGG 網絡模型,最后對OCR 結果進行分析,智能糾正錯誤結果。

在數據清洗方面,本文設計了三步數據處理法,包括采用OCR 識別結果做初步過濾匯總、采用驗證碼服務進行數據清洗和通過人工核驗方式進行數據清洗三個環節。

在模型訓練方面,基于Tensorflow 深度學習框架,訓練VGG 網絡模型,建立字分類器、詞分類器。

在對OCR 的識別結果進行錯誤分析時,對于不在正樣本清單中的詞語,查詢詞語映射表,若在映射表中查到該詞語則通過映射表優化OCR 的識別結果,若其不存在詞語映射表中則通過字、詞分類器對OCR 的識別結果進行優化。

壓實膨潤土混合物自由膨脹-收縮、限制膨脹-收縮過程的特征點見表4和表5。其中, 收縮量是指膨脹穩定與收縮穩定之間體積的變化率差值。

3 中文OCR 識別糾錯系統運行設計

系統運行以數據采集開始,經過數據預處理、數據清洗、模型訓練等過程,最終輸出模型,以來優化OCR 識別結果。系統主要提供預處理、數據清洗、模型訓練和OCR 識別結果優化四個功能。

3.1 預處理

基于OCR 分析業務平臺生產中間數據,對圖像中識別的字、詞進行積累,并建立字圖像庫、詞語圖像庫。具體步驟如下

首先在OCR 識別引擎模塊中,對要識別的字的局部圖像進行保存,并以時間+識別結果的方式進行命名,從而建立字圖像庫;在OCR 字段定位模塊中,對要識別的字段的詞圖像進行保存,并以時間+識別結果的方式進行命名,從而建立詞圖像庫。接著開發“字詞圖像庫匯總工具”,建立字典數據庫,開發匯總服務、字典與本地庫同步功能。最后開啟字、詞匯總服務,將識別結果相同的圖匯總在同一文件夾中,如果本地庫數據有所變化,點擊同步按鈕實現字典與本地庫同步。

3.2 數據清理

使用三步數據處理法,對字、詞庫進行數據清洗,清除錯誤的數據,合并相同類別的數據。

第一步數據清洗,是針對預處理后的數據采用OCR 識別結果做第一步過濾匯總。基于現有數據量,使用字典數據庫,查詢樣本數據量>N 的類別,做相應篩選或者增加,建立正樣本類別清單,確定全部的正樣本類別、建立負樣本文件夾。

第二步數據清洗,是基于圖像驗證碼服務做初步數據清洗,清除正樣本中的錯誤數據。首先建立圖像驗證碼服務器,服務器接受請求后輸出驗證碼圖像,并等待接受用戶的驗證值。設定清洗時間周期,如將時間周期設置為月,則每個月根據驗證數據表或者本地日志文件,來初步清洗數據。

第三步數據清洗,是通過人工核驗,完成最終的數據清洗。清洗文件夾,將不屬于正樣本類別的數據,移到負樣本文件夾;把不屬于該類別的正樣本數據,移到相應類別對應的正樣本文件夾,同時將字詞的OCR 識別錯位值與字詞的真實值對應,建立常錯字詞映射表。通過詞庫更新程序,使本地圖像庫與字典數據庫保持一致,將類型名從0 開始標注,生成標簽文件。如圖3 所示。

圖3 三步數據處理法示意圖

3.3 神經網絡模型訓練

基于Tensorflow 深度學習框架,訓練VGGNet 網絡模型,建立字分類器和詞分類器。

3.4 OCR 識別結果優化

對OCR 的識別結果進行錯誤分析,在正樣本清單中查詢該識別結果字符串,如果在正樣本清單中可查詢到該結果字符串,則直接輸出此結果;若在正樣本清單中查詢不到該結果字符串,則通過查詢映射表的方式進行結果優化,若映射表中存在該字符串則通過映射表中對應的字符串替換該結果;若映射表中不存在該字符串,則使用字、詞分類器對結果進行分類,將分類預測值和分類器設定的閾值進行比較,當預測值大于或者等于分類閾值時,使用分類結果替換原始結果,否則不做處理。如圖4 所示。

圖4 OCR 識別結果智能優化流程圖

4 初步成效

拿增值稅發票識別結果舉例,OCR 分析業務系統在改進前,由于受到票據質量影響,項目名稱和購買方服務名稱等容易出現識別出錯情況,而其中哪怕一個文字識別出錯,都將導致整個識別結果不可用。系統運行后,OCR 分析業務系統對中文詞語識別準確度,在原來的基礎上提高了10 個百分點,大部分識別錯誤的結果被糾正。對錯誤情況進行智能糾正,保證了OCR 識別結果的有效性,提升了數據的可用性,為后續的票據智能稽核打下堅實的數據基礎。

財務部門每天有大量的票據影像,多崗位員工需對同一張票據重復稽核,不僅耗費人力,且降低了報賬效率。通過圖像OCR 技術實現票面信息的提取,將提取的票面信息與報賬信息進行對比,可實現財務稽核工作的自動化。

此外,OCR 技術可應用于證件、文字資料、檔案卷宗、文案等的錄入和處理領域,如進行證件OCR,實現對身份證、駕駛證、名片等的關鍵信息的識別和提取。

5 結束語

本文在傳統中文OCR 識別的基礎上,結合深度學習方法來提高中文識別的準確度,所研究方法充分發揮了中文OCR 識別引擎的速度優勢與深度學習分類器的高準確度優勢,使得中文OCR 的準確度在原來的基礎上提高了10 個百分點。

深度學習分類器,對數據要求很高,因此數據處理工作至關重要。對于字詞數據來說,其總體數據量可以達到上億級別,本文在數據處理方面設計了三步數據處理法,首先采用OCR 識別結果做第一步過濾匯總,然后采用驗證碼服務進行第二步清洗數據,最后通過人工核驗完成數據清洗,本文設計的三步數據處理法使數據清洗工作量減少了50%,降低了數據清洗的成本。

猜你喜歡
模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 综合色婷婷| 午夜丁香婷婷| 女人天堂av免费| 亚洲中文无码av永久伊人| 丁香六月激情婷婷| 国产一在线观看| 国产精品免费p区| 永久免费av网站可以直接看的| 国产成人精品日本亚洲77美色| 亚洲成aⅴ人片在线影院八| 国产男女免费完整版视频| 不卡的在线视频免费观看| 97se亚洲综合在线| 青青草国产精品久久久久| 免费一级毛片在线观看| 国产玖玖玖精品视频| 久久精品国产电影| 国产永久在线视频| 亚洲AV无码乱码在线观看代蜜桃 | 四虎精品免费久久| 欧美在线黄| 99免费在线观看视频| 国产精品人莉莉成在线播放| 91www在线观看| 日韩欧美网址| 噜噜噜久久| 国产网站免费看| 国产女人18水真多毛片18精品| 狠狠色丁香婷婷| 麻豆国产精品视频| 亚洲综合精品香蕉久久网| 欧美全免费aaaaaa特黄在线| 无码一区二区三区视频在线播放| 国产91色| 91精品啪在线观看国产91| 国产伦精品一区二区三区视频优播 | 99在线视频精品| 精品一区二区三区视频免费观看| 亚洲色图欧美| 国产欧美亚洲精品第3页在线| 88国产经典欧美一区二区三区| 57pao国产成视频免费播放 | 无码福利日韩神码福利片| 国产熟女一级毛片| 97国产精品视频自在拍| 伊在人亞洲香蕉精品區| 一级看片免费视频| 男女精品视频| 91九色视频网| 国产精品v欧美| 日本亚洲欧美在线| 91精品国产自产在线老师啪l| 奇米精品一区二区三区在线观看| 99资源在线| 一级片一区| 中国一级特黄大片在线观看| 国产精品不卡永久免费| 久久亚洲综合伊人| 老司机精品一区在线视频| 亚洲婷婷在线视频| 亚洲码在线中文在线观看| 日本在线国产| 精品国产aⅴ一区二区三区 | 中文字幕久久精品波多野结| 亚瑟天堂久久一区二区影院| 成年网址网站在线观看| 久久久久久高潮白浆| 欧美国产在线一区| 色悠久久综合| 玖玖精品视频在线观看| 性喷潮久久久久久久久| 日本人又色又爽的视频| 欧美成人精品高清在线下载| 无码又爽又刺激的高潮视频| 久久亚洲精少妇毛片午夜无码| 国产一区二区精品福利| 国内嫩模私拍精品视频| 青青草原国产精品啪啪视频| 精品久久蜜桃| 天天综合网色| 成人噜噜噜视频在线观看| 亚洲国产成人综合精品2020|