劉水麗 吳戀 吳文宇 嚴東發 潘承昌 郭倩


摘要:文字識別技術是利用計算機自動識別紙質媒介文字,該技術被廣泛應用,并且在各領域中都扮演著非常重要的角色。本文針對基于深度學習的卷積神經網絡([CNN])模型、[LeNet]卷積神經網絡的理論以及文字的處理過程進行論述。
關鍵詞:文字識別;深度學習;卷積神經網絡
中圖分類號:TP18? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)18-0202-02
現在是一個信息時代,我們所面臨的不僅是信息數量大而雜亂,于其他信息載體而言,文字的優點不僅易于信息保存,同樣也便于信息傳遞,正是如此,才得以讓信息在時間和空間上都得到了迅速擴散。我們的生活中需要識別的文字數量十分龐大,但是我們卻很少借用計算機。近些年來,隨著科學技術不斷發展以及持續進步,文字識別的應用領域也得到相應的擴展,當前主要有文字識別和數字識別。
1 文字識別意義
我們的時代隨著信息化的發展,文字識別的意義主要有:
1)文字識別是中文信息錄入的方法之一,但是漢字不同于簡單的字母或單一的拼音,漢字筆畫復雜且無確定性,僅依靠人工鍵入是非常緩慢的,其工作量也十分巨大,所謂耗時耗力。但是隨著文字識別技術的崛起,這一難題得到了解決,速度也明顯的提高。
2)現在大家都提倡智能化,我們一直苦惱如何提高辦公自動化水平,現在結合文字識別技術,就可以解決我們的苦惱了。我們可以利用計算機代替我們對文檔進行分類處理,從而把人從日常煩瑣的辦公活動中解放出來,因此文字的自動識別對圖像的處理意義深遠。
隨著信息產業的飛速發展以及政府對信息的高度重視,可以看出,文字識別技術具有很大的市場潛力。
2 當前技術與以往技術的比較
以往文字識別的基本原理是模式匹配,即將輸入的文字和每個標準的文字相比較,然后計算匹配文字的類似度,將其中最大類似度的標準文字作為識別結果。當時的文字識別流程如下:
由表1我們發現,印刷體[OCR]主要應用于規范紙質媒體,識別率很高;手寫體[OCR]就適用于手寫紙稿,但是這個難度系數極大,因為如法提取漢字的筆畫筆順等信息;專用[OCR]主要應用于票據、名片等;而聯機筆輸入是在聯機的情況下,可以實時提取漢字的筆畫以及筆順,但是輸出的并不唯一,且連筆字的識別率及準確率都較低,輸入速度比較慢。
現在的技術有使用[Matlab]實現,需要在得到原始圖像的基礎上得到灰度圖像,再得到二值圖像等一系列的步驟,調用相關代碼,就可以得到所需要識別的文字。如圖:
3 基于深度學習的文字識別技術性能優勢
基于深度學習進行文字識別的方法有很多,例如基于[CNN+RNN+CTC]算法、基于[FCN]算法和基于卷積神經網絡等等,每種算法都有一定的優點和缺點,本文著重介紹基于卷積神經網絡。當前大多數文字識別技術都是以卷積神經網絡模型為基礎,和傳統的技術相比,卷積神經網絡的原理是將輸入的圖像里包含的特征信息通過一層一層的卷積和采樣等一系列操作進行提取以及精煉。
從21世紀起,卷積神經網絡就被應用于圖像分割、檢測、識別等。從2012年的[ImageNet]比賽之后,卷積神經網絡就已經開始受到很大的關注。該比賽使用一個由1000種類別、上百萬張網絡圖片組成的數據集對機器學習算法進行評估。這是第一次基于卷積神經網絡的神經網絡模型獲得第一名的佳績,比在此之前被認為是最先進的算法幾乎降低了一半的錯誤率。
卷積神經網絡主要包括卷積層和池化層,卷積層的輸出被稱為特征圖。在特征圖中,每個單元對應一組輸出,任意一個輸出結果都是上一層的一個局部塊的加權和。對于同一特征圖,過濾器共同享用每個單元的權值,目的是通過降低網絡參數量,從而達到降低網絡復雜度的目標。池化層也稱為下采樣層,池化后的特征具有一定的平移和旋轉不變性,圖4是對此進行的詳細分析:
4 基于深度學習文字識別技術的當前應用
文字識別技術應用十分廣泛,例如道路智能交通系統,該系統作用是通過對車牌的監測實施,進而對車輛違章的罰款或者是對出入的車輛進行管理收費等等,如圖5:
5 文字識別的技術發展趨勢
文字識別技術融合了多種學科,其隨著圖像和計算機等技術的發展而變化,當前最需要攻克的難題就是文字識別的速度和正確率。印刷體和自由手寫體是當前文字識別技術的兩個主要研究方向。
很早之前,國外就已經開始了文字識別技術的研究,他們初期主要是研究識別方法。由于國外文字相對于漢語來說較為簡單,所以國外比我國有很大的研究優勢,在理論研究和產品開發上更加成熟。[Omnipage]是號稱世界上最強的英文光學字符識別產品,它對英文字符的識別率達到了99%,而我國任何一個產品都達不到這么高的識別率。
我國民族多樣化,文字也是多種多樣,由于大多數人都是漢字的使用者,我國產品研究的中心還是漢字的研究。但是漢字數量大、變化多端、筆畫復雜,目前還沒有哪一款產品能夠對漢字進行準確的識別。同時對少數民族文字的識別也是不可或缺。
現如今,神經網絡已經成為研究人工智能的重要組成,還是受到廣泛關注的研究領域之一?,F在實現文字識別最流行的方法之一是利用神經網絡模型。
未來文字識別技術的發展方向應該是在高效、準備、智能的識別同時于行業應用結合更加緊密。
6 總結與展望
文字作為獲取信息和交流信息的主要途徑,我們的生活、學習、工作都不可避免地涉及文字識別技術。隨著時代的變遷以及科學技術的發展,文字識別已經被廣泛應用到各個方面的社會活動,例如無人駕駛,車牌識別,教育,虛擬現實等領域。由此可見,文字識別技術一定會是未來科學研究的主流。
參考文獻:
[1] 黃攀. 基于深度學習的自然場景文字識別[D].浙江大學,2016.
[2] 李月潔. 自然場景中特定文字圖像優化識別研究與仿真[J]. 計算機仿真,2016,33(11):357-360.
[3] 樊雅琴,王炳皓,王偉,等. 深度學習國內研究綜述[J]. 中國遠程教育,2015(6):27-33+79.
[4] 馮子勇. 基于深度學習的圖像特征學習和分類方法的研究及應用[D].華南理工大學,2016.
[5] 劉仁軍. 基于神經網絡的室內場景的文字識別研究[D].武漢工程大學,2017.
[6] 張燁,陳波. 文字識別原理概述[J]. 裝備制造,2009(12):230-231.
[7] 張華萍,黃辰. 文字識別技術研究[J]. 物聯網技術,2018,8(8):17-19.
【通聯編輯:唐一東】