張慧宇
摘要:神經網絡仿照生物神經元的工作原理,本質上是輸入與輸出之間的一種映射,卷積神經網絡具有參數共享機制與連接的稀疏性,其對傳統神經網絡層級結構中層的功能和形式做了部分變化,通過局部連接的方式,形成了一種特殊的結構化多層前饋神經網絡,具有較強的魯棒性與泛化性能。基于此,以卷積神經網絡為模型,構建出漢字識別網絡,進行漢字樣本特征提取和分類輸出。
關鍵詞:卷積神經網絡;漢字;識別
目前,手寫漢字識別可分為聯機與脫機兩種形式,其中聯機手寫體漢字識別主要處理書寫者依托物理設備即時輸入的文字信號,而脫機手寫體漢字識別主要處理圖像設備采集到的圖像形式文字信息。一般來說,脫機手寫文字識別比聯機手寫文字識別更加困難。漢字識別屬于人工智能范疇,目前是個研究熱點,且具有挑戰性,繁雜的漢字字符、隨意性無約束性的手寫字體等因素會增加漢字識別難度,造成識別錯誤、無法識別等問題。因此,需要尋找更加有效的方法,以推動漢字識別的發展。卷積神經網絡是基于深度學習的前饋型的神經網絡,非常適用于處理大型圖像,將其運用于漢字識別工作中,有利于簡化漢字識別流程,產生更好的識別效果。
一、卷積神經網絡的特點與結構
(一)卷積神經網絡的特點。神經網絡仿照生物神經元的工作原理,本質上是輸入與輸出之間的一種映射,卷積神經網絡具有參數共享機制與連接的稀疏性,其對傳統神經網絡層級結構中層的功能和形式做了部分變化,通過局部連接的方式,形成了一種特殊的結構化多層前饋神經網絡,核心在于它的kernel,特點是頭重腳輕,實現了參數共享,避免BP神經網絡反向傳播梯度損失過快的問題。[1]運用卷積運算取代一般的矩陣乘法運算,避免了顯式特征抽取,提升了神經網絡模型的泛化能力與魯棒性,開啟了神經網絡新時代。在實際應用領域,卷積神經網絡是一種高效的識別算法,也是一種多層感知器與特征提取器,通過卷積方式來提取圖像數據特征,能夠專門處理具有網格狀拓撲結構的數據,被廣泛應用于人臉識別、圖像識別、語音分析等計算機視覺應用領域。在卷積神經網絡中,首先對于圖片中的每一個特征進行局部感知,然后更高層次對局部進行綜合操作,從而得到全局信息;每個卷積濾波器共享權值,同一特征映射面具有相同神經元權值,無需考慮圖像局部特征坐標位置,使得對高維數據處理無壓力,減少了特征提取與分類數據重建難度;無需手動選取特征,利于特征圖的精確提取與分類識別。
(二)卷積神經網絡的結構。卷積神經網絡的結構組成可分為五部分,依次為數據輸入層、卷積計算層、池化層、全連接層、輸出層。輸入層是整個神經網絡的輸入,在處理圖像的卷積神經網絡中,它一般代表了一張圖片的像素矩陣,卷積神經網絡的輸入層可以處理多維數據;卷積層是一個卷積神經網絡中最重要的部分,由濾波器和激活函數構成,進行局部關聯與窗口聯動操作,能夠提取數據圖像的特征,將神經網絡中的每一個小塊進行更加深入的分析從而得到抽象程度更高的特征;池化層又叫下采樣層,用于壓縮數據和參數的量、降低數據維度,對樣本數據進行子抽樣操作,具有保持信息尺度不變性特征,可以去除冗余信息,抽取重要特征,防止神經網絡的過擬合;全連接層是一排神經元,用于連接扁平化多維數據,在卷積神經網絡的最后部分,是對提取的特征進行非線性組合以得到輸出,用來完成分類任務。輸出層的結構和工作原理與傳統前饋神經網絡中的輸出層相同,對于圖像分類問題,輸出層使用邏輯函數或歸一化指數函數(softmax function)輸出分類標簽[2]。
二、基于卷積神經網絡的漢字識別
在傳統的漢字識別方法中,常用彈性網格特征、方向線素特征以及Gabor特征方法,來提取漢字特征,例如,方向線素特征是根據漢字的八方向線素特征與路徑簽名特征,來提取圖像中漢字內在特征;提取特征之后,用模板匹配法、決策樹算法、Adaboost算法等來對漢字圖像進行分類。傳統的方法需要人工干預,需要做出大量的工作,且識別的效果有限。
隨著計算機技術的發展,數據信息技術與智能技術為漢字識別提供了新的實踐與理論模式,使得漢字識別數字化與智能化成為可能。深度學習技術的發展,滿足了手寫漢字識別革新需求,使得聯機和脫機手寫漢字的識別率都大為提升,同傳統的方法相比進步非常明顯。利用深度學習的方法進行手寫漢字識別,不需要人工提取漢字特征,深度神經網絡會自動完成漢字圖像特征的提取和分類。目前,在漢字識別領域,具有代表性的神經網絡為CNN和RNN,CNN主要用于對漢字單字的識別,RNN主要用于文本行的識別。下面主要對基于卷積神經網絡的漢字識別進行介紹。
(一)基于卷積神經網絡的漢字識別流程。在傳統的漢字識別流程中,可分為預處理、特征提取與降維、分類器分類與識別以及輸出結果等幾個模塊,其識別性能較為不穩定、識別速率不高,耗時費力。對于卷積神經網絡,想要完成漢字識別,首先必須準備大量的手寫漢字樣本,一般情況下,手寫漢字的識別流程為:收集漢字樣本集和測試集、利用樣本訓練卷積神經網絡、調參、利用測試集進行測試、輸出測試結果。[3]對于卷積神經網絡而言,由于網絡良好的特性,能夠從不同的樣本圖像中提取出最能表達漢字本質的數據特征,實現對大規模漢字樣本集的訓練,大大提高了漢字識別率與正確率。
(二)漢字識別流程主要步驟介紹。首先,要從網絡上搜集漢字樣本,手寫漢字樣本可以利用中科院自動化研究所模式識別國家重點實驗室的CASIA-HWDB 數據集,這里有充足的手寫漢字樣本,只有利用多樣的樣本來構建充足的訓練數據集,才能防止出現過擬合,為訓練卷積神經網絡做好數據準備,進而提升識別性能。此外,可根據自身需求,對樣本進行預處理,運用數字圖像處理技術增強漢字對比度,[4]對圖像進行平滑去噪處理,進行隨機形變、隨機噪聲,減少因為不均勻光、噪聲干擾等因素造成的筆畫模糊、斷裂、缺失等問題。利用縮放大小、水平或垂直拉升、角度變化等變換方法處理漢字圖像樣本。其次,選取合適的卷積神經網絡模型,越深的網絡模型,通常參數調整難度較大,訓練過程極為耗時,因此在選擇神經網絡時,應該根據各種網絡模型的特性,選擇合適的網絡。經典的CNN模型有LeNet5、AlexNet、VGG、GoogleNet、ResNets等,各自有自己的特色,其中LeNet5最早用于手寫字符的識別,后面幾種模型都是近些年提出的,逐漸變得層數更多,且都有自己的創新點。當然,除此之外,我們還可以在前人的基礎上,構造自己的卷積神經網絡,通過不斷調整網絡結構和權值參數,來構造出最合適的網絡模型。最后,利用設計好的卷積神經網絡模型,逐層提取手寫漢字圖片特征,然后對提取的特征進行非線性組合以得到輸出。
三、結語
隨著人工智能的蓬勃發展,現代社會中信息量空前擴大,人機交互與信息處理成為了信息技術發展的重要課題之一,漢字識別已成為研究熱點。一方面,人工智能、信息技術等新興技術發展為漢字識別提供了全新的工具與思路,另一方面,漢字識別的發展需求也推動著各學科生產變革。從現階段下漢字識別發展情況而言,盡管當前漢字識別已經取得較大進展,能滿足人機快速交互需求,但是也存在著很大部分的發展空間。得益于大型的計算集群、數據存儲技術巨大進步,卷積神經網絡在處理計算機視覺數據方面突顯出很大的優勢,能夠輔助漢字識別工作,對漢字準確識別有重要意義。
參考文獻:
[1] 李斯凡,高法欽. 基于卷積神經網絡的手寫數字識別[J]. 浙江理工大學學報,2017,37(3):438-443.
[2]Ng,A.,Kian,K.and Younes, B. Convolutional Neural Networks, Deep learning.
[3] 常歡 . 基于卷積神經網絡的孤立手寫體漢字識別研究 [D]. 安徽大學 ,2015.
[4] 宋光慧 . 基于遷移學習與深度卷積特征的圖像標注方法研究 [D]. 浙江大學 ,2016.