劉露+孫巍巍+丁博
摘 要:針對脫機手寫漢字識別問題,提出一種新的分類器級聯識別模型。新模型將修正的二次判別函數(modified quadratic discriminant function,MQDF)與深度置信網絡(deep belief network,DBN)相融合,利用MQDF先進行識別并得出結果,同時計算一個該識別結果的可信度,通過這個可信度對識別結果進行判別,若可信度符合要求,則MQDF的識別結果可作為最終結果直接輸出,否則再與DBN結合進行二次識別,得到最終的識別結果。實驗結果表明,在ETL9B手寫漢字數據集上進行的脫機手寫漢字識別任務中,使用MQDF與DBN融合模型,可以取得比單獨使用MQDF和DBN更好的準確率。
關鍵詞:脫機手寫字;二次判別函數;深度置信網;漢字識別
DOI:10.15938/j.jhust.2017.06.016
中圖分類號: TP391.412
文獻標志碼: A
文章編號: 1007-2683(2017)06-0082-05
Abstract:The requirement of the recognition result is also increasing in practical applications. In this paper, a new classifier cascade recognition model is proposed for the problem of offline handwritten Chinese character recognition. New model is the fusion of modified quadratic discriminant function (MQDF) and deep belief network (DBN). First to recognize and get result using MQDF, and calculate the reliability of the recognition result. If the reliability can meet the requirement, MQDF recognition result can be as the final result directly output. Otherwise using the DBN to make recognition again and getting the final recognition result. Experiments show that the MQDF and DBN fusion model proposed in this paper can achieve better accuracy than the single use of MQDF and DBN in the offline handwritten Chinese character recognition task, which is performed on the ETL9B handwritten Chinese character dataset.
Keywords:offline handwritten character; quadratic discriminant function; deep belief network; Chinese character recognition
0 引 言
文字識別作為模式識別中的一個重要領域,一直受到研究人員的廣為關注。對于手寫數字,手寫英文字符已經取得了較好的識別結果,但是在手寫漢字的識別任務當中仍然存在著不小的挑戰。由于漢字在中國傳統文化發展中的重要地位,對于漢字識別的研究自然具有非常重要的意義和價值[1]。最早的漢字識別研究始于IBM的Casey等對印刷漢字的識別。到了20世紀80年代,手寫漢字識別成為研究的重點并發展至今,許多方法相繼被提出,并且取得了不錯的效果。手寫漢字識別主要分為聯機和脫機兩種,聯機手寫漢字通過手機或者其它電子設備人工輸入手寫字,因此可直接得到漢字的筆畫順序、書寫方向以及提筆、落筆等信息,更容易獲得漢字的結構。而脫機手寫漢字是通過掃描技術將手寫字掃描入計算機,得到掃描圖像,再對圖像進行識別的過程,其特點是數據量大、結構復雜,不同的人具有不同的書寫風格,并且在不同的環境中手寫字會不同程度的發生形變,所以脫機手寫字識別難度遠遠大于聯機手寫漢字。
目前,對于手寫漢字識別,研究人員提出了許多種方法,并且都取得了不錯的識別效果。文[2]提出了一種代價敏感的修正二次判別函數(CMQDF)分類器,主要針對手寫中文地址進行識別;文[3]提出了級聯修正二次判別函數分類器來進行手寫漢字識別,其是一種基于串行結構的分類器集成算法,在度量的層次上將分類結果進行結合,但是對于手寫圖像的扭曲變形等復雜情況識別效果不是很理想。文[4]利用MQDF與支持向量機(support vector machine, SVM)結合的方式對相似手寫漢字進行識別,該方法相比之前的方式無需提取額外特征,并利用分類混淆矩陣自動得到相似漢字特征集。文[5]引入深度學習技術,將卷積神經網絡(convolutional neural network, CNN)融入到手寫漢字識別中,并與MQDF相結合,取得了不錯的識別結果。文[6]提出自適應判別局部對齊方法(adaptive discriminative locality alignment, ADLA),很大程度上改進了不同群體間的最優參數選擇問題,進而提升了對相似漢字識別的準確率。文[7]在當今大數據情況下,采用深度神經網絡(DNN)對相似手寫漢字進行識別,對大樣本取得了好的識別效果。本文針對脫機手寫漢字識別問題,提出了一種新的融合模型,該模型將MQDF和DBN相融合,通過定義可信度來協調兩個分類器在識別任務中的具體分工情況,從而達到理想的識別效果。通過實驗證明,所提出的融合模型在識別任務中,取得了比兩種分類器模型單獨使用時更好的識別準確率。endprint
1 修正的二次判別函數
MQDF基于統計方法,通過用常量代替小的特征值,補償了有限樣本的估計誤差。其次,由于只需要輸入特征向量進行計算,簡化了復雜度。由于結構簡單、便于多類問題的分類、易于實現以及準確率高等優點,被廣泛應用于手寫文字識別中。但是,在對于有些稍微復雜的手寫字圖像時,識別能力仍非常有限。
2 深度置信網
深度置信網 (deep belief network, DBN)是Hinton等在2006年提出的一個具有層次特征的概率生成模型[9],通過訓練神經元之間的權重,可以讓整個神經網絡按照最大概率來生成訓練數據。同時DBN是一種深層神經網絡,采用自底向上的傳遞,底層的神經元接收原始的特征向量,不斷向更高層次抽象,頂層的神經網絡形成易于組合的特征向量。通過增加層次就能夠使特征向量更高的抽象化,而且,每一層的網絡會弱化上一層的錯誤信息和次要信息,以確保深層網絡的精度。DBN結構如圖1所示。其是由一系列疊加的受限玻爾茲曼機(restricted boltzmann machine, RBM)[10]和頂層的反向傳播(back propagation, BP)網絡[11]構成。自提出以來受到了越來越多的關注,并陸續應用于計算機視覺、語音識別、自然語言處理等領域,有著廣闊的發展和應用空間。
DBN的訓練包含預訓練和微調兩個步驟。首先,預訓練階段利用大量無類標信息數據,無監督地訓練每層RBM,將下層 RBM的隱層輸出作為上一層RBM可示層的輸人。微調階段則采用有監督學習方式對頂層的BP網絡進行訓練,將實際輸出與預期輸出的誤差逐層反向傳播,目的是調整網絡的權值。DBN這樣做克服了BP網絡因隨機初始化權值而導致的局部最優問題。
2.1 受限玻爾茲曼機介紹
受限玻爾茲曼機(RBM)由隱層v和可示層h兩種神經元節點構成。可示層的作用是輸入數據,隱層的作用是特征檢測。區別于玻爾茲曼機,RBM的特點是可示層和隱層之間采用全連接的方式,而在可示層內神經元之間和隱層內各神經元之間是無連接的,以二分圖的形式存在,這樣相比玻爾茲曼機更為高效。
2.2 BP網絡
BP網絡主要是對RBM預訓練階段所得特征向量分類,依據分類結果微調DBN每層參數。訓練BP網絡包括前向和后向兩個過程。將特征向量向前傳播,由輸出層得到分類結果,將該分類結果與預期結果相比較得到誤差值[13]。后向傳播是將所得誤差值逐層回傳,從而調整DBN參數。傳播過程中每層需計算一個靈敏度δ,然后將δ向下傳遞調整網絡權值。
3 MQDF與DBN融合模型
修正的二次判別函數MQDF應用于脫機手寫漢字識別任務中,通常可以識別出大部分漢字圖像,但對一些較復雜漢字圖像識別率有所下降。針對這類漢字圖像,使用深度模型DBN進行再次識別,即為本文提出的MQDFDBN融合模型。
MQDFDBN整體分成訓練、識別和融合三部分,如圖2所示。先將漢字圖像經過預處理,歸一化到統一分辨率,此外還包括去噪、二值化等相關操作,再利用訓練數據同時對MQDF和DBN同時訓練。在訓練階段,MQDF提取梯度特征,DBN按照之前所介紹方法進行訓練。
4 實驗與結果分析
為了驗證本文提出方法,選擇ETL9B手寫漢字數據集進行實驗。ETL9B數據集由日本電子技術實驗室建立的,其中包括120萬個數字以及日文、中文、拉丁文的印刷體和手寫體樣本,其中漢字類別2965個,每個類別包含160或200個樣本,部分樣本如圖3所示。實驗選用1500個類別,每個類別包含200個樣本,前20個和后20個用來測試,剩余160個用來訓練。DBN選擇Theano深度學習工具包實現。實驗環境為Intel i5 3.2GHz處理器,8GB內存。
在實驗過程中,將漢字圖像線性歸一化到64*64,訓練MQDF時,提取588維的梯度特征。深度置信網設置為兩層RBM結構,中間隱層點數350個,迭代次數設置為10。實驗整體分成兩部分。首先通過實驗確定最優的閥值T和加權系數α;然后把識別率作為評價標準,將DBN的識別效果與不同截斷參數k下的MQDF和MQDFDBN的識別效果進行比較。
在ETL9B數據集中,應用實驗所選的漢字圖像樣本,在不同的閥值T和加權系數α情況下對MQDFDBN模型進行實驗,記錄兩個值不同組合情況下的識別準確率信息。設置T值分為0.08,0.10,0.12,0.15,0.20,0.30,1.00,然后在α值由0.1到0.9時記錄識別準確率,實驗結果如圖4所示。可以看出MQDFDBN融合模型在T值和α值不同時,識別效果有明顯不同,當T值在0.20跟0.30之間,α落在[0.4,0.6]區間中時識別效果最好。
表1給出了在實驗所用數據集下DBN分類器的識別準確率,以及截斷參數不同時,單獨的MQDF分類器,和融合分類器MQDFDBN的識別表現。從實驗結果可以看出,隨著截斷參數k值的增加,MQDF和MQDFDBN的識別準確率都有所提高,而后者要明顯高于前者,同樣MQDFDBN的識別準確率也高于DBN單獨使用時的識別準確率。
5 結 語
本文針對脫機手寫漢字識別問題,提出了一種修正二次判別函數和深度置信網融合模型,為該方面研究提供了新的思路。二次修正判別函數分類器識別較簡單的漢字圖像,而較為復雜的漢字圖像則交給深度模型DBN來處理識別,并且在得出最后結果時結合了MQDF的中間識別結果。最后的實驗表明,兩種模型結合使用能很好地形成互補,取得了不錯的識別效果。在接下來的工作中,我們會將工作重心放在實際應用價值更大的相似手寫漢字識別研究當中,探索并改進MQDFDBN模型,力求取得新的突破。
參 考 文 獻:
[1] 丁曉青. 漢字識別研究的回顧[J]. 電子學報, 2002, 30(9): 1364-1368.endprint
[2] LU S, WEI X, LU Y. Costsensitive MQDF Classifier for Handwritten Chinese Address Recognition. ICDAR[C]// 2015 13th International Conference on. IEEE, 2015: 76-80.
[3] 付強, 丁曉青, 劉長松. 用于手寫漢字識別的級聯 MQDF 分類器[J]. 清華大學學報(自然科學版), 2008, 48(10): 1609-1612.
[4] 姚超, 盧朝陽, 李靜, 等. 一種分類器級聯的手寫相似漢字識別方法[J]. 西安電子科技大學學報, 2015, 42(5): 26-32.
[5] WANG Y, LI X, LIU C, et al. An MQDFCNN Hybrid Model for Offline Handwritten Chinese Character Recognition. Frontiers in Handwriting Recognition. (ICFHR)[C]// 2014 14th International Conference on. IEEE, 2014: 246-249.
[6] QU X, XU N, WANG W, et al. Similar Handwritten Chinese Character Recognition Based on Adaptive Discriminative Locality Alignment. Machine Vision Applications (MVA)[C]// 2015 14th IAPR International Conference on. IEEE, 2015: 130-133.
[7] 楊釗, 陶大鵬, 張樹業, 等. 大數據下的基于深度神經網的相似漢字識別[J]. 通信學報, 2014, 35(9): 184-189.
[8] 周明輝, 劉輝, 曹剛. 基于 MQDF 的車牌字符識別[J]. 信息技術, 2013 (7): 121-123.
[9] HINTON G. E., OSINDERO, S., Teh, Y.A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006(18): 1527-1554.
[10]SALAKHUTDINOV R, MNIH A, HINTON G. Restricted Boltzmann Machines for Collaborative Filtering[C]// Proceedings of the 24th international conference on Machine learning. ACM, 2007: 791-798.
[11]王洋, 曾雪琴, 范劍英. 汽車牌照字符識別系統設計[J]. 哈爾濱理工大學學報, 2012, 17(1): 90-95.
[12]HINTON G E.Training products of experts by minimizing contrastive divergence[J]. Neural Computation, 2002, 14(8): 1771-1800.
[13]何春香, 劉泊. 小波與 BP 神經網絡在零件識別應用中的研究[J]. 哈爾濱理工大學學報, 2008, 13(5): 50-53.
[14]LIU C.L., MASAKI N. Precise Candidate Selection for Large Character Set Recognition by Confidence Evaluation[C]// IEEE Trans. on Pattern Analysis and Machine Intelligence, 2000: 636-642.
[15]HUANG Y.S., SUEN C.Y. A Method of Combining Multiple Experts for the Recognition of Unconstrained Handwritten Numerals[J]. IEEE Trans Pattern Recognition and Machine Intelligence, 1995(17): 90-94.
(編輯:關 毅)endprint