周慶曙,陳勁杰,紀鵬飛
(上海理工大學 機械工程學院,上海 200093)
?
基于SVM的多特征手寫體漢字識別技術
周慶曙,陳勁杰,紀鵬飛
(上海理工大學 機械工程學院,上海 200093)
針對傳統的模板匹配法對漢字的識別率較低,文中提出一種基于SVM的多特征手寫體漢字識別技術。在提取網格特征的基礎上增加對漢字質心特征、筆劃特征、特征點的提取,并采用SVM算法構造分類器,實現對手寫體漢字的識別。實驗結果表明,該方法的平均識別率為95.9%,高于傳統的模板匹配法。
SVM;網格特征;質心特征;筆劃特征;特征點
漢字作為中華民族文化的信息載體,與人們的日常學習和工作密不可分。在網絡信息交流中,需要輸入大量的中文信息[1],重復、單調的傳統鍵盤手工輸入方式效率低下,已逐漸不能滿足迅速發展的信息化時代。而傳統的模板匹配法對于漢字的識別率不高,作者提出一種基于SVM的多特征手寫漢字識別技術,可大幅提高漢字的識別率以及錄入效率。
首先對漢字圖像進行灰度化、二值化、形態學處理、傾斜校正、字符分割和歸一化、細化等圖像預處理操作,再對字符進行特征提取,最后采用SVM算法構造分類器。系統識別流程如圖1所示。
SVM (Support Vector Machines)是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,面對小樣本問題,其能表現出良好的學習能力,并能做到與數據的維數無關[2]。

圖1 漢字識別流程圖
SVM方法是從線性可分情況下的最優分類超平面提出的,所謂最優分類超平面就是要求分類平面不但能將兩類無錯地分開,且要使分類平面兩側樣本之間的間隔最大[4]?!?br>