由于在移動數碼設備(例如智能手機、掌上電腦、學習機等)以及平板電腦(Tablet PC)上的巨大應用價值,聯機手寫漢字識別技術在近20多年來一直是模式識別領域中的一個重要研究課題, 經過多年的研究工作,目前國內外許多研究機構(例如漢王、清華大學、Microsoft等)所研制的系統已經能較好地識別與筆順無關、常規連筆書寫的手寫體漢字,不少系統已經可以達到98%以上的識別率。但高自由度的草書識別及無約束的手寫詞組的識別仍然是未解決的問題,而這兩個難題恰好是構造更自然、更快捷、更流暢的手寫輸入方式的核心技術,是使手寫輸入法變得更實用、更具競爭力的關鍵所在,因而具有較大的研究價值。本文介紹了我們在微軟亞洲研究院高校合作研究項目資助下所開展的相關研究工作及取得的一些研究結果。
一、聯機手寫漢字識別的預處理技術
預處理的目的是減少數據采集過程中的噪聲、規范書寫形狀、減少不同書寫風格的差異性,以便提高識別性能。對聯機手寫漢字識別而言,我們采用的預處理技術主要包括:
·線性規一化:給定一個實時書寫的手寫漢字樣本,可以用比值線性方法將它被規一化到一個固定的N×N范圍內(一般N取值64)。
·重采樣:重采樣的目的是減少在聯機數據中兩個連續點的距離的變化和一個筆劃的采樣點的數目變化,具體做法是每一筆劃的數據點序列被等距離(2~5個像素)重新采樣。
·增加虛擬筆劃:虛構的筆劃是指書寫過程中,在起筆狀態下,那些筆尖的運動的軌跡,這些信息沒有被原始的字符樣本所記錄。一個虛構筆劃即是從一個落筆狀態結束點到下一個落筆狀態下的開始點的一條直線。
·非線性規范化:首先將聯機字符樣本映射到一幅位圖,然后由點密度或線密度非線性均衡方法推導得出的變換函數,在利用該變換函數將聯機字符序列轉化為新的規范化樣本序列。
上述預處理技術中,虛擬筆劃可以訓練識別器更好地識別草書連筆的手寫文字;重采樣技術能有效去除書寫過程中的抖動噪聲,可以使手寫漢字變得平滑。非線性規范化技術可以減少不同書寫風格之間的變形,是漢字識別中的一個十分重要的預處理技術,當然,我們的研究還發現,如果不用非線性規范化技術而采用彈性網格技術,一樣可以達到對不同書寫風格的手寫漢字進行規范化處理的效果,有時能比非線性規范化效果更好。
二、四種用于聯機識別的特征提取方法
特征提取是手寫文字識別的關鍵環節之一,經過多年的研究,目前方向特征已經成為手寫文字識別的常用特征及主流特征之一,其中典型的代表有方向線素特征、Gabor特征、梯度(Gradient)特征、方向變化特征等。我們對比研究了目前在手寫漢字識別中比較先進的四種方向特征提取方法,分別是梯度特征、4方向Gabor特征、8方向特征、方向變化特征。上述四種特征之中,8方向特征及方向變化特征可直接在聯機樣本上提取。梯度特征及Gabor特征原本是用來進行脫機手寫文字識別,并已證實能獲得很高的識別性能(通常使用Gabor+ MQDF+MCE或Gradient + MQDF+MCE對863的規范脫機手寫漢字庫HCL2000的識別率已能達到98%以上),但它們同時也可用來對聯機手寫數據提取特征,以解決筆順無關的聯機手寫識別問題,但特征提取前需要先將聯機數據映射為二維位圖。
我們使用與香港大學聯合采集的聯機手寫漢字數據進行測試(該數據庫版權屬香港大學所有),總共含300個不同書寫者在掌上電腦上無限制自由書寫的手寫體漢字(其中一部分樣本具有草寫風格),每套樣本含3755類漢字。使用其中200套進行訓練,其余100套用作測試,對四種特征分別用 LDA(Linear Discriminant Analysis)降維,采用MQDF作為分類器,識別結果如表1所示。
表1 四種特征提取方法在聯機識別中的性能對比
特征 8方向特征 8方向變化特征 Gabor特征 梯度特征
識別率 96.05% 95.53% 88.29% 93.73%
表1顯示8方向特征取得了最好的識別性能,盡管Gabor特征及梯度特征性能沒有8方向特征優良,但它們具有對筆順不敏感的優點,因此可以結合8方向特征構造綜合集成系統,各種特征可以結合不同的分類器設計方法(例如聯機特征可使用HMM、DTW等分類器,脫機特征可使用LDA+MQDF+MCE或LDA+LVQ分類器方法),然后進行多分類器的集成,相信集成后的分類系統識別性能還能得到較大的提高。
三、基于改進的LDA及核LDA的手寫文字識別方法
線性判決分析(LDA,Linear Discriminant Analysis)是模式識別中一種優良的特征壓縮及特性選擇方法,已經成功地應用到手寫文字識別之中,成為大多數漢字識別系統中的一個重要模塊。LDA的目的是尋找在最小均方誤差意義下最能夠區分各類數據的投影方法,從而達到最小化類內距離及最大化類間距離。在LDA中,類內散度矩陣Sw和類間散度矩陣Sb的定義如(1):


解決兩類及多類問題的KLDA算法可以參閱文獻(Zhen-Long BAI and Qiang HUO, A Study On the Use of 8-Directional Features For Online Handwritten Chinese Character Recognition, Proc. ICDAR2005, 2005.)及文獻(S. Mika, G. Ra¨tsch, J. Weston, B. Scho¨lkopf, and K.-R.Mu¨ ller, “Fisher Discriminant Analysis with Kernels,” Proc. IEEE Int’l Workshop Neural Networks for Signal Processing IX, pp. 41-48, Aug. 1999.)以往的KLDA算法大多僅僅用來解小類別小規模問題,原因是對大類別模式識別問題,KLDA很難進行訓練,例如若訓練1034類漢字,每類漢字含50個樣本,此時KLDA中的Gram矩陣大小將為51700×50,由于存儲量及計算量巨大,此時KLDA幾乎無法工作而難以實際應用。為解決此問題,我們提出了結合MLDA及KLDA的兩級分類方法,其示意圖如圖1所示。該方法的基本思想是使用MLDA及最小歐式距離分類器(MEDC)作為第一級預分類器,分別選擇一小部分樣本來訓練一組KLDA子投影矩陣,這樣KLDA涉及到的Gram矩陣維數將大大減少。然后我們設計了一系列判決策略來對各個子投影矩陣的輸出進行智能評判后,給出最終的識別結果。

圖1 基于MLDA+KLDA的兩級手寫體漢字識別方法
初步的實驗數據使用1034類×120套樣本,其中100套用于訓練,20套用于測試,在KLDA中使用了多項式核函數(r取值為2),實驗結果如表2所示。
表2 使用MLAD、MLDA+KLDA方法對手寫漢字的識別結果
識別方法 MEDC LDA+MEDC MLDA+MEDC MLDA+KLDA
識別率 92.77% 94.26% 94.81% 96.14%
從表2可以看到,我們提出的MLDA通過補償LDA估計誤差而提高了LDA的性能,而基于KLDA的兩級分類方法比傳統的LDA方法提高了大約2個百分點,表明這種基于兩級架構的KLDA方法是可以成功應用到大類別手寫漢字的識別中,并能取得較佳的識別性能。
此外,我們也將漢字識別中使用得最好的MQDF分類器方法推廣到了基于核方法的高維空間(我們稱之為KMQDF),詳細推導出了KMQDF的構造過程,并初步成功應用于解決小類別模式識別問題,也獲得了不錯的識別效果。但對于大類別問題,KMQDF在實際應用時仍然會面臨巨大訓練樣本帶來的訓練難題,限于篇幅,本文將不作詳細介紹。
四、手寫中文詞組識別
手寫文字識別技術在單字識別方面已經取得了極大的發展,但至今也還有很多問題尚待解決,無約束手寫詞組的識別問題就是其中之一。無約束手寫詞組識別是指在一個沒有框格規定的區域無約束地隨意書寫詞組。從現在已經開始應用的手寫識別產品來看,手寫識別市場尤其是中文手寫識別市場現在還處在手寫字符識別階段,暫時還沒有比較成熟的無約束手寫詞組識別產品出現。而無約束手寫詞組識別與手寫字符識別相比,有著如下明顯的優勢:
·更自然的手寫輸入方式。人類手寫字符的自然習慣是想到哪兒寫到哪兒,而每個詞組中的每個字符通常都是同時從腦海中浮現出來,因此無約束地一次寫完整個詞組相比在框格內逐一書寫單個字符更加自然。
·更快捷的手寫輸入方式。由于用戶在無約束手寫詞組時,中間可以連筆不用停頓,因此比單字符手寫輸入更快捷。另外,由于有了詞組的字符之間的相關信息,人類在識別省略了筆劃的草書詞組時比分開來識別單個字符更容易,這也讓我們有信心使計算機能夠更容易地識別人類快速書寫出來的草書詞組,從而達到更高的手寫輸入效率。
·更流暢的手寫輸入方式。人們在手寫輸入時,不喜歡被打斷,由于有了前兩點的優勢,無約束手寫詞組輸入必將比單字符輸入更加流暢自然。
在手寫單字符識別技術已經較為成熟之后,手寫漢字詞組識別成為現在亟待研究解決的熱點問題(例如清華大學近期已經開始開展了這方面的工作),但國內外這方面的研究報道還不多。我們在微軟亞洲研究院高校合作研究基金的資助下,也開始了這方面的工作,由于國內外還沒有公開的標準手寫漢字詞組庫可供研究,因此我們收集整理了15套共260,000個手寫詞組樣本,這些樣本由30個不同的書寫者分別在WinCE掌上電腦(7套)及使用書寫屏的Windows XPPC機(8套)上實時采集,每套樣本含常用二字詞組14822個、三字詞組1195個、四字詞組1349個(如果時間及條件許可,我們還將繼續采集更多的手寫詞組樣本)。詞組識別的難點在于如何進行有效的文字切分,我們計劃使用的詞組識別解決辦法是一種基于可信度驗證模型的遞進式切分搜索自動識別方法,其基本思想來自于文獻(Zhi-Dan Feng, Qiang Huo, Confidence guided progressive search and fast match techniques for high performance Chinese/English OCR, ICPR 2002, 3: 89- 92, 2002.)中處理中英文混排OCR的一種嶄新方法。如圖2所示,當輸入一個未知詞組時,首先對該詞組進行垂直投影直方圖做預切分,得到切分圖(Segmentation Graph),然后通過對搜索圖中的每條弧所包含的字符塊進行識別驗證并得到相應的可信度,每當有一條弧的可信度低于一個預先定義的閾值時,就對這條弧內的字符塊再次進行分割或合并處理,同時整個切分圖就會動態重建一次,然后不斷地通過這種方式進行最優路徑搜索,最后同時得到切分及識別結果,再經過語言模型處理(例如使用詞匯庫或N-Gram統計語言模型),可以得到最終的詞組識別結果,相關的實驗工作還在開展,我們將另文介紹取得的研究結果。

圖2 一種基于可信度驗證模型的遞進式切分搜索詞組識別方法
五、應用討論
聯機手寫漢字識別的一個直接及傳統的應用就是構造手寫輸入法,例如手寫輸入已經是目前許多智能手機的重要功能之一,也是Windows Mobile平臺及Tablet PC的一個標準配置組件。我們也基于梯度特征及LDA算法構造了一個初步的聯機手寫漢字識別演示系統(該系統用Java跨平臺語言實現,詳見網頁http://218.192.168.156:8080/ohccr/ charrec.html,運行時需要Java Runtime Environment 1.5以上版本的支持),已經能較好地識別筆順無關的手寫體漢字。目前該系統還沒有加上虛擬筆劃等一些草書識別技術及先進的結合聯機及脫機識別引擎的多分類器集成技術,我們將來在適當時候會利用Java平臺實現這些技術并在該頁面上公布。
我們還構想了一個聯機手寫識別技術在計算機輔助漢字書寫學習中的嶄新應用——漢字聽寫學習,初步的原型網頁見http://218.192.168.156:8080/ call/dictation.asp,(該頁面同樣用Java平臺實現,運行時需要JRE支持)。 使用者可以進行在線漢字聽寫,然后系統利用聯機識別技術自動評判使用者書寫的字符是否正確,并給出反饋。該技術已經集成到我們正在設計的一個對外漢語書寫教學網站之中。近年來,隨著中國社會經濟建設的飛速發展,漢語教學在世界各地受到越來越多的重視,國外的漢語學習者日益增多,盡管目前國內外有不少漢語教學網站或軟件,但我們的學習系統利用低存儲量的活動漢字編碼技術及動態反走樣還原顯示技術、基于聯機識別的漢字聽寫技術以及漢字書寫質量評價技術,具有特色和創新。
六、結束語
我們認為,高自由度的草書識別及無約束的手寫詞組的識別是構造更自然、更快捷、更流暢的手寫輸入方式的核心技術,相信通過國內外同行的努力,在不遠的將來,手寫輸入法會變得更實用、更高效、更具競爭力;此外,手寫漢字/詞組識別技術在計算機教育、智能機器人等領域中還可帶來更多的創新應用。