摘要:隨著信息技術(shù)的發(fā)展,信息建設(shè)在我國得到了迅猛的發(fā)展,手寫數(shù)字識別的應用需求越來越廣泛。文章從概念、研究背景、研究意義等方面介紹了手寫數(shù)字識別的原理及實現(xiàn)方法,并介紹了手寫數(shù)字識別的幾個典型應用。
關(guān)鍵詞:人工智能;模式識別;OCR;手寫數(shù)字識別
0引言
手寫數(shù)字識別(Handwritten Numeral Recognition)是光學字符識別技術(shù)(Optical Character Recognition,簡稱OCR)的一個分支,它研究的對象是,如何利用電子計算機自動辨認人手寫在紙張上的阿拉伯數(shù)字。
在整個OCR領(lǐng)域中,最為困難的就是脫機手寫字符的識別,到目前為止,盡管人們在脫機手寫英文、漢字識別的研究中已取得很多可喜成就,但距實用還有一定距離。而在手寫數(shù)字識別這個方向上,經(jīng)過多年研究,研究工作者已經(jīng)開始把它向各種實際應用推廣。
字符識別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字(如:漢字,英文等)書寫或印刷的文本信息,目前在印刷體和聯(lián)機手寫方面技術(shù)已趨向成熟,并推出了很多應用系統(tǒng);另一類是數(shù)據(jù)信息,主要是由阿拉伯數(shù)字及少量特殊符號組成的各種編號和統(tǒng)計數(shù)據(jù),如:郵政編碼、統(tǒng)計報表、財務(wù)報表、銀行票據(jù)等等,處理這類信息的核心技術(shù)是手寫數(shù)字識別。這幾年來我國開始大力推廣的“三金”工程在很大程度上要依賴數(shù)據(jù)信息的輸入,如果能通過手寫數(shù)字識別技術(shù)實現(xiàn)信息的自動錄入,無疑會促進這一事業(yè)的發(fā)展。因此,手寫數(shù)字的識別研究有著重大的現(xiàn)實意義。
1手寫數(shù)字識別的理論價值
手寫數(shù)字識別作為模式識別領(lǐng)域的一個重要問題,也有著重要的理論價值:
(1)阿拉伯數(shù)字是惟一的被世界各國通用的符號,對手寫數(shù)字識別的研究基本上與文化背景無關(guān),這樣就為各國、各地區(qū)的研究工作者提供了一個施展才智的大舞臺。在這一領(lǐng)域大家可以探討,比較各種研究方法。
(2)由于數(shù)字識別的類別數(shù)較少,有助于做深入分析及驗證一些新的理論。最明顯的例子是人工神經(jīng)網(wǎng)絡(luò)(ANN)中相當一部分的ANN模型和算法都以手寫數(shù)字識別作為具體的實驗平臺,驗證理論的有效性,評價各種方法的優(yōu)缺點。
(3)盡管人們對手寫數(shù)字的識別已進行了長時間的研究,也取得了很多成果,但到目前為止機器識別還無法與人的認知能力相比,這仍是一個有難度的開放問題(Open problem)。
(4)手寫數(shù)字的識別方法很容易推廣到其它一些相關(guān)問題,一個最直接的應用是對英文這樣的拼音文字的識別。事實上,很多學者就是把數(shù)字和英文字母的識別放在一塊兒研究的。
數(shù)字的類別只有十種,筆劃又簡單,對其識別似乎不是很困難。但事實上,一些測試結(jié)果表明,數(shù)字的識別率并不如印刷體漢字識別率高,甚至也不如聯(lián)機手寫體漢字識別率高,而僅僅優(yōu)于脫機手寫體漢字識別。這其中主要原因是:第一,數(shù)字字形相差不大,使得準確區(qū)分某些數(shù)字相當困難;第二,數(shù)字雖然只有十種,而且筆劃簡單,但同—數(shù)字寫法千差萬別,全世界各個國家各個地區(qū)的人都用,其書寫上帶有明顯的區(qū)域特性,數(shù)字識別很難完全兼顧世界各種寫法。另外,在實際應用中,對數(shù)字識別技術(shù)中單字識別正確率的要求比文字識別技術(shù)要苛刻得多。這是因為,數(shù)字沒有上下文關(guān)系,每個單字的識別都至關(guān)重要,而且數(shù)字識別經(jīng)常涉及的財會、金融領(lǐng)域,其嚴格性更是不言而喻的。因此,用戶的要求不是單純的高正確率,更重要的是極低的、千分之—甚至萬分之一以下的誤識率。此外,大批量數(shù)據(jù)處理對系統(tǒng)速度又有相當?shù)囊螅S多理論上很完美但速度過低的方法是行不通的。因此,研究高性能的手寫數(shù)字識別算法是一個有相當挑戰(zhàn)性的任務(wù)。
2手寫數(shù)字識別的原理
正如前面提到的,手寫數(shù)字的寫法帶有明顯的地區(qū)性和民族性,因而選擇一個可供系統(tǒng)訓練和測試使用的樣本庫是手寫數(shù)字識別研究的重要基礎(chǔ)之一,對識別系統(tǒng)的性能也有重要的影響。研究者對所需的樣本庫有兩種選擇:一是自己根據(jù)需要建立專門的樣本庫,二是選用其它機構(gòu)做好的現(xiàn)成的樣本庫。前者的優(yōu)點是貼近自己的應用,缺點也是明顯的:要費相當?shù)木η掖硇院茈y保證,與其它人的結(jié)果不好比較。因此,現(xiàn)在的趨勢是使用有權(quán)威性的通用樣本庫。目前,比較有代表性的、樣本數(shù)量較大的手寫數(shù)字樣本庫有:(1)NIST數(shù)據(jù)庫,由美國國家標準與技術(shù)局收集;(2)CEDAR數(shù)據(jù)庫,是由紐約州立大學Buffalo分校計算機科學系建立的郵政編碼樣本庫;(3)ETL數(shù)據(jù)庫,由日本電工技術(shù)研究所收集;(4)ITPT數(shù)據(jù)庫,由日本郵電通信政策研究所收集。
作為一個識別系統(tǒng),我們最終要用某些參數(shù)來評價其性能的高低,手寫數(shù)字識別也不例外。評價的指標除了借用一般文字識別的指標外,還要根據(jù)數(shù)字識別的特點進行修改和補充。
對一個手寫數(shù)字識別系統(tǒng),可以用三方面的指標表征系統(tǒng)的性能:
正確識別率:A=正確識別樣本數(shù),全部樣本數(shù)*100%
替代率(誤識率):s=誤識樣本數(shù)/全部樣本數(shù)*100%
拒識率:R=拒識樣本數(shù)/全部樣本數(shù)*100%
三者的關(guān)系是:A+S+R=100%
數(shù)字識別的應用中,人們往往很關(guān)心的一個指標是“識別精度”,即:在所有識別的字符中,除去拒識字符,正確識別的比例有多大,我們定義:
識別精度:P=A/(A+S)*100%
—個理想的系統(tǒng)應是R,S盡量小,而P,A盡可能大。而在一個實際系統(tǒng)中,s,R是相互制約的,拒識率R的提高總伴隨著誤識率s的下降,與此同時識別率A和識別精度P的提高。因此,在評價手寫數(shù)字識別系統(tǒng)時,我們必須綜合考慮這幾個指標。另外,由于手寫數(shù)字的書寫風格、工整程度可能有相當大的差別,因此必須弄清評價指標值是在怎樣的樣本集合下獲得的。 手寫數(shù)字識別在學科上屬于模式識別和入工智能的范疇。在過去的四十年中,人們想出了很多辦法獲取手寫字符的關(guān)鍵特征。這些手段分兩大類:全局分析和結(jié)構(gòu)分析。對前者,我們可以使用模板匹配、像素密度、矩、特征點、數(shù)學變換等技術(shù),并且常常和統(tǒng)計分類方法—起使用。對后者,多半需要從字符的輪廓或骨架上提取字符形狀的基本特征,包括:圈、端點、節(jié)點、弧、突起、凹陷,與這些結(jié)構(gòu)特征配合使用的往往是句法的分類方法。
多年的研究實踐表明,對于完全沒有限制的手寫數(shù)字,幾乎可以肯定,沒有一種簡單的方案能達到很高的識別率和識別精度。因此,最近這方面的努力向著更為成熟、復雜、綜合的方向發(fā)展。研究工作者努力把新的知識運用到預處理、特征提取與分類當中,如:神經(jīng)網(wǎng)絡(luò)、數(shù)學形態(tài)學等。作者認為,神經(jīng)網(wǎng)絡(luò)技術(shù)和多種方法的綜合是值得重視的方向。
3基于手寫數(shù)字識別的典型應用
下面我們將介紹基于手寫數(shù)字識別的應用系統(tǒng)的特殊要求,以及一些以手寫數(shù)字識別技術(shù)為基礎(chǔ)的典型應用。3.1基于手寫數(shù)字識別的應用系統(tǒng)的特殊要求
盡管手寫數(shù)字識別與一般的文本(如:漢字,英文等)識別同屬于光學字符識別(OCR)的大范疇,從應用的角度出發(fā),手寫數(shù)字識別應用系統(tǒng)有很多特殊的要求。
(1)識別精度要達到很高的水平。
在一般的文本識別中,信息的冗余較大,有充分的上下文信息,因而對識別的精度要求不是十分高,達到98-99%就足夠了。而在數(shù)字識別中,由于沒有上下文關(guān)系,數(shù)據(jù)中的每一位數(shù)字都至關(guān)重要(如財務(wù)報表)。一般來說,這類實用系統(tǒng)的精度至少應在99.9%以上。為此,在目前的技術(shù)水平下,可采取以下措施來滿足高精度的要求:
①要求書寫者用規(guī)定的字型認真填寫,避免使用某些容易造成混淆的變體。
這個限制對用戶可能是很不方便的,因為這意味著書寫速度的降低和書寫習慣的改變,但從整體上,系統(tǒng)的識別水平將有大幅度的提高,能很大程度上提高系統(tǒng)的運行效率。
②提高拒識率。
通過提高拒識率就可以減低誤識率,直到達到指定的精度要求。當然,拒識的增多意味著操作人員介入的增加,這對用戶是極為不利的。
③加入邏輯校驗。
在通信系統(tǒng)中,人們常通過加校驗碼來保證數(shù)據(jù)的高質(zhì)量傳輸,常見的校驗碼有:奇偶校驗,漢明碼等。在基于手寫數(shù)字的應用系統(tǒng)中,我們也可以采用類似的方法。不過,這時校驗方式應盡量簡單,直觀,利于填寫人快速計算。
(2)對處理速度也有很高的要求。
數(shù)字識別面對的是大量的數(shù)據(jù)報表,一般都要求達到每分鐘幾頁到幾十頁的處理能力(包括從掃描到完成識別的全過程)。既要達到前面提到的高識別精度,又要有高速度,無疑增加了系統(tǒng)的設(shè)計難度。不過近年來,硬件水平提高很快,目前市場上已有較低價格,每分鐘可掃描10-20頁的高性能掃描儀;微機的運算速度更是飛快提高,這些都為高的處理速度奠定了堅實的基礎(chǔ)。
(3)要能批量自動作業(yè)。
在一般的文本識別中,都是操作者一頁頁地送入文本,手工幫助機器進行版面分割(機器的自動分割能力往往是十分有限的)后再開始識別,很難保證高質(zhì)量的批量自動識別。而在數(shù)字識別系統(tǒng)中這是—個必須做到且應能做到的基本要求。原因如下:
①如果每頁的處理都要人手工幫助完成,系統(tǒng)的綜合處理速度無法達到要求;
②掃描儀的自動進紙(ADF-Automatic Document Feeding)技術(shù)已十分成熟;
③處理的對象在很多情況下是版面完全相同的大批表格,很容易作到欄目的自動提取。
(4)要有便于批量快速校對修改的手段。
3.2手寫數(shù)字識別在大規(guī)模數(shù)據(jù)統(tǒng)計中的應用
在大規(guī)模的數(shù)據(jù)統(tǒng)計(如:行業(yè)年檢、人口普查等)中,需要輸入大量的數(shù)據(jù),以前完全要手工輸入,需要耗費大量的人力和物力。近年來在這類工作中采用OCR技術(shù)已成為一種趨勢。
因為在這種應用中,數(shù)據(jù)的錄入是集中組織的,所以往往可以通過專門設(shè)計表格和對書寫施加限制以便于機器的自動識別。目前國內(nèi)的大多數(shù)實用系統(tǒng)都要求用戶按指定規(guī)范在方格內(nèi)填寫。另外,這些系統(tǒng)往往采用合適的用戶界面對識別結(jié)果做全面的檢查,最終保證結(jié)果正確無誤。可以看出,這是一類相對容易的應用,對識別核心算法的要求比較低,是目前國內(nèi)很多單位應用開發(fā)的熱點。
3.3手寫數(shù)字識別在財務(wù)、稅務(wù)、金融領(lǐng)域中的應用
財務(wù)、稅務(wù)、金融是手寫數(shù)字識別大有可為的又一領(lǐng)域。隨著我國經(jīng)濟的迅速發(fā)展,每天等待處理的財務(wù)、稅務(wù)報表、支票、付款單等越來越多。如果能把它們用計算機自動處理,無疑可以節(jié)約大量的時間、金錢和勞力。與上面提到的統(tǒng)計報表處理相比,在這個領(lǐng)域的應用難度更大,原因有:(1)對識別的精度要求更高;(2)處理的表格往往不止一種,一個系統(tǒng)應能智能地同時處理若干種表格;(3)由于處理貫穿于整個日常工作之中,書寫應盡量按一般習慣(如:不對書寫者的寫法做限定,書寫時允許寫連續(xù)的字串,而不是在固定的方格內(nèi)書寫),這樣對識別及預處理的核心算法要求也提高了。
3.4手寫數(shù)字識別在郵件分揀中的應用
在郵件的自動分揀中,手寫數(shù)字識別(OCR)往往與光學條碼識別(OBR Optical Bar Reading)和人工輔助識別等手段相結(jié)合,來完成郵政編碼的閱讀。目前使用量最大的OVCS分揀機的性能指標為:OCR拒分率30%,OCR分揀差錯率1.1%。
4結(jié)束語
隨著國家信息化進程的加速,手寫數(shù)字識別的應用需求將越來越廣泛,因此應當加強這方面的研究工作。作者認為,應用系統(tǒng)性能的關(guān)鍵與瓶頸仍然在于手寫數(shù)字識別核心算法性能上,最終目標是研究零誤識率和低拒識率的高速識別算法。此外,盡早建立反映中國人書寫習慣的、具有國家標準性質(zhì)的手寫數(shù)字樣本庫也是當務(wù)之急。
(注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。)