顧立娟,劉才斌,吳 勇,郝玉保
(1.武漢軍械士官學(xué)校 湖北 武漢 430075;2.75719部隊(duì) 湖北 武漢 430074)
文本圖像文字種類(lèi)的自動(dòng)識(shí)別是對(duì)以圖像形式呈現(xiàn)、由不同語(yǔ)言文字構(gòu)成的文本圖像,提取能用于計(jì)算機(jī)識(shí)別的底層特征,實(shí)現(xiàn)語(yǔ)言文字種類(lèi)的識(shí)別和分類(lèi)。在海量信息處理中,作為文本圖像分析的重要組成部分和OCR系統(tǒng)的前端處理技術(shù),文本圖像的語(yǔ)言文字種類(lèi)識(shí)別成為海量信息處理中面臨的一個(gè)基本的研究課題。
目前,針對(duì)語(yǔ)言文字種類(lèi)識(shí)別進(jìn)行的研究可以劃分為基于統(tǒng)計(jì)特征、基于符號(hào)匹配和基于紋理特征的文種識(shí)別3大類(lèi)。基于統(tǒng)計(jì)特征和符號(hào)匹配的文種識(shí)別算法具有較高的識(shí)別準(zhǔn)確率,但對(duì)文本圖像的傾斜、噪聲等魯棒性比較差。基于紋理特征的文種識(shí)別算法提高了對(duì)圖像質(zhì)量退化的魯棒性,逐漸成為研究重點(diǎn)。目前的算法主要有基于Gabor濾波器法[1]和基于小波變換法[2]基于灰度級(jí)共生矩陣法[3]及基于小波變換的共生矩陣法[3]。Gabor濾波具有旋轉(zhuǎn)不變性,文種識(shí)別率較高,但是計(jì)算量很大;小波變換存在快速算法,大大減小了計(jì)算量,但識(shí)別率不高。
針對(duì)目前文本圖像文種識(shí)別方法存在的一些問(wèn)題,本文提出了一種基于多小波變換的文本圖像文種識(shí)別方法。多小波[4-6]是多個(gè)尺度函數(shù)構(gòu)成的小波,既保持了傳統(tǒng)小波良好的時(shí)域與頻域的局部化特性,又將光滑性、緊支性、對(duì)稱(chēng)性、正交性完美地結(jié)合在一起,更適合于提取圖像的紋理特征。本文采用多小波變換提取文本圖像的紋理特征進(jìn)行文種識(shí)別,在2個(gè)不同質(zhì)量的圖像庫(kù)上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,該算法對(duì)多文種的識(shí)別非常有效并對(duì)圖像質(zhì)量退化具有很強(qiáng)的魯棒性。
所謂多小波是指小波函數(shù)的構(gòu)造是由多個(gè)尺度函數(shù)完成的。為了與多小波相區(qū)別,稱(chēng)傳統(tǒng)小波為單小波。
令 φ=(φ1,φ2,…,φr)T和 ψ=(ψ1,ψ2,…,ψr)T分別為 r階多小波的多尺度函數(shù)和多小波函數(shù)。類(lèi)似于單尺度情況,φ和ψ滿足雙尺度方程:

其中,矩陣Hk為低通矩陣濾波器,Gk為高通矩陣濾波器。
多小波的分解和重構(gòu)算法為:
分解過(guò)程:

合成過(guò)程:

多小波有r個(gè)尺度函數(shù),變換后每個(gè)子帶有r×r個(gè)子圖,而單小波只有一個(gè)尺度函數(shù),變換后的每個(gè)子帶只有一個(gè)子圖。容易證明,L級(jí)多小波變換將圖像分解為r2×(3L+1)個(gè)子圖。例如:當(dāng)L=1時(shí),雙小波分解每個(gè)子帶有16個(gè)子圖數(shù),而單小波只有4個(gè)。
多小波與單小波本質(zhì)上是一致的,但多小波變換是采用向量濾波器組來(lái)實(shí)現(xiàn)的。為了解決輸入數(shù)據(jù)矢量化問(wèn)題,首先要對(duì)信號(hào)進(jìn)行預(yù)處理,即在多小波變換前,采用預(yù)處理方法矢量化初始數(shù)據(jù),使其進(jìn)入塔式算法的輸入變?yōu)閞維數(shù)據(jù)。然后通過(guò)r×r的預(yù)濾波器Q(w),獲得用于多小波分解的初始矢量信號(hào)Ck(0),再進(jìn)行多小波分解。圖1所示為多小波的分解過(guò)程。

圖1 多小波分解過(guò)程結(jié)構(gòu)圖Fig.1 Chart of multi-wavelet decomposition process
由于多小波由多個(gè)尺度函數(shù)構(gòu)成,所以多小波函數(shù)的設(shè)計(jì)具有更大的靈活性。這樣構(gòu)造出的多小波既可以保持單小波的時(shí)頻域局部化特性,又能克服單小波的缺陷,可同時(shí)具有正交、對(duì)稱(chēng)、短緊支撐和高階消失矩等優(yōu)良特性。在處理文本圖像中的文字信號(hào)時(shí),正交性可保持能量,對(duì)稱(chēng)性既適合于人眼的視覺(jué)系統(tǒng),又使信號(hào)在邊界易于處理,所以本文采用多小波變換提取文本圖像的紋理特征進(jìn)行文種識(shí)別。
一幅圖像 f(m,n),大小為 N×N,其平均能量定義為:

不同的文本圖像有不同的平均能量,進(jìn)行多小波變換之前,對(duì)各個(gè)文本圖像的能量進(jìn)行歸一化:

本文選擇2個(gè)尺度函數(shù)構(gòu)成的多小波來(lái)對(duì)g(m,n)進(jìn)行分解。多小波函數(shù)采用'bigm2'雙正交多重小波,預(yù)處理采用雙正交插值預(yù)濾波方法,對(duì)圖像進(jìn)行兩級(jí)多小波分解,得到24個(gè)細(xì)節(jié)子圖,4個(gè)逼近子圖。圖2為圖像的兩級(jí)多小波分解示意圖。
鑒于文本圖像的文字筆畫(huà)在各個(gè)方向、各個(gè)頻率的能量分布存在差異,本文計(jì)算多小波兩級(jí)分解得到的24個(gè)細(xì)節(jié)子圖的能量均值和標(biāo)準(zhǔn)差作為特征:

圖2 圖像兩級(jí)多小波分解示意圖Fig.2 Schematic diagram of image two levels multi-wavelet decomposition

其中 Wlj,k為細(xì)節(jié)子圖;l=1,2,3,4, 表示每級(jí)分解同一個(gè)方向上的 4 個(gè)細(xì)節(jié)子圖;j=1,2,表示分解級(jí)數(shù);k=1,2,3,分別代表H,V,D 3個(gè)方向,N為圖像尺寸。
據(jù)式(6)~(8)計(jì)算得到48維多小波能量統(tǒng)計(jì)紋理特征矢量:

對(duì)于相似文種的特征,類(lèi)內(nèi)距離越小,類(lèi)間距離越大,特征的識(shí)別能力越好。可以定義不同種類(lèi)兩兩之間的類(lèi)內(nèi)距離和類(lèi)間距離的差值比例rate作為重疊率,來(lái)衡量特征的區(qū)別能力:

式中,RE 表示特征 矢量,n,ni,nj表示不同的種 類(lèi) ,k=1,2,…,K 表示樣本的數(shù)量,x=1,2,…,X 表示對(duì)應(yīng)的特征值索引。 indisn、outdisni,nj表示類(lèi)內(nèi)、類(lèi)間距離。 根據(jù) Bayes準(zhǔn)則,重疊率越小,特征的分類(lèi)能力越強(qiáng)。
本文建立了包含阿拉伯、緬甸、柬埔寨、中、英、印地、日、韓、俄、藏10種文種的圖像庫(kù),其中中日、英俄、阿拉伯、印地、柬埔寨、藏文在紋理方面相對(duì)比較接近,從圖像庫(kù)1中抽取中、日、英、俄、阿拉伯、印地、柬埔寨、藏8種文種的圖像各100幅作為實(shí)驗(yàn)圖像檢驗(yàn)多小波能量統(tǒng)計(jì)特征對(duì)不同文種的區(qū)別能力。據(jù)式(9)計(jì)算實(shí)驗(yàn)圖像的多小波能量統(tǒng)計(jì)紋理特征矢量。 據(jù)式(10)~(15)計(jì)算中日,英俄,阿拉伯印地,柬埔寨藏之間的重疊率。
作為對(duì)比,對(duì)曾理等人提出的基于單小波變換的文種識(shí)別特征提取方法[3]進(jìn)行了同樣的實(shí)驗(yàn)。采用“Daubechies7”小波對(duì)圖像進(jìn)行兩級(jí)分解,提取每個(gè)細(xì)節(jié)子圖的能量比例紋理特征,得到6維特征矢量。同樣依式(10)~(15)計(jì)算實(shí)驗(yàn)圖像中不同文種的重疊率rate。實(shí)驗(yàn)結(jié)果如表1所示。

表1 特征的區(qū)別能力比較Tab.1 Comparison of ability to discriminate different features
由表1可見(jiàn),基于多小波的能量統(tǒng)計(jì)紋理特征對(duì)文種的區(qū)別能力要優(yōu)于基于單小波的能量比例紋理特征,對(duì)文種識(shí)別更有效。
如何尋找不同文種特征間的最優(yōu)分類(lèi)面是文種識(shí)別的關(guān)鍵所在。目前文種識(shí)別使用最多的分類(lèi)工具是SVM[7](Support Vector Machines,支持向量機(jī))。但用于對(duì)多維特征向量進(jìn)行多分類(lèi)時(shí),SVM的參數(shù)優(yōu)化過(guò)程變得相當(dāng)復(fù)雜。鑒于此,本實(shí)驗(yàn)采用LIBSVM[8]分類(lèi)軟件。LIBSVM是由Chih_Chung和Chih_jen Lin開(kāi)發(fā)的一個(gè)SVM工具,廣泛應(yīng)用于SVM、回歸和分類(lèi)估計(jì),并且支持多類(lèi)分類(lèi),通過(guò)交叉確認(rèn)法可以得到最佳的參數(shù)來(lái)提高識(shí)別的準(zhǔn)確率。本文選取徑向基函數(shù)(RBF)為核函數(shù)。用LIBSVM隨機(jī)抽取2/3樣本用于訓(xùn)練,余下的1/3用于測(cè)試。
首先將圖像進(jìn)行能量歸一化處理,然后進(jìn)行多小波分解,提取能量統(tǒng)計(jì)紋理特征,建立紋理特征庫(kù)。通過(guò)LIBSVM軟件從庫(kù)中隨機(jī)抽取樣本進(jìn)行訓(xùn)練,得到SVM的最優(yōu)參數(shù),用此參數(shù)對(duì)測(cè)試樣本進(jìn)行識(shí)別。圖3為本文提出算法的文種識(shí)別流程圖。

圖3 文種識(shí)別流程圖Fig.3 Flow chart of the script identification
圖像庫(kù)1中文本圖像是從雜志和書(shū)籍上掃描得到的,在采集過(guò)程中出現(xiàn)了輕微的噪聲、筆畫(huà)斷裂等質(zhì)量退化現(xiàn)象。圖像庫(kù)2對(duì)圖像庫(kù)1中的圖像做了±1~±5°之間不等角度的傾斜,所包含的文本行為3~8行不等。2個(gè)圖像庫(kù)均包含阿拉伯、緬甸、柬埔寨、中、英、印地、日、韓、俄、藏10種文種圖像各300幅。圖像大小為128×128像素,8位灰度圖像。圖4、圖5所示為圖像庫(kù)1、2中的部分文本圖像。

圖4 圖像庫(kù)1中的部分文本圖像Fig.4 Part of document images in the image database No.1

圖5 圖像庫(kù)2中的部分文本圖像Fig.5 Part of document images in the image database No.2
為了驗(yàn)證算法對(duì)不同樣本的適應(yīng)能力,對(duì)每個(gè)圖像庫(kù)各進(jìn)行了5次實(shí)驗(yàn)。實(shí)驗(yàn)時(shí)用LIBSVM從圖像庫(kù)中每種文種隨機(jī)抽取200幅用于訓(xùn)練,余下的100幅用于測(cè)試。
為了驗(yàn)證算法的有效性,同時(shí)對(duì)曾理等人提出的基于單小波變換的文種識(shí)別方法[3]進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)參數(shù)在本文2.2節(jié)給出。
在Intel 1.8 GHz和1 G內(nèi)存的Windows XP Professional微機(jī)環(huán)境下,用MallabR2006a為實(shí)驗(yàn)平臺(tái)進(jìn)行實(shí)驗(yàn)。
表2中表示的是每種算法的特征提取時(shí)間,其中T指代時(shí)間。表3中表示的10種文種的識(shí)別結(jié)果以及平均識(shí)別率。取5次實(shí)驗(yàn)結(jié)果的平均值:


表2 特征提取速度比較Tab.2 Comparision of the feature extraction efficiency

表3 識(shí)別結(jié)果(%)Tab.3 Result of recognization(%)
由表2、表3所示的實(shí)驗(yàn)結(jié)果可以看出,多小波變換在計(jì)算速度上要低于單小波變換。但對(duì)多文種的圖像庫(kù),基于多小波變換的文種識(shí)別算法具有很高的識(shí)別準(zhǔn)確率,對(duì)質(zhì)量較好的文本圖像幾乎可以進(jìn)行精確的文種識(shí)別,性能遠(yuǎn)遠(yuǎn)優(yōu)于單小波特征提取方法。在圖像質(zhì)量較差、單小波識(shí)別率迅速下降的情況下,本文算法仍具有較高的識(shí)別準(zhǔn)確率。
本文在對(duì)文本圖像紋理特征進(jìn)行深入分析的基礎(chǔ)上,針對(duì)文本圖像紋理特征具有很強(qiáng)的方向性及以文字行為周期的準(zhǔn)周期性,采用多小波變換來(lái)提取文本圖像的紋理特征進(jìn)行文種識(shí)別,在對(duì)包含10種文種、圖像質(zhì)量退化程度不同的圖像庫(kù)上進(jìn)行實(shí)驗(yàn)時(shí),識(shí)別精度均很高。相對(duì)于單小波變換而言,多小波變換同時(shí)具有正交、對(duì)稱(chēng)、短緊支撐和高階消失矩等優(yōu)良特性,在提取圖像紋理特征進(jìn)行文種識(shí)別方面更為有效,對(duì)噪聲、筆畫(huà)斷裂等質(zhì)量退化現(xiàn)象有很強(qiáng)的魯棒性。
[1]TAN T.Rotation invariant texture features and their use in automatic script identification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(7):751-756.
[2]曾理,唐遠(yuǎn)炎,陳廷槐.基于多尺度小波紋理分析的文字種類(lèi)自動(dòng)識(shí)別[J].計(jì)算機(jī)學(xué)報(bào),2000,23(7):699-704.
ZENG Li, TANG Yuan-yan, CHEN Ting-huai.Multi-scale wavelet texture-based script identification method[J].Chinese Journal of Computers,2000,23(7):699-704.
[3]Busch A,Boles W W,Sridharan S.Texture for script identification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(11):1720-1732.
[4]StrelaV.Multi-wavelets:theoryandapplications[D].Cambridge:Mass Inst Technic,1996.
[5]Strela V,Tan H H,Tham J Y.Symmetric-anti-symmetric orthogonal multi-wavelets and related scalar wavelets[J].Journal of Applied and Computational Harmonic Analysis,2008(8):258-279.
[6]Xia X G, Geronimo J S, Hardin D P, et a1.Design of pre-filters for discrete multi-wavelet transform[J].IEEE Transaction Signal Processing,1996,44(1):25-35.
[7]Vapnik V.The nature of statistical learning theory[M].New York:Springer-Verlag,1995.
[8]Chang C C, Lin C J.LIBSVM:a library for support vector machines[EB/OL]. (2011).http://www.csie.ntu.edu.tw/~cjlin /libsvm.