基于多小波變換的文本圖像文種識(shí)別

2011-10-09 09:46:40顧立娟劉才斌郝玉保

電子設(shè)計(jì)工程 2011年15期

顧立娟，劉才斌，吳勇，郝玉保

（1.武漢軍械士官學(xué)校湖北武漢 430075；2.75719部隊(duì) 湖北武漢 430074）

文本圖像文字種類(lèi)的自動(dòng)識(shí)別是對(duì)以圖像形式呈現(xiàn)、由不同語(yǔ)言文字構(gòu)成的文本圖像，提取能用于計(jì)算機(jī)識(shí)別的底層特征，實(shí)現(xiàn)語(yǔ)言文字種類(lèi)的識(shí)別和分類(lèi)。在海量信息處理中，作為文本圖像分析的重要組成部分和OCR系統(tǒng)的前端處理技術(shù)，文本圖像的語(yǔ)言文字種類(lèi)識(shí)別成為海量信息處理中面臨的一個(gè)基本的研究課題。

目前，針對(duì)語(yǔ)言文字種類(lèi)識(shí)別進(jìn)行的研究可以劃分為基于統(tǒng)計(jì)特征、基于符號(hào)匹配和基于紋理特征的文種識(shí)別3大類(lèi)。基于統(tǒng)計(jì)特征和符號(hào)匹配的文種識(shí)別算法具有較高的識(shí)別準(zhǔn)確率，但對(duì)文本圖像的傾斜、噪聲等魯棒性比較差。基于紋理特征的文種識(shí)別算法提高了對(duì)圖像質(zhì)量退化的魯棒性，逐漸成為研究重點(diǎn)。目前的算法主要有基于Gabor濾波器法[1]和基于小波變換法[2]基于灰度級(jí)共生矩陣法[3]及基于小波變換的共生矩陣法[3]。Gabor濾波具有旋轉(zhuǎn)不變性，文種識(shí)別率較高，但是計(jì)算量很大；小波變換存在快速算法，大大減小了計(jì)算量，但識(shí)別率不高。

針對(duì)目前文本圖像文種識(shí)別方法存在的一些問(wèn)題，本文提出了一種基于多小波變換的文本圖像文種識(shí)別方法。多小波[4-6]是多個(gè)尺度函數(shù)構(gòu)成的小波，既保持了傳統(tǒng)小波良好的時(shí)域與頻域的局部化特性，又將光滑性、緊支性、對(duì)稱(chēng)性、正交性完美地結(jié)合在一起，更適合于提取圖像的紋理特征。本文采用多小波變換提取文本圖像的紋理特征進(jìn)行文種識(shí)別，在2個(gè)不同質(zhì)量的圖像庫(kù)上進(jìn)行的實(shí)驗(yàn)結(jié)果表明，該算法對(duì)多文種的識(shí)別非常有效并對(duì)圖像質(zhì)量退化具有很強(qiáng)的魯棒性。

1 多小波變換原理

所謂多小波是指小波函數(shù)的構(gòu)造是由多個(gè)尺度函數(shù)完成的。為了與多小波相區(qū)別，稱(chēng)傳統(tǒng)小波為單小波。

令 φ=（φ1，φ2，…，φr）T和 ψ=（ψ1，ψ2，…，ψr）T分別為 r階多小波的多尺度函數(shù)和多小波函數(shù)。類(lèi)似于單尺度情況，φ和ψ滿足雙尺度方程：

其中，矩陣Hk為低通矩陣濾波器，Gk為高通矩陣濾波器。

多小波的分解和重構(gòu)算法為：

分解過(guò)程：

合成過(guò)程：

多小波有r個(gè)尺度函數(shù)，變換后每個(gè)子帶有r×r個(gè)子圖，而單小波只有一個(gè)尺度函數(shù)，變換后的每個(gè)子帶只有一個(gè)子圖。容易證明，L級(jí)多小波變換將圖像分解為r2×（3L+1）個(gè)子圖。例如：當(dāng)L=1時(shí)，雙小波分解每個(gè)子帶有16個(gè)子圖數(shù)，而單小波只有4個(gè)。

多小波與單小波本質(zhì)上是一致的，但多小波變換是采用向量濾波器組來(lái)實(shí)現(xiàn)的。為了解決輸入數(shù)據(jù)矢量化問(wèn)題，首先要對(duì)信號(hào)進(jìn)行預(yù)處理，即在多小波變換前，采用預(yù)處理方法矢量化初始數(shù)據(jù)，使其進(jìn)入塔式算法的輸入變?yōu)閞維數(shù)據(jù)。然后通過(guò)r×r的預(yù)濾波器Q（w），獲得用于多小波分解的初始矢量信號(hào)Ck（0），再進(jìn)行多小波分解。圖1所示為多小波的分解過(guò)程。

圖1 多小波分解過(guò)程結(jié)構(gòu)圖Fig.1 Chart of multi-wavelet decomposition process

由于多小波由多個(gè)尺度函數(shù)構(gòu)成，所以多小波函數(shù)的設(shè)計(jì)具有更大的靈活性。這樣構(gòu)造出的多小波既可以保持單小波的時(shí)頻域局部化特性，又能克服單小波的缺陷，可同時(shí)具有正交、對(duì)稱(chēng)、短緊支撐和高階消失矩等優(yōu)良特性。在處理文本圖像中的文字信號(hào)時(shí)，正交性可保持能量，對(duì)稱(chēng)性既適合于人眼的視覺(jué)系統(tǒng)，又使信號(hào)在邊界易于處理，所以本文采用多小波變換提取文本圖像的紋理特征進(jìn)行文種識(shí)別。

2 基于多小波變換的文種識(shí)別

2.1 多小波變換紋理特征提取

一幅圖像 f（m，n），大小為 N×N，其平均能量定義為：

不同的文本圖像有不同的平均能量，進(jìn)行多小波變換之前，對(duì)各個(gè)文本圖像的能量進(jìn)行歸一化：

本文選擇2個(gè)尺度函數(shù)構(gòu)成的多小波來(lái)對(duì)g（m，n）進(jìn)行分解。多小波函數(shù)采用'bigm2'雙正交多重小波，預(yù)處理采用雙正交插值預(yù)濾波方法，對(duì)圖像進(jìn)行兩級(jí)多小波分解，得到24個(gè)細(xì)節(jié)子圖，4個(gè)逼近子圖。圖2為圖像的兩級(jí)多小波分解示意圖。

鑒于文本圖像的文字筆畫(huà)在各個(gè)方向、各個(gè)頻率的能量分布存在差異，本文計(jì)算多小波兩級(jí)分解得到的24個(gè)細(xì)節(jié)子圖的能量均值和標(biāo)準(zhǔn)差作為特征：

圖2 圖像兩級(jí)多小波分解示意圖Fig.2 Schematic diagram of image two levels multi-wavelet decomposition

其中 Wlj，k為細(xì)節(jié)子圖；l＝1，2，3，4，表示每級(jí)分解同一個(gè)方向上的 4 個(gè)細(xì)節(jié)子圖；j=1，2，表示分解級(jí)數(shù)；k=1，2，3，分別代表H，V，D 3個(gè)方向，N為圖像尺寸。

據(jù)式（6）～（8）計(jì)算得到48維多小波能量統(tǒng)計(jì)紋理特征矢量：

2.2 特征對(duì)文種的區(qū)別能力分析

對(duì)于相似文種的特征，類(lèi)內(nèi)距離越小，類(lèi)間距離越大，特征的識(shí)別能力越好。可以定義不同種類(lèi)兩兩之間的類(lèi)內(nèi)距離和類(lèi)間距離的差值比例rate作為重疊率，來(lái)衡量特征的區(qū)別能力：

式中，RE 表示特征矢量，n，ni，nj表示不同的種類(lèi) ，k=1，2，…，K 表示樣本的數(shù)量，x=1，2，…，X 表示對(duì)應(yīng)的特征值索引。 indisn、outdisni，nj表示類(lèi)內(nèi)、類(lèi)間距離。根據(jù) Bayes準(zhǔn)則，重疊率越小，特征的分類(lèi)能力越強(qiáng)。

本文建立了包含阿拉伯、緬甸、柬埔寨、中、英、印地、日、韓、俄、藏10種文種的圖像庫(kù)，其中中日、英俄、阿拉伯、印地、柬埔寨、藏文在紋理方面相對(duì)比較接近，從圖像庫(kù)1中抽取中、日、英、俄、阿拉伯、印地、柬埔寨、藏8種文種的圖像各100幅作為實(shí)驗(yàn)圖像檢驗(yàn)多小波能量統(tǒng)計(jì)特征對(duì)不同文種的區(qū)別能力。據(jù)式（9）計(jì)算實(shí)驗(yàn)圖像的多小波能量統(tǒng)計(jì)紋理特征矢量。據(jù)式（10）～（15）計(jì)算中日，英俄，阿拉伯印地，柬埔寨藏之間的重疊率。

作為對(duì)比，對(duì)曾理等人提出的基于單小波變換的文種識(shí)別特征提取方法[3]進(jìn)行了同樣的實(shí)驗(yàn)。采用“Daubechies7”小波對(duì)圖像進(jìn)行兩級(jí)分解，提取每個(gè)細(xì)節(jié)子圖的能量比例紋理特征，得到6維特征矢量。同樣依式（10）～（15）計(jì)算實(shí)驗(yàn)圖像中不同文種的重疊率rate。實(shí)驗(yàn)結(jié)果如表1所示。

表1 特征的區(qū)別能力比較Tab.1 Comparison of ability to discriminate different features

由表1可見(jiàn)，基于多小波的能量統(tǒng)計(jì)紋理特征對(duì)文種的區(qū)別能力要優(yōu)于基于單小波的能量比例紋理特征，對(duì)文種識(shí)別更有效。

2.3 基于LIBSVM的文種識(shí)別

如何尋找不同文種特征間的最優(yōu)分類(lèi)面是文種識(shí)別的關(guān)鍵所在。目前文種識(shí)別使用最多的分類(lèi)工具是SVM[7](Support Vector Machines，支持向量機(jī))。但用于對(duì)多維特征向量進(jìn)行多分類(lèi)時(shí)，SVM的參數(shù)優(yōu)化過(guò)程變得相當(dāng)復(fù)雜。鑒于此，本實(shí)驗(yàn)采用LIBSVM[8]分類(lèi)軟件。LIBSVM是由Chih_Chung和Chih_jen Lin開(kāi)發(fā)的一個(gè)SVM工具，廣泛應(yīng)用于SVM、回歸和分類(lèi)估計(jì)，并且支持多類(lèi)分類(lèi),通過(guò)交叉確認(rèn)法可以得到最佳的參數(shù)來(lái)提高識(shí)別的準(zhǔn)確率。本文選取徑向基函數(shù)(RBF)為核函數(shù)。用LIBSVM隨機(jī)抽取2/3樣本用于訓(xùn)練，余下的1/3用于測(cè)試。

首先將圖像進(jìn)行能量歸一化處理，然后進(jìn)行多小波分解，提取能量統(tǒng)計(jì)紋理特征，建立紋理特征庫(kù)。通過(guò)LIBSVM軟件從庫(kù)中隨機(jī)抽取樣本進(jìn)行訓(xùn)練，得到SVM的最優(yōu)參數(shù)，用此參數(shù)對(duì)測(cè)試樣本進(jìn)行識(shí)別。圖3為本文提出算法的文種識(shí)別流程圖。

圖3 文種識(shí)別流程圖Fig.3 Flow chart of the script identification

3 實(shí)驗(yàn)結(jié)果與分析

圖像庫(kù)1中文本圖像是從雜志和書(shū)籍上掃描得到的，在采集過(guò)程中出現(xiàn)了輕微的噪聲、筆畫(huà)斷裂等質(zhì)量退化現(xiàn)象。圖像庫(kù)2對(duì)圖像庫(kù)1中的圖像做了±1～±5°之間不等角度的傾斜，所包含的文本行為3～8行不等。2個(gè)圖像庫(kù)均包含阿拉伯、緬甸、柬埔寨、中、英、印地、日、韓、俄、藏10種文種圖像各300幅。圖像大小為128×128像素，8位灰度圖像。圖4、圖5所示為圖像庫(kù)1、2中的部分文本圖像。

圖4 圖像庫(kù)1中的部分文本圖像Fig.4 Part of document images in the image database No.1

圖5 圖像庫(kù)2中的部分文本圖像Fig.5 Part of document images in the image database No.2

為了驗(yàn)證算法對(duì)不同樣本的適應(yīng)能力，對(duì)每個(gè)圖像庫(kù)各進(jìn)行了5次實(shí)驗(yàn)。實(shí)驗(yàn)時(shí)用LIBSVM從圖像庫(kù)中每種文種隨機(jī)抽取200幅用于訓(xùn)練，余下的100幅用于測(cè)試。

為了驗(yàn)證算法的有效性，同時(shí)對(duì)曾理等人提出的基于單小波變換的文種識(shí)別方法[3]進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)參數(shù)在本文2.2節(jié)給出。

在Intel 1.8 GHz和1 G內(nèi)存的Windows XP Professional微機(jī)環(huán)境下，用MallabR2006a為實(shí)驗(yàn)平臺(tái)進(jìn)行實(shí)驗(yàn)。

表2中表示的是每種算法的特征提取時(shí)間，其中T指代時(shí)間。表3中表示的10種文種的識(shí)別結(jié)果以及平均識(shí)別率。取5次實(shí)驗(yàn)結(jié)果的平均值：

表2 特征提取速度比較Tab.2 Comparision of the feature extraction efficiency

表3 識(shí)別結(jié)果（%）Tab.3 Result of recognization（%）

由表2、表3所示的實(shí)驗(yàn)結(jié)果可以看出，多小波變換在計(jì)算速度上要低于單小波變換。但對(duì)多文種的圖像庫(kù)，基于多小波變換的文種識(shí)別算法具有很高的識(shí)別準(zhǔn)確率，對(duì)質(zhì)量較好的文本圖像幾乎可以進(jìn)行精確的文種識(shí)別，性能遠(yuǎn)遠(yuǎn)優(yōu)于單小波特征提取方法。在圖像質(zhì)量較差、單小波識(shí)別率迅速下降的情況下，本文算法仍具有較高的識(shí)別準(zhǔn)確率。

4 結(jié) 論

本文在對(duì)文本圖像紋理特征進(jìn)行深入分析的基礎(chǔ)上，針對(duì)文本圖像紋理特征具有很強(qiáng)的方向性及以文字行為周期的準(zhǔn)周期性，采用多小波變換來(lái)提取文本圖像的紋理特征進(jìn)行文種識(shí)別，在對(duì)包含10種文種、圖像質(zhì)量退化程度不同的圖像庫(kù)上進(jìn)行實(shí)驗(yàn)時(shí)，識(shí)別精度均很高。相對(duì)于單小波變換而言，多小波變換同時(shí)具有正交、對(duì)稱(chēng)、短緊支撐和高階消失矩等優(yōu)良特性，在提取圖像紋理特征進(jìn)行文種識(shí)別方面更為有效，對(duì)噪聲、筆畫(huà)斷裂等質(zhì)量退化現(xiàn)象有很強(qiáng)的魯棒性。

[1]TAN T.Rotation invariant texture features and their use in automatic script identification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，1998，20（7）：751－756.

[2]曾理,唐遠(yuǎn)炎，陳廷槐.基于多尺度小波紋理分析的文字種類(lèi)自動(dòng)識(shí)別[J].計(jì)算機(jī)學(xué)報(bào)，2000，23（7）：699－704.

ZENG Li， TANG Yuan-yan， CHEN Ting-huai.Multi-scale wavelet texture-based script identification method[J].Chinese Journal of Computers，2000，23（7）：699－704.

[3]Busch A，Boles W W，Sridharan S.Texture for script identification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2005，27（11）：1720－1732.

[4]StrelaV.Multi-wavelets：theoryandapplications[D].Cambridge：Mass Inst Technic，1996.

[5]Strela V，Tan H H，Tham J Y.Symmetric-anti-symmetric orthogonal multi-wavelets and related scalar wavelets[J].Journal of Applied and Computational Harmonic Analysis，2008（8）：258－279.

[6]Xia X G， Geronimo J S， Hardin D P， et a1.Design of pre-filters for discrete multi-wavelet transform[J].IEEE Transaction Signal Processing，1996，44（1）：25－35.

[7]Vapnik V.The nature of statistical learning theory[M].New York：Springer-Verlag，1995.

[8]Chang C C， Lin C J.LIBSVM：a library for support vector machines[EB/OL]. （2011）.http：//www.csie.ntu.edu.tw/～cjlin ／libsvm.