999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多小波變換的文本圖像文種識(shí)別

2011-10-09 09:46:40顧立娟劉才斌郝玉保
電子設(shè)計(jì)工程 2011年15期
關(guān)鍵詞:特征文本實(shí)驗(yàn)

顧立娟,劉才斌,吳 勇,郝玉保

(1.武漢軍械士官學(xué)校 湖北 武漢 430075;2.75719部隊(duì) 湖北 武漢 430074)

文本圖像文字種類(lèi)的自動(dòng)識(shí)別是對(duì)以圖像形式呈現(xiàn)、由不同語(yǔ)言文字構(gòu)成的文本圖像,提取能用于計(jì)算機(jī)識(shí)別的底層特征,實(shí)現(xiàn)語(yǔ)言文字種類(lèi)的識(shí)別和分類(lèi)。在海量信息處理中,作為文本圖像分析的重要組成部分和OCR系統(tǒng)的前端處理技術(shù),文本圖像的語(yǔ)言文字種類(lèi)識(shí)別成為海量信息處理中面臨的一個(gè)基本的研究課題。

目前,針對(duì)語(yǔ)言文字種類(lèi)識(shí)別進(jìn)行的研究可以劃分為基于統(tǒng)計(jì)特征、基于符號(hào)匹配和基于紋理特征的文種識(shí)別3大類(lèi)。基于統(tǒng)計(jì)特征和符號(hào)匹配的文種識(shí)別算法具有較高的識(shí)別準(zhǔn)確率,但對(duì)文本圖像的傾斜、噪聲等魯棒性比較差。基于紋理特征的文種識(shí)別算法提高了對(duì)圖像質(zhì)量退化的魯棒性,逐漸成為研究重點(diǎn)。目前的算法主要有基于Gabor濾波器法[1]和基于小波變換法[2]基于灰度級(jí)共生矩陣法[3]及基于小波變換的共生矩陣法[3]。Gabor濾波具有旋轉(zhuǎn)不變性,文種識(shí)別率較高,但是計(jì)算量很大;小波變換存在快速算法,大大減小了計(jì)算量,但識(shí)別率不高。

針對(duì)目前文本圖像文種識(shí)別方法存在的一些問(wèn)題,本文提出了一種基于多小波變換的文本圖像文種識(shí)別方法。多小波[4-6]是多個(gè)尺度函數(shù)構(gòu)成的小波,既保持了傳統(tǒng)小波良好的時(shí)域與頻域的局部化特性,又將光滑性、緊支性、對(duì)稱(chēng)性、正交性完美地結(jié)合在一起,更適合于提取圖像的紋理特征。本文采用多小波變換提取文本圖像的紋理特征進(jìn)行文種識(shí)別,在2個(gè)不同質(zhì)量的圖像庫(kù)上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,該算法對(duì)多文種的識(shí)別非常有效并對(duì)圖像質(zhì)量退化具有很強(qiáng)的魯棒性。

1 多小波變換原理

所謂多小波是指小波函數(shù)的構(gòu)造是由多個(gè)尺度函數(shù)完成的。為了與多小波相區(qū)別,稱(chēng)傳統(tǒng)小波為單小波。

令 φ=(φ1,φ2,…,φr)T和 ψ=(ψ1,ψ2,…,ψr)T分別為 r階多小波的多尺度函數(shù)和多小波函數(shù)。類(lèi)似于單尺度情況,φ和ψ滿足雙尺度方程:

其中,矩陣Hk為低通矩陣濾波器,Gk為高通矩陣濾波器。

多小波的分解和重構(gòu)算法為:

分解過(guò)程:

合成過(guò)程:

多小波有r個(gè)尺度函數(shù),變換后每個(gè)子帶有r×r個(gè)子圖,而單小波只有一個(gè)尺度函數(shù),變換后的每個(gè)子帶只有一個(gè)子圖。容易證明,L級(jí)多小波變換將圖像分解為r2×(3L+1)個(gè)子圖。例如:當(dāng)L=1時(shí),雙小波分解每個(gè)子帶有16個(gè)子圖數(shù),而單小波只有4個(gè)。

多小波與單小波本質(zhì)上是一致的,但多小波變換是采用向量濾波器組來(lái)實(shí)現(xiàn)的。為了解決輸入數(shù)據(jù)矢量化問(wèn)題,首先要對(duì)信號(hào)進(jìn)行預(yù)處理,即在多小波變換前,采用預(yù)處理方法矢量化初始數(shù)據(jù),使其進(jìn)入塔式算法的輸入變?yōu)閞維數(shù)據(jù)。然后通過(guò)r×r的預(yù)濾波器Q(w),獲得用于多小波分解的初始矢量信號(hào)Ck(0),再進(jìn)行多小波分解。圖1所示為多小波的分解過(guò)程。

圖1 多小波分解過(guò)程結(jié)構(gòu)圖Fig.1 Chart of multi-wavelet decomposition process

由于多小波由多個(gè)尺度函數(shù)構(gòu)成,所以多小波函數(shù)的設(shè)計(jì)具有更大的靈活性。這樣構(gòu)造出的多小波既可以保持單小波的時(shí)頻域局部化特性,又能克服單小波的缺陷,可同時(shí)具有正交、對(duì)稱(chēng)、短緊支撐和高階消失矩等優(yōu)良特性。在處理文本圖像中的文字信號(hào)時(shí),正交性可保持能量,對(duì)稱(chēng)性既適合于人眼的視覺(jué)系統(tǒng),又使信號(hào)在邊界易于處理,所以本文采用多小波變換提取文本圖像的紋理特征進(jìn)行文種識(shí)別。

2 基于多小波變換的文種識(shí)別

2.1 多小波變換紋理特征提取

一幅圖像 f(m,n),大小為 N×N,其平均能量定義為:

不同的文本圖像有不同的平均能量,進(jìn)行多小波變換之前,對(duì)各個(gè)文本圖像的能量進(jìn)行歸一化:

本文選擇2個(gè)尺度函數(shù)構(gòu)成的多小波來(lái)對(duì)g(m,n)進(jìn)行分解。多小波函數(shù)采用'bigm2'雙正交多重小波,預(yù)處理采用雙正交插值預(yù)濾波方法,對(duì)圖像進(jìn)行兩級(jí)多小波分解,得到24個(gè)細(xì)節(jié)子圖,4個(gè)逼近子圖。圖2為圖像的兩級(jí)多小波分解示意圖。

鑒于文本圖像的文字筆畫(huà)在各個(gè)方向、各個(gè)頻率的能量分布存在差異,本文計(jì)算多小波兩級(jí)分解得到的24個(gè)細(xì)節(jié)子圖的能量均值和標(biāo)準(zhǔn)差作為特征:

圖2 圖像兩級(jí)多小波分解示意圖Fig.2 Schematic diagram of image two levels multi-wavelet decomposition

其中 Wlj,k為細(xì)節(jié)子圖;l=1,2,3,4, 表示每級(jí)分解同一個(gè)方向上的 4 個(gè)細(xì)節(jié)子圖;j=1,2,表示分解級(jí)數(shù);k=1,2,3,分別代表H,V,D 3個(gè)方向,N為圖像尺寸。

據(jù)式(6)~(8)計(jì)算得到48維多小波能量統(tǒng)計(jì)紋理特征矢量:

2.2 特征對(duì)文種的區(qū)別能力分析

對(duì)于相似文種的特征,類(lèi)內(nèi)距離越小,類(lèi)間距離越大,特征的識(shí)別能力越好。可以定義不同種類(lèi)兩兩之間的類(lèi)內(nèi)距離和類(lèi)間距離的差值比例rate作為重疊率,來(lái)衡量特征的區(qū)別能力:

式中,RE 表示特征 矢量,n,ni,nj表示不同的種 類(lèi) ,k=1,2,…,K 表示樣本的數(shù)量,x=1,2,…,X 表示對(duì)應(yīng)的特征值索引。 indisn、outdisni,nj表示類(lèi)內(nèi)、類(lèi)間距離。 根據(jù) Bayes準(zhǔn)則,重疊率越小,特征的分類(lèi)能力越強(qiáng)。

本文建立了包含阿拉伯、緬甸、柬埔寨、中、英、印地、日、韓、俄、藏10種文種的圖像庫(kù),其中中日、英俄、阿拉伯、印地、柬埔寨、藏文在紋理方面相對(duì)比較接近,從圖像庫(kù)1中抽取中、日、英、俄、阿拉伯、印地、柬埔寨、藏8種文種的圖像各100幅作為實(shí)驗(yàn)圖像檢驗(yàn)多小波能量統(tǒng)計(jì)特征對(duì)不同文種的區(qū)別能力。據(jù)式(9)計(jì)算實(shí)驗(yàn)圖像的多小波能量統(tǒng)計(jì)紋理特征矢量。 據(jù)式(10)~(15)計(jì)算中日,英俄,阿拉伯印地,柬埔寨藏之間的重疊率。

作為對(duì)比,對(duì)曾理等人提出的基于單小波變換的文種識(shí)別特征提取方法[3]進(jìn)行了同樣的實(shí)驗(yàn)。采用“Daubechies7”小波對(duì)圖像進(jìn)行兩級(jí)分解,提取每個(gè)細(xì)節(jié)子圖的能量比例紋理特征,得到6維特征矢量。同樣依式(10)~(15)計(jì)算實(shí)驗(yàn)圖像中不同文種的重疊率rate。實(shí)驗(yàn)結(jié)果如表1所示。

表1 特征的區(qū)別能力比較Tab.1 Comparison of ability to discriminate different features

由表1可見(jiàn),基于多小波的能量統(tǒng)計(jì)紋理特征對(duì)文種的區(qū)別能力要優(yōu)于基于單小波的能量比例紋理特征,對(duì)文種識(shí)別更有效。

2.3 基于LIBSVM的文種識(shí)別

如何尋找不同文種特征間的最優(yōu)分類(lèi)面是文種識(shí)別的關(guān)鍵所在。目前文種識(shí)別使用最多的分類(lèi)工具是SVM[7](Support Vector Machines,支持向量機(jī))。但用于對(duì)多維特征向量進(jìn)行多分類(lèi)時(shí),SVM的參數(shù)優(yōu)化過(guò)程變得相當(dāng)復(fù)雜。鑒于此,本實(shí)驗(yàn)采用LIBSVM[8]分類(lèi)軟件。LIBSVM是由Chih_Chung和Chih_jen Lin開(kāi)發(fā)的一個(gè)SVM工具,廣泛應(yīng)用于SVM、回歸和分類(lèi)估計(jì),并且支持多類(lèi)分類(lèi),通過(guò)交叉確認(rèn)法可以得到最佳的參數(shù)來(lái)提高識(shí)別的準(zhǔn)確率。本文選取徑向基函數(shù)(RBF)為核函數(shù)。用LIBSVM隨機(jī)抽取2/3樣本用于訓(xùn)練,余下的1/3用于測(cè)試。

首先將圖像進(jìn)行能量歸一化處理,然后進(jìn)行多小波分解,提取能量統(tǒng)計(jì)紋理特征,建立紋理特征庫(kù)。通過(guò)LIBSVM軟件從庫(kù)中隨機(jī)抽取樣本進(jìn)行訓(xùn)練,得到SVM的最優(yōu)參數(shù),用此參數(shù)對(duì)測(cè)試樣本進(jìn)行識(shí)別。圖3為本文提出算法的文種識(shí)別流程圖。

圖3 文種識(shí)別流程圖Fig.3 Flow chart of the script identification

3 實(shí)驗(yàn)結(jié)果與分析

圖像庫(kù)1中文本圖像是從雜志和書(shū)籍上掃描得到的,在采集過(guò)程中出現(xiàn)了輕微的噪聲、筆畫(huà)斷裂等質(zhì)量退化現(xiàn)象。圖像庫(kù)2對(duì)圖像庫(kù)1中的圖像做了±1~±5°之間不等角度的傾斜,所包含的文本行為3~8行不等。2個(gè)圖像庫(kù)均包含阿拉伯、緬甸、柬埔寨、中、英、印地、日、韓、俄、藏10種文種圖像各300幅。圖像大小為128×128像素,8位灰度圖像。圖4、圖5所示為圖像庫(kù)1、2中的部分文本圖像。

圖4 圖像庫(kù)1中的部分文本圖像Fig.4 Part of document images in the image database No.1

圖5 圖像庫(kù)2中的部分文本圖像Fig.5 Part of document images in the image database No.2

為了驗(yàn)證算法對(duì)不同樣本的適應(yīng)能力,對(duì)每個(gè)圖像庫(kù)各進(jìn)行了5次實(shí)驗(yàn)。實(shí)驗(yàn)時(shí)用LIBSVM從圖像庫(kù)中每種文種隨機(jī)抽取200幅用于訓(xùn)練,余下的100幅用于測(cè)試。

為了驗(yàn)證算法的有效性,同時(shí)對(duì)曾理等人提出的基于單小波變換的文種識(shí)別方法[3]進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)參數(shù)在本文2.2節(jié)給出。

在Intel 1.8 GHz和1 G內(nèi)存的Windows XP Professional微機(jī)環(huán)境下,用MallabR2006a為實(shí)驗(yàn)平臺(tái)進(jìn)行實(shí)驗(yàn)。

表2中表示的是每種算法的特征提取時(shí)間,其中T指代時(shí)間。表3中表示的10種文種的識(shí)別結(jié)果以及平均識(shí)別率。取5次實(shí)驗(yàn)結(jié)果的平均值:

表2 特征提取速度比較Tab.2 Comparision of the feature extraction efficiency

表3 識(shí)別結(jié)果(%)Tab.3 Result of recognization(%)

由表2、表3所示的實(shí)驗(yàn)結(jié)果可以看出,多小波變換在計(jì)算速度上要低于單小波變換。但對(duì)多文種的圖像庫(kù),基于多小波變換的文種識(shí)別算法具有很高的識(shí)別準(zhǔn)確率,對(duì)質(zhì)量較好的文本圖像幾乎可以進(jìn)行精確的文種識(shí)別,性能遠(yuǎn)遠(yuǎn)優(yōu)于單小波特征提取方法。在圖像質(zhì)量較差、單小波識(shí)別率迅速下降的情況下,本文算法仍具有較高的識(shí)別準(zhǔn)確率。

4 結(jié) 論

本文在對(duì)文本圖像紋理特征進(jìn)行深入分析的基礎(chǔ)上,針對(duì)文本圖像紋理特征具有很強(qiáng)的方向性及以文字行為周期的準(zhǔn)周期性,采用多小波變換來(lái)提取文本圖像的紋理特征進(jìn)行文種識(shí)別,在對(duì)包含10種文種、圖像質(zhì)量退化程度不同的圖像庫(kù)上進(jìn)行實(shí)驗(yàn)時(shí),識(shí)別精度均很高。相對(duì)于單小波變換而言,多小波變換同時(shí)具有正交、對(duì)稱(chēng)、短緊支撐和高階消失矩等優(yōu)良特性,在提取圖像紋理特征進(jìn)行文種識(shí)別方面更為有效,對(duì)噪聲、筆畫(huà)斷裂等質(zhì)量退化現(xiàn)象有很強(qiáng)的魯棒性。

[1]TAN T.Rotation invariant texture features and their use in automatic script identification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(7):751-756.

[2]曾理,唐遠(yuǎn)炎,陳廷槐.基于多尺度小波紋理分析的文字種類(lèi)自動(dòng)識(shí)別[J].計(jì)算機(jī)學(xué)報(bào),2000,23(7):699-704.

ZENG Li, TANG Yuan-yan, CHEN Ting-huai.Multi-scale wavelet texture-based script identification method[J].Chinese Journal of Computers,2000,23(7):699-704.

[3]Busch A,Boles W W,Sridharan S.Texture for script identification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(11):1720-1732.

[4]StrelaV.Multi-wavelets:theoryandapplications[D].Cambridge:Mass Inst Technic,1996.

[5]Strela V,Tan H H,Tham J Y.Symmetric-anti-symmetric orthogonal multi-wavelets and related scalar wavelets[J].Journal of Applied and Computational Harmonic Analysis,2008(8):258-279.

[6]Xia X G, Geronimo J S, Hardin D P, et a1.Design of pre-filters for discrete multi-wavelet transform[J].IEEE Transaction Signal Processing,1996,44(1):25-35.

[7]Vapnik V.The nature of statistical learning theory[M].New York:Springer-Verlag,1995.

[8]Chang C C, Lin C J.LIBSVM:a library for support vector machines[EB/OL]. (2011).http://www.csie.ntu.edu.tw/~cjlin /libsvm.

猜你喜歡
特征文本實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
如何表達(dá)“特征”
在808DA上文本顯示的改善
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲成人在线网| 久996视频精品免费观看| 欧美中文一区| 伊人欧美在线| 五月激情婷婷综合| 人与鲁专区| 伊人久久综在合线亚洲91| 在线一级毛片| 手机看片1024久久精品你懂的| 国产精品极品美女自在线网站| 欧美日本视频在线观看| 高清不卡一区二区三区香蕉| 四虎精品黑人视频| 重口调教一区二区视频| 亚洲精品无码av中文字幕| 美女无遮挡免费网站| 国产高清精品在线91| 在线中文字幕网| 久久精品无码专区免费| 婷婷成人综合| 国产精品一区二区国产主播| 自慰网址在线观看| 国产乱人乱偷精品视频a人人澡| 青青青国产视频| 高清不卡毛片| a亚洲天堂| 国产乱子伦手机在线| 中国国产一级毛片| 婷婷丁香色| 女同国产精品一区二区| 秋霞一区二区三区| 人人爽人人爽人人片| 亚洲人在线| 色综合热无码热国产| 亚洲欧美不卡中文字幕| 亚洲VA中文字幕| 国产爽妇精品| 国产午夜一级淫片| 波多野结衣第一页| www亚洲天堂| 亚洲一区色| 永久在线播放| 欧美成人a∨视频免费观看| 日韩精品少妇无码受不了| 国产精品免费电影| 国产尹人香蕉综合在线电影| 国产欧美日本在线观看| 精品久久蜜桃| 日韩欧美国产精品| 国产国产人成免费视频77777| 国产在线视频福利资源站| 999精品色在线观看| 久久国产乱子伦视频无卡顿| 欧美一级专区免费大片| 亚洲欧美人成电影在线观看| 国产在线精品美女观看| 国产91高清视频| 国产黑丝一区| 国产99免费视频| 亚洲第一成年免费网站| 中文字幕有乳无码| 亚洲午夜天堂| 国产AV无码专区亚洲精品网站| 国产不卡在线看| 欧美日韩精品一区二区视频| 精品一区二区无码av| 三级欧美在线| 欧美怡红院视频一区二区三区| 久久综合亚洲鲁鲁九月天| 尤物亚洲最大AV无码网站| 黄色三级网站免费| 国产成人福利在线| 男人天堂亚洲天堂| 波多野结衣在线se| 九九九久久国产精品| 亚洲欧美日韩中文字幕在线| 国产成人三级| 无码国产偷倩在线播放老年人 | 亚洲国产高清精品线久久| 亚洲日本中文字幕天堂网| 成人午夜免费视频| 亚洲,国产,日韩,综合一区|