999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多投影的脫機手寫藏文字符特征提取方法

2016-02-23 03:37:52蔡曉娟黃鶴鳴
計算機技術與發展 2016年3期
關鍵詞:特征提取特征

蔡曉娟,黃鶴鳴

(青海師范大學 計算機學院,青海 西寧 810008)

基于多投影的脫機手寫藏文字符特征提取方法

蔡曉娟,黃鶴鳴

(青海師范大學 計算機學院,青海 西寧 810008)

脫機手寫藏文字符的識別能夠促進藏文化的發展和傳播,其識別的方法是根據脫機手寫藏文字符圖像的特征進行識別。由于原始定義下的行列投影向量對于脫機手寫藏文字符圖像的表示不夠充分,文中提出一種基于多投影歸一化的脫機手寫藏文字符特征提取算法。首先,對脫機手寫藏文字符圖像分別在橫向、縱向、主對角線方向和次對角線方向進行投影,得到行投影向量、列投影向量、主投影向量和次投影向量;然后,對投影向量進行歸一化處理,將歸一后的向量合并成一個向量,即為該脫機手寫藏文字符圖像的特征向量;最后,使用KNN分類器對測試樣本進行識別。對建立的脫機手寫藏文字符樣本數據庫中的樣本進行實驗。結果表明,該算法不僅計算簡單,而且有較好的識別效果。

脫機手寫藏文字符;特征提取;投影向量;歸一化;多投影歸一化向量

0 引 言

手寫體文字識別[1-3]是模式識別的一個典型應用。隨著藏文信息化程度的不斷提高,越來越多的研究者開始進行脫機手寫藏文字符識別方面的研究[4-9]。脫機手寫藏文字符識別的關鍵是提取能充分代表藏文字符信息的特征。

多投影歸一化特征是把圖像的多投影特征和密度歸一化結合生成的一種特征[9-12]。文獻[9]采用圖像投影法對藏文字符進行特征提取;文獻[10]給出了“投影歸一化”的定義;文獻[11-12]對圖像的投影方向進行擴展,在原有的橫向投影和縱向投影基礎上,給出了主對角線方向投影和次對角線方向投影的定義。

文中提出了一種基于多投影歸一化的脫機手寫藏文字符特征提取算法。算法首先對藏文字符圖像進行平滑去噪、傾斜校正、歸一化、二值化等環節的預處理,得到大小為48×24的字符圖像;然后,使用行投影、列投影、主對角投影、次對角投影分別抽取字符圖像的投影特征;再將字符圖像的投影特征密度歸一化,得到該字符圖像的投影歸一化特征;最后,利用KNN分類器[13-15]對測試樣本進行特征識別。該算法可以得到較好的識別結果。

1 特征提取

二維圖像的投影法是指投射線通過圖像,在指定方向投射,得到被投圖像光點的方法。歸一化是將數值的絕對值化為相對值,簡化計算。

1.1 投影歸一化原始定義

(1)

(2)

歸一化行投影向量和列投影向量分別為:

(3)

(4)

1.2 投影方向的擴展

由于行、列投影特征對脫機手寫體藏文字符信息表示不夠充分,因此,文中給出了擴展投影特征的定義,即主對角線方向的投影和次對角線方向的投影。

eZhu=

(5)

eCi=

(6)

歸一化主投影向量和次投影向量分別為:

(7)

(8)

式中:eSum為同行列投影的eSum;pZhu稱為主投影歸一化向量;pCi稱為次投影歸一化向量。

2 分類器的設計

由于KNN算法是一種簡單、易于理解、易于實現、無需估計參數的分類算法,因此,KNN成為了一種應用很廣泛的分類器。

2.1 KNN算法原理

對于一個未知樣本,KNN把它與已知樣本一一比較,找出距離未知樣本最近的k個已知樣本,即未知樣本的k個近鄰。這k個近鄰中屬于哪一類最多,則把這個未知樣本歸于哪一類。

KNN可以表示為:設有N個已知樣本分屬于c個類wi,i=1,2,…,c,考查新樣本x在這些樣本中的前k個近鄰,設其中有ki個屬于wi類,則wi類的判別函數為:

(9)

在實際應用中,k的取值需要根據樣本情況進行選擇,通常k的取值為奇數。

2.2 KNN算法步驟

使用KNN分類器對脫機手寫藏文字符進行特征識別,具體步驟如下:

(1)將藏文字符圖像提取出來的N維特征與該字符圖像所屬的類別對應,即將N維的特征向量擴展成N+1維。其中的前N維仍存放該字符圖像的特征,第N+1維存放該字符圖像所屬類別的類別號。

(2)確定近鄰個數k的值,近鄰個數能夠影響分類的結果,通常k為奇數。

(3)選擇一個測試樣本的特征向量X與訓練集中所有樣本的特征向量進行相似度比較。相似度是指兩向量之間的歐氏距離。測試樣本的特征向量X與訓練樣本的特征向量Y相似度表達式如下:

(10)

(11)

(4)對數組d中第1列數采用冒泡排序的方法,進行k次排序,得到數組d中第1列數的前k個值是按從小到大的順序排列的。數組d中的第2列數也隨著第1列數的變化而發生改變。

(5)對數組d中第2列數的前k個數進行分析比較,類別號最多的記為label,則該測試樣本字符可以判定為label類。

(6)判斷label與X(N+1)的值是否相等。若相等,則表示該測試樣本識別正確;反之,則表示該測試樣本識別錯誤。

3 實驗結果和分析

文中提出的方法是在Windows7操作系統下使用MATLAB7.0編程實現的。

文中實驗使用的數據是來自實驗室自建的脫機手寫藏文字符樣本數據庫。該數據庫是由藏文字符的30個輔音組成,表1給出了每個藏文字符的樣本個數。該樣本數據庫中樣本的總數為8 658個,選擇每個輔音字母樣本的80%作為訓練集,20%作為測試集。

表1 藏文字符對應的樣本個數

圖1為實驗中用到的不同藏文字符的圖像。

圖1 部分藏文字符樣本

文中實現的脫機手寫藏文字符的識別系統有預處理、特征提取和分類決策。具體流程如下:

(1)脫機手寫藏文字符圖像經過預處理后得到大小為48×24的二值圖像,即可以用0-1矩陣bw表示該字符圖像。其中,1表示描述藏文字符的像素,0表示背景像素。

(2)對bw進行多方向投影分別得到行投影向量eRow、列投影向量eCol、主對角線方向的投影向量eZhu和次對角線方向的投影向量eCi。

(3)對投影向量分別進行歸一化處理,根據式(3),(4),(7),(8)可以得到行投影歸一化向量pRow、列投影歸一化向量pCol、主投影歸一化向量pZhu和次投影歸一化向量pCi,然后將這些投影歸一化向量組合成262維的多投影歸一化特征向量,即投影歸一化特征為:

(4)利用KNN分類器對1 743個待測手寫藏文字符樣本分別進行雙投影歸一化(行、列投影歸一化)特征識別和多投影歸一化(行、列、主、次投影歸一化)特征識別。

表2給出了平均識別率以及識別一個樣本需要的時間,即樣本的平均識別率和識別時間。

表2 投影歸一化特征的識別效果

根據對脫機手寫藏文字符圖像進行投影歸一化生成特征向量,使用KNN分類器進行識別分類,可以得到該識別系統的識別效果。對這些識別效果進行分析可以得到以下結果:

(1)基于雙投影歸一化的特征提取方法,在k=1,2,3時,識別率隨k的增加而增加,在k=5時達到最高。

(2)基于多投影歸一化的特征提取方法,在k=3時,識別正確率最高。

(3)由表2可知,在k的取值相同時,基于多投影歸一化特征的識別正確率要明顯高于基于雙投影歸一化特征的識別正確率。在k=3時,識別正確率最高,最高達到91.34%。

(4)由表2可知,同一歸一化特征的識別,識別時間隨k的增加而延長。

(5)基于多投影歸一化特征的識別時間要比基于雙投影歸一化特征的識別時間長。

4 結束語

文中提出了一種基于多投影歸一化特征的脫機手寫藏文字符特征提取的方法。使用KNN分類器,對1 747個待測樣本進行測試。實驗結果表明,與雙投影歸一化特征提取相比,多投影歸一化特征提取的識別效果更好。

[1] 王建平,王夢澤.三枝粗糙集和變粒度原理的手寫體漢字識別[J].計算機工程與應用,2014,50(22):223-227.

[2] 朱程輝,甘 恒,王建平.基于FSVM脫機手寫體漢字分類識別研究[J].計算機工程與應用,2014,50(23):189-193.

[3] 姜 文,劉立康.基于實值Gabor能量特征的手寫體維文字符識別[J].計算機工程與設計,2013,34(9):3273-3278.

[4]HuangHeming,DaFeipeng.WaveletandmomentsbasedofflinehandwrittenTibetancharacterrecognition[J].JournalofInformationandComputationalScience,2013,10(6):1855-1859.

[5]HuangHeming,DaFeipeng,HanXiaoxu.Wavelettransformandgradientdirectionbasedfeatureextractionmethodforoff-linehandwrittenTibetanletterrecognition[J].JournalofSoutheastUniversity(EnglishEdition),2014,30(1):27-31.

[6] 李永忠,王玉雷,劉真真.藏文印刷體字符識別技術研究[J].南京大學學報:自然科學,2012,48(1):55-62.

[7]MaLL,LiuHD,WuJ.MRG-OHTCdatabaseforon-linehandwrittenTibetancharacterrecognition[C]//Procofinternationalconferenceondocumentanalysisandrecognition.Beijing,China:[s.n.],2011:207-211.

[8]HuangHM,DaFP.Sparserepresentation-basedclassificationalgorithmforopticalTibetancharacterrecognition[J].Optik-internationalJournalforLightandElectronOptics,2014,125(3):1034-1037.

[9] 王維蘭.藏文基本字符識別算法研究[J].西北民族學院學報:自然科學版,1999,20(3):20-23.

[10] 周治緊,李玉鑑.基于投影歸一化的字符特征提取方法[J].計算機工程,2006,32(2):197-199.

[11] 盛業華,張 卡,葉 春,等.基于灰度投影的數字近景攝影立體影像匹配[J].光學學報,2005,25(12):1623-1628.

[12] 邵 楠,張 科.基于投影熵特征的圖像識別算法[J].計算機應用,2013,33(10):2874-2877.

[13]MaLong,XiaoBaohua,WangChunheng.SparserepresentationbasedonK-nearestneighborclassifierfordegradedChinesecharacterrecognition[C]//ProcofPCM.Berlin:Springer,2010:506-514.

[14]WangMengzuo,ZhangDavid,WangKuanquan.Onkerneldifference-weightedk-nearestneighborclassification[J].PatternAnalysisandApplications,2008,11(3):247-257.

[15] 卜凡軍,錢雪忠. 基于向量投影的KNN文本分類算法[J].計算機工程與設計,2009,30(21):4939-4941.

Feature Extraction Method of Off-line Handwritten Tibetan Character Based on Multiple Projection

CAI Xiao-juan,HUANG He-ming

(School of Computer Science,Qinghai Normal University,Xining 810008,China)

Off-line handwritten Tibetan character recognition can promote the development and propagation of Tibetan culture,and the method of classification is based on the feature of off-line handwritten Tibetan character image.Since original definition of projection entropy does not make full use of image information,a feature extraction method of off-line handwritten Tibetan character based on multiple projection normalization is proposed.Firstly,an off-line handwritten Tibetan character image is scanned in horizontal,vertical,main diagonal and secondary diagonal directions to create a row projection vector,a column projection vector,a main projection vector and a secondary projection vector.Secondly,all projection vectors are normalized to create a multiple projection normalized vector that is the feature vector for this character image.Finally,KNN classifier is used in classification.The proposed method is tested on the developed off-line Tibetan handwritten character sample database.The experimental results demonstrate that the proposed method is not only easy in calculation but also efficient in recognition accuracy.

off-line handwritten Tibetan character;feature extraction;projection vector;normalization;multiple projection normalized vector

2015-06-29

2015-09-30

時間:2016-02-18

國家自然科學基金資助項目(61462072);教育部春暉計劃項目(Z2104020)

蔡曉娟(1991-),女,碩士研究生,研究方向為模式識別與智能系統;黃鶴鳴,教授,碩導,博士,研究方向為模式識別與智能系統。

http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1636.078.html

TP301

A

1673-629X(2016)03-0093-04

10.3969/j.issn.1673-629X.2016.03.022

猜你喜歡
特征提取特征
抓住特征巧觀察
特征提取和最小二乘支持向量機的水下目標識別
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
抓住特征巧觀察
Bagging RCSP腦電特征提取算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 亚洲成a人片在线观看88| 婷婷在线网站| 国产69精品久久久久妇女| 香港一级毛片免费看| 精品人妻一区二区三区蜜桃AⅤ | 真实国产精品vr专区| 91精品久久久无码中文字幕vr| a级毛片一区二区免费视频| 午夜限制老子影院888| 亚洲第一网站男人都懂| 国产成人啪视频一区二区三区 | 亚洲欧美日韩中文字幕在线一区| 九九免费观看全部免费视频| 欧美一级爱操视频| 国产激爽大片高清在线观看| 91成人在线观看| a级高清毛片| 色综合天天视频在线观看| 国产成年女人特黄特色毛片免| 国产欧美日韩一区二区视频在线| 永久天堂网Av| 美女被狂躁www在线观看| 亚洲视频免| 精品久久香蕉国产线看观看gif | a级毛片免费网站| 亚洲成人免费看| 色哟哟国产精品| 亚洲一级毛片免费观看| 内射人妻无码色AV天堂| 中文字幕在线播放不卡| 九九九精品成人免费视频7| 亚洲一区波多野结衣二区三区| 亚洲Aⅴ无码专区在线观看q| 日本一本正道综合久久dvd| 国产素人在线| 亚洲精品在线观看91| 国产一区二区三区免费观看| 国产三级视频网站| 高清视频一区| 亚洲av无码成人专区| 国产精品久线在线观看| 亚洲大尺码专区影院| 思思热精品在线8| 亚洲精品无码高潮喷水A| 亚洲不卡网| 久久久久青草线综合超碰| 日韩小视频在线播放| 少妇精品久久久一区二区三区| 激情午夜婷婷| 久久青青草原亚洲av无码| 婷婷成人综合| 久久久久久久蜜桃| 欧美不卡视频一区发布| 亚洲欧美日韩综合二区三区| 亚洲乱码精品久久久久..| 极品国产一区二区三区| 91国内视频在线观看| 久久久久国产一级毛片高清板| 日韩欧美国产区| 秋霞一区二区三区| 亚洲无码高清一区二区| 欧美一级一级做性视频| 在线观看国产小视频| 亚洲精品图区| 2021最新国产精品网站| 天堂网亚洲综合在线| 亚洲国产精品不卡在线| 久久久久人妻一区精品| 日韩天堂视频| 色偷偷一区二区三区| 亚洲人在线| 少妇露出福利视频| 99re精彩视频| 亚洲系列无码专区偷窥无码| 人妻精品全国免费视频| 成人在线第一页| 九九久久精品国产av片囯产区| 亚洲人成色77777在线观看| 亚洲视频三级| 久久久久久久久久国产精品| 欧美人与牲动交a欧美精品| 亚洲成a人片77777在线播放|