999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗糙集正域的手寫字母識別算法

2014-08-03 15:23:22唐朝輝陳玉明吳克壽
計算機工程與應用 2014年23期
關鍵詞:分類特征

唐朝輝,陳玉明,吳克壽

廈門理工學院 計算機科學與技術系,福建 廈門 361024

基于粗糙集正域的手寫字母識別算法

唐朝輝,陳玉明,吳克壽

廈門理工學院 計算機科學與技術系,福建 廈門 361024

1 引言

后PC時代,大量手持設備、小型網絡終端相繼面世,鍵盤編碼輸入方式越來越不能滿足客戶的需求,為滿足用戶日益增長的使用體驗和易用性需求,采用手寫輸入是未來的趨勢;同時大屏幕設備的普及,也為手寫輸入帶來了便利。手寫識別技術是手寫輸入可行性的最重要的條件,已經成為模式識別和機器學習的一大熱點,但由于手寫習慣不同、形似字、連寫、輸入噪聲等問題,給手寫識別帶來了很大的復雜性。近幾年機器學習領域對手寫體識別做了大量研究[1-3],部分成果取得了較好的應用,它們主要基于統計分析、神經網絡和聚類分析,如支持向量機(SVM)、誤差反向傳播(Back Propagation,BP)算法、Bagging算法等。

1982年由波蘭數學家Pawlak[4]首次提出的粗糙集(rough set)理論是一種處理模糊和不確定知識的數學工具[4-5],現已經被廣泛應用于數據挖掘、人工智能、模式識別等諸多領域[6-11]。粗糙集可用于特征選擇,其目的是得到最小的特征子集,但找到所有可行的特征子集已經被證明是NP-hard問題,所以目前大多數研究采用啟發式搜索策略,獲取特征選擇的一個或多個可行解,但不一定是最優解或所有解。

苗奪謙等人[12]提出了一種基于主曲線的脫機手寫數字識別方法,該方法將主曲線及知識約簡算法運用于識別模型。本文針對手寫識別的特點,結合粗糙集正域,定義了特征重要度概念,并應用于手寫識別決策系統約簡當中;同時提出了基于粗糙集正域的手寫字母識別算法,通過實驗分析驗證了算法的可行性。

2 粗糙集相關概念

粗糙集理論研究方法基于數據分類與知識的聯系,并利用集合等價關系來描述數據分類[13-15]。為構建基于粗糙集的手寫字母樣本學習和測試集分類算法,引入以下粗糙集的相關定義。

定義2給定決策系統T=(U,C∪D,V,f)以及屬性子集B?C,B可以確定一個二元等價關系,記為IND(B),其中 IND(B)={(x,y)∈U×U|?a∈B,f(x,a)=f(y,a)}。

定義3設T=(U,C∪D,V,f)為一個決策系統,?B?C,?X?U,記 U/IND(B)={B1,B2,…,Bi},則稱 B*(X)=∪{Bi|Bi∈U/IND(B),Bi∈X}為 X 關于 B 的下近似集,稱B*(X)=∪{Bi|Bi∈U/IND(B),Bi∩X≠?}為 X 關于 B的上近似集。

定義4設決策系統 T=(U,C∪D,V,f),U/D={D1,D2,…,Di}表示在離散數據下決策特征集D對論域U的等價劃分,U/IND(C)={C1,C2,…,Ci}表示條件特征集C對論域U的等價劃分,稱為C相對于D的正區域。

定義5設決策系統T=(U,C∪D,V,f),對b∈B?C,若POSB(D)=POSB-{b}(D),則相對于決策特征D來說特征b是不必要的;否則b是必要的。對?B?C,如果B相對于決策特征D都是必要的,則稱特征集B獨立于決策特征D。

定義6設決策系統T=(U,C∪D,V,f),若 ?B?C,POSB(D)=POSC(D)且特征集B獨立于決策特征D,則稱特征集B是條件特征集C相對于決策特征D的一個約簡。

定義7設決策系統 T=(U,C∪D,V,f),?a∈C,R?C,定義a相對于R的特征重要度為Sign(a,R,D)= |POSR∪{a}(D)-POSR(D)|。

3 手寫樣本采集及分布檢驗

為提取手寫樣本特征,首先截取手寫字母的手寫有效區域,然后定義一個SegNum×SegNum的等距劃分,將每個樣本的長度和寬度SegNum等分,每個樣本的特征為[1,SegNum×SegNum]的向量。

手寫字母采樣策略如下所示:

(1)在可視化界面上用鼠標手寫字母,同時給出樣本正確的分類,便于樣本監督學習。

(2)獲取樣本特征:首先找出手寫字母的上、下、左、右邊界,并截取出來,對其進行二值化,如圖1所示;然后將截取的手寫樣本橫向、縱向平均劃分成SegNum×SegNum個小區域,計算每個小區域中黑像素所占的比例,如果該值大于所有小區域中黑點所占比例的平均值,將該值作為[1,SegNum×SegNum]樣本特征向量中對應特征的特征值。

圖1 截取后的手寫學習樣本

(3)為有效充分地學習手寫字母樣本并降低時間復雜性,樣本數 N應該取樣本特征數的5~10倍,本文為每類分類收集SegNum×SegNum×6個樣本。

(4)將每個樣本特征與預期的手寫分類結果存儲起來以構建手寫字母識別決策系統,便于算法學習以提取手寫字母分類規則。

根據機器學習理論,工程上很多的統計數據都在一定程度上滿足正態分布。為保證手寫樣本具有一定的隨機性、可靠性,對樣本的分布做正態分布假設檢測:根據單個樣本模式的空間維度較大的特點,為提高分布檢測的效率,本文采用主成分分析的方法獲取特征空間的主成分,并利用 χ2檢驗法對主成分作正態分布檢驗。

首先假設手寫字母特征符合正態分布 N(μ,σ2),μ,σ2未知。采用最大似然估計對μ,σ2進行點估計,得:

獲得分布概率密度后,采用 χ2檢驗法檢驗樣本是否滿足正態分布。χ2檢驗法可以通過分組數據的取值范圍并計算每個分組的頻數來實現分布檢驗的,其統計量如公式(2)。

其中N為樣本數,l為分組數,ri為實際頻數,ti為理論頻數。

4 基于粗糙集的手寫字母樣本學習與分類

4.1 樣本學習算法

本文使用有監督的學習算法,首先建立手寫字母識別決策系統,如表1所示。

其中u表示采集的單個樣本;pi∈{0,1},表示樣本的單塊劃分范圍內是否具有一定數量的有效像素,ClassExpected∈{a,b,c,…,z}表示單個樣本的預期分類,SN表示樣本總數。

表1 手寫識別決策系統結構

每一行代表一個輸入樣本的模式,D特征為決策特征,代表該樣本對應的實際分類。

在手寫識別分類算法中,首先要解決的是兩類分類的問題。本文基于粗糙集理論,提出了基于粗糙集正域的手寫字母學習算法。該算法首先利用粗糙集正域簡化手寫決策系統,然后從簡化的決策系統中抽取所有兩類分類規則,并對獲取的所有分類規則作一致性檢測,去除其中不一致的規則。

算法1基于粗糙集正域的手寫字母學習算法

輸入手寫字母決策系統T=(U,C∪D,V,f)

輸出基于T的手寫分類規則表Rule

步驟1對T做一致性檢測,去除不一致的規則。

步驟2Rule:={},計算T中 D對論域的分類數ClassNum。

步驟3計算條件特征集C相對于決策特征D的正域POSC(D)。

將C賦值給約簡集R,R:=C。

如果POSR(D)=POSC(D)成立,重復以下操作:

(1)?a∈R,計算出該特征的特征重要度Sign(a,R,D);

(2)選擇R中特征重要度最小的特征a;

(3)更新約簡集R:=R-{a}。

根據R簡化T,得到簡化的手寫決策系統Tsimplified。

步驟5去除Rule不一致規則,輸出Rule。

4.2 手寫字母分類算法

對手寫字母進行了合理的樣本采集和決策規則提取后,便可以對測試樣本進行分類。算法2描述了測試樣本分類的過程。

算法2手寫字母分類算法

輸入手寫分類規則表Rule、待測試樣本特征向量sample

輸出sample所屬的分類result

步驟1result:={},temp:={}。

步驟2計算Rule中的分類總數ClassNum。

將樣本逐一匹配決策規則Rule(i,j)中的每條規則;

如果匹配成功,保存匹配規則的分類結果result,跳到步驟4。

步驟4返回分類結果result。

5 實驗結果與分析

首先對于 ?SegNum∈{2,4,6,8,10},根據第3章的采樣策略進行手寫字母的采樣,每個樣本的特征數為SegNum×SegNum,每一類學習樣本采集數N取n×6,每類待測樣本采集數為100。然后對每一類樣本作正態分布假設檢驗,并利用Matlab主成分提取命令pcacov提取“a”分類的學習樣本第一主成分,利用jbtest命令對第一主成分進行正態分布檢驗,結果如圖2所示,符合正態分布假設。

圖2“a”分類學習樣本正態分布檢測結果圖

通過類似實驗檢驗其他所有分類的樣本正態分布情況,結果表明都符合正態分布假設。

為檢驗基于粗糙集手寫識別算法的有效性,對算法做了縱向對比:當改變手寫字母樣本的物理分割數SegNum,即改變樣本的特征數n=SegNum×SegNum,觀察算法在時間消耗、分類準確率、誤識率、拒識率上的性能變化。在相同實驗條件下實驗結果如表2所示。其中SegNum代表手寫字母樣本的橫向、縱向平均劃分塊數。

表2 樣本等分數變化時實驗結果比較

由表2可知,當SegNum取6時,手寫識別算法的分類準確率較高;SegNum過小或過大算法的分類效果會比較差。當SegNum取過大時,學習算法會出現過擬合的現象,導致算法抗干擾性下降,同時算法的分類正確率也較低。SegNum=6是一個較為合理的樣本分割數。

取 SegNum=6,對比 Roughset、BP 神經網絡、ID3、Fisher在手寫字母識別上時間消耗、分類準確率、誤識率、拒識率上的平均性能差異,其中時間包含學習時間以及識別時間,都采用本文設計的樣本數據結構。在相同實驗條件下實驗結果如表3所示。

表3 橫向對比實驗結果

從表3可以看出,本文提出的基于粗糙集手寫字母識別算法具有最優的分類準確率;雖然其時間性能相對較差,但算法的時間代價主要在離線的樣本學習過程中,對手寫字母的在線識別速度沒有影響。實驗結果驗證了粗糙集算法在性能上的總體優勢,具有一定的實用價值。

6 結語

本文基于粗糙集相關理論,提出了一種新的手寫字母識別方法。首先對學習樣本進行正態分布假設進行驗證,然后利用粗糙集原理對手寫字母決策系統進行特征選擇以適當地簡化決策系統,并對簡化后的手寫決策系統進行分類規則的提取,實驗證明算法是有效可行的。由于在樣本采樣過程中樣本離散化會導致樣本部分有效信息的丟失,同時算法也沒有考慮粗糙集邊界元素對粗糙集分類的影響,接下來的工作將應用鄰域關系改進本文的算法,并綜合考慮粗糙集正域和邊界對分類結果的影響,以提高分類算法的分類精度。

[1]劉勇,趙斌,夏紹瑋.模糊超橢球分類算法及其在無約束手寫體數字識別中的應用[J].清華大學學報:自然科學版,2000,40(9):120-124.

[2]Demirekler M,Altincy H.Plurality voting based multiple classifier systems:statistically independent with respect to depend classifier sets[J].Pattern Recognition,2002,35:2365-2379.

[3]Altineay H,Demirelder M.Undesirable effects of output normalization in multiple classifier systems[J].Pattern Recognition Letters,2003,24:1163-1170.

[4]Pawlak Z.Rough sets[J].International Journal of Information and Computer Sciences,1982,11(1):341-356.

[5]Kryszkiewicz M.Comparative study of alternative type of knowledge reduction in inconsistent systems[J].International Journal of Intelligent Systems,2001,16(1):105-120.

[6]張文修,吳偉志,梁吉業,等.粗糙集理論與方法[M].北京:科學出版社,2003.

[7]劉清.Rough集及Rough推理[M].北京:科學出版社,2001.

[8]Wang G Y,Wang Y.3DM:domain-oriented data-driven data mining[J].Fundamenta Informaticae,2009,90(4):395-426.

[9]Chen Y M,Miao D Q,Wang R Z.A rough set approach to feature selection based on ant colony optimization[J]. Pattern Recognition Letters,2010,31(3):226-233.

[10]Hu Q H,Yu D R,Xie Z X.Neighborhood classifiers[J]. Expert Systems with Applications,2008,34(2):866-876.

[11]Jiang F,Sui Y F,Cao C G.Some issues about outlier detection in rough set theory[J].Expert Systemswith Applications,2009,36(3):4680-4687.

[12]苗奪謙,張紅云,李道國,等.基于主曲線的脫機手寫數字識別[J].電子學報,2005,33(9):1639-1643.

[13]丁衛平,王建東,段衛華,等.一種求解屬性約簡優化的協同粒子群算法[J].山東大學學報:理學版,2011,46(5):97-102.

[14]Yao Y Y,Zhao Y.Discernibility matrix simplification for constructing attribute reducts[J].Information Sciences,2009,179(7):867-882.

[15]吳克壽,陳玉明,曾志強.基于鄰域關系的決策表約簡[J].山東大學學報:工學版,2012,42(2):7-10.

TANG Chaohui,CHEN Yuming,WU Keshou

Department of Computer Science and Technology,Xiamen University of Technology,Xiamen,Fujian 361024,China

According to the characteristics of handwritten letter recognition,a new handwritten letter recognition algorithm is proposed based on the rough set theory.The hypothesis of normal distribution has been tested to ensure the reliability of the collected samples.By using upper approximation,lower approximation,as well as positive region of rough set,feature selection is made in order to simplify the decision-making system.Classification rules are then extracted from the simplified decision-making system.Experimental results show that the new algorithm has higher recognition accuracy, and is feasible and effective.

rough set;positive region;handwriting recognition;feature selection;supervised learning

針對手寫字母識別的特點,結合粗糙集相關理論,提出了一種新的手寫字母識別算法。通過對采集的樣本進行正態分布假設驗證,保證樣本的可靠性;利用粗糙集上近似、下近似以及正域概念,對手寫樣本決策系統進行特征選擇以簡化決策系統,并進一步提煉手寫分類規則。實驗結果表明,新算法具有較高的識別準確率,是有效可行的。

粗糙集;正域;手寫識別;特性選擇;監督學習

A

TP181

10.3778/j.issn.1002-8331.1212-0221

TANG Chaohui,CHEN Yuming,WU Keshou.Handwritten letter recognition algorithm based on rough set positive region.Computer Engineering and Applications,2014,50(23):118-121.

國家自然科學基金(No.61103246,No.60903203);廈門理工學院人才科研啟動項目(No.YKJ10036R);廈門理工學院教改項目(No.JGY201315);福建省教育廳B類項目(No.JB12252S,No.JB14082);福建省大學生創新創業訓練計劃項目(No.201411062043)。

唐朝輝(1983—),男,講師,主要研究方向:粗糙集、機器學習;陳玉明(1977—),男,博士,講師,主要研究方向:粗糙集、粒計算、數據挖掘;吳克壽(1975—),男,博士,副教授,主要研究方向為粗糙集與數據挖掘。E-mail:chhtang@xmut.edu.cn

2012-12-18

2013-01-25

1002-8331(2014)23-0118-04

CNKI網絡優先出版:2013-03-29,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1212-0221.html

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 欧美区一区| 欧美三级自拍| 欧美成a人片在线观看| 中文字幕调教一区二区视频| 久久国产香蕉| 亚洲av无码片一区二区三区| 欧美成人综合视频| 精品国产91爱| www亚洲天堂| 欧美日韩国产在线播放| 91区国产福利在线观看午夜| 美女啪啪无遮挡| 91欧美亚洲国产五月天| 日本草草视频在线观看| 午夜性刺激在线观看免费| 精品人妻无码中字系列| 国产农村精品一级毛片视频| AV天堂资源福利在线观看| 老司国产精品视频| 91麻豆精品国产91久久久久| 国产精品人莉莉成在线播放| 欧美在线观看不卡| 999国产精品| 91精品免费高清在线| 国产99在线| 国产大片黄在线观看| 毛片手机在线看| 欧美国产日韩另类| 无码专区在线观看| 欧美区国产区| 亚洲va欧美va国产综合下载| 亚洲欧美另类日本| 四虎影视国产精品| 国产丝袜无码精品| 91麻豆国产在线| 欧美日韩成人在线观看| 久久精品视频一| 精品99在线观看| 国产精品视频公开费视频| 国产亚洲欧美在线专区| 国产激情无码一区二区三区免费| 97视频在线观看免费视频| 久久网综合| 亚洲男女天堂| 色屁屁一区二区三区视频国产| 国产在线无码一区二区三区| 91精品久久久久久无码人妻| A级毛片高清免费视频就| 日本草草视频在线观看| 高清视频一区| 国产丝袜精品| 国产成人一区免费观看| 蜜桃视频一区二区| 国产激爽大片高清在线观看| 激情午夜婷婷| 99在线视频免费观看| 欧美第九页| 国产精品一区在线麻豆| 67194亚洲无码| 亚洲AV无码久久天堂| 精品国产乱码久久久久久一区二区| 日本三级黄在线观看| 久久人午夜亚洲精品无码区| 国产亚洲成AⅤ人片在线观看| 中国国产一级毛片| 亚洲最新网址| 欧美A级V片在线观看| 国产三级毛片| 又爽又大又黄a级毛片在线视频| 国产精品一区不卡| 91久久精品日日躁夜夜躁欧美| 一本大道无码高清| 国产丰满成熟女性性满足视频| 91成人在线观看视频| 亚洲色图欧美在线| 国产亚洲视频在线观看| 九色综合伊人久久富二代| 黄色网址免费在线| 国产精品久久久久久久伊一| 国产欧美成人不卡视频| 真人高潮娇喘嗯啊在线观看| 成年免费在线观看|