999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主成分分析法及貝葉斯分類器的手寫數字識別

2015-11-23 06:34:18尹東霞
大眾科技 2015年9期

尹東霞

(山東科技大學網絡與信息中心,山東 青島 266590)

基于主成分分析法及貝葉斯分類器的手寫數字識別

尹東霞

(山東科技大學網絡與信息中心,山東 青島 266590)

針對目前手寫數字難識別并且識別正確率低這一現象,提出了一套基于主成分分析法及貝葉斯分類器的手寫數字識別方法。該方案首先利用主成分分析法減小輸入數據的維數,而后把降維的數據作為訓練過的貝葉斯分類器的輸入,從而得到對于輸入的手寫數字的識別。在 MNIST手寫數字數據集上該方法能夠達到96.35%的識別率。該仿真結果說明文章提出的手寫數字識別策略能夠實現對手寫數字的高效的識別。

手寫數字識別;主成分分析法;貝葉斯分類器

1 引言

對于手寫數字的識別是人們日常生活需要完成的任務之一。在人們日常的生活中,每個人每天都需要與數字打交道。在以往,對手寫數字的識別多采用人工的方式。但是在現代化及信息化高度發達的時代,如何實現用計算機或者現代計算機器實現對于手寫數字的高效快速的識別是一個亟需解決的問題。隨著社會的發展以及經濟的發展,每天需要處理的數據的數目在急劇增加,在需要處理的數據中,手寫數字由于其難識別性等特點,成為阻礙大規模機器處理數據的難點,所以實現手寫數字的高效快速識別是一項重要的任務。但是由于不同的人具有不用的字體,同時很可能存在書寫不規范的現象,手寫數字的識別是一個極其復雜的過程。針對目前手寫數字難識別并且分辨正確率低這一現象,提出了一套基于主成分分析法(PCA)及貝葉斯分類器的手寫數字識別方法。該方案首先利用主成分分析法減小輸入數據的維數,而后把降維的數據作為訓練過的貝葉斯分類器的輸入,從而得到對于輸入的手寫數字的識別。

文章的章節安排如下:第一部分為引言,為第一節;在第二部分中,介紹本文采用的主成分分析法以及貝葉斯分類器,為第二節和第三節;在最后一部分,在MNIST數據集上對本文提出手寫數字識別方法進行驗證,為第四節。

2 主成分分析法

PCA(或稱主分量分析)作為一種多元統計技術,是一種建立在統計特征基礎上的多維正交線性變換,常用來對信號進行特征提取和對數據進行降維,是由Pearson于1901年首先提出其概念,隨后由Hotelling、J.E.Jackson等學者對其進行了發展[1],后來研究者們用概率論的形式再次描述了主成分分析算法,使得 PCA法得到更進一步的理論上的發展。現今國內外已有很多學者對其進行了研究,它廣泛應用于化學、模式識別、圖像處理等各個領域[2],不同應用領域其被賦予不同名稱,如KL變換(Karhunen-Loeve Transform)、霍特林變換(Hotelling Transform)、子空間法 (Subspace Approach)和特征結構法(Eigen-structure Approach)等[3,4]。

PCA作為一種最常用的數據降維算法,同時也可看作是一種掌握事物主要矛盾的多元統計分析方法,是最為常用的特征提取方法,一直受到人們的關注和研究。它通過對原始數據進行加工處理,使得問題處理的難度和復雜度大大簡化,可以提高數據的信噪比,以改善原始數據的抗千擾能力。主成分分析法(Principal Component Analysis,PCA)的原理是利用一個特殊的特征向量矩陣U,將一個具有高維數的向量投影到一個低維的向量空間中,在這個過程中應該保證盡可能少的損失了重要信息,僅損失一些次要信息。該過程的逆過程為通過低維表征的向量和特征向量矩陣,可以重構或者大體重構出出所對應的原始高維向量。

本文針對手寫數字的特點,設計通過空間投影的方式減少輸入數據的維數,通過計算圖像矩陣的協方差矩陣,選擇出變化比較大同時區分度比較明顯的像素點,并且形成投影矩陣,通過投影矩陣把原數據投影到投影空間中,該過程應該保證手寫數字圖像損失信息越少越好,即保證原數據與投影數據之間的空間距離越小越好。

3 貝葉斯分類器

貝葉斯分類器是建立在貝葉斯理論基礎上的分類器,主要應用某個對象或者數據的先驗概率,而后利用貝葉斯理論計算出后驗概率,然后選擇能夠最大化后驗概率的作為對象或者數據的屬性。

上述的過程可以簡化為下面的情況:假設某個對象具有m個屬性,F1,F2,…,Fm。現在具有n個類,C1,C2,…,Cn。現在需要確定一個新的對象屬于哪一類,貝葉斯分類器工作過程就是選擇出概率最大的那個分類,即最大化公式(1)[5-7]

其中,P(F1,F2,…,Fm)對于同一個體或者對象而言,都是一樣的。整個過程就簡化為求解P(F1,F2,…,Fm|C)P(C)。

和其他數據挖掘或者模式識別中采用的分類器相同,應用貝葉斯分類器對對象或者數據進行分類的過程可以分成兩步:第一步,對模型的訓練,即從樣本數據中進行學習;第二步是用訓練出的模型對數據或者對象進行分類。在模型的訓練過程以及后續的識別過程中,模型計算的復雜度會影響計算的效率以及結果。對于貝葉斯分類器而言,往往需要進行簡化[8],本文采用主成分分析法來減少貝葉斯分類器的輸入屬性數目,從而減少訓練分類器所消耗的時間。

4 數據集仿真及結果分析

本文采用MNIST手寫數字數據集作為本文提出的手寫數字識別策略的仿真數據集,該數據集具有60000個訓練數據,并且具有10000個測試數據。在MNIST數據集中的數據均是經過大小統一化以及圖形集中的固定大小的圖像。并且采用MATLAB作為系統仿真軟件進行仿真。

圖1 MNIST數據集中的數據樣式

在本次試驗中,采用MNIST數據集中的10000個數據作為整體數據集的代表。MNIST數據集中的部分手寫數字如圖所示。并且用其中的8000個數據作為訓練樣本明確主成分分析的下降維數和訓練貝葉斯分類器,剩下的 2000樣本作為測試樣本對于訓練出的貝葉斯分類器進行驗證。

MNIST數據集中的每一個數據為一個28*28像素點的圖像,一共784維數據。這對于后續的貝葉斯分類器意味著其具有784維的輸入數據,這樣不僅會增加貝葉斯分類器的訓練成本,而且會增加后續計算的時間。所以對于784維的輸入數據,首先應該對其進行降維處理。本文采用主成分分析法對輸入的訓練以及測試樣本數據降維。對于主成分分析法而言,應該需要明確需要選擇哪幾個維度進行投影,維度應該滿足盡可能少的同時滿足一定準確性。

在確定 PCA降低維數的過程中,采用相應的平方差的方式對數據進行衡量。數據的降維可以理解為原數據向數據空間內的某個平面進行投影,由于降維的存在,降維后的數據相比原數據會損失一部分信息,需要盡可能的減小原數據與降維后的數據之間的空間距離。

通過選取不同的數量的主成分,能夠發現如圖2所示的規律曲線。其中坐標的橫軸為選取的主成分的數目,經過投影矩陣的變換,原數據與投影數據之間存在誤差,全體數據的誤差由縱軸表示。通過圖像可以發現,當主成分數目位于30到50之間時,總體誤差大概為1000左右,平均誤差為0.125。并且通過計算原數據的協方差矩陣的特征值,并選取最大特征值的0.05作為選取主成分的閾值,小于閾值的筆者認為具有不重要的信息,通過選擇的特征值能夠得到相應的投影矩陣。通過主成分數目與數據誤差之間的妥協,主成分數目應該選擇為37。

圖2 主成分數目與數據平均差之間關系

MATLAB的仿真結果表明,對于2000個數據的測試集進行驗證,識別錯誤的數目為73,正確率達到96.35%。混淆矩陣如圖3所示。

圖3 混淆矩陣

通過實驗結果能夠發現,被錯誤識別的數字分布的比較平均,并且為實際的書寫中容易被肉眼錯誤識別的數字。

綜上所示,書寫數字識別的全過程如圖4所示。

圖4 書寫數字識別全過程

5 結論

本文提出了一套基于主成分分析法及貝葉斯分類器的手寫數字識別方法。該方法首先利用主成分分析法以及原數據協方差矩陣的特征值減小輸入數據的維數,而后把降維的數據作為訓練過的貝葉斯分類器的輸入,從而得到對于輸入的手寫數字的識別。在MNIST手寫數字數據集上該方法能夠達到96.35%的識別率。

[1] 張媛,張燕平.一種 PCA算法及其應用[J].微機發展,2005, 15(2):67-69.

[2] K. Pearson, P. Mag. On lines and planes of closest fit to systems of points in space[J].1901,(2):559-572.

[3] D.E.Johnson.Applied multivariate methods for data analysis[M]. Beijing:Higher Education Press,2005:93-111.

[4] 佘映,王斌,張立明.一種面向數據學習的快速PCA算法[J].模式識別與人工智能,2009,22(4):568-573.

[5] 費愛蓉.基于貝葉斯方法的Web服務分類的研究[D].安徽:合肥工業大學,2004.

[6] 徐磊.基于貝葉斯網絡的突發事件應急決策信息分析方法研究[D].黑龍江:哈爾濱工業大學,2013.

[7] 邸俊鵬.分位數回歸的貝葉斯估計與應用研究[D].天津:南開大學,2013.

[8] 任曉明,李章呂.貝葉斯決策理論的發展概況和研究動態[J].科學技術哲學研究,2013,(2):1-7.

The identification of Hand-written digits based on Principal Component Analysis and Bayesian classifier

To deal with the low discrimination and low accuracy of the hand-written digits,this paper proposed a hand-written digits identification method which is based on the Principal Component Analysis (PCA) and the Bayesian classifier.This scheme employs the PCA to reduces the dimension of the input data,then the dimension-reduced data is regarded as the input for the Bayesian classifier,the result of the classifier is the identified digits.This method achieves the accuracy of 96.35% on the MNIST hand-written digits data set.The case study shows that the hand-written digit identification scheme this paper proposed can identify the hand-written digits effectively.

Hand-written digits identification; Principal Component Analysis(PCA);Bayesian classifier

TM732

A

1008-1151(2015)09-0039-03

2015-08-15

尹東霞(1964-),女,山東青島人,山東科技大學網絡與信息中心高級工程師,從事校園網絡管理與服務工作。

主站蜘蛛池模板: 玩两个丰满老熟女久久网| 88国产经典欧美一区二区三区| 丰满人妻中出白浆| 777国产精品永久免费观看| 亚洲中文在线看视频一区| 日韩欧美中文字幕一本| 午夜国产不卡在线观看视频| 一本无码在线观看| 久久精品丝袜高跟鞋| 无码aⅴ精品一区二区三区| 国产综合亚洲欧洲区精品无码| 国产99视频在线| 欧美一区精品| 国产人碰人摸人爱免费视频| 青青草国产在线视频| 国产精品午夜电影| 超清无码熟妇人妻AV在线绿巨人| 亚洲中久无码永久在线观看软件| 久久久久久久蜜桃| 青青草一区| 久久永久视频| 亚洲一区精品视频在线| 国产精品19p| 国产粉嫩粉嫩的18在线播放91| 亚洲综合色婷婷中文字幕| 亚洲啪啪网| 沈阳少妇高潮在线| 韩国自拍偷自拍亚洲精品| 国产精品一区不卡| 亚洲欧美精品日韩欧美| 免费国产一级 片内射老| 米奇精品一区二区三区| 亚洲欧洲免费视频| 99热这里都是国产精品| 亚洲熟妇AV日韩熟妇在线| 久久无码av一区二区三区| 高清无码不卡视频| 亚洲日本中文字幕天堂网| 97精品久久久大香线焦| 国产人成网线在线播放va| 秋霞午夜国产精品成人片| 日韩精品少妇无码受不了| 欧洲亚洲欧美国产日本高清| 四虎成人精品| 亚洲日韩久久综合中文字幕| 日本不卡免费高清视频| 大陆精大陆国产国语精品1024| 国产精品成人AⅤ在线一二三四| 国产幂在线无码精品| 久久国产精品嫖妓| 亚洲手机在线| 无遮挡国产高潮视频免费观看 | 国产xxxxx免费视频| 99在线视频免费观看| 国产精品成人一区二区不卡| 国产麻豆aⅴ精品无码| 国产综合网站| 久久精品国产一区二区小说| 亚洲不卡影院| 国产一在线观看| 国产在线91在线电影| 欧美成人日韩| 在线亚洲精品福利网址导航| 亚洲成人精品| 国产成人av大片在线播放| 91色老久久精品偷偷蜜臀| 日本午夜影院| 正在播放久久| 粗大猛烈进出高潮视频无码| 国产成人亚洲综合a∨婷婷| 久久香蕉国产线看观看精品蕉| 中文字幕不卡免费高清视频| 亚洲成年网站在线观看| 日韩AV无码免费一二三区| 午夜在线不卡| 五月天香蕉视频国产亚| 欧美日韩激情在线| 国产精彩视频在线观看| 午夜日b视频| 国产香蕉97碰碰视频VA碰碰看| 国产精品女在线观看| 中文字幕在线看视频一区二区三区|