尹東霞
(山東科技大學網絡與信息中心,山東 青島 266590)
基于主成分分析法及貝葉斯分類器的手寫數字識別
尹東霞
(山東科技大學網絡與信息中心,山東 青島 266590)
針對目前手寫數字難識別并且識別正確率低這一現象,提出了一套基于主成分分析法及貝葉斯分類器的手寫數字識別方法。該方案首先利用主成分分析法減小輸入數據的維數,而后把降維的數據作為訓練過的貝葉斯分類器的輸入,從而得到對于輸入的手寫數字的識別。在 MNIST手寫數字數據集上該方法能夠達到96.35%的識別率。該仿真結果說明文章提出的手寫數字識別策略能夠實現對手寫數字的高效的識別。
手寫數字識別;主成分分析法;貝葉斯分類器
對于手寫數字的識別是人們日常生活需要完成的任務之一。在人們日常的生活中,每個人每天都需要與數字打交道。在以往,對手寫數字的識別多采用人工的方式。但是在現代化及信息化高度發達的時代,如何實現用計算機或者現代計算機器實現對于手寫數字的高效快速的識別是一個亟需解決的問題。隨著社會的發展以及經濟的發展,每天需要處理的數據的數目在急劇增加,在需要處理的數據中,手寫數字由于其難識別性等特點,成為阻礙大規模機器處理數據的難點,所以實現手寫數字的高效快速識別是一項重要的任務。但是由于不同的人具有不用的字體,同時很可能存在書寫不規范的現象,手寫數字的識別是一個極其復雜的過程。針對目前手寫數字難識別并且分辨正確率低這一現象,提出了一套基于主成分分析法(PCA)及貝葉斯分類器的手寫數字識別方法。該方案首先利用主成分分析法減小輸入數據的維數,而后把降維的數據作為訓練過的貝葉斯分類器的輸入,從而得到對于輸入的手寫數字的識別。
文章的章節安排如下:第一部分為引言,為第一節;在第二部分中,介紹本文采用的主成分分析法以及貝葉斯分類器,為第二節和第三節;在最后一部分,在MNIST數據集上對本文提出手寫數字識別方法進行驗證,為第四節。
PCA(或稱主分量分析)作為一種多元統計技術,是一種建立在統計特征基礎上的多維正交線性變換,常用來對信號進行特征提取和對數據進行降維,是由Pearson于1901年首先提出其概念,隨后由Hotelling、J.E.Jackson等學者對其進行了發展[1],后來研究者們用概率論的形式再次描述了主成分分析算法,使得 PCA法得到更進一步的理論上的發展。現今國內外已有很多學者對其進行了研究,它廣泛應用于化學、模式識別、圖像處理等各個領域[2],不同應用領域其被賦予不同名稱,如KL變換(Karhunen-Loeve Transform)、霍特林變換(Hotelling Transform)、子空間法 (Subspace Approach)和特征結構法(Eigen-structure Approach)等[3,4]。
PCA作為一種最常用的數據降維算法,同時也可看作是一種掌握事物主要矛盾的多元統計分析方法,是最為常用的特征提取方法,一直受到人們的關注和研究。它通過對原始數據進行加工處理,使得問題處理的難度和復雜度大大簡化,可以提高數據的信噪比,以改善原始數據的抗千擾能力。主成分分析法(Principal Component Analysis,PCA)的原理是利用一個特殊的特征向量矩陣U,將一個具有高維數的向量投影到一個低維的向量空間中,在這個過程中應該保證盡可能少的損失了重要信息,僅損失一些次要信息。該過程的逆過程為通過低維表征的向量和特征向量矩陣,可以重構或者大體重構出出所對應的原始高維向量。
本文針對手寫數字的特點,設計通過空間投影的方式減少輸入數據的維數,通過計算圖像矩陣的協方差矩陣,選擇出變化比較大同時區分度比較明顯的像素點,并且形成投影矩陣,通過投影矩陣把原數據投影到投影空間中,該過程應該保證手寫數字圖像損失信息越少越好,即保證原數據與投影數據之間的空間距離越小越好。
貝葉斯分類器是建立在貝葉斯理論基礎上的分類器,主要應用某個對象或者數據的先驗概率,而后利用貝葉斯理論計算出后驗概率,然后選擇能夠最大化后驗概率的作為對象或者數據的屬性。
上述的過程可以簡化為下面的情況:假設某個對象具有m個屬性,F1,F2,…,Fm。現在具有n個類,C1,C2,…,Cn。現在需要確定一個新的對象屬于哪一類,貝葉斯分類器工作過程就是選擇出概率最大的那個分類,即最大化公式(1)[5-7]

其中,P(F1,F2,…,Fm)對于同一個體或者對象而言,都是一樣的。整個過程就簡化為求解P(F1,F2,…,Fm|C)P(C)。
和其他數據挖掘或者模式識別中采用的分類器相同,應用貝葉斯分類器對對象或者數據進行分類的過程可以分成兩步:第一步,對模型的訓練,即從樣本數據中進行學習;第二步是用訓練出的模型對數據或者對象進行分類。在模型的訓練過程以及后續的識別過程中,模型計算的復雜度會影響計算的效率以及結果。對于貝葉斯分類器而言,往往需要進行簡化[8],本文采用主成分分析法來減少貝葉斯分類器的輸入屬性數目,從而減少訓練分類器所消耗的時間。
本文采用MNIST手寫數字數據集作為本文提出的手寫數字識別策略的仿真數據集,該數據集具有60000個訓練數據,并且具有10000個測試數據。在MNIST數據集中的數據均是經過大小統一化以及圖形集中的固定大小的圖像。并且采用MATLAB作為系統仿真軟件進行仿真。

圖1 MNIST數據集中的數據樣式
在本次試驗中,采用MNIST數據集中的10000個數據作為整體數據集的代表。MNIST數據集中的部分手寫數字如圖所示。并且用其中的8000個數據作為訓練樣本明確主成分分析的下降維數和訓練貝葉斯分類器,剩下的 2000樣本作為測試樣本對于訓練出的貝葉斯分類器進行驗證。
MNIST數據集中的每一個數據為一個28*28像素點的圖像,一共784維數據。這對于后續的貝葉斯分類器意味著其具有784維的輸入數據,這樣不僅會增加貝葉斯分類器的訓練成本,而且會增加后續計算的時間。所以對于784維的輸入數據,首先應該對其進行降維處理。本文采用主成分分析法對輸入的訓練以及測試樣本數據降維。對于主成分分析法而言,應該需要明確需要選擇哪幾個維度進行投影,維度應該滿足盡可能少的同時滿足一定準確性。
在確定 PCA降低維數的過程中,采用相應的平方差的方式對數據進行衡量。數據的降維可以理解為原數據向數據空間內的某個平面進行投影,由于降維的存在,降維后的數據相比原數據會損失一部分信息,需要盡可能的減小原數據與降維后的數據之間的空間距離。
通過選取不同的數量的主成分,能夠發現如圖2所示的規律曲線。其中坐標的橫軸為選取的主成分的數目,經過投影矩陣的變換,原數據與投影數據之間存在誤差,全體數據的誤差由縱軸表示。通過圖像可以發現,當主成分數目位于30到50之間時,總體誤差大概為1000左右,平均誤差為0.125。并且通過計算原數據的協方差矩陣的特征值,并選取最大特征值的0.05作為選取主成分的閾值,小于閾值的筆者認為具有不重要的信息,通過選擇的特征值能夠得到相應的投影矩陣。通過主成分數目與數據誤差之間的妥協,主成分數目應該選擇為37。

圖2 主成分數目與數據平均差之間關系
MATLAB的仿真結果表明,對于2000個數據的測試集進行驗證,識別錯誤的數目為73,正確率達到96.35%。混淆矩陣如圖3所示。

圖3 混淆矩陣
通過實驗結果能夠發現,被錯誤識別的數字分布的比較平均,并且為實際的書寫中容易被肉眼錯誤識別的數字。
綜上所示,書寫數字識別的全過程如圖4所示。

圖4 書寫數字識別全過程
本文提出了一套基于主成分分析法及貝葉斯分類器的手寫數字識別方法。該方法首先利用主成分分析法以及原數據協方差矩陣的特征值減小輸入數據的維數,而后把降維的數據作為訓練過的貝葉斯分類器的輸入,從而得到對于輸入的手寫數字的識別。在MNIST手寫數字數據集上該方法能夠達到96.35%的識別率。
[1] 張媛,張燕平.一種 PCA算法及其應用[J].微機發展,2005, 15(2):67-69.
[2] K. Pearson, P. Mag. On lines and planes of closest fit to systems of points in space[J].1901,(2):559-572.
[3] D.E.Johnson.Applied multivariate methods for data analysis[M]. Beijing:Higher Education Press,2005:93-111.
[4] 佘映,王斌,張立明.一種面向數據學習的快速PCA算法[J].模式識別與人工智能,2009,22(4):568-573.
[5] 費愛蓉.基于貝葉斯方法的Web服務分類的研究[D].安徽:合肥工業大學,2004.
[6] 徐磊.基于貝葉斯網絡的突發事件應急決策信息分析方法研究[D].黑龍江:哈爾濱工業大學,2013.
[7] 邸俊鵬.分位數回歸的貝葉斯估計與應用研究[D].天津:南開大學,2013.
[8] 任曉明,李章呂.貝葉斯決策理論的發展概況和研究動態[J].科學技術哲學研究,2013,(2):1-7.
The identification of Hand-written digits based on Principal Component Analysis and Bayesian classifier
To deal with the low discrimination and low accuracy of the hand-written digits,this paper proposed a hand-written digits identification method which is based on the Principal Component Analysis (PCA) and the Bayesian classifier.This scheme employs the PCA to reduces the dimension of the input data,then the dimension-reduced data is regarded as the input for the Bayesian classifier,the result of the classifier is the identified digits.This method achieves the accuracy of 96.35% on the MNIST hand-written digits data set.The case study shows that the hand-written digit identification scheme this paper proposed can identify the hand-written digits effectively.
Hand-written digits identification; Principal Component Analysis(PCA);Bayesian classifier
TM732
A
1008-1151(2015)09-0039-03
2015-08-15
尹東霞(1964-),女,山東青島人,山東科技大學網絡與信息中心高級工程師,從事校園網絡管理與服務工作。