999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

手寫數字深度特征學習與識別

2016-02-27 06:47:40陳浩翔蔡建明劉鏗然林秋爽張文玲
計算機技術與發展 2016年7期
關鍵詞:特征提取分類深度

陳浩翔,蔡建明,劉鏗然,林秋爽,張文玲,周 濤

(華南師范大學 數學科學學院,廣東 廣州 510631)

手寫數字深度特征學習與識別

陳浩翔,蔡建明,劉鏗然,林秋爽,張文玲,周 濤

(華南師范大學 數學科學學院,廣東 廣州 510631)

深度學習中的網絡結構設計、特征提取與融合是數據挖掘和模式識別理論和行業應用中的關鍵問題。文中以相關領域中的典型應用問題手寫數字識別和權威數據庫MNIST為實驗平臺(包含七萬個手寫數字圖像),探索了深度學習網絡結構的設計和特征融合問題,保證研究結果的實用性、代表性和可參考性。所給方案的步驟是:首先,設計非監督深度學習網絡,進行非監督高層語義特征學習,提取深度特征(DF),探索特征的高層認知特點;其次,對手寫數字數據庫進行非監督多特征提取,包括HOG(梯度方向直方圖)特征、PCA(主成分分析)特征、LDA(判別分析)特征、像素分布特征、穿越次數特征和投影特征,構建手寫數字典型特征庫(Library of Typical Features,LTF);最后,構建深度有監督學習網絡,有監督地融合深度特征DF和典型特征庫。實驗結果表明,相比于文獻中的典型特征,該方案能夠將手寫數字識別的錯誤率有效降低50%。

深度學習;特征融合;特征提取;手寫數字識別;主成分分析;梯度方向直方圖

0 引 言

人們能夠辨識人臉、識別語音、閱讀文字。這些背后都有著非常復雜的處理機制的識別行為。模式識別,這種輸入原始數據并根據其類別采取相應行為的能力跟人們的生活息息相關。

在一般的模式識別處理過程中,如果要得到一個良好的分類決策結果,則其中有兩個部分最為重要:特征提取和分類決策。而近年來學術界的研究重點也放在了這兩個方面。特征提取是在預處理的基礎上,提取出識別目標的具體屬性,易于進行分類操作;完成特征提取后,通過這些特征,分類器將感知到的目標進行有效的分類決策;最后即根據得到的分類結果,做出相應的操作反應。

深度學習通過建立一種深層非線性網絡結構,實現復雜函數逼近,表征輸入數據分布式表示,并體現了它對于輸入樣本數據的強大的本質特征的抽取能力。然而,深度結構(涉及多個非線性處理單元層)非凸目標代價函數中普遍存在的局部最小是訓練困難的主要來源。Hinton等基于深信度網(Deep Belief Networks)提出非監督貪心逐層訓練算法[1],為深層結構相關問題的優化帶來了希望,隨后提出多層自動編碼器深層結構。

在模式識別的案例中,手寫數字識別是模式識別中的一個重要的研究課題,在當今信息化的社會有非常廣闊的應用。但目前對各類字體的數字識別,特別是脫機手寫數字識別仍然處在發展階段,識別效果仍然不夠理想。因此,手寫數字識別的研究具有重大的現實意義。

文中將以特征選擇這一重要分類決策步驟作為切入點,結合深度學習的模型訓練,將不同的特征融合在一起應用到深度學習的模型訓練中,從而優化原始的訓練算法。通過在權威數據庫MNIST[2-4]上進行手寫數字實驗,分析特征融合在深層架構模型的影響與作用,并說明特征選擇在深度學習模型應用過程中的有效性。

1 算法流程與架構

文中采取不同的特征提取方法,主要為主成分分析(PCA)和梯度直方圖(HOG),并將其融合,輸入至一個七層的深度棧式自編碼網絡中進行二次提取,再由一個Softmax分類器[5]進行訓練分類。最后利用控制變量和貪心的思想調整網絡結構,以期顯著降低分類的錯誤率。其大致流程見圖1。

2 特征提取方法

文中采取的特征提取算法主要有PCA和HOG。

2.1 主成分分析

文中采用主成分分析法(Principal Component Analysis)降低原數據的維數以簡化運算。此法在去除噪音和冗余的同時,也保持數據的累計方差貢獻率超過90%。

PCA處理在數學定義層面而言,是對數據做一個正交化線性變換。在本質上,采用PCA的目的就是在最小均方誤差(MSE)的意義下,尋找最能夠代表原數據的投影[6-7]。

PCA降維的實現過程具體如下:

(1)為了讓原數據A的均方誤差最小,向量的均值應為零,即數據應以原點為中心。因此將原數據A以平均值為中心移到原點得到數據X:

(1)

(2)協方差用于衡量兩個變量的總體誤差,而方差是兩個變量相同的特殊情況下的協方差。計算X的協方差無偏估計矩陣Y:

(2)

由于兩個變量相同,此Y也是方差無偏估計矩陣。

(3)計算矩陣Y的特征值D和單位正交特征向量V,再讓特征值D由大到小排序。

(4)對應特征值的排序將特征向量排序后,即可得到變換矩陣v,令X乘以v即可得到已排序的投影數據Z。其中,第一個對應的就是第一主成分,第二個對應的就是次主成分,以此類推。

(5)λi是協方差矩陣,也是方差矩陣的第i個主元的特征值。計算第i個主元的方差貢獻率:

(3)

而R個主元的累計方差貢獻率為:

(4)

(6)求得累計方差貢獻率超過99%的主成分數目R,然后在已排序的投影數據Z中取前R維,即可得最終的降維同時各元之間互不相關的矩陣B。文中R最后的取值為388維。

2.2 方向梯度直方圖

方向梯度直方圖(Histogram of Oriented Gradient)是法國國家計算機科學及自動控制研究所的Dalal等提出的一種解決人體目標檢測的圖像描述方法,用于提取人體的外形信息和運動信息,從而形成豐富的特征集[8-9]。

HOG具有以下優點:

(1)HOG表示圖像邊緣(梯度)的結構特征,可以描述局部的形狀信息;

(2)使用分塊分單元的處理方法,讓圖像局部像素點之間的關系可以得到很好的表征;

(3)位置和方向空間的量化一定程度上可以抑制平移和旋轉帶來的影響[10]。

數字圖像比人體圖像的結構更加簡單,使用HOG特征提取能把數字圖像的主要特征囊括在特征集中。由于文中所使用的MNIST數據集中每個圖像都存在比較多的空白區域,因此,進行HOG特征提取前將數據集中每個樣本邊緣外圍的5行5列去掉,減少無用信息。

HOG特征提取算法的實現過程具體如下:

(1)將圖像灰度化。

(2)采用Gamma校正法對輸入圖像進行顏色空間的歸一化,調節圖像的對比度,降低圖像局部的陰影和光照變化所造成的影響,同時抑制噪音的干擾。

由于MNIST中圖像已經進行了灰度化以及去噪,因此不需要進行以上兩步。

(3)將圖像劃分為單元格(cell),每2×2個像素點組成一個單元格。

(4)計算圖像每個像素的梯度(包括大小和方向),捕獲輪廓信息:

Gx(x,y)=H(x+1,y)-H(x-1,y)

(5)

Gy(x,y)=H(x,y+1)-H(x,y-1)

(6)

其中,Gx(x,y),Gy(x,y),H(x,y)分別代表像素點(x,y)處的水平方向梯度、垂直方向梯度和像素值。

像素點(x,y)處的梯度幅值和梯度方向分別為:

(7)

(8)

梯度方向分為有符號(0~360)和無符號(0~180)兩種形式。文中實驗采用的是無符號形式,并將(0~180)分成9等份。

所以,圖像中每個單元格的梯度方向都分成9個方向塊,使用單元格中的梯度方向和大小對9個方向進行加權投影,最后,每個單元格產生9維的特征向量。

(5)將每2×2個單元格組成一個塊,一個塊內所有單元格的特征描述符串聯起來后歸一化,便得到該塊的HOG特征。通常使用的HOG結構大致有三種:矩形HOG、圓形HOG和中心環繞HOG。它們的單位都是塊(block)。Dalal等試驗證明,矩形的HOG和圓形的HOG檢測效果基本一致,而環繞形HOG效果相對差一些。因此文中使用矩形HOG結構進行實驗。

(6)將圖像所有塊的HOG特征串聯起來就可得到圖像的HOG特征,共2 304維。

(7)將特征進行歸一化,對特征提取后的特征向量進行特征變換。

v←v/255

(9)

(10)

3 稀疏自編碼網絡

隨著深度學習理念的提出,在機器學習領域涌現了大量的相關論著。而稀疏自編碼網絡[11]是其中非常重要而且實用的模型,它可以壓縮數據減少冗余與噪聲、降低輸入空間的維度、自主學習輸入數據的特征,而且運用貪心的思想,稀疏自編碼網絡可以擁有任意的層數,使得數據能夠更進一步地壓縮和提取特征。它的整個結構可以分為自編碼網絡、稀疏性抑制和棧式自編碼。

3.1 自編碼網絡

自編碼網絡是由原始的BP神經網絡[12]演化而來。在原始的BP神經網絡中,從特征空間輸入到神經網絡中,并用類別標簽與輸出空間來衡量誤差,用最優化理論不斷求得極小值,從而得到一個與類別標簽相近的輸出。但是在編碼網絡并不是如此,并不用類別標簽來衡量與輸出空間的誤差,而是通過特征空間的輸入來衡量與輸出空間的誤差。

(11)

利用最優化算法不斷迭代減小代價函數值,從而最終得到一個能從原始數據中自主學習特征的特征提取的神經網絡。從代數角度而言,即從一個線性相關的向量中,尋找出一組低維的基,而這組基線性組合之后又能還原成原始數據,自編碼網絡正是尋找了一組這樣的基。

3.2 稀疏性抑制

自編碼網絡是簡單而實用的,但是如果隱層神經元個數很多時,就要對一些激活度不高的神經元進行抑制,從而達到用更低維的向量表達高維向量的要求。從機器學習的角度出發,即是對模型復雜度加以限制。高復雜度的模型會帶來訓練準確率的下降,同樣也會影響到自編碼網絡自學習特征的過程。加上稀疏性抑制后的自編碼網絡稱之為稀疏自編碼[13]。

3.3 棧式自編碼

神經網絡很早就被提出,但是因為局部極值、梯度彌散、數據獲取等問題而構建不出深層的神經網絡。直到2006年深度學習的提出,才讓神經網絡的相關算法有了質的改變。而棧式自編碼就屬于深度學習理論中一種能夠得到優秀深層神經網絡的方法。

棧式自編碼神經網絡是一個由多層稀疏自編碼器組成的網絡。它的思想是利用逐層貪婪訓練的方法,把原來多層的神經網絡剖分成一個個小的自編碼網絡,每次只訓練一個自編碼器,然后將前一層自編碼的輸出作為其后一層自編碼器的輸入,最后連接一個分類器,可以是SVM、SoftMax等等[14]。上述步驟是為了得到一個好的初始化深度神經網絡的權重,當連接好一個分類器后,還可以用BP神經網絡的思想,反向傳播微調神經元的權重,以期得到一個分類準確率更好的棧式自編碼神經網絡。

4 特征融合

對于識別分類問題,數據的特征表達對于分類的效果起著至關重要的作用。文中將基于MNIST來探討樣本數據的原始特征(即MNIST特征)、PCA特征和HOG特征的不同特征融合技術對于分類模型的精度影響。

4.1 特征拼接

首先,用這三種特征的訓練樣本分別對分類器進行訓練,用測試樣本測試已經訓練好的分類器的分類效果,以便直觀地了解這些特征本身的分類效果。結果如圖2所示。

圖2 PCA特征、樣本數據的原始特征(即MNIST特征)、HOG特征的比較

可以看到,原始特征和PCA特征表達對于分類效果差別不大,而HOG的特征表達取得的分類效果遠遠優于原始特征和PCA特征。

接著,研究這兩種特征融合后對于分類效果的影響,具體做法是:將特征向量A(長度為n)拼接到相應的特征向量B(長度為m)的尾部,組成長度為n+m的新向量,即融合特征向量,而后將這些融合向量組成的訓練樣本送入分類器中訓練分類器,再通過測試融合向量得到分類效果。

通過實驗結果發現,PCA特征和原始特征的融合特征的錯分率處于兩者之間,即分類效果比PCA特征高而比原始特征低,這一定程度上符合人們的主觀常識:高低融合取中間;然而,PCA和HOG的融合特征的分類效果卻優于融合前的任何一個單獨特征。這結果表明:不同的特征融合會取得不同的效果,也就是特征融合后的特征并不一定優于原特征,也不一定劣于原特征。

PCA的全稱是主成分分析,它是從數據中提取出主成分(即具有較大方差的那些維度),這些主成分用最少的維度表達了最多的信息(一般≥99%),在降維的同時也起到了降噪的作用,這是PCA的本質所在。因此可以看到,PCA提取的特征和原始特征在本質上是沒有差別的。

而HOG是方向梯度直方圖,它首先將圖像分成小的連通區域,把它叫細胞單元,然后采集細胞單元中各像素點的梯度或邊緣的方向直方圖,最后把這些直方圖組合起來構成特征描述器。HOG在擁有幾何不變性和形變不變形優點的同時也存在導致維數增長的缺點。HOG的本質在于統計梯度信息,換句話說,是統計筆畫信息(因為梯度主要存在于有邊緣的地方)。所以HOG提取的特征和原始的像素特征是完全不同的。

4.2 二次提取

上文探討了一種特征融合,接下來探討另外一種特征融合,即二次提取特征。

不論是PCA還是HOG,它們都是人工選取特征的方法,在數據量和樣本維度比較高時,人工選取的特征在一定程度上仍然存在冗余和噪聲等。為此,一個自然的想法就是引入自動提取特征的方法—深度學習,使得模型能夠在訓練時自己從特征樣本中再次學習到更簡潔、更高效的特征樣本。在深度學習的眾多方法中,選取較為成熟的棧式稀疏自編碼(Stack Auto-Encoder,SAE)作為二次特征提取的模型。

下面將在控制變量的前提下,分別用HOG和PCA作為第一次特征提取的方法,將提取到的特征通過SAE訓練,自動提取二次特征,而后將測試用的特征送入SoftMax分類器測試分類效果。結果如圖3所示。

圖3 HOG特征與HOG+SAE特征比較

由圖3可以明顯看到,HOG特征在經過SAE二次提取特征后,所表現的分類效果都有明顯的提高。同樣的,PCA特征在經過SAE二次提取特征后,分類效果也得到明顯的提高。而導致這種結果的原因,是和SAE的內在機理密不可分的。SAE是由神經網絡和稀疏自編碼衍變而來的,其至關重要的特性就是編碼和稀疏。

SAE將輸入特征(如HOG特征、PCA特征)逐層編碼成某個低維空間的特征,但卻保留了輸入特征幾乎所有的信息,達到了降噪去冗的效果,但這是利用PCA做手工提取特征也能做到的事情,關鍵之處在于SAE的稀疏抑制。SAE通過稀疏抑制使得盡可能多的神經元處于抑制狀態,而這要求系數矩陣W中的元素盡可能為0,從而抑制了基的維數。而可以通過調整稀疏性參數ρ來適當抑制基的維數增長,從而尋找到最佳的模型復雜度,避免過擬合,提高模型的精度和泛化能力。

4.3 特征拼接+二次提取

最后,把兩種特征融合方法結合在一起,驗證特征融合的優勢。如圖4所示,將比較PCA、HOG、PCA+HOG、PCA+HOG+SAE的分類效果。根據上面的實驗,知道PCA+HOG融合特征的分類效果優于PCA特征和HOG特征,但是PCA+HOG融合特征的分類效果和PCA+HOG+SAE二次融合特征的分類效果是未知的,這次實驗的意義在于拼接特征和二次提取的兼容性是否可以再次提高特征的表達。圖5為實驗結果示意圖。

圖4 PCA特征,HOG特征,PCA+HOG特征與PCA+HOG+SAE特征的比較

圖5 特征的相對比較

從圖中可以清楚地看到,PCA和HOG在拼接特征后分類效果有較為明顯的提升,而后在此基礎上再做SAE二次特征提取后,分類結果又得到了較為明顯的提升。

這說明,特征拼接和二次提取是可以兼容的,這也意味著當實際需要更高的準確率而不追求快速分類時,可以采取特征融合技術來獲取更好的分類效果,提高精度。

5 結果對比

在得到一個有效的特征融合算法后,文中著重設計了深度網絡的結構,利用控制變量和貪心的思想,在一定的取值區間內調整參數,設計結構,尋求最優解,最終得到了一個局部最優的網絡結構和參數。再利用特征融合算法,結合調優過的深度棧式自編碼網絡得到一個極高的分類準確率。該準確率優于絕大部分的分類模型,其具體參數和結果見表1。

表1 具體參數和結果

表中,*為隱層神經元個數,由下式計算:

(12)

通過該模型對MNIST數據庫進行分類,準確率達到99.2%,錯誤率只有0.80%,相比Ranzato和LeCun所得到的錯誤率0.89%和0.85%都有提高。

6 結束語

文中提出了一種高精度有效的有監督深度特征融合分類系統。論證了對原始數據不同表征的特征凸組合才是有效的特征融合方法,從而將HOG、PCA和MNIST三種特征有效結合在一起,并用深度自編碼網絡進行二次提取再進行分類。分類結果遠優于僅用原始特征作為輸入的稀疏自編碼網絡,使之錯誤率下降了將近50%,證明特征融合的方法能夠顯著提高分類的精度,可以廣泛應用于各類深度學習模型中。最后優化深度網絡結構,得到了一個準確率為99.2%的深度特征融合分類系統,其優于絕大多數的分類模型,具有較強的實用性和可參考性。

[1] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.

[2] 邊肇祺.模式識別[M].北京:清華大學出版社,1988.

[3] 邊肇祺,張學工.模式識別[M].第2版.北京:清華大學出版社,2000.

[4] 張學工.模式識別[M].第3版.北京:清華大學出版社,2010.

[5] 蘇高利,鄧芳萍.論基于MATLAB語言的BP神經網絡的改進算法[J].科技通報,2003,19(2):130-135.

[6] 韓小孩,張耀輝,孫福軍,等.基于主成分分析的指標權重確定方法[J].四川兵工學報,2012,33(10):124-126.

[7] 齊興敏.基于PCA的人臉識別技術的研究[D].武漢:武漢理工大學,2007.

[8] 葉 林,陳岳林,林景亮.基于HOG的行人快速檢測[J].計算機工程,2010,36(22):206-207.

[9] 姚雪琴,李曉華,周激流.基于邊緣對稱性和HOG的行人檢測方法[J].計算機工程,2012,38(5):179-182.

[10] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE Press,2005:886-893.

[11] Raina R,Battle A,Lee Honglak,et al.self-taught learning:transfer learning from unlabeled data[C]//Proc of international conference on machine learning.[s.l.]:[s.n.],2007:759-766.

[12] Le Q V,Ngiam J,Coates A,et al.On optimization methods for deep learning[C]//Proc of international conference on machine learning.[s.l.]:[s.n.],2011:265-272.

[13] Ranzato M, Huang F J, Boureau Y L,et al. Unsupervised learning of invariant feature hierarchies with applications to object recognition[C]//Proc of IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2007:1-8.

[14] Lecun Y,Bottou L,Bengio Y,et al.Gradient based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

Deep Learning and Recognition of Handwritten Numeral Features

CHEN Hao-xiang,CAI Jian-ming,LIU Keng-ran,LIN Qiu-shuang,ZHANG Wen-ling,ZHOU Tao

(School of Mathematics,South China Normal University,Guangzhou 510631,China)

Network structure design,feature extraction and fusion in deep learning are key problems in data mining and pattern recognition theory and industry application.The design of deep learning network’s structure and the problem of feature fusion is explored,taking handwritten numeral recognition and authoritative database MNIST,with 70 thousands of handwritten image,as the experiment platform,which guarantees the practicability,representation and reference of the research results.The solution step has been given.Firstly,the unsupervised deep learning network is designed,learning unsupervised high-level semantic features,extraction of depth features,and exploration of higher cognitive characteristics of features.Secondly,unsupervised features of handwritten database are extracted,including HOG,PCA,LDA and so on,construction of LTF.Finally,deep supervised learning network is built,fusion of deep features and the library of typical features with supervision.The result shows that this scheme can lower error rate of handwritten recognition by 50%,compared with the typical features of the present.

deep learning;feature fusion;feature extraction;handwritten numeral recognition;principal component analysis;histogram of oriented gradient

2015-10-25

2016-01-27

時間:2016-06-22

國家自然科學基金資助項目(61273248,61075033)

陳浩翔(1994-),男,研究方向為人工智能與模式識別;導師:李鄉儒,教授,研究方向為模式識別與數據挖掘;馮偉貞,副教授,研究方向為常微分方程應用研究。

http://www.cnki.net/kcms/detail/61.1450.TP.20160622.0844.028.html

O235

A

1673-629X(2016)07-0019-05

10.3969/j.issn.1673-629X.2016.07.005

猜你喜歡
特征提取分類深度
分類算一算
深度理解一元一次方程
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
教你一招:數的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
主站蜘蛛池模板: 亚洲成人黄色在线| 国产欧美成人不卡视频| 精品超清无码视频在线观看| 免费久久一级欧美特大黄| 久久99精品久久久久纯品| 日本道中文字幕久久一区| 欧美在线视频不卡第一页| 在线精品视频成人网| 国产美女视频黄a视频全免费网站| 2021国产在线视频| 亚洲欧洲综合| 成人在线观看一区| 一级成人a毛片免费播放| 超碰精品无码一区二区| 午夜人性色福利无码视频在线观看| 日本高清免费一本在线观看| 欧美亚洲国产精品第一页| 一本久道久久综合多人| 国产精品浪潮Av| 亚洲二区视频| 亚洲欧美精品一中文字幕| 97国产成人无码精品久久久| 亚洲久悠悠色悠在线播放| 婷婷六月色| 无码视频国产精品一区二区| 综合五月天网| 在线观看国产精美视频| 日本黄色不卡视频| 欧美a√在线| 精品少妇人妻一区二区| 重口调教一区二区视频| 国产香蕉在线视频| 毛片一区二区在线看| 性视频久久| 亚洲妓女综合网995久久| 亚洲成人在线免费| 久久久国产精品无码专区| 高清乱码精品福利在线视频| 一级爆乳无码av| 97视频免费在线观看| 欧美啪啪网| 天天爽免费视频| 欧洲成人免费视频| 99精品在线看| 国产超碰在线观看| 亚洲日韩精品欧美中文字幕| 这里只有精品在线| 白丝美女办公室高潮喷水视频| 日韩一级毛一欧美一国产| 国产精品毛片一区| 人人妻人人澡人人爽欧美一区| 四虎AV麻豆| 日本午夜精品一本在线观看| 草草线在成年免费视频2| 亚欧美国产综合| 色天天综合| 18禁色诱爆乳网站| 午夜限制老子影院888| 亚洲美女AV免费一区| 九九热精品免费视频| 国产人碰人摸人爱免费视频| 国产成人精品18| 91小视频在线观看免费版高清| AV天堂资源福利在线观看| 欧美亚洲第一页| 美女一区二区在线观看| 999国产精品| 超碰色了色| 久青草国产高清在线视频| 欧洲极品无码一区二区三区| 欧美性色综合网| 国产欧美性爱网| 亚洲成人免费在线| 日韩成人高清无码| 亚洲首页国产精品丝袜| 区国产精品搜索视频| 精品欧美一区二区三区久久久| 美女无遮挡拍拍拍免费视频| 国产一区二区在线视频观看| 国产女同自拍视频| 日本一区高清| 97精品国产高清久久久久蜜芽|