楊 濤, 張云偉, 楊 瑞
(昆明理工大學 信息工程與自動化學院,云南 昆明 650504)
?
基于深度信念網絡的社??ㄌ柎a識別方法*
楊 濤, 張云偉, 楊 瑞
(昆明理工大學 信息工程與自動化學院,云南 昆明 650504)
提出了一種基于深度信念網絡(DBN)的社??ㄌ柎a識別方法,通過采集社??▓D像,采用模塊分割的方法,對社保卡號碼區域進行行分割,利用區域生長的方法對行內號碼分割,將號碼圖像灰度化與二值化,并歸一化為32×32大小,作為深度信念網絡的輸入數據,訓練3層受限玻爾茲曼機(RBM)來獲得更加抽象的特征表達,模型的最頂層結合Softmax回歸分類器對抽取后的特征進行分類。實驗結果表明:其準確率高達98.3 %,與BP神經網絡和支持向量機(SVM)模型相比,深度信念網絡學習了數據的高層特征的同時降低了特征維數,提高了分類器的分類精度,有效提高了社??ㄌ柎a識別率。
模塊分割; 深度信念網絡; 受限玻爾茲曼機; Softmax回歸分類器
社??ㄌ柎a作為社??ㄎㄒ粯俗R,對卡號的識別是社??ㄗR別的關鍵。文獻[1]提出了一種基于字符結構特征進行識別的算法,文獻[2]采用了模板匹配算法進行圖像識別,楊建等人[3]運用基于并行特征組合與廣義K-L變換的字符識別,Yang F等人[4]采用Laplacian和BP神經網絡的方法。Stuhlsatz A等人在文獻[5]中提出了特征提取在圖像簡單分類中的思想,上述方法均依靠人工提取特征,對于社??ū尘盀榫W紋和激光防偽標識的字符來說,其準確性和魯棒性并不高。文獻[6]提出了基于深度信念網絡的識別算法,訓練受限玻茲曼機(restricted Boltzmann machine,RBM)學習特征進行數據擬合,提取圖像本質特征,具有很好的識別效果。
本文提出了一種基于深度信念網絡的社保卡號碼識別方法,通過訓練3層RBM來獲得更加抽象的特征表達,在模型的最頂層結合Softmax回歸分類器對抽取后的特征進行分類。
1)社??▓D像采集
使用攝像頭采集社保卡圖像,采集到24位彩色圖像,將采集的彩色圖片轉換成灰度圖像,然后,分割出社保卡號碼。設定一個社??ㄌ柎a圖塊分割模板,通過這個模板可以切掉圖像其他的信息,只保留號碼區域的信息。

圖1 社保卡灰度化圖像(樣卡)

圖2 號碼分割圖像
2)二值化
a.找出圖像中最小和最大的灰度值,記為gmin和gmax;
b.選取灰度范圍的中間值作為初始閾值T(0),然后按下式進行迭代,當T(i+1)=T(i)時迭代停止,此時,T(i+1)為最終的閾值T為
(1)
式中K取值為0.5。
二值化結果如圖3所示。

圖3 二值化圖像
3)平滑處理
在攝像頭采集圖像的過程中,圖像不可避免地存在噪聲,采用低通濾波的方法去噪。圖4為除噪后的圖像。

圖4 去除噪聲后的圖像
4)號碼分割
號碼分割指精確分割單個數字,采取對圖4分別做水平和垂直方向的一階差分,得到單個字符區域的圖像。如圖5和圖6所示。

圖5 號碼輪廓

圖6 單個號碼分割
2.1RBM網絡結構
RBM是一種二分結構的無向圖模型,也是基于熱動力學的能量模型,能夠很好地對神經網絡的權重進行初始化,其網絡結構如圖7所示。

圖7 RBM網絡結構
RBM網絡分為2層:隱含層h和可視層v。隱含層由m個隱含的隨機變量構成:h=[h1,h2,…,hm];可視層的構成為v=[v1,v2,…,vn],用于表示觀測的數據,RBM又可視為基于能量的模型,其能量函數定義如式(2)所示

(2)
式中wi為可視單元vi與隱單元hj之間連接權重;ai為可視單元vi的偏置;bj為隱含單元hj偏置。
2.2 RBM的訓練方法
根據梯度上升算法,使得參數沿著似然函數梯度,如式(3),上升的方向不斷迭代更新,使似然函數取得最大值
(3)
迭代更新的表達式為
(4)
每一步采樣中,先通過p(h|v(t))對h采樣獲得h(t),然后再通過p(h|v(t))對v采樣獲得v(t+1),具體過程如下:
輸入:RBM(v,h),訓練集合S。
輸出:梯度Δwij,Δai,Δbj,i=1,…,n;j=1,2,…,m。
1)初始化Δwij,Δai=0,Δbj=0。
2)對所有的v∈S,做如下循環:
a.v(0)=v;
b.對所有的t=0,…,k-1,執行:


c.對于i=1,2,...,n,j=1,2,…,m,執行:

Δbj+=P(hj=1│v(0))-P(hj=1|v(k))。
1)充分訓練第一個RBM;
2)固定第一個RBM的權重和偏移量,作為第二個RBM的輸入向量;
3)充分訓練第二個RBM后,將第二個 RBM堆疊在第一個RBM上方,然后依次將第三個RBM堆疊在第二個RBM上;
4)訓練集中的數據有標簽,那么在頂層的 RBM訓練時,這個RBM的顯層中除了顯性神經元,還需要有代表分類標簽的神經元,一起進行訓練;
5)將DBN的輸出層采用Softmax回歸分類器,DBN被訓練好后如圖8。

圖8 DBN網絡結構
利用Matlab R2010a軟件進行實驗。將已分割出的號碼圖片歸一化為32×32大小,作為訓練樣本和測試樣本。共有11種圖片(0,1,…,9,x),每種圖片100張,合計1 100張,其中訓練樣本700張,測試樣本400張。部分訓練樣本如圖9所示。

圖9 部分訓練樣本圖片
將上述得到的字符圖片存入num.mat文件中,然后,將num.mat文件中的數據導入到DBN(本次實驗采用3層RBM組成)的第一層RBM的可視層v1中。
然后,學習得到的連接權重w1對v1進行加權重置,從而得到第一層RBM的隱含層參數h1;將h1作為第二層RBM的可視層v2的輸入,再次根據學習得到的連接權值w2對v2進行權值重置,得到第二層RBM的隱層參數h2,以此類推,直到將3層RBM訓練完成。節點數分別為[300,250,200]。最后頂層采用Softmax分類器,若Softmax分類器輸出標簽與測試樣本標簽一致時,表明分類結果正確,反之,則分類結果錯誤。
按照DBN訓練方法訓練。對400個測試樣本進行測試,得到的結果與SVM和BP神經網絡方法的實驗結果作比較,得到如表1所示的結果。

表1 本文方法與SVM,BP神經網絡算法的比較
由表1中可以看出:采用本文方法的識別正確率要高于使用SVM方法和BP神經網絡方法。
另外,RBM的網絡單元數量對實驗結果也有一定的影響,本文通過選用4種不同的隱含層單元數量進行實驗,得出如表2所示的結果。

表2 不同隱含層單元數量的識別結果
DBN的深度,即網絡的層數,也影響著網絡對數據的擬合精度,理論上網絡的層數越多,復雜的參數意味著網絡具有更強大的數據表達能力,但網絡的深度越高,也意味著網絡的訓練越困難,若訓練不好,得到的識別精度反而更差,目前,DBN深度的選擇沒有更好的理論支撐,所以,本實驗選擇隱含層單元層數分別為1,2,3,4這4種情況,結果如表3所示。

表3 不同DBN深度的識別結果
由表3可以看出,DBN的識別率隨著隱含層單元數的增加先增大后減小,當隱含層單元層數為3時,識別率最高,層數為4時,識別率反而降低,這是因為網絡深度的增加更容易陷入局部最優點,導致最終識別率不高。
本文提出的基于深度信念網絡的社保卡號碼識別方法,與傳統的號碼識別相比,避免了人工選取特征的局限性,利用無監督學習算法DBN自動地學習號碼圖像特征,并使用Softmax回歸分類器對學習的特征進行分類。討論了不同隱含層單元數量、不同DBN深度對識別的影響,與BP神經網絡以及SVM相比較,實驗表明:本文方法的魯棒性和識別的準確度都很高。
[1] 范瑋琦,金 燦.基于結構特征的紙幣號碼識別方法[J].圖形圖像處理,2014,50(8):118-121.
[2] 田 娟,鄭郁正.模板匹配技術在圖像識別中的應用[J].傳感器與微系統,2008,27(1):112-114,117.
[3] 楊 建,楊靜宇,高建貞.基于并行特征組合與廣義K-L變換的字符識別[J].軟件學報,2003,14(3):490-495.
[4] Yang F,Chen L J.A segmentation and recognition method of RMB series number based on Laplacian transformation and BP neural networks[C]∥Seventh International Symposium on Computational Intelligence and Design,2014:189-192.
[5] Stuhlsatz A,Lippel J,Zielke T.Feature extraction for simple classification[C]∥Pattern Recognition(ICPR),2010:1525-1528.
[6] 陽 武,李 倩,趙繼生,等.深度信念網絡在故障指示器檢測中的應用[J].傳感器與微系統,2015,34(7):155-157.
Research on social security card number identification method based on the deep belief network*
YANG Tao, ZHANG Yun-wei, YANG Rui
(Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504,China)
A method based on deep belief networks (DBN) is proposed to identify social security card number. Firstly, collect the social security card image and segment the card number area by the module segmentation. Secondly, split a single character of the card number using the regional growth method. Thirdly, the character image is grayed, binarized and normalized to the size of 32×32, which is taking as the input data of DBN.Training the 3 layers restricted Boltzmann machine (RBM) to obtain more abstract features. The top layer of the model combined the softmax regression classifier to classify the extracted features. Experimental results show that the accuracy rate is up to 98.3%. Compared with the BP neural network and support vector machine (SVM) model, the DBN not only learned the high-level characteristics but also reduced the dimension of features and improved the accuracy of classifier classification.Finally, it effectively improved the recognition rate of social security card number.
module segmentation; deep belief networks(DBN); restricted Boltzmann machine; softmax regression classifier
10.13873/J.1000—9787(2017)08—0059—03
2016—09—05
國家自然科學基金資助項目(51365019)
TP 391
A
1000—9787(2017)08—0059—03
楊 濤(1991-),男,碩士研究生,研究方向為計算機圖像處理與模式識別。
張云偉(1972-),男,通訊作者,博士,教授,主要從事精密測控技術研究工作,E—mail:zhangyunwei72@qq.com