李萌 秦品樂 李傳朋
摘要:
針對深度信念網絡(DBN)算法在采用反向傳播修正網絡的連接權值和偏置的過程中,容易產生梯度小、學習率低、誤差收斂速度慢等問題,提出一種結合多新息(multiinnovation)理論對標準DBN算法進行改進的算法,即多新息DBN(MIDBN)。MIDBN算法是對標準DBN算法中反向傳播的過程重新建模,使得算法在原先只利用單個新息的情況下,擴展為能夠充分利用之前多個周期的新息,從而大幅提高誤差收斂速度。通過實驗對MIDBN算法和其他分類算法進行了數據集分類的比較,實驗結果表明,MIDBN算法相較其他分類算法,其誤差收斂速度較快,而且最終對MNIST數據集和Caltech101數據集的識別中誤差結果相對更小。
關鍵詞:
深度信念網絡算法;誤差收斂速度;多新息理論;反向傳播
中圖分類號:
TP389.1
文獻標志碼:A
Abstract:
Aiming at the problem of small gradient, low learning rate, slow convergence of error during the process of using Deep Belief Network (DBN) algorithm to correct connection weight and bias of network by the method of back propagation, a new algorithm called MultiInnovation DBN (MIDBN) was proposed based on combination of standard DBN algorithm with multiinnovation theory. The back propagation process in standard DBN algorithm was remodeled to make full use of multiple innovations in previous cycles, while the original algorithm can only use single innovation. Thus, the convergence rate of error was significantly increased. MIDBN algorithm and other representative classifiers were compared through experiments of datasets classification. Experimental results show that MIDBN algorithm has a faster convergence rate than other sorting algorithms; especially when identifying MNIST and Caltech101 dataset, MIDBN algorithm has the fewest inaccuracies among all the algorithms.
英文關鍵詞Key words:
Deep Belief Network (DBN) algorithm; error convergence rate; multiinnovation theory; backpropagation
0引言
深度學習[1]近幾年來在人工智能領域(語音識別、自然語言處理、計算機視覺、圖像與視覺分析、多媒體等)取得重要突破。深度學習中的模型有多種,有一種無監督的學習算法——深度信念網絡(Deep Belief Network, DBN)學習算法[2-3],這種方法可以創建一些網絡層來檢測特征而不使用帶標簽的數據,這些網絡層可以用來重構或者對特征檢測器的活動進行建模。通過預訓練過程,深度網絡的權值可以被初始化為有意義的值,然后一個輸出層被添加到該網絡的頂部,并且使用標準的反向傳播算法進行微調,這個工作對手寫數字的識別效果顯著。
Hinton等[2]將DBN應用于對MNIST數據集的數字識別任務上。他提出了網絡結構為784500500200010的DBN模型,其中第一層的784個特征是由MNIST數據集中圖像的像素28×28而得來的,最后一層是含有標簽的10個單元,中間三層是函數隨機二進制神經元的隱藏層單元。Hinton在文章中提到該算法能達到1.25%的分類錯誤率。文獻[4]在Hinton等[2]提出的標準DBN基礎上改進了受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)的采樣方法,將原始的對比散度(Contrastive Divergence, CD)算法改為持續自由能量對比散度(Free Energy in Persistent Contrastive Divergence, FEPCD)算法,最終MNIST數據集的識別結果達到1.11%的分類錯誤率。文獻[5]中Liu提出了一種新的基于標準DBN的分類器判別式深度信念網絡(Discriminative Deep Belief Network, DDBN),整合了DBN的抽象能力和反向傳播策略的鑒別能力,其除了對MNIST數據集進行識別之外,還對Caltch 101數據集進行分類識別。
Hinton等[6]提出DBN是作為非線性模型進行特征的提取和降維,DBN是一個在最后一層重構產生的特征可見數據的能力模型。當一個一般的神經網絡被用于多層時,神經網絡極容易被困在局部極小和其性能也減小,因此,確定神經網絡權值的初始值至關重要。
Hinton等[6]提出的DBN是非線性模型,用來進行特征的提取和降維,是一種在最后一層重構產生的特征可見數據的能力模型。一般的神經網絡被用于多層時,極容易被困在局部極小和其性能也較低,因此,確定神經網絡的權值的初始
值至關重要,而DBN很好地解決了權值初始化的問題。
本文引進丁鋒等[7]和Ding[8]提出的多新息辨識理論,提出了一種基于多新息理論的深度信念網絡學習算法,改進算法在原有的基礎上提高了權值誤差的收斂速度,提高了識別MNIST數據集的精確度。
DBN模型進行特征的提取需要三個過程,分別是預訓練過程、微調過程和測試過程,以下將詳細介紹三個過程。
1.1預訓練過程
預訓練是如圖1中自底向上識別權值與偏置的過程,此過程將輸入數據經過網絡的每一層提取特征后獲得激勵響應,將其添加至輸出層,具體過程如下:
1)先單獨無監督地訓練每一層RBM網絡,在確保特征向量映射到不同特征空間的同時,盡可能多地保留特征信息。
2)在DBN的最后一層設置一個logistic分類器,用于接受RBM的輸出特征向量,將其作為logistic回歸網絡的輸入特征向量,進行有監督的訓練。而且每一個RBM網絡層能夠確保自身層內的權值對該層特征向量映射達到最優,而不是對整個DBN的特征向量映射達到最優,所以反向傳播會將錯誤信息自上向下傳播至每一層RBM,從而需要微調整個DBN。RBM網絡訓練模型過程的目的是對logistic回歸網絡的權值參數的初始化,使DBN克服logistic回歸網絡因隨機初始化權值參數而容易陷入局部最優和訓練時間過長的缺點。
1.2微調過程
微調是如圖1自頂向下更新權值和偏置的過程,此過程可以大幅度提升一個自編碼神經網絡的性能表現,將網絡的所有層視為一個模型,在每次迭代中,網絡中的所有權值和偏置都會被優化。具體過程如下:
2.2結合多新息的DBN算法——MIDBN
DBN經過無監督和逐層的訓練[14-15],使得在利用反向傳播算法對網絡進行全局優化之前,網絡參數能有一個好的初始值,一個較好的局部極小點就在訓練完成時達到。在學習系統中,有可能數以百萬計的樣本和權值,在最上層加上帶有標簽的樣本,用來訓練機器。如圖1所示,為了正確地調整權值向量,用反向傳播算法計算每個權值的梯度向量,表示如果權值增加了一個很小的值,那么誤差會增加或減少的量。反向傳播算法通過多層網絡的每一層可以被重復地用于傳播梯度;從該網絡的最頂層的輸出一直到最底層,每層的輸入導數求解完成之后,就可以求解每一層權值的梯度矢量,權值向量在梯度矢量的相反方向上進行調整。隨機梯度算法的計算量小,收斂速度慢,為了提高隨機梯度辨識方法的收斂速度,引入新息長度。圖1中,在自頂向下過程中修正每層網絡權值和偏置,所有層更新完成時即是一個周期,在此過程中每次的權值和偏置更新都是基于上一個周期的對應值,在DBN原有更新權值和偏置的基礎上,對每層網絡對應的前幾個周期的值進行充分利用,將單新息擴展為新息向量,從而提高誤差的收斂速率。
在對時變系統進行辨識時,如果網絡的權值按照某種規律動態變化,那么網絡的輸入輸出映射關系也必然會隨著時間而變化,從而有可能對時變系統進行辨識。由于權值隨時間變化的規律很難獲得,故將網絡微調的整個周期作為新息長度p,周期數作為時間t,定義正整數序列{t0,t1,t2,…,ts},滿足0 本文實驗所涉及的評判標準主要有以下幾個方面: 1)錯誤率。錯誤率指標主要用于衡量不同分類模型對于數據集分類的錯誤程度,該指標是用來衡量分類錯誤程度的一個重要指標,直接關系著算法的可靠性。在Matlab中使用公式計算錯誤率: err=mean(zeros((epoch-numbatches):(epoch-1)))×100% 其中:epoch表示周期數,numbatches表示批次數。 表1給出了不同算法對MNIST數據集分類的錯誤率[4],其中標準DBN算法、含有FEPCD的DBN改建算法和本文中的MIDBN算法均使用60000個樣本訓練,10000個樣本測試,50個周期訓練,150個周期測試,用相同的網絡結構,并且其相關參數學習率等也相同的條件下進行的實驗。顯然,加入多新息的DBN算法運算量加大,運行速度下降,但改進算法以時間耗費為代價獲得了數據集分類錯誤率的降低。表1 中的時間是指每個周期所用時間,其中下劃線的數據是本文改進算法對MNIST數據分類后的錯誤率,可以看出,MIDBN算法有更小的錯誤率。 2)誤差。對實驗中誤差數據進行仿真,實驗過程中的訓練周期為50,進行微調的周期為150。圖3是MIDBN算法和其他分類器對MNIST數據集分類的誤差曲線對比分析。如圖3中最下邊曲線表示在150個周期中本文的改進算法MIDBN對MNIST數據集進行分類時其誤差的曲線,上邊的曲線從上到下依次是SVM、KNN、DBN和FEPCD算法在同樣條件下對MNIST數據集進行分類時其誤差的曲線。可以看出MIDBN中MNIST數據集的誤差曲線收斂得更快。 3.3Caltech 101數據集 以上實驗中驗證了MIDBN算法對MNIST數據集的分類時,其誤差有明顯地降低,本節則將Caltech 101數據集在MIDBN算法和其他分類器算法上進行分類識別。Caltech 101數據集包含有101類的圖像,在本文的實驗中,選用其中的5個類。在本次Caltech 101數據集實驗中MIDBN結構為4005005009005,輸入層是將圖片轉換為20×20像素即400個單元,輸出層是5個單元,三個隱藏層分別是500、500、900個單元。如圖4所示是Caltech 101數據集的不同類別。
表2即是本次實驗的誤差分類錯誤率結果,由于本次實驗的數據集樣本數目少,類別小,因此實驗結果與MNIST數據集相比較不是特別理想。我們將Caltech 101數據集在不同分類器下的結果進行比較。
4結語
基于對DBN算法中的不足,本文提出了結合多新息隨機梯度辨識的深度信念網絡學習算法,在深度信念網絡的基礎上加上多新息理論算法。改進算法MIDBN結合歷史周期的數據信息,充分利用隱含在過去數據中的有用信息,使得每層網絡的連接權值和偏置能夠更快地達到預測值。仿真結果表明,誤差的收斂速率提高,并且MIDBN算法在對MNIST手寫數據集和Caltech 101數據集的識別中,最終分類錯誤率有所降低。
參考文獻:
[1]
LECUN Y, BENGIO Y, HINTON G E, et al. Deep learning [J]. Nature, 2015, 521(7553): 436-444.
[2]
HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7): 1527-1554.
[3]
LAROCHELLE H, ERHAN D, COURVILLE A, et al. An empirical evaluation of deep architectures on problems with many factors of variation [C]// ICML 07: Proceedings of the 2007 24th International Conference on Machine Learning. New York: ACM, 2007: 473-480.
[4]
KEYVANRAD M A, HOMAYOUNPOUR M M. Deep belief network training improvement using elite samples minimizing free energy [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2014, 29(5):1411-4046.
http://xueshu.baidu.com/s?wd=paperuri%3A%282e0ed0ef0b45da606b7629105f1f17ed%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1411.4046v1&ie=utf-8&sc_us=758889154434608003
KEYVANRAD M A, HOMAYOUNPOUR M M. Deep belief network training improvement using elite samples minimizing free energy [EB/OL]. [20151122]. http://xueshu.baidu.com/s?wd=paperuri%3A%282e0ed0ef0b45da606b7629105f1f17ed%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1411.4046v1&ie=utf8&sc_us=758889154434608003.
[5]
LIU Y, ZHOU S, CHEN Q. Discriminative deep belief networks for visual data classification [J]. Pattern Recognition, 2011, 44(10/11): 2287-2296.
[6]
HINTON G E, SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks [J]. Science, 2016, 313(5786): 504-507.
[7]
丁鋒,蕭德云,丁韜.多新息隨機梯度辨識方法[J].控制理論與應用,2003,20(6):870-874.(DING F, XIAO D Y, DING T. Multiinnovation stochastic gradient identification methods [J]. Control Theory and Applications, 2003, 20(6): 870-874.)
[8]
DING F. Several multiinnovation identification methods [J]. Digital Signal Processing, 2010, 20(4): 1027-1039.
[9]
HINTON G E. A practical guide to training restricted Boltzmann machines [C]// Neural Networks: Tricks of the Trade, LNCS 7700. Berlin: Springer, 2012: 599-619.
[10]
SWERSKY K, CHEN B, MARLIN B, et al. A tutorial on stochastic approximation algorithms for training restricted Boltzmann machines and deep belief nets [C]// Proceedings of the 2010 Information Theory and Applications Workshop. Piscataway, NJ: IEEE, 2010:1-10.
[11]
丁潔,謝莉,丁鋒. 非均勻采樣系統多新息隨機梯度辨識性能分析[J].控制與決策,2011,26(9):1338-1342.(DING J, XIE L, DING F. Performance analysis of multiinnovation stochastic gradient identification for nonuniformly sampled systems [J]. Control and Decision, 2011, 26(9): 1338-1342.)
[12]
丁鋒.系統辨識(6):多新息辨識理論與方法[J].南京信息工程大學學報,2012,4(1):1-28.(DING F. System identification. Part F: multiinnovation identification theory and methods [J]. Journal of Nanjing University of Information Science and Technology, 2012, 4(1):1-28.)
[13]
丁鋒,楊家本.衰減激勵條件下確定性系統多新息辨識的收斂性分析[J].清華大學學報(自然科學版),1998,38(9):111-115.(DING F, YANG J B. Convergence of multiinnovation identification under attenuating excitation conditions for deterministic systems [J]. Journal of Tsinghua University (Science and Technology), 1998,38(9):111-115.)
[14]
LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2 [J]. Advances in Neural Information Processing Systems, 2007, 20: 873-880.
LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2 [EB/OL]. [20151126]. http://web.eecs.umich.edu/~honglak/nips07sparseDBN.pdf.
[15]
KRIZHEVSKY A, Learning multiple layers of features from tiny images [D]. Toronto: University of Toronto, 2009:17.
[16]
LECUN Y, CORTES C. The MNIST database of handwritten digits [DB/OL]. [2011]. http://yann.lecun.com/exdb/mnist/index.html.
LECUN Y, CORTES C. The MNIST database of handwritten digits [EB/OL]. [20111220]. https://www.lri.fr/~marc/Master2/MNIST_doc.pdf.
LECUN Y, CORTES C. The MNIST database of handwritten digits [DB/OL]. [20111220]. http://yann.lecun.com/exdb/mnist/index.html.
[17]
LI F F, FERGUS R, PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories [C]// CVPRW 04: Proceedings of the 2004 Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004,12: 178.
[18]
KEYVANRAD M A, HOMAYOUNPOUR M M. A brief survey on deep belief networks and introducing a new object oriented Matlab toolbox (DeeBNetV2.2) [J]. Computer Vision and Pattern Recognition, 2014, 12:1408-3264.
KEYVANRAD M A, HOMAYOUNPOUR M M. A brief survey on deep belief networks and introducing a new object oriented Matlab toolbox (DeeBNetV2.2) [EB/OL]. [20151106]. https://www.researchgate.net/publication/264790642_A_brief_survey_on_deep_belief_networks_and_introducing_a_new_object_oriented_MATLAB_toolbox_DeeBNet_V20.