陳子兆,矯文成
陸軍工程大學石家莊校區 指控系統教研室,石家莊050003
隨著AlphaGo[1]以4∶1戰勝人類棋手李世石后,人工智能熱潮席卷全球,近年來政府、企業越來越關注于人工智能的研究與應用。神經網絡是人工智能和深度學習的應用基礎,同樣受到各方專家學者的廣泛研究。深度神經網絡[2]是在淺層神經網絡的基礎上發展而來,其嘗試模擬生物大腦神經元間的非線性連接,通過逐層的數據抽象、特征提取以識別分類圖像、聲音和其他數據類型。
深度置信網絡(Deep Belief Network)是深度人工神經網絡中最具代表的神經網絡之一,主要由多層受限玻爾茲曼機(Restricted Boltzmann Machine)堆疊而成。2006年由Hinton等[3]提出后,受到諸多學者的研究并改進,例如Welling 等[4]將DBN 數據二值輸入擴展至非線性指數族輸入,Wang 等[5]將DBN 網絡與卷積神經網絡(Convolutional Neural Networks)結合,Ning等[6]針對RBM 網絡訓練效率低提出了廣義冗余消除的概念,延伸出兩項技術對大量冗余計算進行優化。如今,DBN網絡作為較為成熟的神經網絡已經成功應用于時間序列預測[7]、文本檢測[8]、信號識別[9]等諸多領域。
盡管DBN 神經網絡已經廣泛應用于各行業領域,但其本身仍存在諸多的缺陷亟待解決。缺陷之一便是在訓練過程中容易出現特征同質化或者網絡過擬合而不能夠準確地提取數據特征,致使識別準確率急劇下降。解決方案主要有減少特征提取節點數和引入稀疏正則項兩種。
目前,專家學者致力于解決DBN 網絡過擬合問題的研究。Hinton 等[10]提出一種dropout 的策略以解決網絡過擬合問題,方法在訓練過程中以概率p 隨機丟棄某些神經元,以一種新的網絡結構學習輸入數據;Hu等[11]針對dropout策略引入一些低識別度的權值使得整體準確度降低的問題,提出了一種改進方案,通過多次dropout策略形成多個子網絡,選取其中識別準確度最高的子網絡進行權值調整;Ekanadham[12]提出了一種基于誤差平方和的稀疏化RBM,設定常量p 以控制隱藏層節點激活概率;Ji等[13]以相對熵KL散度作為損失函數,結合信息論率失真理論提出了一種稀疏化RBM;徐毅等[14]提出了一種基于拉普拉斯函數的稀疏RBM,通過設定位置參數p、μ 來控制稀疏力度。
在矩陣中,若數值為0 的元素數遠多于非0 的元素數,同時非0 的元素分布排列無規律時,則稱該矩陣具有稀疏性。常用的正則稀疏函數有l0范數、l1范數和l2范數。因為求解l0范數是個NP難題,而在一定條件下求解l1和l2范數可近似為l0范數的求解,故而常選用l1和l2范數作為稀疏正則函數。本文提出了一種改進的稀疏DBN 網絡,選取無均值高斯函數趨近l0范數從而達到稀疏特性。
深度置信網絡是一個通過建立觀測數據與標簽數據之間的聯合分布從而推斷數據樣本分布的網絡模型,主要由多層限制玻爾茲曼機(RBM)堆疊構成。
限制玻爾茲曼機是一種具有隨機性,由可視層v 和隱藏層h 構成的無向神經網絡,其本質是一種基于能量的網絡模型,其能量函數為:

其中,θ=[Wij,ai,bj]為RBM 的各項參數,Wij為可視層與隱藏層之間權值,ai為可視層偏置,bj為隱藏層偏置,n 為可視層節點數,m 為隱藏層節點數。
網絡可視層v 與隱藏層h 的聯合概率分布以及可視層v 概率分布分別為:

從而可推導出隱藏節點的激活概率與可視節點重構激活概率分別為:

采用極大似然法對可視層v 概率分布求解,同時結合對比散度(CD)算法對RBM 網絡訓練優化,以一步Gibbs 采樣值近似等于平穩分布時的概率分布值,然后對各參數求取偏導數得到參數更新值:

本節以三層受限玻爾茲曼機為例(如圖1),詳細描述DBN網絡訓練過程:
步驟1 根據上節介紹RBM 訓練過程,由可視層輸入數據對隱藏層網絡參數進行調整更新。
步驟2 結合貪婪學習算法,以第i 層RBM 輸出數據作為第i+1 層輸入數據,逐層訓練RBM,得到各層網絡參數。
步驟3 以各層訓練后的網絡參數作為DBN網絡的初始參數,輸入訓練數據對DBN網絡進行全網絡訓練,求得代價函數。
步驟4 根據求得的代價函數和BP 反向傳播算法,對各層網絡參數進行全局調優,直至達到最大迭代次數或者搜索至全局(局部)最優點。

圖1 DBN(3 hidden layer)結構模型圖
壓縮感知理論[15]表明如果信號x ∈Rn在正交空間具有稀疏性,那么就可以以低于奈奎斯特采樣頻率的頻率采樣該信號并且以極大概率準確地重構原始信號,其公式為:

其中A ∈Rm×n為觀測矩陣,n 為噪聲信號,y 為采樣后的信號。
當觀測矩陣A 滿足有限等距性質(RIP)時,重構信號x 的過程即轉變為通過l0范數下求解的優化問題:

本文以文獻[16]中提出的無均值高斯分布為依據,提出了一種基于無均值高斯分布的稀疏DBN 網絡,通過設定方差因子σ 控制與范數0的趨近程度,進一步控制隱藏層的稀疏狀態,其中無均值高斯分布函數如下:

其中xi為隱藏層第i 個節點激活概率。
范數0 定義為向量x 中非0 元素的個數,即如果假設函數為f(x),其表達式為:


本文中選取的無均值高斯分布函數有:

即有:

于是可得表達式:

通過圖2 可以看到,隨著σ 取值的改變,函數φσ(x)逐漸趨近于階躍函數,即滿足范數0表示的向量x 中非0元素的個數性質。

圖2 無均值高斯函數σ 變換趨近圖
稀疏正則項的表達式為:

其中pj為隱藏層的激活概率,選取sigmoid函數作為激活函數,對上式求取偏導以獲得稀疏正則項對參數更新的影響作用:

本文提出的基于無均值高斯分布稀疏正則的DBN網絡模型(以下簡稱G-DBN)是由多層無均值高斯分布稀疏正則RBM(以下簡稱G-RBM)堆疊而成,通過對每一層的RBM 網絡參數進行學習更新,從而獲得初始化的DBN網絡參數用以訓練和測試。
G-RBM學習算法訓練過程和偽代碼如下:
輸入參數:學習率α;沖量p;批量訓練batchsizes;正則化參數λ;網絡迭代次數epoch;G-RBM 設定參數方差因子σ;初始化網絡參數θ(ai,bj,Wij)
輸出參數:訓練完成后網絡參數θ(ai,bj,Wij)
訓練過程:
步驟1 設定可視層節點數i 和隱藏層節點數j,并對G-RBM網絡參數ai,bj,Wij初始化為0。
步驟2 輸入訓練數據v1,默認sigmoid函數作為激活函數,計算隱藏層h1激活狀態,同時重構可視層v2的激活概率;此處參照Hinton[17]對于DBN網絡參數設置的指導意見,對第一輪計算可視層和隱藏層的激活概率采取0 或1 賦值,對第二輪計算隱藏層的激活概率采取實值賦值,偽代碼如下:
計算隱藏層激活狀態;
h1=sigmoid(Wij*v1+bj)
對隱藏層激活概率進行0或1賦值;
if h1>0到1之間隨機數
then h1=1
else h1=0
重構訓練數據的激活概率v2;
v2=sigmoid(Wij*h1+ai)
if v2>0到1之間隨機數
then v2=1
else v2=0
步驟3 再次計算隱藏層h2激活狀態,偽代碼如下:
h2=sigmoid(Wij*v2+bj)
使用CD-1 算法求得各項參數的改變量,并更新得到最終網絡參數:

其中Wv和分別代表當前和之前時刻的權重改變量。
步驟4 添加求得無均值高斯分布偏導數后的函數作為稀疏正則項,再次更新參數,偽代碼如下:

步驟5 為了提升網絡參數的精度,重復步驟2~4直至達到最大網絡迭代次數,偽代碼如下:
for n=1 to epoch
步驟2;
步驟3;
步驟4;
end
G-DBN網絡是由多層G-RBM構成,其與傳統DBN網絡訓練方式相同,傳統DBN 網絡訓練過程已在前一章節中介紹,在此不做贅述。
本章選取無稀疏正則的DBN 網絡模型(以下簡稱NS-DBN)、基于率失真理論的稀疏正則化DBN 網絡模型[13](以下簡稱SP-DBN)以及本文所提出的基于無均值高斯分布函數的稀疏正則化DBN(G-DBN)三種網絡模型,利用互聯網公開數據集ORL和MINIST作為訓練和測試數據集,對三種模型的稀疏程度和分類準確度進行對比實驗,以觀察三種網絡的性能優劣。
本文選取SP-DBN 是基于該模型在實驗過程中未引入人為設定參數,其他模型方案或多或少引入了人為設定參數變量,使得模型方案的主觀變動性增大,客觀公正性降低。
為了客觀準確地衡量不同模型之間的稀疏程度,本文采用Hoyer[18]提出的稀疏性度量公式,對不同模型之間所提取的特征參數進行稀疏度計算,其度量公式為:

ORL數據集是由英國劍橋Olivetti實驗室于1994年公布,數據集包含400 張人臉黑白圖像,其中每組10 幅圖像共40 組,每張圖像都有人臉面部表情和姿態的變化,該數據是目前使用最為廣泛的標準人臉圖像數據集之一。本文選取其中每組7幅圖像共計280幅圖像作為訓練樣本用以網絡訓練,選取每組3 幅圖像共計120 幅圖像作為測試樣本用以測試網絡準確度。
MINIST 數據集是由YannLeCun 等人于1998 年公布,數據集包含70 000張手寫黑白圖像,其中每組7 000張共計10 組,每張圖像由各領域專家學者手寫完成。本文選取其中每組6 000 張圖像共計60 000 張圖像作為訓練樣本用以網絡訓練,選取每組1 000 張圖像共計10 000張圖像作為測試樣本用以測試網絡準確度。
實驗中三種網絡共同參數設定為:學習率α 為0.01,稀疏正則參數λ 為0.000 5,沖量p 為0;批量訓練batchsizes 為30,網絡訓練搜索迭代次數為3 000。實驗開發環境為Matlab R2014b。
對于本文提出的基于無均值高斯分布函數的稀疏DBN模型設定參數σ 取值范圍,通過實驗發現,兩種數據集各隱藏層的激活概率幾乎全部不為0,如果將σ 設置過小,便會對激活概率的取值過于敏感,即σ 取值過小會導致稀疏正則項大部分元素取值為1,極少部分取值為0,反而致使稀疏度和準確率急劇下降。本文通過多次實驗得出σ 取值范圍為0.1至1時能達到較好效果。
為了證明本文算法在稀疏性方面和準確率方面的優越性,同時具有一定的普適性,本節以雙隱藏層DBN網絡作為實驗模型進行三組實驗。實驗一為在雙隱藏層數為250-100條件下,不同σ 取值下G-DBN準確率的變化情況,實驗結果如圖3 所示;實驗二為隱藏層數分別取60、80、100、200、300和400條件下,NS-RBM模型、SP-RBM 模型、當σ=0.2 時的G-RBM 模型和當σ=0.3時的G-RBM模型的稀疏度比較,實驗結果如圖4和表1所示;實驗三為當雙隱藏層數變化時,四種模型的準確率比較,實驗結果如表2所示。

圖3 ORL數據集上準確率隨σ 取值變化圖
從圖3 可以看出,本文提出的G-DBN 在雙隱藏層數為250-100 的條件下,與沒有稀疏正則化的NS-DBN模型比較準確率更高,與基于率失真理論的SP-DBN模型比較準確率普遍更高。可以證明在接下來的實驗GDBN模型中選取的σ=0.2 和σ=0.3 具有一定程度的普適性,并非某種特定條件下的優越性。

圖4 ORL數據集上四種模型稀疏度變化圖

表1 ORL數據集上四種模型的平均稀疏度

表2 ORL數據集上四種模型的準確度
從圖4可以看出,隨著隱藏層節點數的增加,G-RBM的兩種模型始終保持更好的稀疏性質,同時從表1 得知,G-RBM 的兩種模型在六組測試中,平均稀疏度較NS-RBM和SP-RBM兩種模型有極大的改善,而沒有加入稀疏正則項的NS-RBM稀疏性表現最差。
從表2 可以看出,在ORL 數據集上,G-DBN 和SPDBN兩種改進方案對準確率并沒有很大改善。通過對數據采樣和實驗分析,對學習率和正則化參數進行上下浮動不超過10-4范圍的參數修改,發現兩種模型的準確率時而優良時而差劣,查看各隱藏層激活概率以及網絡參數變化發現波動較大。經過分析認為是由于ORL數據集數據量過少,訓練樣本不夠充分或者測試樣本量太少造成上述原因,從表2 中可以看出,最大錯誤率為0.058 3,即識別錯誤7張圖片,最小錯誤率為0.008 3,即識別錯誤1 張圖片,對適用于大數據的神經網絡學習,錯誤識別微量圖片屬于可容忍誤差范圍。
本節以三隱藏層DBN網絡作為實驗模型進行三組實驗。實驗四為在三隱藏層數為200-200-100 條件下,不同σ 取值下準確率的變化情況,實驗結果如圖5 所示;實驗五為隱藏層數分別取60、80、100、200、300 和400 條件下,NS-RBM 模型、SP-RBM 模型、當σ=0.6 時的G-RBM 模型和當σ=0.7 時的G-RBM 模型的稀疏度比較,實驗結果如圖6和表3所示;實驗六為當三隱藏層數變化時,四種模型的準確率比較,實驗結果如表4所示。

圖5 MINIST數據集上準確率隨σ 取值變化圖

圖6 MINIST數據集上四種模型稀疏度變化圖

表3 MINIST數據集上四種模型的平均稀疏度

表4 MINIST數據集上四種模型的準確度
從圖5 可以看出,本文提出的G-DBN 在三隱藏層數為200-200-100 的條件下,與沒有稀疏正則化的NSDBN 模型比較準確率更高,與基于率失真理論的SPDBN 模型比較,在σ >0.4 后準確率普遍更高??梢宰C明在接下來的實驗G-DBN 模型中選取的σ=0.6 和σ=0.7 具有一定程度的普適性,并非某種特定條件下的優越性。
從圖6可以看出,當隱藏層節點數在60到400之間時,G-RBM的兩種模型始終保持更好的稀疏性質,同時從表3得知,G-RBM的兩種模型在六組測試中,平均稀疏度較NS-RBM和SP-RBM兩種模型有一定的改善,而沒有加入稀疏正則項的NS-RBM稀疏性表現最差。
從表4 可以看出,本文提出的G-DBN 兩種模型在實驗的六組測試層數中,準確率始終高于NS-DBN 和SP-DBN 兩種模型,可以說明SP-DBN 方案能夠提升傳統DBN 模型的分類識別準確率,同時本文提出的改進方案較SP-DBN 方案所提升分類識別準確率更高。但是由于傳統DBN 分類準確率已經達到97%以上,所以提升的效果并不是特別明顯。
本文首先介紹了限制波爾茨曼機和深度置信網絡訓練過程,并提出了一種基于無均值高斯分布函數的改進DBN 模型,同時在ORL 數據集和MINIST 數據集上對所提出的方案與另兩種模型方案進行對比實驗。通過實驗證明,本文所提出的改進方案,在稀疏性和準確率上較前兩種方案更為優越,同時在一定程度驗證了所提出的方案具有普適性。但是本文在隱藏層數對準確率和稀疏度的影響實驗中只選取了兩種DBN 模型,在隱藏節點數變化過程中也過于單一,缺乏大量實驗做支撐,以上問題都將作為本文日后的研究重點方向。