邱 東,劉德雨
(長春工業大學 電子與電氣工程學院,吉林 長春 130000)
隨著機器視覺技術和人工智能的迅速發展,行人檢測逐步成為軍事、社會公共安全、交通和互聯網發展等社會領域里的熱門研究課題之一。但是行人檢測問題涉及到模式識別、圖像處理、計算機視覺和機器學習等多學科,同時受到行人穿著、光照、身體姿態、尺度、視角和復雜背景等因素的影響,至今也未能(也不可能)設計出一種通用的、實時的、魯棒的檢測算法。
2006年,Hinton教授在《Science》上提出了一種面向復雜通用學習任務的深度神經網絡,指出具有大量隱藏層的神經網絡具有非常好的特征學習能力,而且網絡的訓練可以采用“逐層初始化”和“反向微調”技術解決,從此開啟了對人工智能領域的研究熱潮,深度學習的概念開始被提出。深入學習領域的大多數研究人員專注于深度網絡設計和相應的快速學習算法,一些研究工作試圖改進深度學習技術模型表示。孫勁光等[1]提出數值屬性的DBN,并在UCI的多個數據集上進行對比驗證,證明了其有效性。N. Wang等[2]在2014年提出了具有高斯線性單位的高斯限制玻爾茲曼機器(GRBM)來學習來自實值數據的表示,通過用高斯函數替換二進制值可見單元來改進RBM。許慶勇等[3]在2015年提出了一種基于多特征融合的深度置信網絡圖像分類算法,通過提取樣本圖像中的顏色、紋理和形狀特征,構成多特征融合的權重矩陣,并對特征矩陣進行歸一化處理,利用構建的4層DBN分類器進行訓練和分類。
文中將傳統深度置信網絡同模糊集理論相結合,提出一種基于多特征的模糊深度置信網絡的行人檢測方法。該方法在傳統的深度學習模型深度置信網絡的基礎上引入模糊集的理論思想,一方面把深度學習的典型結構之一深度置信網絡與模糊算法相結合,構建用于圖像分類和識別的模型;另一方面,利用模糊受限玻爾茲曼機構建深度網絡,同時改進訓練過程,用于圖像識別,以進一步提高行人檢測的正確率。
對稱三角模糊數如圖1所示。

圖1 對稱三角模糊數

(1)

受限玻爾茲曼機(RBM)[4]是由Hinton和Sejnowski于1986年提出的,由一個可見層和一個隱藏層構成,可見層與隱藏層的神經元之間為雙向全連接,是一種可通過輸入數據集學習概率分布的隨機生成神經網絡。標準的受限玻爾茲曼機是由二值(布爾/伯努利)隱層和可見層單元組成,該模型是用參數θ表示跨層節點之間的權值和偏置的連接的。權重矩陣W=(wij)中的每一個元素指定了隱藏層單元hj和可見單元xi之間的權重度置信網絡。受限玻爾茲曼機是基于能量的概率模型,定義概率分布如下:
(2)
(3)

受限玻爾茲曼機的能量函數定義為:
E(x,h,θ)=-bTx-cTh-hTWx
(4)
其中,bj和ci為偏移量;Wij為連接第jth可視節點和第ith隱藏節點的權重;θ={b,c,W}為系統參數。
傳統受限玻爾茲曼機中代表可視節點和隱藏節點之間的參數被限制為常量,這會引發很多其他的問題。首先,它將限制表示能力,因為變量經常以某種不確定的方式相互作用。其次,它訓練帶有噪聲的采樣數據的魯棒性也不高。2015年,C. L. Philip Chen等[5]提出的模糊受限玻爾茲曼機[2]可以很好地解決這些問題,同時通過跨層單元關系的線性化來減少誤差和失真。
隨著一些快速學習算法和典型深度學習算法的提出,如深度自編碼器[6]、深度置信網絡[4]和深度受限玻爾茲曼機[7]等,受限玻爾茲曼機受到了越來越多的關注,之后受限玻爾茲曼機及其相關的深度學習結構也在降維[8-10]、分類[11-14]、特征提取[15-16]等方面得到了廣泛的應用。受限玻爾茲曼機通過非監督學習方式,用一定的數據集來訓練網絡,設置可視神經元的值匹配數據集中的數據點的值,當網絡訓練完成以后,就可以用來對未知數據進行計算,從而進行分類。
深度置信網絡是一個概率生成模型,和傳統的判別模型的神經網絡相對,生成模型建立一個觀察數據和標簽之間的聯合分布。深度置信網絡是由多個受限玻爾茲曼機層組成,模糊能量函數定義為:
(5)

通過邊緣化隱藏單元和化簡式5得到模糊自由能量函數:
(6)

(7)
同時,去模糊化的概率可以表示為:
(8)
因此,在模糊受限玻爾茲曼機模型中,目標函數是負對數似然,表示為:
(9)
其中,D表示訓練數據集。
深度置信網絡是一種結合無監督學習和有監督學習方法的機器學習方法。無監督學習的優點在于,學習使用的數據來源簡單,不需要進行大量的手工標注,缺點在于難以得到準確的結果。而有監督學習的優缺點正好與之相對,需要有手工標注的數據進行監督訓練,能得到更加準確的學習結果。針對傳統的深度置信網絡中求解最優參數計算量大及魯棒性不高的缺點,提出一種基于模糊深度置信網絡的行人檢測方法。如圖2所示,包括以下兩個部分:
(1)借助模糊深度置信網絡提取行人特征,從圖像像素開始,建立圖像的深度學習網絡,通過逐層學習得到圖像的表達;
(2)采用監督學習提高FDBN分類的性能。FDBN不僅繼承了DBN的強大抽象能力,而且展示了處理行人數據的誘人的模糊分類。

圖2 深度置信網絡
FDBN通過引入模糊集理論,獲得嵌入類先驗知識與深度框架的能力。利用一個新的深度框架集成限制玻爾茲曼機(RBM)的抽象能力和模糊集的分類能力。RBM可以快速降維,模糊集可以基于每個類的成員函數提高深度框架的分類精度。FDBN通過逐層貪心的非監督學習構建,參數空間通過梯度下降監督學習微調。特征提取和分類步驟使用相同的深度框架,在充足的非標記數據的幫助下提高了概括能力,避免了顯式的特征提取過程,通過隱式地從訓練數據中進行學習;再者由于同一特征映射面上的神經元權值相同,所以網絡可以并行學習。同時,局部的權值共享降低了網絡的復雜性,特別是多維輸入向量的圖像可以直接輸入網絡這一特點避免了特征提取和分類過程中數據重建的復雜度。FDBN可以通過反向傳播策略使用一個指數損失函數直接優化構建的深度框架??蚣苣P徒Y構具體如圖3所示。

圖3 模糊深度置信網絡模型
模糊深度置信網絡訓練過程主要有兩個步驟:
(1)根據輸入的HOG特征自底向上地訓練模糊受限玻爾茲曼機;
(2)根據步驟1的訓練結果,采用BP算法對整個DBN結構進行微調,使其更有利于分類。
由于圖像特征的特性,采用二值型模糊受限玻爾茲曼機進行特征學習將會丟失特征的屬性,因此在整個模糊深度置信網絡中的第一層模糊受限玻爾茲曼機的可視層采用的是服從高斯分布的模糊受限玻爾茲曼機,其余仍為二值的。
為了優化分類結果,進一步完善模糊深度置信網絡結構,需要將網絡的輸出結果與真實的結果進行對比,利用對比結果對模糊深度置信網絡結構和參數進行微調,以實現進一步優化分類器的目的。文中使用BP網絡對輸出值進行反向監督,利用BP網絡良好的反向傳播能力,將分類結果誤差反向傳入模糊深度置信網絡,實現整個網絡模型的微調。
文中算法在Win10系統,4 GB內存,Nvidia GTX960顯卡的計算機上進行實驗,實驗數據來源于INRIA行人數據庫(大小為64×128),其中訓練集包含2 000張正樣本單個行人圖片和2 000張負樣本圖片,測試集為300張多行人圖片。實驗對文中提出的模糊深度置信網絡行人檢測方法的性能進行評估和分析,在同一檢測環境下與其他幾種經典的行人檢測方法的性能進行比較。為了評估各方法的分類以及檢測性能,采用最能直觀反映檢測性能的檢測率、虛警率和檢測速度等指標來衡量和分析整個系統的檢測性能。性能指標的計算方法如下:

(10)

(11)
其中,TP表示正確分類的正樣本數;FP為被錯分類的正樣本數;FN表示被誤分類為正樣本的負樣本數。
首先對模糊深度置信網絡自身結構的搭建對檢測結果的影響進行檢測和分析,分別搭建3、4、5、6層模糊置信網絡結構,隱藏層的神經節點數分別設為80,100,120,150,120,100,80,迭代次數設為1 500。結果如表1所示。

表1 不同結構的模糊深度置信網絡的檢測性能對比
從表1中的數據可以看出,不同結構的模糊深度置信網絡的檢測性能并不相同,4層深度網絡的檢測率最高,并且虛警率也沒有任何結構比它低,并不是隱層的層數越多識別性能就越好;相反,隨著整體結構越來越復雜,可能會出現過擬合的現象,從而導致識別性能的降低。綜合考慮隱層數和隱層單元的識別性能,文中采用的是4層模糊深度置信網絡,其中3層隱含層的神經節點數為80、100、150的模糊深度置信網絡,設定迭代次數為1 500。
將提出的模糊深度置信網絡和文獻[14-16]提出的性能較優的分類算法在相同的檢測平臺上進行對比,具體檢測結果如表2所示。

表2 不同的深度學習網絡的測試結果對比
從表2的數據可以看出,在相同的條件下,文中提出的模糊深度置信網絡分類檢測的檢測率和虛警率都優于其他方法,雖然檢測速度比CS-SVM-AdaBoost要慢一些,但是基本可以實現實時檢測,滿足實時性的要求。
針對復雜背景下行人檢測性能不穩定的問題,引入深度學習的方法進行特征提取實現對行人的識別和檢測,并在此基礎上將傳統的深度置信網絡同模糊集思想相結合,提出一種模糊深度置信網絡的行人檢測方法。使用模糊深度置信網絡可以提取更加有效的特征,進一步提高算法的檢測精度。實驗結果表明,該算法在檢測率、漏檢率、實時性等方面都比傳統的深度置信網絡有所提升,可以較快地從大多數的復雜背景下檢測和識別出行人目標。因為圖像的質量直接影響最終的檢測效果,使用提出的方法在分辨率較低的圖像中難以將行人從復雜的背景中區分出來,這也是接下來需要重點解決的問題。