杜嘉欣 常青 劉鑫



摘? 要: 對于CNN的圖像識別,采用隨機初始化網絡權值的方法很容易收斂達到局部最優值。針對林火中的煙霧圖像識別,提出一種結合無監督和有監督學習的網絡權值預訓練算法。首先通過使用DBN預學習得到的特征初始化CNN的權值;然后通過卷積、池化等操作,提取訓練樣本的特征,并采用全連接網絡對特征進行分類;最后計算分類損失函數并優化網絡參數。實驗的訓練結果顯示,基于DBN?CNN的森林火災煙霧識別的準確率達到了98.5%,相比于其他算法其準確率更高。
關鍵詞: 深度信念網絡; 森林火災監控; 煙霧識別; 權值初始化; 特征提取; 特征分類
中圖分類號: TN911.73?34; TP183? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)13?0044?05
DBN?CNN for forest fire smoke recognition
DU Jiaxin1,? CHANG Qing1,? LIU Xin2
(1. College of Information and Computer, Taiyuan University of Technology, Taiyuan 030024, China;
2. Network Management Center Wireless Room, Unit 32152 of PLA, Shijiazhuang 050000, China)
Abstract: For image recognition of convolutional neural networks (CNN), the method of randomly initializing network weights can easily converge to local optimal values. In order to realize the smoke image recognition of forest fires, a network weight pre?training algorithm combining unsupervised and supervised learning is proposed in this paper. The weight of CNN is initialized by using the features obtained by the deep belief network (DBN) pre?learning. Then, the features of the training samples are extracted by means of the convolution, pooling and other operations, and the extracted features are classified by the fully connected network. Finally, the classification loss function is calculated and the network parameters are optimized. The experimental training results show that the accuracy of forest fire smoke recognition based on DBN?CNN reaches 98.5%, which is higher than that of other algorithms.
Keywords: deep belief network; forest fire monitoring; smoke recognition; weight initialization; feature extraction; feature classification
0? 引? 言
火災對人類社會造成了無可比擬的重大損失,每年因為火災而造成的人員傷亡不計其數。僅2018年1—8月,全國共發生失火事件16萬起,亡933人,傷560人,直接財產損失折合人民幣高達20.53億元。縱觀世界范圍,同年3月,印度南部山區發生大規模森林火災,至少導致9人死亡,18人受傷。同年7月,加拿大出現嚴重的森林火災,累計超過3 000人接受疏散。火災嚴重危及了公共的生命安全,造成了大量經濟損失、大氣環境污染、生態環境破壞、自然景觀毀壞等問題。因此,第一時間準確地發現火災的源頭,對火災的預警和撲救工作意義重大。與室內火災成熟的實時監控不同,野外火災由于各種因素的限制,實時監控技術還不成熟。計算機技術的發展和圖像識別技術的廣泛應用給戶外火災的實時監控帶來了新的轉機,未來將通過視頻監控智能地進行火情監控。而野外火災由于自身具有隱蔽性的特點,直接對火焰進行監測作用不大,但對火災發生時產生的大量煙霧進行監測則可以有效地進行野外火災的火險預警,因而提升煙霧識別率就成為了當今研究的重要方向。
近年來,隨著計算機性能的不斷提高,深度學習已經廣泛應用在各個領域,已成為模式識別應用的研究熱點。根據樣本對象的類別標簽是否已知,深度學習方法通常可分為無監督的學習方法和有監督的學習方法。由深度信念網絡(Deep Belief Network,DBN)代表的無監督學習方法已被普遍用于手寫識別[1]、圖像識別[2]、音頻分類[3]和語音識別[4]領域。與此同時,以卷積神經網絡(Convolutional Neural Network,CNN)為代表的有監督學習方法及各種改進算法普遍應用到圖像分類[5]、視頻分析[6]、自然語言處理[7]等任務中。
深度學習與視頻煙霧檢測的基本模式不同,它區別于以往傳統模式自發地從大數據里學習樣本特征的方法,而是將特征和分類器一并進行優化。文獻[8]所提出的煙霧檢測框架將靜態紋理的信息和動態紋理的信息融合在了一起,將初始的圖像輸入為靜態的紋理,同時將初始圖像的光流輸入為動態的紋理。文獻[9]將CNN用于火焰識別和煙霧識別。文獻[10]使用深度規范化的卷積神經網絡(DNCNN)進行煙霧識別,通過將傳統CNN中的卷積層改進為歸一化的卷積層,有效地解決了網絡訓練過程中出現的梯度分散和過擬合的問題,從而提升了煙霧圖像檢測的效果。同時,通過數據增強訓練樣本的方法解決了正負樣本的不平衡。然而,現有的CNN及其改進算法如隨機池化,仍然存在諸如卷積核參數初始化不合理和較長訓練時間的缺陷。本文結合無監督學習和有監督學習的優點,提出基于深度信念的卷積神經網絡預訓練方法,通過有效地初始化設置CNN,縮短其訓練過程,提高了算法的學習效率。
1? 深度信念網絡
DBN在2006年由Hinton等人提出,是一種高連通的概率生成模型,具有大量隱含層,且隱含層間具有強相關性,其基本思想是一種基于貪婪算法的無監督學習,由多個受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)組成。DBN將每個內層視為一個RBM,RBM[11]是一種特殊類型的馬爾科夫隨機場(Markov Random Fired,MRF),它包含兩種類型的層:一層是伯努利的隨機隱層;另一層是隨機可見層(伯努利或高斯)。限制玻爾茲曼機具有隱藏和可見連接特點。在RBM中,能量函數[E(v,h;θ)]用于描述聯合分布[P(v,h;θ)],其中,[v]為可見單元,[h]為隱藏單元,[θ]為定義給定的模型參數。參數的數學描述如下所示:
這里,[Z]是正態因子或者配分函數,數學上定義為:
可見向量[v]有一個邊際概率,數學上描述為:
對于RBM,根據伯努利可見和伯努利隱藏,能量為:
式中:[aj]和[bi]為偏置項;[vi]和[hj]分別為可見單元和隱藏單元;[wij]對應[vi]和[hj]之間的對稱相互作用項。
條件概率用數學方法計算為:
類似地,基于Gauss?Bernoulli的RBM的能量計算為:
條件概率為:
2? 卷積神經網絡
CNN作為深度學習的一個分支,是前饋神經網絡的一種。CNN有6個吸引人的特點:
1) 局部感知。在圖像空間中,局部像素具有密切的相關性,而距離像元之間的相關性不明顯,所以不需要每個神經節點都感知全局圖像,而是只感知局部區域,然后在較高的層次上逐步整合局部圖像信息。
2) 權值共享。在不同的卷積區域中,CNN使用權值共享來減少計算。因為不同的局部卷積區域具有相同的統計屬性,所以可以在不同的卷積區域使用相同的特征提取方法。
3) 濾波器。CNN構建了許多過濾器來提取各種各樣的特征。該策略克服了共享權值特征提取具有單一性的缺點(不同卷積區域使用同一個濾波器)。
4) 二級抽樣。為了降低計算復雜度,CNN使用子采樣(也稱為下采樣)提取平移不變性的特征。
5) 完全連接。CNN將經過多次卷積和池化后提取的抽象特征在高層進行連接。
6) Softmax策略。CNN采用適用于雙分類和多分類的Softmax進行分類。
2.1? CNN結構
LeNet5[12]是典型的8層CNN。整個網絡主要由3個卷積層、3個池化層、1個全連通層和1個輸出層組成。
LeNet5的結構圖框架如圖2所示。
具體過程為:
1) LeNet5的輸入為大小是32×32的灰度圖像。
2) C1層為卷積層,有6個尺寸為28×28的特征圖。圖中的每個神經元分別連接到輸入層中的5×5鄰域。
3) S2層是下采樣層,有6個大小為14×14的特征圖。特征圖中的每個單元連接到C1中相應特征映射的2×2鄰域。
4) C3將S2的輸出與16個大小為5×5的濾波器進行卷積,輸出16個大小為10×10的特征圖。
5) S4與S2相似,輸出16個大小為5×5的特征圖。
6) C5輸出120個尺寸為1×1的特征圖。
7) F6表示與C5輸出完全連接,總參數為10 164。
8) LeNet的輸出由歐幾里得徑向基函數單元[е]組成,輸出的大小為10個類,分別用數字0~9表示。
2.2? 卷積層
卷積層作為CNN的重要組成部分,起著至關重要的作用。在卷積層中[13]將前一層的特征映射與卷積核進行卷積后,通過激活函數得到輸出特征映射。每個輸出映射通過卷積與多個輸入映射相結合。一般來說,有:
式中:[?]表示層數;kernel代表過濾器;[Mj]是輸入映射的一個選擇;[b]表示各層的偏置。每個輸出映射都有其附加偏差,輸入映射與不同的內核進行卷積得到特定的輸出映射。
2.3? 池化層
3? 基于DBN?CNN的森林火災煙霧識別算法
傳統CNN訓練時,卷積核通過對輸入信號的激活進行卷積濾波,以在卷積核的作用下獲得當前層的卷積輸出特性。卷積核學習的效果直接影響了是否可以提取有效的判別圖像特征。當前常見卷積核的設置方法通常使用隨機初始化設置或在大的數據集中進行預訓練。
本文提出的基于DBN?CNN的森林火災煙霧識別算法結合了無監督學習和監督學習的方法,通過深度置信網絡對提取的樣本進行無監督特征提取,將獲得的一組有效權重對CNN進行逐層初始化,使得第一次前向計算得到的特征基底更接近全局最優值,有效解決了在梯度下降時陷入局部極小值的問題,模型學習難度的降低幅度明顯,整體損失函數得以更快收斂到全局最優值。算法流程圖如圖3所示。
4? 實驗設置及分析
4.1? 實驗數據集
本文實驗所使用的數據主要來源是煙霧公開數據和網絡采集,實驗所使用的數據集為訓練數據集和測試數據集。
4.2? 實驗設置
本文所設置的對比實驗有三個,即基于深度信念網絡的森林火災煙霧識別、基于卷積神經網絡的森林火災煙霧識別和基于DBN?CNN的森林火災煙霧識別。為方便描述,本文依次稱之為DBN方法、CNN方法和DBN?CNN方法。
DBN方法對圖像進行預處理歸一化,并將其置于深度信念網絡中進行訓練,該方法使用了一個包含2個RBM層的訓練網絡進行訓練。
CNN方法主要包括3個卷積層,卷積濾波器的大小為3×3和5×5兩種,3個下采樣層以及1個全連接層。卷積層與下采樣層的連接采用的是交替連接的方式,然后與全連接層相連以進行模型的訓練。
DBN?CNN方法通過深度信念網絡對提取的樣本進行無監督特征提取,而后將獲得的一組有效權重對CNN進行逐層初始化。
為了訓練和測試,從10個視頻中選擇了10 000幀,其中7個視頻為森林火災煙霧視頻,3個為非煙霧視頻。非煙霧視頻由霧、沙塵暴和云組成,在霧、云、沙塵暴等情況下方法表現良好。這是因為煙的另一個特性總是處于運動狀態。從含煙視頻中提取了5 000幀,從無煙視頻中提取了5 000幀。由于數據集是由10 000幀組成的,所以煙霧和非煙霧類的分布是相等的,如圖4和圖5所示。其中,70%的幀用于系統訓練,其余的幀用于測試。訓練和測試的選擇標準是幀必須是連續的,這樣幀內的時間信息才能保留下來,然后作為特征檢索,將這些幀序列裁剪并標記為含煙和無煙。目前的方法總共使用了10 000幀,其中,7 000幀用于訓練,3 000幀用于測試,無煙視頻的背景類似于含煙視頻。
4.3? 實驗結果與分析
在數據集下DBN,CNN和DBN?CNN三種方法的折線圖如圖6所示。
三種方法的實驗結果比較見表1。
本文方法通過預先對部分樣本圖片進行預訓練,提高了特征提取及權值更新的精度,在訓練精度和測試精度上有優勢,訓練精度達到99.47%,測試精度達到98.52%,證實此方法可以較好地應用于森林火災煙霧識別領域。
5? 結? 語
針對林火中的煙霧圖像識別,本文提出了一種結合無監督和有監督學習的網絡權值預訓練算法。實驗的訓練結果顯示,基于DBN?CNN的森林火災煙霧識別的準確率達到了98.5%,相比于其他算法其準確率更高。本文所提出的使用深度信念網絡優化初始權值并結合卷積神經網絡進行森林火災煙霧識別的方法,模型結構簡易,便于實現,在森林火災煙霧識別領域較現有算法有一定的優勢。
下一步工作將繼續對無監督學習的過程進行強化,使該方法在樣本圖片不充足的條件下,將誤差維持在較低的范圍內。
注:本文通訊作者為常青。
參考文獻
[1] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J].Science, 2006, 313(5786): 504?507.
[2] SIHAG S, DUTTA P K. Faster method for deep belief network based object classification using DWT [EB/OL]. [2015?11?19]. https://arxiv.org/abs/1511.06276.
[3] TORRES?CARRASQUILLO P A, SINGER E, KOHLER M A, et al. Approaches to language identification using Gaussian mixture models and shifted delta cepstral features [EB/OL]. [2016?04?27]. https://www.docin.com/p?1550291557.html.
[4] COLLOBERT R, BENGIO S. SVMTorch: support vector machines for large?scale regression problems [EB/OL]. [2001?09?01]. https://dl.acm.org/doi/10.1162/15324430152733142.
[5] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84?90.
[6] SIMONYAN K, ZISSERMAN A. Two?stream convolutional networks for action recognition in videos [EB/OL]. [2014?11?13]. https://arxiv.org/pdf/1406.2199.pdf.
[7] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch [J]. Journal of machine learning research, 2011, 12(1): 2493?2537.
[8] 陳俊周,汪子杰,陳洪瀚,等.基于級聯卷積神經網絡的視頻動態煙霧檢測[J].電子科技大學學報,2016,45(6):992?996.
[9] FRIZZI S, KAABI R, BOUCHOUICHA M, et al. Convolutional neural network for video fire and smoke detection [C]//? Proceedings of the IECON 2016 ? 42nd Annual Conference of the IEEE Industrial Electronics Society. Florence, Italy: IEEE, 2016: 877?882.
[10] YIN Zhijian, WAN Boyang, YUAN Feiniu, et al. A deep normalization and convolutional neural network for image smoke detection [J]. IEEE access, 2017, 5: 18429?18438.
[11] HINTON G E. A practical guide to training restricted Boltzmann machines [J]. Momentum, 2010, 9(1): 926?947.
[12] LECUN Y L, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[13] SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural networks, 2015, 61: 85?117.