鄔美銀,陳 黎
(1.武漢科技大學計算機科學與技術學院,湖北 武漢,430065;2. 武漢科技大學智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,湖北 武漢,430065)
基于深度學習的監(jiān)控視頻樹葉遮擋檢測
鄔美銀,陳黎
(1.武漢科技大學計算機科學與技術學院,湖北 武漢,430065;2. 武漢科技大學智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,湖北 武漢,430065)
摘要:結合稀疏自編碼器的自動提取數(shù)據(jù)特征能力和深度置信網(wǎng)絡較好的分類性能,提出一種基于深度學習的監(jiān)控視頻樹葉遮擋檢測方法。首先從視頻中隨機選取一幀圖像,通過棧式稀疏自編碼器主動學習視頻圖像的特征信息,然后采用深度置信網(wǎng)絡建立分類檢測模型,最后引入學習速率自適應調整策略對整個神經(jīng)網(wǎng)絡進行微調。該方法不需要對視頻連續(xù)取幀,具有較好的圖像特征主動學習能力,克服了人工提取特征能力有限的缺陷。實驗結果表明,在樣本量充足的條件下,使用本文方法進行監(jiān)控視頻樹葉遮擋檢測可以達到88.97%的準確率。
關鍵詞:監(jiān)控視頻;遮擋檢測;圖像識別;稀疏自編碼器;深度置信網(wǎng)絡;深度學習;特征提取
隨著現(xiàn)代科學技術的迅猛發(fā)展,視頻監(jiān)控系統(tǒng)已經(jīng)得到廣泛應用。面對視頻源數(shù)量的日益劇增以及對監(jiān)控視頻分析越來越高的要求,傳統(tǒng)的人工監(jiān)控很難保證對視頻畫面分析的實時性,存在報警準確度差、誤報、漏報、報警響應時間長、視頻數(shù)據(jù)分析困難等問題[1]。因此,引入計算機視覺研究領域中的相關技術發(fā)展智能視頻監(jiān)控系統(tǒng)已經(jīng)迫在眉睫。
安防監(jiān)控系統(tǒng)中,鏡頭遮擋檢測是最重要也是最常見的檢測之一。攝像機的鏡頭可能由于多種因素被遮擋,比如污漬、樹葉等。其中,樹葉遮擋主要是由于樹木隨時間和季節(jié)的變化自然生長,而監(jiān)控點攝像頭位置不變,使得原本沒有被遮擋的攝像頭在特定季節(jié)或安裝一段時間后被樹葉遮擋。視頻遮擋會導致監(jiān)控場景的缺失,給公共安全帶來嚴重影響,特別是在一些關鍵的監(jiān)控點,可能會造成巨大的損失和不可挽回的后果。因此,研究監(jiān)控視頻樹葉遮擋檢測具有重要的意義。
目前,大多數(shù)關于監(jiān)控視頻遮擋檢測的研究都是針對人為遮擋,即人為用異物遮擋監(jiān)控攝像頭。Ribnick等[2]提出利用當前幀與前一幀之間顏色直方圖的差異來檢測人為遮擋。Lin等[3]使用DSP框架對比幀間灰度直方圖實現(xiàn)遮擋檢測。王寶君等[4]加入角點特征,使攝像頭干擾檢測算法對光線強度變化不敏感,魯棒性更強。Saglam等[5]提出一種自適應閾值的背景差分方法來檢測人為遮擋。Yin等[6]提出利用尺度不變特征進行人為遮擋檢測。以上這些算法大體上都是考慮監(jiān)控場景在短期內由于人為遮擋會發(fā)生劇烈變化,從而通過對比幀間某些特征來實現(xiàn)遮擋檢測。但是,樹葉遮擋是因漸變的植物生長過程而引發(fā),不會存在場景短期劇變現(xiàn)象。所以,上述算法都不適用于進行監(jiān)控視頻樹葉遮擋檢測。對于樹葉遮擋問題,袁淵等[7]采用累積幀差法分割視頻中疑似樹葉區(qū)域,提取視頻中某一幀圖像的整個區(qū)域和疑似樹葉區(qū)域的顏色和面積信息作為視頻特征,最后采用支持向量機進行樹葉遮擋檢測。在樣本有限的條件下,該方法能取得較好的識別效果,但它僅依賴于顏色和面積信息,提取的特征過于單一,很容易出現(xiàn)誤報現(xiàn)象。另外,利用連續(xù)的幀差來分割疑似樹葉區(qū)域受限于內存中保留的視頻信息,一旦前一幀視頻圖像無法獲得時,該算法便失去作用。
針對上述研究的不足之處,本文提出一種基于深度學習的監(jiān)控視頻樹葉遮擋檢測算法,其利用棧式稀疏自編碼器主動學習圖像特征,避免了手動提取特征的復雜困境,同時無需對視頻連續(xù)取幀,擺脫了視頻幀間的相關性對算法的影響。
1相關研究
1.1稀疏自編碼器
稀疏自編碼器(sparse auto-encoder,SAE)是一種無監(jiān)督的神經(jīng)網(wǎng)絡學習結構[8],包含一層隱藏層、相同的輸入層和輸出層,如圖1所示。SAE在無監(jiān)督訓練調整參數(shù)的過程中對隱藏層神經(jīng)元施加稀疏約束,使大部分節(jié)點值為0或接近0,只有少數(shù)節(jié)點值不為0,從而得到輸入數(shù)據(jù)的稀疏表示,這些稀疏表示即為輸入數(shù)據(jù)的特征。通過這種方式,稀疏自編碼器能主動提取數(shù)據(jù)的高層特征[9],捕捉到輸入信號最重要的因素,從而盡可能地復現(xiàn)輸入信號。
為了得到網(wǎng)絡最優(yōu)參數(shù),需要先求出損失函數(shù)關于權值的偏導,再利用反向傳播算法和梯度下降算法更新網(wǎng)絡權值。無稀疏約束時網(wǎng)絡的損失函數(shù)表示為:
(1)
式中:m為樣本數(shù)量;h(x(i))為第i個樣本的預測輸出值;y(i)為第i個樣本的標簽;λ為權值衰減參數(shù);W為連接權重;b為偏置項;sl為第l層的神經(jīng)元個數(shù);nl為網(wǎng)絡輸出層的編號。
增加稀疏約束條件后,隱藏層神經(jīng)元輸出的平均值應盡量為0,可得到SAE的損失函數(shù)表達式為:
(2)

(3)
(4)
(5)
最終,由誤差信號可求得損失函數(shù)關于權值的偏導數(shù)。
棧式稀疏自編碼器可由多層SAE組成,將前一層SAE的輸出作為后一層的輸入,逐層無監(jiān)督訓練提取輸入信號的特征,因此其具有強大的特征表達能力。
1.2深度置信網(wǎng)絡
深度置信網(wǎng)絡(deep belief network, DBN )可以看成是多個限制玻爾茲曼機(restricted Boltzmann machine, RBM )堆疊而成,一個典型的DBN網(wǎng)絡模型如圖2所示。DBN的每層都由若干個神經(jīng)元(常常是幾百個或幾千個)組成,各自獨立地計算該層接收到的數(shù)據(jù),每層的節(jié)點之間沒有連接。v為輸入層,接收來自外界的輸入數(shù)據(jù)。第1層(即輸入層)與第2層構成一個典型的RBM 模型,通過無監(jiān)督學習方法調整網(wǎng)絡參數(shù),使RBM達到能量平衡。逐層訓練和微調整個網(wǎng)絡權值的過程使DBN具有較好的分類能力。

圖1 SAE結構圖
RBM是一種有效的特征提取方法,堆疊多個RBM組成的DBN能提取更加抽象的特征[10]。假設一個RBM中有n個可見單元和m個隱藏單元,用向量v和h分別表示可見單元和隱藏單元的狀態(tài),vi表示第i個可見單元的狀態(tài),hj表示第j個隱藏單元的狀態(tài),所有的神經(jīng)元都是隨機二值變量,即有?i,j,vi∈{0,1},hj∈{0,1}。那么,對于一組給定的狀態(tài)(v,h),RBM的能量函數(shù)定義為:

(6)
式中:θ={Wij,ai,bj}是RBM中的模型參數(shù),均為實數(shù);Wij表示可見單元i與隱藏單元j之間的連接權重;ai表示可見單元i的偏置項;bj表示隱藏單元j的偏置項。
基于該能量函數(shù)可以得到可見單元和隱藏單元的聯(lián)合概率分布:
(7)

對于一個實際問題,最關心的是關于觀測數(shù)據(jù)v的分布P(v|θ),即似然函數(shù):
(8)
RBM的最終目標是求出參數(shù)θ的值來擬合給定的訓練數(shù)據(jù)。參數(shù)θ可以通過最大化RBM在訓練集(假設有T個訓練樣本)上的對數(shù)似然函數(shù)學習得到,即:
(9)
由于求解過程中歸一化因子的計算代價太大,一般采用對比散度(contrastivedivergence,CD)算法來近似求解。
2監(jiān)控視頻樹葉遮擋檢測算法
本文算法先從監(jiān)控視頻中隨機選取一幀圖像,利用棧式稀疏自編碼器提取輸入圖像的特征,然后采用深度置信網(wǎng)絡建立分類模型,最后微調整個深度神經(jīng)網(wǎng)絡模型,并實現(xiàn)監(jiān)控視頻樹葉遮擋異常的檢測。
2.1數(shù)據(jù)預處理
從視頻庫中選取的圖像可能具有不同的分辨率,不適合直接輸入深度神經(jīng)網(wǎng)絡中。本文先將原始視頻圖像降采樣成64×64的大小,再進行局部對比歸一化操作,然后將其分割成8×8的圖像塊作為網(wǎng)絡的輸入。對圖像進行分塊不僅增加了訓練樣本數(shù)據(jù)量,滿足深度學習對海量數(shù)據(jù)的要求,還有利于SAE模型構建超完備集,以得到數(shù)據(jù)的稀疏表達。
局部對比歸一化能避免神經(jīng)元過飽和,增強網(wǎng)絡的泛化性,有效消除亮度和對比方差對網(wǎng)絡的影響,大大減少了相鄰因子之間的依賴性。在網(wǎng)絡訓練前,本文先對提取的圖像塊進行局部對比歸一化,將圖像(i,j)處的亮度值設為I(i,j),局部對比歸一化后的亮度值為I′(i,j),歸一化方法可以表示為:
(10)
式中:i∈{1,2,…,M},j∈{1,2,…,N},M、N分別為降采樣圖像的長和寬;C取常數(shù)1,以避免分母為零;μ和σ分別為圖像塊像素值的均值和標準差。
2.2網(wǎng)絡訓練
本文算法中的棧式稀疏自編碼器由兩個SAE堆疊而成,其隱藏層神經(jīng)元個數(shù)和稀疏性參數(shù)根據(jù)參數(shù)優(yōu)化結果設置,權值衰減參數(shù)λ=0.003,學習速率為0.1,最大迭代次數(shù)為400。在DBN中,其輸入為棧式稀疏自編碼器提取的特征,學習速率仍為0.1,引入動量項p=0.5來加速學習,網(wǎng)絡迭代200次。
對深度神經(jīng)網(wǎng)絡進行微調時,本文引入一種學習速率自適應調整方法。學習速率ε初始化為ε0=1,根據(jù)損失函數(shù)值L自適應變化,每當損失函數(shù)值進入平滯期,學習速率隨之減小為原來的一半。自適應學習速率公式表示為:
(11)
式中:t為網(wǎng)絡訓練的迭代次數(shù)。
網(wǎng)絡訓練時采用批處理的方式,批處理量為100。權值更新表示如下:
(12)

網(wǎng)絡訓練完成后,根據(jù)多數(shù)表決規(guī)則,以所有圖像塊中所占比重最多的預測類別作為該圖像的類別,從而得到對應監(jiān)控視頻的檢測結果。
3實驗與結果分析
3.1實驗數(shù)據(jù)
實驗所采用的監(jiān)控視頻庫來源于某安防企業(yè)的平安城市項目,一共有1948個視頻,其中包含1134個正常視頻、814個樹葉遮擋的異常視頻。這些視頻來自于不同的監(jiān)控場景,視頻像素規(guī)格有352×288、528×384、704×576和1280×720等。圖3為從監(jiān)控視頻庫中截取的部分視頻圖像,圖中局部馬賽克區(qū)覆蓋的是版權信息。

圖2 DBN結構圖

(a) 樹葉遮擋視頻

(b) 正常視頻
3.2實驗方法
在Matlab 2014a環(huán)境下編程實現(xiàn)本文算法。采用交叉驗證的方法,將實驗樣本隨機分為三個子集,其中60%作為訓練集,20%作為驗證集,其余20%作為測試集,訓練集、驗證集和測試集在圖像內容上是絕對獨立的。采用準確率、漏檢率和誤識率來評價算法的檢測性能,計算公式如下:
(13)
(14)
(15)
3.3實驗結果及分析
為了研究網(wǎng)絡參數(shù)對視頻圖像特征提取效果的影響,通過控制變量法,分別改變棧式自編碼器隱藏層神經(jīng)元數(shù)目和稀疏性參數(shù)對算法性能進行實驗測試。
(1)神經(jīng)元數(shù)目
將稀疏性參數(shù)固定為0.1,在100~800范圍內改變棧式稀疏自編碼器第一個隱藏層的神經(jīng)元個數(shù),得到本文算法應用于監(jiān)控視頻庫全體測試集上的檢測性能指標如表1所示。由表1可見,隨著神經(jīng)元數(shù)目的增加,檢測準確率逐漸提高,當隱藏層神經(jīng)元個數(shù)為400時檢測準確率最高,且此時的漏檢率和誤識率也最低;之后,隨著神經(jīng)元數(shù)目的進一步增加,檢測準確率又逐漸降低。由于輸入單元的維數(shù)為192,而400個隱藏層神經(jīng)元能構成一組超完備集,可得到輸入數(shù)據(jù)良好的稀疏表示,從而獲得比較高的檢測準確率。但繼續(xù)增加隱藏層神經(jīng)元個數(shù)反而會使隱藏層維數(shù)過高,不僅難以有效提取數(shù)據(jù)特征,還會增加訓練時間。
表1采用不同隱藏層神經(jīng)元數(shù)目的視頻檢測結果
Table 1 Video detecting results by using different numbers of hidden neurons

神經(jīng)元數(shù)目/個準確率/%漏檢率/%誤識率/%10084.1014.7216.7420084.6214.1116.3030085.1313.5015.8640088.9710.4311.4550085.3813.5016.3060085.1314.1115.4280084.8714.7215.42
圖4為棧式稀疏自編碼器第一個隱藏層學習到的特征的可視化效果。從圖4中可以看到,稀疏自編碼器具有很好的特征學習能力,能主動提取出樹葉的顏色、邊緣和紋理等特征,比人工提取的特征更加豐富,更能表現(xiàn)出數(shù)據(jù)的內在特性,而這對于樹葉遮擋檢測是非常重要的。
(2)稀疏性參數(shù)
將棧式自編碼器隱藏層神經(jīng)元個數(shù)固定為400,改變稀疏性參數(shù)取值,得到針對監(jiān)控視頻庫全體測試集的檢測性能指標如表2所示。由表2可見,稀疏性參數(shù)為0.1時,檢測準確率最高,漏檢率和誤識率最低,綜合檢測性能最好。這是因為,稀疏性參數(shù)過小會使特征向量過于稀疏,無法有效表示數(shù)據(jù)特征;反之,稀疏性參數(shù)過大使得特征向量大部分不為0,無法達到稀疏目的。

圖4 特征的可視化
Fig.4 Visualization of features
表2采用不同稀疏性參數(shù)的視頻檢測結果
Table 2 Video detecting results by using different sparse parameters

稀疏性參數(shù)準確率/%漏檢率/%誤識率/%0.05071.5428.2228.630.07581.0318.4019.380.10088.9710.4311.450.12584.6214.7215.860.15084.1015.3416.300.20082.0515.3419.82
為了進一步驗證本文算法的有效性,將本文算法與文獻[7]算法進行實驗對比分析。根據(jù)參數(shù)優(yōu)化結果,將棧式自編碼器隱藏層神經(jīng)元個數(shù)設為400,稀疏性參數(shù)設為0.1,其他參數(shù)不變,實驗結果如表3所示。從表3中可以看到,當樣本數(shù)量較少時,由于本文算法出現(xiàn)過擬合問題,得到的檢測結果不如文獻[7]算法;但是,隨著樣本數(shù)量的不斷增多,本文算法的性能大大提升,當樣本數(shù)量為1948時,本文算法比文獻[7]算法的準確率更高、漏檢率和誤識率更低。由此可見,在樣本量充足的條件下,本文算法對監(jiān)控視頻中的樹葉遮擋具有較好的檢測效果。

表3 視頻檢測結果對比
4結語
本文提出了基于深度學習的監(jiān)控視頻樹葉遮擋檢測算法,結合稀疏自編碼器和深度置信網(wǎng)絡,先主動學習視頻圖像特征,然后對樹葉遮擋進行分類檢測。該方法不需要對視頻連續(xù)取幀,不依賴視頻的時間域動態(tài)特性,能主動學習到靜態(tài)圖像中豐富的特征信息。在樣本量充足的條件下,本文算法對監(jiān)控視頻中的樹葉遮擋具有較好的檢測性能。在下一步的研究中,還可考慮在稀疏自編碼器提取的特征中融合場景的先驗知識,從而取得更好的檢測效果。
參考文獻
[1]劉治紅,駱云志.智能視頻監(jiān)控技術及其在安防領域的應用[J].兵工自動化,2009,28(4):75-78.
[2]Ribnick E, Atev S, Masoud O, et al. Real-time detection of camera tampering[C]//Proceedings of the IEEE International Conference on Video and Signal Based Surveillance,November 22-24,2006, Sydney, Australia. IEEE, 2006:10-16.
[3]Lin Daw-Tung, Wu Chung-Han. Real-time active tampering detection of surveillance camera and implementation on digital signal processor[C]//Proceedings of the 2012 Eighth International Conference on Intelligent Information Hiding and Multimedia Signal Processing. IEEE, 2012:383-386.
[4]王寶君,胡福喬.基于角點的監(jiān)控攝像頭干擾檢測[J].計算機應用與軟件,2010,27(5):243-245.
[5]Saglam A, Temizel A. Real-time adaptive camera tamper detection for video surveillance[C]//Proceedings of the Sixth IEEE International Conference on Advanced Video and Signal Based Surveillance,September 2-4,2009,Genova,Italy.IEEE,2009:430-435.
[6]YinHongpeng,JiaoXuguo,LuoXianke,etal.Sift-based camera tamper detection for video surveillance[C]// 第25屆中國控制與決策會議論文集.沈陽:東北大學出版社,2013:665-668.
[7]袁淵, 丁勝, 徐新,等. 基于支持向量機的監(jiān)控視頻遮擋樹葉檢測[J].計算機應用,2014, 34(7):2023-2027,2032.
[8]Bengio Y. Learning deep architectures for AI[M]//Foundations and Trends?in Machine Learning. Hanover, MA:Now Publishers Inc, 2009.
[9]Zhu Ming, Wu Yan. A novel deep model for image recognition[C]//2014 5th IEEE International Conference on Software Engineering and Service Science (ICSESS). IEEE,2014:373-376.
[10]張春霞,姬楠楠,王冠偉. 受限波爾茲曼機簡介[EB/OL]. 北京:中國科技論文在線.(2013-01-11)[2015-11-14].http://www.paper.edu.cn/releasepaper/content/201301-528.
[責任編輯尚晶]
Deep learning based approach for detecting leaf occlusion in surveillance videos
WuMeiyin,ChenLi
(1.College of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan 430065, China;2.Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System,Wuhan University of Science and Technology, Wuhan 430065, China)
Abstract:Integrating the advantage of automatic feature extraction by sparse auto-encoder and the good classification performance of deep belief network, this paper proposes a detection approach for leaf occlusion in surveillance videos based on deep learning. Firstly, a frame is randomly selected from the video sequences, and a stacked sparse auto-encoder is used to actively learn the feature information in the video image. Next, a deep belief network is adopted to build a classification detection model. Finally, an adaptive learning rate strategy is introduced to fine-tune the whole artificial neural network. This method does not require consecutive video fetching frames and has better ability of active learning about image features, and therefore it overcomes the limitation of manual feature extraction. Experimental results demonstrate that the detection accuracy of the proposed method for leaf occlusion in surveillance videos can reach 88.97% under the condition of sufficient samples.
Key words:surveillance video; occlusion detection; image recognition; sparse auto-encoder;deep belief network;deep learning; feature extraction
收稿日期:2015-11-23
基金項目:國家自然科學基金資助項目(61375017);湖北省高等學校優(yōu)秀中青年科技創(chuàng)新團隊計劃項目(T201202);武漢科技大學研究生創(chuàng)新創(chuàng)業(yè)基金資助項目(JCX2015010).
作者簡介:鄔美銀(1993-), 女, 武漢科技大學碩士生.E-mail:1562394959@qq.com 通訊作者:陳黎(1977-), 男, 武漢科技大學教授,博士.E-mail:chenli@ieee.org
中圖分類號:TP183
文獻標志碼:A
文章編號:1674-3644(2016)01-0069-06