張 媛,臧 坤,華志超,李 巖,安婷婷,章國寶
(1.江蘇省特種設備安全監督檢驗研究院無錫分院,江蘇 無錫 214174)(2.東南大學自動化學院,江蘇 南京 210096)
隨著人們生活水平的提高,電梯在住宅中的普及程度越來越高,電梯的出現為人們上下樓帶來了極大地方便。另一方面,由于養狗的愛好在社會上廣泛流行,越來越多的人會將狗帶進電梯[1],這一行為不僅會對電梯中乘客的安全構成極大地威脅,而且會影響電梯的清潔衛生,給電梯的管理帶來很大的麻煩。目前,我國電梯監控的智能化程度相對較低,電梯轎廂中的情況需要人為主動地查看才能獲知,電梯管理效率較低[2]。將計算機圖像處理技術應用到電梯視頻監控中能夠極大地提高電梯管理系統的智能化水平,并且該技術在電梯的超載檢測[3]、人數統計[4]、異常行為檢測[5]等方面都取得了實用化進展。然而,針對電梯中狗的檢測算法研究比較少見。因此,為了方便管理人員對電梯的管理,研究一種能夠自動檢測電梯轎廂中狗的算法是很有必要的。
電梯轎廂中的狗的檢測屬于目標檢測的范疇,其技術難點主要集中在如何精準地提取目標特征并訓練出目標識別的分類器模型。文獻[6]很好地表征了目標的特征,建立了高效的形變目標檢測模型,并通過多分辨率下的推理機制遞歸地去除搜索區域中非目標部分的位移,取得了良好的效果。文獻[7]通過提取圖片的前景和背景信息來定位目標,對基于視頻的快速目標檢測具有較高的時效性。文獻[8]提出了梯度方向直方圖(HOG),通過計算和統計圖像局部區域的梯度信息來構成特征,對光照變化及梯度特征的少量偏移具有穩定性。此外,將深度學習應用到計算機視覺的研究中,能夠獲取更深層次的概念抽象特征[9-10]。深度學習中的卷積神經網絡(CNN)是一種有監督的前饋神經網絡[11],對于大型圖像處理有出色表現,但時間和空間代價都較高,不適合用于實時的視頻圖像處理系統。而由多層稀疏自編碼器[12]構成的棧式自編碼器在提取更深層次抽象特征的同時能夠降低特征的維數,在滿足識別率要求的基礎上具有較高的實時性。
根據電梯轎廂的特定環境,本文提出一種能夠實時檢測電梯轎廂中是否存在狗的算法,使用基于 HOG 特征和棧式自編碼網絡(SAE)的特征模型來對目標進行表征。將HOG特征提供的紋理信息作為目標特征的深度學習網絡模型的底層,由k個編碼器組抽象出目標的分類特征,構成棧式自編碼器,提取具有結構性和層次性的高層次抽象特征。本文運用多高斯分布模型更新電梯背景來確定待檢測區域,能夠提高系統對運動目標和環境的魯棒性,且算法具有良好的時間效率和空間效率。
基于HOG和棧式自編碼的狗識別分類器訓練的算法流程如圖1所示。

圖1 狗識別分類器訓練算法流程
具體算法步驟如下:
1)讀入電梯中狗圖片,并對圖像進行預處理,通過背景差分算法獲取待處理區域。
2)對待檢測區域進行HOG特征提取,得到梯度方向直方圖即特征描述符。
3)將步驟2)的HOG特征作為神經網絡的輸入,進行訓練,此過程為無監督學習。
4)通過前向傳播預測網絡的輸出和使用反向傳播算法對網絡參數進行微調,反復迭代優化網絡,此過程為有監督學習。
5)將目標檢測測試樣本圖像的HOG特征作為棧式自編碼網絡的輸入,學習并提取抽象特征。
6)將最深層編碼特征作為Softmax分類器的輸入進行Softmax回歸分類,獲得狗識別分類器,并統計識別準確率。
在對視頻采集的轎廂圖像進行灰度化、二值化和濾波等預處理后,采用背景差分算法分割出圖像中的運動區域從而獲得待檢測狗的位置。背景差分算法[13]的關鍵是確定背景模型以及根據環境變化對背景模型進行更新。其基本公式如下:
(1)
式中:Bt(x,y)為檢測出的運動區域;BKGt(x,y)為背景圖像;It(x,y)為當前圖像值;τ為一個預定義的閾值。針對本文的應用場景中電梯門會經常性關閉開啟,引起背景發生頻繁的規律性變化,采用多高斯背景模型[14],通過更新背景模型提高模型的魯棒性和實時性,提高識別率。多高斯分布模型通過以下3個參數來更新背景模型實現差分檢測。
權重:
(2)
均值:
(3)
方差:
(4)

本文后續采用陰影消除算法去除區域中的陰影,獲得更準確完整的運動區域,進一步提高運動目標檢測的準確率。最后對結果圖像進行形態學閉運算后分割出待檢測區。
HOG特征對光照變化及梯度特征的少量偏移具有穩定性,對于電梯這種光照變化平緩、背景較為簡單的應用場景具有較好的適用性,本文提取HOG特征的流程如圖2所示。

圖2 HOG特征提取流程
通過對數法Gamma標準化改善轎廂內局部圖像的亮度,減少光照因素的影響。Gamma標準化后計算出像素點的特征梯度,并構建成選定大小的梯度單元格,形成梯度方向直方圖。本文將8×8的像素點構建成一個單元格,對每個單元格構建梯度方向直方圖,以此減少狗姿態和外形的變化對檢測結果的影響。采用9個塊的直方圖來統計像素的梯度信息,從而獲得描述該單元格的9個特征向量。將單元格沿梯度方向360°分成9個方向塊,如圖3所示。

圖3 梯度方向統計直方圖
對單元格中的特征進行歸一化,減少光照和背景對比度對梯度值的影響。采用滑動窗口機制,對圖像特征進行遍歷,滑動步長為兩個單元格,即一個滑動窗口包含2×2個單元格,因此每個單元格中有36個特征向量。通過滑動窗口機制能充分得到表征圖像的總特征。
1.4.1棧式自編碼網絡
實現狗特征學習的關鍵是建立合適的特征模型來描述其形狀、紋理、方向變化等特征以及抽象特征。自編碼器是一種盡可能復現輸入信號的無監督學習網絡,能較好地描述輸入數據的本質特征,自編碼器試圖實現一個恒等函數,使得輸出趨近于輸入:
(5)

(6)

(7)
(8)

采用梯度下降法計算總代價函數J(θ(l))的最小值,梯度下降算法中每一次迭代都對參數進行更新。其更新規則如下。
(9)
(10)
式中:α為學習速率。采用反向傳導算法來計算偏導數。第nl層(輸出層)每個單元的殘差為:
(11)

對于第2至第l層(隱藏層)的殘差為:
(12)
最后計算偏導數為:
(13)
(14)
獲得偏導數之后,再采用梯度下降算法更新權值,獲取網絡的最優化參數。 最后將多個自編碼器連接,將前一層學習的特征作為后一層的輸入,形成棧式自動編碼器,棧式自編碼網絡相較于HOG特征之類的淺層結構的特征具有更好的表達能力,同時能夠降低特征的維數,適用于資源配置不高、需要實時監控識別目標的應用。另一方面,HOG特征也可以解決無監督學習特征提取的盲目性。自編碼結構如圖4所示。
通過自編碼器棧每層的非監督學習,棧式自編碼網絡獲得了較好的初始值。在這個初始特征的基礎使用梯度下降法進行有監督學習的網絡參數微調,可以使網絡參數收斂到一個較好的局部極值點。最后得到第l層編碼特征為:

圖4 自編碼器結構
H(l)=σ(W(l,1)H(l-1)+b(l,1))
(15)
式中:H(0)為樣本輸入;W(l,1)和b(l,1)分別為第l層的自編碼器的權重矩陣和偏置向量參數;H(k)是最深層(第k層)的編碼特征,是對輸入圖像的更高階抽象表示。要實現目標識別分類器,還需要在特征學習基礎上增加通過監督學習訓練的狗目標分類器。分類器的訓練樣本是自編碼器棧的輸出特征H(k),在已知輸入圖像類標記的監督下,采用Softmax分類器作為網絡頂層的邏輯分類。網絡所有層的參數可利用梯度下降算法進行微調,從而達到最優的識別效果。
1.4.2Softmax分類器
Softmax回歸模型是logistic回歸模型的一種拓展形式,可用來解決多分類問題,是一種監督學習算法。Softmax分類器的假設函數f(x)在輸入特征為X=H(k)時如下:
(16)

(17)
式中:P(i)表示輸入為X=X(i)的概率向量;y(i)為二維列向量,輸入為正樣本時取(1,0)T,負樣本取 (0,1)T;F為范數。加入權重衰減項(λ>0)后,代價函數變為嚴格的凸函數,借助梯度下降法可以保證J(θ)收斂到全局最優解。
本文中狗識別的樣本庫和測試庫是基于電梯監控視頻得到的。在圖片庫中選取了300幅不同姿態、顏色、大小、背景的電梯中狗的圖片作為正樣本,負樣本由不同背景的不包含狗的300張電梯圖像組成。樣本圖像的大小為320像素×320像素,將8×8個相鄰的像素點劃分為一個單元格,將2×2的相鄰單元格劃分為一個單元塊,一個單元塊中有4×9個特征向量。采用的滑動窗口大小與單元塊相同,滑動步長為一個單元格,一共可以得到39×39個單元塊,因此整幅圖的特征值數為:39×39×4×9=54 756。
在算法設計中,對網絡參數的初始化均選用較小的隨機數以保證網絡參數不對稱,使用最快下降算法設置合適的搜索起點。同時,學習過程進行多次反復迭代,并將前一次迭代學習得到的最優網絡參數作為后一次迭代的網絡參數初始值,使學習算法具有自我完善的功能。此外,網絡其余的參數也會對分類的效果產生影響,本文經過多次實驗確定,最終網絡的參數見表1。
網絡的層數對分類器的準確性也有較大影響,網絡越深會有更好的識別效果但會降低算法的性能,同時隱藏層節點過多會增加學習的時間,過少則不能訓練出足夠的特征。經過多次實驗驗證,隱藏層為2-3層時擁有較好的實驗結果。本次實驗最終選取的網絡結構是隱藏節點數為30,隱藏層層數為3層,此時有最優的識別效果。
本文共選取147張大小為320像素×320像素的圖片進行識別測試。其中83張為電梯中包含狗的圖片,64張為不含狗的電梯背景圖片。將實驗結果與SVM、CNN等算法進行比較,識別性能見表2。
從表中數據可以發現,相比傳統的棧式自編碼神經網絡,結合了HOG特征的HOG-SAE算法會少量增加識別時間,但具有更高的識別率。因為HOG-SAE構建了一種深層模型,多層的非線性結構使其具有較強的特征表達能力,和BP神經網絡及SVM分類器相比,該算法在具有更好的識別效果的同時也不失時間效率。大量實驗表明,本文提出的基于電梯監控視頻的檢測狗的算法具有較好的識別效果,且算法實時性較高。

表2 不同算法的識別性能
本文提出了一種基于HOG特征及棧式自編碼網絡的特征分類器,并將其應用到電梯監控視頻中狗的檢測中。實驗結果表明,本文所提出的基于電梯監控視頻的檢測轎廂中狗存在的算法具有良好的識別效果及較高的算法實時性,且對空間配置要求不高,實用性比較高。下一步工作將嘗試提高特征模型的泛化能力,將其應用于更復雜多變的場景。
參考文獻:
[1]萬林. 電梯設備安全性評估的研究[D]. 南京:東南大學, 2016.
[2]潘洋, 張振江. 電梯智能化設計研究分析[J]. 科技資訊, 2014, 12(14):37.
[3]張雷, 呂瀟, 張莉. 機器視覺技術在電梯智能檢測中的應用[J]. 制造業自動化, 2014(16): 71-73.
[4]應俊. 基于計算機視覺的電梯轎廂內人數統計研究[D]. 杭州:杭州電子科技大學, 2013.
[5]湯一平, 陸海峰. 基于計算機視覺的電梯內防暴力智能視頻監控[J]. 浙江工業大學學報, 2009, 37(6):591-597.
[6]PEDERSOLI M, VEDALDI A, GONZALEZ J. A coarse-to-fine approach for fast deformable object detection[J]. Pattern Recognition, 2015, 48(5):1844-1853.
[7]ROSENFELD A, WEINSHALL D. Extracting foreground masks towards object recognition[C]//Computer Vision (ICCV). Barcelona, Spain:International Conference on Computer Vision, 2011:1371-1378.
[8]劉威, 段成偉, 遇冰,等. 基于后驗HOG特征的多姿態行人檢測[J]. 電子學報, 2015, 43(2):217-224.
[9]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7):1527-1554.
[10] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313:504-507.
[11] HINTON G E, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6):82-97.
[12] 王雅思, 姚鴻勛, 孫曉帥,等. 深度學習中的自編碼器的表達能力研究[J]. 計算機科學, 2015, 42(9):56-60.
[13] 吳晶. 面向運動目標檢測的背景差分算法改進與實現[D]. 北京:北京郵電大學, 2012.
[14] 高凱亮, 覃團發, 陳躍波,等. 一種混合高斯背景模型下的像素分類運動目標檢測方法[J]. 南京大學學報(自然科學版), 2011, 47(2):195-200.