張 超 吳小培 呂 釗
隨著國內外安全局勢的日益復雜和各種社會問題的不斷凸顯,全社會對新型安全監管手段的需求日益緊迫。智能視頻監控系統作為傳統視頻監控在新時期的最新發展,其相關理論研究和工程應用已取得很多成果,如交通監控和分析[13]-,行為理解[46]-,入侵檢測和報警[79]-等。
作為智能視頻監控的基礎性組成部分,運動目標檢測是智能視頻系統中目標跟蹤和各種后期更高級分析處理的基礎。本質上說,運動目標檢測就是從包含背景的圖像序列中提取出運動物體。很多綜述已對眾多的運動目標檢測算法進行了詳細的歸類和總結[1012]-。常用的靜止背景下的運動目標檢測算法主要有幀間差分法[13]和背景差分法[14,15]。基于多維統計分析的方法為運動目標檢測提供了新的途徑。主分量分析(Principal Component Analysis,PCA)[16]通過消除不提供運動信息的背景分量完成運動目標檢測,可以一定程度上抵消光照對目標檢測的影響。文獻[17]提出使用獨立分量分析(Independent Component Analysis, ICA)進行運動目標檢測,文中使用2通道數據構成觀測向量并使用粒子群優化算法(Particle Swarm Optimization,PSO)搜索分離矩陣,可實現較單一場景下的運動目標檢測。文獻[18]給出基于ICA的自適應背景減算法,算法使用2通道數據進行前景背景分離,可適用于室內和室外場景,但使用2通道數據能否達成很好的分離效果仍有待進一步討論。
本文對基于獨立分量分析的運動目標檢測算法中的通道數選擇和觀測向量生成方式進行實驗討論,文中分別采用多種通道數進行前景背景分離,同時通過不同的觀測向量生成策略得出不同數據組織形式下的檢出前景并進行綜合,以期克服現有ICA方法使用小通道數和單一觀測向量生成方法而導致的目標檢測不全問題。
獨立分量分析[19]給出了在滿足一定條件下從混合信號中得到相互獨立的源信號的方法。運動目標檢測中使用的ICA瞬時混合與分離模型見圖1。

圖1 ICA算法一般流程圖


為對源信號s的良好估計。ICA算法的基本思路是針對觀測信號選擇獨立性判據構造目標函數,再使用數學尋優方法對目標函數進行優化以得到最優解。
ICA算法的核心是通過最優化表征統計獨立的目標函數來實現對混合信號的分離。本文使用峭度作為目標函數,并使用梯度法進行尋優。基本的目標函數為

對于使用白化矩陣V白化處理后的觀測信號z=Vx,目標函數為

考慮到實際中分離矩陣的歸一化限制,迭代計算過程中使用的梯度計算方法為

當ICA算法得到初步的前景分量后,需要基于此完成對運動目標的提取,本文使用如下全局均值門限進行前景分割

其中Foreground為前景圖像;I為分離后圖像;M,N分別為圖像的寬高;C為一根據任務背景進行調整的經驗系數,可設置為1.0~1.5,在像素值進行了歸一化等處理后也用其調整判決門限。
傳統ICA算法的應用對象大多是1維信號,而圖像是2維信號,由2維信號構造觀測向量的過程將對ICA的分離結果產生直接影響。文獻[17,18]中均使用按行組合降維的方法。事實上,不同目標在圖像中往往具有特有的運動特性和對應的空間位置關系,單純按行組合觀測向量并不能獲得最佳的分離性能,而應尋求可以涵蓋數據空間變化的觀測向量生成方式。圖像中像素點八鄰域方向涵蓋了其所有鄰接關系點以及在相鄰幀中由運動引發的變化方向。受此啟發,本文分別使用按行、按列、45°和135°(也可記為-45°, 315°等)的方式對原始圖像降維生成觀測向量,并對不同方式下的分離結果進行綜合形成最終的檢測結果。對于分辨率為MN×(默認MN≤)的圖像中的任意一點I(i, j),其轉換為觀測向量中的x(k)的4種不同方式對應的索引計算方法具體為
按行生成:

按列生成:

按135°生成,方陣(M=N)情況下有

當M<N時,有

按45°生成,方陣(M=N)情況下有

當M<N時有

ICA算法中通道數的選擇同樣直接影響分離結果。通道數即觀測信號矩陣的(行)分量個數,其每一分量代表觀測到的一路混合信號。在ICA算法的經典應用領域中,受傳感器規模和應用背景的制約,ICA算法使用的通道數從2通道到數十通道不等。事實上,由于視頻圖像序列本身固有的連續性,每一幀圖像都可視為一路觀測到的由背景和前景組成的混合信號,不存在由采集設備規模受限導致的通道數限制,具備多通道數據的應用可行性。本文實驗使用多通道(最多 16通道)數據形成觀測信號矩陣,多通道數據的引入在增加有效信息量的同時增強了源的獨立性假設,為得到更好的分離結果創造了條件。結合以上的4種觀測向量生產方式和16通道數據,本文所提算法流程見圖2所示。
為了驗證不同通道數和觀測信號生成方式下ICA算法的性能差異并進行ICA算法和其他算法的對比,本文使用檢出率(DR)和誤檢率(FAR)兩個指標[20]對不同算法的檢測結果進行量化分析。
首先進行相同觀測信號生成方式下不同通道數ICA檢測算法的性能對比。實驗1使用一段包含移動行人的視頻。實驗中分別使用2, 4, 8, 16通道數據按行生成觀測信號矩陣進行檢測,檢測結果見圖3所示。從圖3可見,在使用2通道數據進行運動目標檢測時,得到的前景破碎嚴重,完全無法表征目標的幾何外形等屬性。隨著通道數的增加,ICA對運動目標的檢測效果逐漸改善。
為了驗證4種觀測向量生成方式下檢測效果的差異和綜合4種結果得到最終結果的實際性能,本文在實驗2中分別使用4種不同觀測向量生成方式進行對比,實驗結果見圖 4。從實驗結果可見,不同的觀測向量生成方式下的檢測結果具有一定的差異,這表明不同的觀測向量生成方式突出了不同的運動信息,其檢測結果都應作為最終結果的有效部分。4種結果的綜合見圖 4(d)所示,可見綜合后的最終結果比任何一種單一方法下的檢測結果都具有更加完整的目標形態。

圖2 本文所提算法流程圖

圖3 實驗1中不同通道數下的檢測結果對比

圖4 實驗2中4種不同觀測信號生成方式下的檢測結果對比
由于并非直接使用像素值進行建模,基于ICA的運動目標檢測算法在目標緩慢移動或目標與背景區分性較低的場景下具有一定的性能優勢。為了進一步驗證所提改進方法的有效性,我們在實驗3和實驗 4中將本文所提改進 ICA算法與自適應背景減、高斯混合建模(Gaussian Mixture Modeling,GMM)和幀差法進行對比。實驗使用的參數設置如表1所示,實驗基于Matlab仿真環境進行,計算機硬件配置為筆記本i5雙核處理器,2.3 GHz主頻,4G內存,32位Win7系統。

表1 幾種對比算法的參數設置
實驗3采用VS-PETS 2001 dataset中的人字路口監控視頻,實驗選取視頻中兩車交會緩慢運動的部分進行,幾種不同算法的檢測結果見圖 5。圖5(a1)~(a3)為選取的原始視頻圖像。圖 5(c1)~(c3)為使用自適應背景減方法得到的運動目標檢測結果,雖然目標車輛檢測較為完整,但由于右車由靜止開始緩慢移動,自適應背景減方法短時間內無法及時更新模型導致在車輛初始位置產生大量誤檢(如圖5(c3)黑色箭頭所示),使得算法檢測結果中含有較多的非目標噪聲。圖5(d1)~(d3)為幀間差分法的檢測結果,由于目標運動緩慢,幀間差分法只獲得了目標的大致輪廓。圖 5(e1)~(e3)給出了高斯混合建模方法的檢測結果,由于兩車交會時移動緩慢,GMM 算法中的權值累積和模型更新機制將前景誤判為背景,導致了檢測結果中大量的目標部分漏檢。圖5(b1)~(b3)為本文方法的檢測結果,在目標低速移動的情況下,ICA方法依舊較完整地檢測到了目標,且檢出前景中不含有過多的非目標噪聲。

圖5 實驗3中4種不同算法的檢測結果對比
實驗4使用的視頻含有兩個行人,整段視頻始終有兩人的慢速走動及站立交談和握手等動作,對比實驗的結果見圖6。圖6(a1)~(a3)為原始視頻圖像。~圖6(c1)(c3)為使用自適應背景減方法的運動目標檢測結果。和實驗3中的情況類似,目標短時間的停留使后續過程中背景模型無法及時更新,導致了如圖6(c2)中的大量誤檢。圖6(d1)~(d3)為幀間差分法的實驗結果,行人的緩慢行走使得幀間重疊較大而無法獲得完整的目標。圖6(e1)~(e3)為GMM的前景檢測結果,由于行人的緩慢行走和停頓,圖像中一個行人已經大部分被吸收入背景。圖6(b1)~(b3)為本文所提方法的檢測結果,可見不論緩慢行走還是站立握手的行人均得到更好的檢測。

圖6 實驗4中4種不同算法的檢測結果對比
獨立分量分析具有的從混合信號中恢復獨立源信號的特殊性質使其可以應用于運動目標檢測。傳統基于獨立分量分析的運動目標檢測方法均基于單一的觀測向量生成方式并使用 2通道數據進行檢測,削弱了可供前景背景分離的運動狀態信息。本文對傳統基于ICA的運動目標檢測算法的觀測信號通道數選擇和觀測向量生成方式進行實驗分析,并在此基礎上提出了綜合4種觀測向量生成方式并使用16通道數據進行分離的改進的ICA運動目標檢測算法。4種觀測向量生成方式下分離結果的綜合充分涵蓋了運動目標的運動特性,16通道數據的使用也為ICA算法提供了更有效的峭度信息。仿真實驗表明,在目標慢速運動或目標與背景區分性較低的場景,多通道數據的使用和多種觀測向量生成方式的綜合使算法以較低的誤檢率代價獲得了較明顯的檢測性能提升。
[1] Huang D Y, Chen C H, Hu W C, et al.. Reliable moving vehicle detection based on the filtering of swinging tree leaves and raindrops[J]. Journal of Visual Communication and Image Representation, 2012, 23(4): 648-664.
[2] Song H, Liu X, Zhang X, et al.. Real-time monitoring for crowd counting using video surveillance and GIS[C].Proceedings of the 2nd International Conference on Remote Sensing, Environment and Transportation Engineering,Nanjing, China. 2012: 1-4.
[3] Sidla O, Rosner M, Ulm M, et al.. Traffic monitoring with distributed smart cameras[C]. Proceedings of the IS&T/SPIE Electronic Imaging, 2012: 830103-1-830103-12.
[4] Park S and Aggarwal J K. A hierarchical Bayesian network for event recognition of human actions and interactions[J].Multimedia Systems, 2004, 10(2): 164-179.
[5] Shotton J, Sharp T, Kipman A, et al.. Real-time human pose recognition in parts from single depth images[J].Communications of the ACM, 2013, 56(1): 116-124.
[6] Schwarz L A, Mateus D, and Navab N. Recognizing multiple human activities and tracking full-body pose in unconstrained environments[J]. Pattern Recognition, 2012,45(1): 11-23.
[7] Haritaoglu I, Harwood D, and Davis L S. W4: real-time surveillance of people and their activities[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2000, 22(8): 809-830.
[8] Held C, Krumm J, Markel P, et al.. Intelligent video surveillance[J]. Computer, 2012, 45(3): 83-84.
[9] Komagal E, Vinodhini A, Srinivasan A, et al.. Real time background subtraction techniques for detection of moving objects in video surveillance system[C]. Proceedings of the IEEE International Conference on Computing,Communication and Applications, Tamilnadu, India, 2012:1-5.
[10] Hu W, Tan T, Wang L, et al.. A survey on visual surveillance of object motion and behaviors[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2004, 34(3): 334-352.
[11] Radke R J, Andra S, Al-Kofahi O, et al.. Image change detection algorithms: a systematic survey[J]. IEEE Transactions on Image Processing, 2005, 14(3): 294-307.
[12] Joshi K A and Thakore D G. A survey on moving object detection and tracking in video surveillance system[J].International Journal of Soft Computing and Engineering,2012, 2(3): 2231-2307.
[13] Kameda Y and Minoh M. A human motion estimation method using 3-successive video frames[C]. Proceedings of the International Conference on Virtual Systems and Multimedia, Gifu, Japan, 1996: 135-140.
[14] Manzanera A and Richefeu J C. A new motion detection algorithm based on Σ-Δ background estimation[J].Pattern Recognition Letters, 2007, 28(3): 320-328.
[15] Maddalena L and Petrosino A. A self-organizing approach to background subtraction for visual surveillance applications[J]. IEEE Transactions on Image Processing, 2008, 17(7):1168-1177.
[16] Rymel J, Renno J, Greenhill D, et al.. Adaptive eigenbackgrounds for object detection[C]. Proceedings of the IEEE International Conference on Image Processing, Singapore,2004, 3: 1847-1850.
[17] Tsai D M and Lai S C. Independent component analysisbased background subtraction for indoor surveillance[J].IEEE Transactions on Image Processing, 2009, 18(1):158-167.
[18] Jiménez-Hernández H. Background subtraction approach based on independent component analysis[J]. Sensors, 2010,10(6): 6092-6114.
[19] Hyv?rinen A, Karhunen J, and Oja E. Independent Component Analysis[M]. New York: John Wiley & Sons, 2004:165-178.
[20] Fakharian A, Hosseini S, and Gustafsson T. Hybrid object detection using improved gaussian mixture model[C].Proceedings of the 11th International Conference on Control,Automation and Systems, Gyeonggi-do, Korea, 2011:1475-1479.