張 超 吳小培* 周建英 戚培慶 王營冠 呂 釗
①(安徽大學計算智能與信號處理教育部重點實驗室 合肥 230039)
②(中國科學院上海微系統與信息技術研究所 上海 200050)
當今信息化社會的各領域對智能視頻系統均有著廣泛而緊迫的應用需求,運動目標檢測正是智能視頻系統中各種智能分析處理的基礎。目前,常用的運動目標檢測算法主要有背景差分法[1]、幀間差分法[2]和光流法[3]。其中,光流法計算較復雜,一般用于背景變化的場景。幀間差分法實時性強,對于動態環境具有較好的適應性,但其提取的目標前景內部易出現空洞。背景差分法可以得到相對完整的目標,且算法復雜度較低,但現實場景往往存在光照或背景的變化,這種情況下背景差分法的效果同樣不佳。
針對現實世界中極為常見的多模態背景特性,文獻[4]提出了高斯混合建模(Gaussian Mixture Modeling, GMM)方法。該方法在每個像素位置使用多個高斯模型進行建模,并且利用時間序列上的像素值不斷進行模型參數更新,以期克服背景和光照變化等因素給運動目標檢測帶來的不利影響。文獻[5]證明了高斯混合建模較其他方法具有的性能優勢和應用可行性。
盡管比其他方法更能有效應對多模態場景,高斯混合建模同樣有其局限[6],如初始階段算法收斂性能不佳、對低速目標以及復雜背景條件下的目標檢測效果變差等。國內外學者一直在尋求對高斯混合建模進行有針對性地改進,文獻[7]提出考察空間依存關系并對標準差的更新進行限制,文獻[8]中使用色彩和空間一致性準則輔助傳統GMM進行判斷,文獻[9]提出了解決建模時瞬間光線變化的方法,文獻[10]中專門研究了復雜背景下的建模問題,文獻[11]在高斯混合建模的思路上進一步提出泛化的混合對稱穩定模型。
本文針對傳統高斯混合建模方法不適于檢測低速目標的局限,在對傳統GMM算法進行一定程度的分析理解的基礎上提出一種改進的運動目標檢測方法,該方法對一直以來處于輔助地位的背景模型匹配失敗時新生成的前景模型加以利用并引入短時穩定度指標進行綜合判斷,通過考察前景模型中包含的運動目標信息和像素點級穩定性來克服傳統高斯混合建模方法檢測低速運動目標時易產生的前景破碎問題。
高斯混合建模中的建模對象是圖像序列,對應空域每個像素位置可視為一隨機變量X={x1,x2,…,xt},該隨機變量由具有K個單高斯分布的高斯混合模型表示,每個單高斯模型可以表征當前像素點的不同狀態,K視情況一般取為3到7。wk=P(k)為當前像素點和第k個狀態匹配的先驗概率。θk= (μk,σk)為第k個高斯分布的參數,總的參數表示為φ= {μ1,μ2,…,μK;σ1,σ2,… ,σK}。于是,在隨機變量X當前取值x下,第k狀態對應的


圖1形象地給出了高斯混合建模的建模思路,圖1(a)所示為連續視頻幀,圖1(b)代表每幀圖像對應的數據矩陣。建模過程中視頻流的每幀圖像依時序不斷更新空域各個位置上的混合高斯模型,混合高斯建模的結果是在每個像素點位置上建立一個由多個單高斯η(θijk)的加權和表示的背景模型,如圖1(c)所示,此背景模型的作用是衡量當前新進數據和已有背景模型的匹配程度來確定當前像素值是否屬于背景并以此檢測出運動目標。圖1(d)則給出了由3個單高斯混合得到的高斯混合模型示意圖。
建模過程中,t時刻新的像素值使用式(3)與K個模型逐一匹配。

若與當前模型的均值的差異在某一范圍之內,則認為匹配,否則為不匹配。匹配的情況下使用下列式(4)~式(6)更新模型參數[4]:

圖1 高斯混合建模的形象表示

其中α為學習率,且有

不匹配時,應減小權值,且不對均值方差進行更新。若每個模型都不匹配,則要把權值最小的模型使用新的模型取代,其均值為新的樣本像素值,方差為一大值,權值為一小值。每次權值更新后,都要對權值進行歸一化處理。作為運動目標檢測的最后步驟,建模完成后,要實時區分分別代表前景和背景的模型。文獻[4]中的方法是計算每個模型對應的wk,t/σk,t,然后按照降序排列,其依據是當前最為匹配的模型必然具有最大的權值并具有較小的方差,最后,選定滿足式(9)

的前B個模型作為背景模型,其中T為一權值累加門限。
前景模型在傳統方法中一直居于輔助地位,但事實上其包含了重要的目標信息。為了利用GMM良好的環境適應性并解決上述傳統GMM方法的固有局限,本文對傳統高斯混合建模方法進行改進,對背景匹配失敗時生成的前景模型加以利用并引入短時穩定度指標對前景進行綜合判斷。算法先按照傳統算法的流程,在當前像素值和對應K個背景模型都匹配失敗后,使用當前像素值和較大值替代權值最小模型的均值和方差,這實際上是生成前景模型η(μf,σf),若后來點和前景模型均值相差小于門限Tf,則使用式(10)計算短時穩定度并更新前景模型:

其中,M為滑動窗幀數范圍,af∈[0,1]為前景模型的學習率。算法優先使用前景模型對當前像素點進行匹配,直接降低了前景點和背景模型誤匹配的決策風險。
視目標外表面狀況,對外表面顏色較統一的目標,其短時穩定度計算窗長M值可選為2~5之間,而對于外表色彩豐富多樣的運動目標,為了防止短暫的像素值變化導致目標向背景的轉換,其M值可選為5~20之間,較大的M能帶來較好的檢測效果但指標響應速度較為遲緩。求得穩定度后,判斷門限Sth可依圖像序列實際情況設為經驗值也可由M幀內穩定度的最大最小值動態求得

其中C為一常數。SMIN和SMAX分別為當前C幀內的穩定度最大值和最小值。在連續C幀超越短時穩定度門限的情況下,當前像素點判為前景點。
穩定度的提法也見于文獻[12]中使用當前時刻以前的像素值生成像素短時圖(transience map)。本文中取當前時刻后的M點計算短時穩定度S,若S在一定范圍內連續超越某一門限則說明此時該像素位置仍處于前景過程中。此方法的根本出發點是,前景初次建模后,若后來點未產生類似回到背景值的劇烈波動,則認為當前像素位置一直保持某種穩定的前景狀態,遂在該點位置跳過傳統高斯建模方法的后續流程直接判斷為前景點。若當前點未能和前景模型匹配或短時穩定度指標不滿足條件,仍然進入傳統方法的一般后處理流程。
圖2為某視頻圖像序列某像素位置上的灰度值和該點穩定度的計算結果,圖中箭頭表示上部的視頻幀和下部像素值以及穩定度指標的對應關系,空域中選取點的位置見視頻幀黑圈所示,圖的底部為選取的視頻幀的序號。從圖2可見,穩定度指標(柱狀圖)從接近于零升高最后回落到零附近,其變化超前于像素值的變化(折線圖),穩定度的上揚和回落均與像素值的變化相對應,因而可以表征前景的出現和持續的狀態。穩定度的使用能有效避免運動目標區域像素值短時變化導致前景誤檢為背景,前景模型和短時穩定度指標相配合使本文的方法既具有高斯混合建模的環境適應性又能克服傳統高斯建模無法檢測慢速目標的局限。
為了驗證本文方法的有效性,我們使用3段視頻在matlab平臺上開展仿真實驗。實驗中將本文所提方法在相同條件下與傳統高斯混合建模方法進行對比,為了說明基于GMM類方法較其他方法的性能優勢,我們同時和基于自適應背景減的運動目標檢測算法進行對比。實驗使用的參數設置如表1所示。實驗中高斯混合建模時將使用兩種學習率以解決算法初始化時收斂慢的問題,初始階段學習率設置為1.5,穩定階段設置為0.05。

表1 仿真實驗參數設置
第1個對比試驗采用一段含有低速運動車輛的公路交通視頻,視頻分辨率為 320×240(下同)。由于部分目標運動較慢,出于說明問題的需要我們每隔4幀抽取一幀給出處理結果。對比實驗的結果見圖 3。圖 3(a)為選取的視頻幀。圖 3(b)為使用自適應背景減方法的運動目標檢測結果,從圖3(b)可見,由于算法對環境適應性較差,檢測前景中含有較多的非目標噪聲,包括車輛的陰影和光照條件變化下的路面等均被檢測為前景,但在右上的慢速目標得到了較完整的檢測說明其對慢速目標的檢測效果較好。圖3(c)為傳統GMM算法的前景檢測結果,可以明顯看出,傳統混合高斯建模方法在較大的更新率下,易出現運動緩慢的目標前景被背景吸收的現象,圖 3(c)中白色運動車輛的后部已經部分融入背景,而右上方反向車道的低速運行車輛則已全部被背景吸收。但圖3(c)所示的傳統GMM方法的前景檢測結果并未出現類似圖3(b)中因光照條件變化而檢測到的噪聲,說明即便是傳統GMM方法其對環境也具有相當的適應性。圖 3(d)為本文所提方法的檢測效果,可見前景中非目標噪聲明顯少于自適應背景減方法,檢測出的運動目標明顯較傳統 GMM方法完整,且算法對車窗等不連續部位也可做到較好的檢測。

圖2 某像素點位置(黑圈處)上的灰度值和穩定度指標的變化

圖3 實驗1中運動目標檢測試驗結果對比
第2段視頻為VS-PETS 2001 dataset的人字路口監控視頻,我們使用視頻中兩車相遇緩慢行駛的部分進行實驗,對比試驗的結果見圖 4。圖 4(a)為選取的視頻幀。圖4(b)為使用自適應背景減方法的運動目標檢測結果,和上一實驗中的情況相同,由于建筑物的外表面等受光照變化的影響產生改變,使得算法檢測結果中含有較多的非目標噪聲,說明基于自適應背景減的方法對環境的適應性有限。圖4(c)為傳統 GMM 方法的檢測結果,兩車相遇時運動較為緩慢,此時傳統方法檢測效果劇烈惡化,從圖 4(c)可見相遇的兩車大部分已融入背景,單純從檢測到的少量破碎前景已無法辨別目標屬性。圖4(d)為本文方法的檢測結果,在目標低速運動的情況下,本文方法依舊較完整地檢測到了目標,且前景中的噪聲明顯少于自適應背景減方法的結果。

圖4 實驗2中運動目標檢測試驗結果對比
為了進一步驗證本文所提方法的目標檢測性能,我們使用更復雜的視頻開展實驗,視頻背景為開放的有行人走動的路口,整段視頻始終有人的走動并包含人的站立交談和物品遺留等行為,實驗的結果見圖5。圖 5(a)為原始視頻幀圖像。圖 5(b)為使用自適應背景減方法的運動目標檢測結果,由于場景中始終存在較多的運動目標且伴隨有光照條件的變化,這影響了自適應背景減算法對背景的估計,使得檢測結果中噪聲較多且算法對類似人腳下陰影的光線變化過于敏感,存在較多誤檢。圖 5(c)為傳統高斯混合建模前景檢測結果,從圖5(c)第3幀圖像可見,站立交談的行人已經大部分被吸收入背景,而從圖5(c)第2, 4, 5幀可見場景中的遺留物在傳統GMM方法下均未能得到有效檢測。圖 5(d)為本文所提方法的檢測結果,和圖 5(c)進行對比可見包括站立交談的人和遺留物在內的所有前景均得到更好的檢測,和圖5(b)對比可見算法檢測到的非目標前景噪聲要遠少于基于自適應背景減的運動目標檢測算法。
為了對以上3種算法進行量化比較,使用檢出率(DR)和誤檢率(FAR)兩個指標[13]對3個試驗結果進行分析,其中


其中TP為檢測出來的屬于運動目標區域的的像素數,FP為檢測出來的不屬于運動目標區域的像素數,FN為未被檢測出來的運動目標區域的像素數,實驗中真實的目標區域像素為手動計算得來,雖可能存在誤差,但可用來進行參考對比。對比的結果見表2,可見在3個實驗中,傳統GMM算法的平均檢出率在60%左右,但本文方法的平均檢出率接近74%,雖然自適應背景減方法也可獲得較高的檢出率,但其檢測結果帶有較多非目標噪聲,所以誤檢率高于另兩種方法1個數量級。本文方法在較傳統方法大幅提高檢出率的同時雖然付出一定的誤檢代價,其性能取舍完全合理,算法總體的性能提升顯而易見。
傳統高斯混合建模方法中背景匹配失敗時生成的前景模型一直以來被人們所忽視,但事實上其包含了重要的前景目標信息。本文在傳統高斯混合建模方法的基礎上提出一種新的運動目標檢測算法,算法對每次背景匹配失敗時生成的前景模型加以利用,考察當前像素點和前景模型的匹配程度并使用短時穩定度指標對像素序列的穩定度進行度量,以此精確判斷像素序列是否處于前景狀態。該方法能一定程度上克服傳統高斯混合建模方法無法有效應對慢速目標的局限,實現較復雜場景下的運動目標檢測。

圖5 實驗3中運動目標檢測試驗結果對比

表2 3個實驗中3種方法的檢出率和誤檢率對比
[1]McKenna S, Jabri S, Duric Z,et al.. Tracking groups of people[J].Computer Vision and Image Understanding, 2000,80(1): 42-56.
[2]Lipton A J, Fujiyoshi H, and Patil R S. Moving target classification and tracking from real-time video[C].Proceedings of IEEE Workshop on Applications of Computer Vision, Princeton, NJ, 1998: 8-14.
[3]Meyer D, Denzler J, and Niemann H. Model based extraction of articulated objects in image sequences for gait analysis[C].Proceedings of IEEE International Conference on Image Processing, Santa Barbara, CA, 1998: 78-81.
[4]Stauffer C and Grimson W E L. Adaptive background mixture models for real-time tracking[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Fort Collins, CO, 1999: 246-252.
[5]Gao X, Boul T, Coetzee F,et al.. Error analysis of background adaption[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Hilton Head Island, SC, USA, 2000: 503-510.
[6]Lee D. Effective Gaussian mixture learning for video background subtraction[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(5): 827-832.
[7]Quast K and Kaup A. Real-time moving object detection in video sequences using spatio-temporal adaptive gaussian mixture models[C]. Proceedings of the International Conference on Computer Vision Theory and Applications,Angers, France, 2010: 413-418.
[8]Yang S and Hsu C. Background modeling from GMM likelihood combined with spatial and color coherency[C].IEEE International Conference on Image Processing, Atlanta,GA, 2006: 2801-2804.
[9]Choi J, Yoo Y J, and Choi J Y. Adaptive shadow estimator for removing shadow of moving object[J].Computer Vision and Image Understanding, 2010, 114(9): 1017-1029.
[10]Li Li-yuan, Huang Wei-min,et al.. Statistical modeling of complex backgrounds for foreground object detection[J].IEEE Transactions on Image Processing, 2004, 13(11):1459-1472.
[11]Salas-Gonzaleza D, Kuruoglu E E, and Ruiz D P. Modelling with mixture of symmetric stable distributions using Gibbs sampling[J].Signal Processing, 2010, 90(3): 774-783.
[12]Collins R T, Lipton A, Kanade T,et al.. A system for video surveillance and monitoring: VSAM final report[R].Technical Report CMU-RI-TR-00-12, Robotics Institute,Carnegie Mellon University, May 2000.
[13]Fakharian A, Hosseini S, and Gustafsson T. Hybrid object detection using improved gaussian mixture model[C].International Conference on Control, Automation and Systems, KINTE X, Gyeonggi-do, Korea, 2011: 1475-1479.