趙 謙,周 勇,侯媛彬,劉樹林
(西安科技大學a.通信與信息工程學院;b.電氣與控制工程學院,陜西 西安 710054)
責任編輯:任健男
在智能視頻監控領域,運動目標的檢測是信息提取的一個關鍵步驟,也是更高層次分析如目標跟蹤、目標分類和行為理解的重要基礎[1]。因此,如何從視頻序列中快速準確地提取運動目標,是許多研究者所關注的一個問題。經過多年的發展,提出了一些有效的算法[2-5],解決了智能監控中一些難題,能適應比較復雜的環境。其中,碼書模型[4]就是一種常見的背景建模方法,眾多研究者提出了改進的碼書模型[6-7]。這些改進的算法有效地解決了碼書模型中的一些不足,提高了碼書模型的有效性和魯棒性,然而對于碼書模型的自適應更新卻很少論述,但是背景建立之后,如何保持背景的穩定性,讓背景長時間可靠工作也是一件及其重要的事情,在實際應用中這可能比建立一個完美的背景更值得關注。
無論是傳統的碼書模型背景更新方法,還是后來的一些改進算法,它們都是基于單個像素在時域上考慮。這種基于像素時域分布的模型更新方式沒能充分利用空域信息,不能區分出真正的背景變化。在任何應用場景中,背景與前景目標是兩個相對的概念,背景模型的更新應與前景目標的定義相關。在文獻[8]中曾提到運動稀疏的概念,現有的目標檢測算法大多是基于物體的運動性,如何處理運動信息不足的目標值得研究。現有的大部分算法在背景更新的過程中也存在有運動信息不足和物體只有局部運動的問題。如圖1所示,一個孩子坐在地板上,身體有微小變化或只是移動了身體的部分,一段足夠長時間后會有部分融入到背景中,現有的方法只能檢測到運動的部分,對于檢測到的部分已經失去整體性,不僅沒有太大意義,而且會影響后面對圖像的高層次理解。
上述情況的出現是由于背景更新過程中對背景的判斷與背景定義的偏差,忽略了前景物體的整體性。本文針對此類問題對現有算法進行改進,一方面分析像素的時域信息,同時也在分析像素空間聯系的基礎上考慮物體的整體性,而且該算法能更好地實現背景模型的自適應更新,在背景更新過程中輔助前景的檢測。

圖1 運動目標局部運動的檢測
針對復雜多變的背景,Kim等人[4]提出了碼書模型,為每個像素建立一本碼書,每本碼書又包含多個碼字ci(i=1,2,…,l)來描述背景,是一種無參數的背景建模方法。其中每個碼字由以下參數組成:νi=(Ri,Gi,Bi)和aux=i;含 3 個分量的 νi表示碼字的RGB顏色值 和 是碼字對應像素的最小和最大亮度值;fi是碼字出現的頻率;λi表示碼字相鄰2次出現的最長時間間隔;pi和qi分別表示碼字第一次和最后一次出現的時間。由于監控場景的復雜多變,模型需要不斷更新來適應場景的變化,例如物體的移入移出、物體的周期性運動等。這時就需要一種能夠自適應地更新背景模型的算法,防止出現運動目標的虛檢和漏檢。
傳統碼書模型背景更新是建立在對背景和前景區分的基礎上,把整個過程分為背景和前景分別處理,背景部分會按照背景訓練時的方式更新,對于前景部分則建立一個前景碼書模型,不斷地檢測前景碼書中碼字的變化,將依據一定的條件來添加或剔除背景碼書中的碼字,使其適應不斷變化的監控場景。通過時間閾值來判斷物體的融入和移出,如果停留時間超過門限,相應的碼字頻率增加,目標就會融入背景;如果超過一定的時間沒有訪問背景碼書中的碼字,就將該碼字刪除。傳統的背景更新算法可以很好地處理一些簡單場景的變化,對于一些復雜的變化顯得不足,例如,一輛汽車走了一段時間后停下來,然后慢慢調轉方向朝另一個方向駛去。由于汽車本身的面積較大,而且車身顏色相近,所以對每個像素根據一段時間內出現的次數來判斷是否為背景很容易出現誤判,需要聯合空間信息來判斷。
傳統碼書模型背景更新是以像素為單位,孤立地分析像素點在時間域上的統計信息,只能處理一些簡單的情況,存在以下的不足:
1)更新時需要遍歷每一個前景碼書,而大部分的前景碼字都不是潛在的背景,浪費大量時間用于查找,影響檢測實時性。
2)監控場景是復雜多變的,背景的更新僅用一個時間閾值來決定,不能很好地適應背景的變化,而且一個統一的時間閾值很難確定。
3)孤立地考慮每個像素,忽略彼此聯系和像素的空間信息,沒有考慮物體完整性。
第1點中的不足表現在沒能區分真正的前景和可能成為背景的前景,能成為背景的前景占的比例很少,現有的算法要訪問所有的前景碼字,這樣不但沒有必要還浪費了大量的時間,有必要利用物體的空間信息將潛在的背景分開,只處理前景中這部分碼字。第2點和第3點中,如果時間閾值過大,則更新速度過慢,模型不能及時反映出背景的變化而導致誤檢;如果過小,更新速度過快,會使運動較慢、面積較大或紋理較均勻的目標部分融入背景,造成目標檢測不完整。對于上文中提到的由于局部運動造成將目標分成背景和前景兩部分的現象,現有算法也無法處理。由以上分析可知,傳統碼書模型對背景的更新方式不能有效地自適應背景變化,為了更好地解決上面的問題,引入像素的空間信息,通過對前景的分割獲得目標的整體信息。
提取出目標整體信息的方法有多種,經過實驗對比我們選用基于貓視覺皮層模型的脈沖耦合神經網絡(Pulse Coupled Neural Net,PCNN)來進行圖像的分割[9]。基于PCNN的圖像分割是一種基于圖像像素相似強度臨近相似性的圖像分割方法,并有自適應圖像分割的特點。然而其對圖像的二值分割又極大地削弱了圖像的層次性,視頻中目標的分割不同于單幅圖像的分割,視頻幀中常會有噪聲的干擾和光線的變化。為此,本文對PCNN方法進行了改進,提出了基于PCNN的多值分割方法,既保留PCNN對圖像分割的優良特性,又有效保留圖像本身的層次性,使其更適合視頻圖像的分割。圖2是圖像分割的效果圖。從圖中可以看到,該方法可以很好地對視頻圖像進行分割,效果滿足本文的要求。

圖2 PCNN圖像分割效果
本文的背景更新方法是在傳統碼書模型的基礎上加入了空間信息,即考慮運動目標的整體性,通過對視頻圖像的分割,提取出運動目標空間信息。目標空間輪廓信息的提取是在前景檢測完成后進行的。首先,對前景目標進行標記,找到每個運動目標的形心,用矩形框將目標框起來。然后,返回當前幀中矩形框的位置,對矩形框中的目標利用PCNN算法進行圖像分割,提取出目標的空間輪廓信息Li(t)。根據運動目標的空間信息是不斷變化的,而背景的空間信息卻很少變化,可以將目標分為真正的前景和潛在的背景。將所獲得的輪廓信息與前一幀圖像中相應目標的輪廓信息Li(t-1)對比,如果輪廓信息有較大差別,說明目標是前景,則不將該目標歸入到潛在的背景中;如果輪廓的變化不大,目標有可能是潛在的背景或是受到噪聲的干擾,需要繼續檢測該目標的空間輪廓信息,幾幀之后再進行檢測,這樣既減少了噪聲的影響,也有效地避免了運動緩慢物體的誤檢。經過上述判斷后,目標的空間輪廓信息變化仍不大,此時對目標范圍內的前景像素進行計時。對于是否融入背景不是單一考慮時間閾值還要聯合像素的空間整體性,快速地將整個目標融入背景。只有局部運動的物體,雖然有一部分由于長時間的靜止會融入到背景中,但從整體考慮來看還是屬于運動目標,所以在空間輪廓變化判斷時,不再將這部分融入到背景,而是把該部分和運動的部分看作一個整體,當作前景來處理,從而可以有效地避免把目標分割成一部分是前景、一部分是背景。基于空間信息的碼書模型背景更新步驟如下:
1)訓練得到的背景模型M,新建立一個前景碼書模型H。



5)將前景H中停留時間足夠長的碼字移入到背景M中。M←M∪{hi|hi∈H,fi≥Tadd}。
6)刪除背景M和前景H中長時間沒有訪問的碼字。

7)從步驟2)重復進行。
經過上述的步驟就可以在快速前景檢測的同時,自適應地進行背景的實時更新。其中α表示兩幀之間同一個像素的空間信息之差絕對值門限,它有助于消除噪聲和光照的影響,更準確地反映空間信息的變化,一般取值為10~15。空間相似度閾值β,描述整個物體的變化程度,一般取值0.85~0.95。Tadd表示目標融入背景的時間,Tdel表示背景移除目標的時間,兩個值都可以根據具體的情況和場景來選擇。
為了測試算法的性能,本文選擇了復雜的室外環境為場景來進行實驗,并重點針對條件多變的情況下和目標運動信息不足時背景的自適應更新。本文采用的第1段視頻序列來自PETS(IEEE International Workshop on Performance Evaluation of Tracking and Surveillance)2001 Dataset 1 Camera 1 Image。實驗測試平臺為:CPU酷睿雙核1.73 GHz,2 Gbyte內存,Windows7操作系統。測試代碼在MATLAB7.6上編譯運行,其中參數設置為α=10,β =0.9 。
1)室外復雜條件下背景更新
物體進入背景后靜止,如果一段時間后仍然不變需要將其融入到場景中,而要完全融入到背景中需要1.5~2倍的Tadd時間,如圖3所示。對于比較復雜的運動,單靠時間閾值去判斷就會出現錯判,如圖4所示,一輛車緩慢的移入到背景中然后慢慢地掉轉方向朝另一個方向行駛。由于車輛緩慢運動而且車身紋理相似,圖4d中可以看到車輛區域內有部分融入到背景中,可以用增大Tadd的方法來解決這部分問題,但是對于要融入背景的物體將要增加更多的時間才能融入,造成大量的虛檢目標,影響真正前景目標的檢測。本文中在考慮目標整體性的基礎進行背景的更新,從圖4e中可以看到在不改變Tadd的前提條件下,很好地解決了該問題,而且通過對比圖4b和圖4c可以發現融入的速度更快。

圖3 目標融入背景(Tadd=50)
2)運動信息不足條件下背景更新
下面一段測試視頻2中,兩個人進入場景后停下來,只有身體的部分在運動,而且運動信息不是連續的,然后在一個小范圍內活動。在文獻[11]中也提到過該類問題,在前景檢測時沒能很好地處理該類問題,應用本文提到的算法可以在背景更新時解決這類問題。下面針對這一問題用本文的算法和文獻[4]進行對比,如圖5所示。從對比測試的結果來看,本文的算法能更好地處理這一類問題。
3)時間耗費分析
下面主要對本文算法的時間耗費進行分析。與傳統碼書模型相比,增加的時間耗費主要在目標的空間信息提取部分,但是這里僅僅提取了視頻圖像中運動目標的空間信息,而且本文算法與傳統算法相比不再更新處理非潛在的背景碼字,在一般情況下大部分時間和大部分前景都不需要處理,只在很少的時間才考慮場景的更新,這樣就減少了前景碼字每次更新這部分時間。通過與傳統算法對比,用視頻2進行測試,背景平均碼字為1.146個,背景更新完成后本文平均碼字為1.267個,傳統平均碼字為2.573個,減少了背景的平均碼字數,提高了系統效率。

圖4 復雜條件下背景更新(Tadd=300,背景訓練200#)
本文提出了一種自適應的碼書模型背景更新算法,主要致力于快速準確地更新背景模型,以及在目標運動信息不足時有效處理背景,同時輔助前景目標的檢測。通過引入空間信息來聯合控制模型更新,不僅提高了信息利用率,更重要的是顯著改善了檢測效果,提高模型對背景變化的適應能力。在背景穩定更新的條件下,減少了背景更新的時間,提高了模型對背景變化的響應速度,保證目標檢測的完整性。其背景更新效果的魯棒性和準確性已經在實驗中得到證實。

圖5 運動信息不足條件下的實驗效果(Tadd=500,圖5c中沒有去除陰影,圖5b中陰影慢慢融入背景)
本文算法的有效性和準確度有賴于運動目標空間信息的正確提取。研究中只利用了空間位置信息,且沒有做陰影去除處理,這在一定程度上影響了算法效果。如果能結合目標紋理特征將更準確地提取空間信息,效果可能會更好。
[1]代科學,李國輝,涂丹,等.監控視頻運動目標檢測減背景技術的研究現狀和展望[J].中國圖象圖形學報,2006,11(7):919-927.
[2]STAUFFER C,GRIMSON W.Learning patterns of activity using real time tracking[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2000,22(8):747-767.
[3]ELGAMMAL A,HARWOOD D,DAVIS L.Non-parametric model for background subtraction[C]//Proc.the 6th European Conference on Computer Vision,Part II.London:Springer-Verlag,2000:751-767.
[4]KIM K,CHALIDABHONGSE T H,HARWOOD D,et al.Real-time foreground-background segmentation using codebook model[J].Real-Time Imaging,2005,11(3):167-256.
[5]HEIKKILA M,PIETIKAINEN M.A texture-based method for modeling the background detecting moving objects[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2006,28(4):656-662.
[6]徐成,田睜,李仁發.一種基于改進碼本模型的快速運動檢測算法[J].計算機研究與發展,2010,47(12):2149-2156.
[7]李波,袁保宗.基于碼書和紋理特征的運動目標檢測[J].信號處理,2011,27(6):912-917.
[8]LIU Feng,GLEICHER M.Learning color and locality cues for moving object detection and segmentation[C]//Proc.CVPR.Miami.[S.l.]:IEEE Press,2009:320-327.
[9]KUNTIMAD G,RANGANATH H S.Perfect image segmentation using pulse coupled neural networks[J].IEEE Trans.Neural Networks,1999,10(3):591-598.
[10]徐正光,鮑東來,張利欣.基于遞歸的二值圖像連通域像素標記算法[J].計算機工程,2006,32(24):186-188.
[11]LIU Yazhou,YAO Hongxun,GAO Wen.Nonparametric background generation[J].Journal of Visual Communication and Image Representation,2007,18(3):253-263.