摘要:該文提出一種基于多攝像機信息融合的行為識別方法。新方法使用背景融合的方式融合多鏡頭的信息,使用背景差分提出人體目標,基于運動慣性定律解決了多目標跟蹤的問題,并在行為識別中引入了人工智能和多層次分析等先進的手段。
關鍵詞:行為識別;多鏡頭;視頻監控
中圖分類號:TP18文獻標識碼:A文章編號:1009-3044(2009)25-7238-02
Behavior Recognition Method Based on Multi-camera Information Integration
YIN Ming-jun1, CHEN Li-wei1,TANG Quan-hua2
(1. Southwest University of Science and Technology, Mianyang 621010 ,China;(2. Southwest Jiaotong University, Chengdu 610031,China)
Abstract:A behavior recognition method based on multi-camera information integration is proposed in this paper. The multi-lens information is integrated by background combining. The human body is extracted by background subtraction.The problem of multiple target tracking is solved by law of inertia. And new methods such as artificial intelligence and multilevel analysis are ntroducted in our new method.
Key words: Behavior Recognition, Multi-camera, Video Surveillance
隨著社會經濟的發展,各種刑事案件時有發生,近年來還有情況加劇的趨勢。為穩定社會治安,保障人民安全,公安部門在幾乎所有公共場所安裝了視頻監控設備,但這些裝置主要靠人工觀察,當案件突然發生時,往往不能及時發現預警,給罪犯作案和逃竄留下了過多的時間。因此,有必要研究智能監控與報警系統,實現智能行為識別,提供自動報警的途徑。
基于視頻的行為識別及人臉表情識別等問題是目前視頻信號處理研究的前沿課題,項目的實施需要涉及到視頻信號處理的各方面技術,包括去噪、編解碼等基礎問題,項目的研究必然推動視頻信號處理理論和技術的發展。隨著理論問題的突破,視頻監控的應用也可以推廣到更多的場景。
1 基于多攝像機的目標提取與跟蹤
人體的跟蹤研究還很缺乏,身體姿勢和運動在單一視角下由于遮擋或深度影響而容易產生歧義現象,因此使用多攝像機進行人體姿勢跟蹤和恢復的優點是很明顯的。同時,多攝像機的使用不僅可以擴大監視的有效范圍,而且可以提供多個不同的方向視角以用于解決遮擋問題。很明顯,未來的人運動分析系統將極大受益于多攝像機的使用。對于多攝像機跟蹤系統而言,我們需要確定在每個時刻使用哪一個攝像機或哪一幅圖像。也就是說,多攝像機之間的選擇和信息融合是一個比較關鍵的問題。
1.1 基于背景融合的多鏡頭運動融合方法
由于拍攝角度不同,同一事物的運動在不同鏡頭中表現可能完全不同。根據攝像機方向一致且拍攝范圍高度重合的特點,本文提出基于背景融合的多鏡頭運動融合方法。背景合成方法可以對場景內的事物進行協同處理,避免對同一事物重復計算,簡化系統運行過程中的坐標變換過程。假定各相鄰攝像機的攝像距離和角度相同,則可以使用使用以下公式判定和求解背景重疊:
其中F1,F2分別為兩個攝像機在同一時刻拍攝到的圖像,Ω,Ψ分別是兩幅圖像的子區域。D(F1,F2)越大,則兩個圖像的重疊區域越大。其中重疊區域則可以通過最小化來判定。
圖1中,紅、黃、綠、藍四個方框代表四個攝像機的可視區域,背景融合則是將這四個區域合成為一個整體。
1.2 人體提取技術方案
為獲得視頻中完整的人體圖像,本項目擬采用背景差分的方式提取人體。首先通過時空聯合進行去噪,同時消除閃光和抖動,然后使用中值濾波聯合運動分析進行動態背景建模,最后利用背景差結合運動跟蹤情況獲得視頻中的人體圖像。
監控系統中由于連續采集的需要,視頻信號的質量較差,尤其在銀行這樣的室內環境中,由于光線不足,采集受空氣擾動影響較大,視頻中噪聲污染較為嚴重。噪聲不僅影響視頻的視覺效果,而且嚴重影響視頻對象分割與識別的準確率。傳統的去噪方法主要是在圖像內進行的,如高斯濾波器、維納濾波器、中值濾波器、頻域濾波和小波域去噪等,都是利用圖像的空域相關性進行平滑處理。但空域相關性并不能完全區分視頻信號與噪聲信號,圖像邊緣和細節的空域相關性較弱,而污染嚴重時噪聲之間卻產生較強空域相關性。這使得空域濾波在去噪時無法避免破壞圖像細節,且去噪能力不強。由于視頻信號具有連貫性,視頻幀間的時域相關性遠遠大于空域相關性,近年來,人們開始研究時域和時空域聯合的視頻去噪方法,而單純的時域濾波忽略了空間相關性,雖然在信噪比等參數上有所提高,但視覺效果不佳,所以時空聯合成為視頻去噪的主要發展方向。時空聯合去噪方法比以往的各種方法更能保護圖像細節,去除視頻噪聲能力更強,運算速度較快,視覺效果和峰值信噪比(PSNR)都可以得到有效提升。消除閃光和抖動則可以直接采用現有成熟技術。
運動物體的提取方法主要分幀差法背景差法兩類,幀差法獲得的物體不完整,背景差法需要有固定背景或動態背景建模,銀行內的光線、器具擺放等背景因素都不固定,因此不能使用固定背景的方法,項目擬采用基于中值濾波與運動分析結合的動態背景建模方法。首先通過運動檢測與跟蹤,獲得當前幀中靜止區域累積各像素點的顏色直方圖,然后通過直方圖計算中值作為背景。
通過上述背景建模和背景差應該可以準確地獲得當前場景中的運動物體,但項目中需要獲得的是完整的人體,因此需要在背景差的基礎上濾去一般物件和陰影等非人體因素,并且要能區分出長期停留的人體部分,解決這些問題的主要技術手段有運動跟蹤、體積判定、二階差分等。
1.3 多目標跟蹤
目標跟蹤的研究歷史較長,但多目標跟蹤仍是視頻分析中的一個研究難題,尤其在本項目中,目標間存在交叉、重合和停留的情況。通過多個目標的運動狀態進行跟蹤,不僅可以對各目標的行為進行單一分析,也可以幫助對目標的交互行為進行分析,以及對目標的群體行為進行識別。多目標跟蹤的主要難題在于各目標之間的重疊,本文通過運動方向不變的假設來解決這一問題,即認為當對象重疊再分開后,由原來運動狀態決定。
令兩個視頻對象的速度分別為v1、v2,加速度分別為a1、a2,重疊后經過t時間段分離,則使用:
分別預測兩個對象的位置,然后認定與預測位置相接近的對象為原跟蹤對象。
當有多個對象重疊時,將上述方法進一步推廣,則可以解決一般多目標跟蹤的問題。
2 基于多鏡頭的行為識別
2.1 人體行為識別
目前人行為理解雖然取得一定的進展,但行為理解研究還只局限于簡單、固定視角且已切分好后的動作,對不同動作連續變化的長運動序列的研究比較少,而且魯棒差,在噪聲、亮度和光照變化強烈以及視角變化的復雜環境中正確識別率大大降低。目前的行為識別方法如狀態轉移的圖模型方法和模板匹配方法通常在計算代價和運動識別的準確度之間進行折中,而且都是先訓練后使用,只能識別訓練中預先定義好的動作,沒有自動學習新行為的能力,缺乏考慮場景等背景知識,很難根據目標行為和場景的先驗知識進行自動機器學習。例如HMM等方法被看成一個黑盒,它不解釋某種行為是什么,只輸出一種未知行為與認知的模式行為之間的概率。所以仍需要尋找和開發新技術,以利于在提高行為識別性能的同時,又能有效地降低計算的復雜度。
行為本身具有很強的模糊性,同一行為、事件、狀態在不同的場景有著不同的概念,當同一場景中有多個目標出現時其行為模糊性更加明顯。所以,如何借助于先進的視覺算法和人工智能等領域的成果,將現有的簡單行為識別與理解推廣到更為復雜場景下的事件與場景理解,是將計算機視覺低、中層次的處理推向高層抽象思維的關鍵問題。
使用基于多鏡頭的行為識別,不僅可以結合多攝像機獲得的多角度信息,而且可以通過各角度信息進行結果驗證。多鏡頭為行為識別提供了豐富的識別素材,這也為引入人工智能、機器學習等手段提供了基礎。
2.2 基于層次分析的事件判定機制
盜搶案件的發生是雙方或多方的事件,案件行為既有行為人整體、群體的表現,也有人體部分運動的表現,基于視頻信息判定案件發生既有定量的信息又有定性的信息,使用層次分析方法可以有國地結合各方面的因素。層次分析方法起源于運籌學,目前也有人將它引入網絡自動選擇等問題,本文首次將它引入事件判定機制,為事件的判定提供了新的思路和方法。
3 結論
由于拍攝角度不同,同一事物的運動在不同鏡頭中表現可能完全不同。本文在攝像機方向一致的假設前提條件下,依據拍攝范圍高度重合的特點,提出基于背景融合的多鏡頭運動融合方法。背景融合方法可以對場景內的事物進行協同處理,避免對同一事物重復計算,簡化系統運行過程中的坐標變換過程。結合多目標跟蹤、人體行為識別等技術,本文提出了一套新的高效行為識別方法。
參考文獻:
[1] 王亮, 胡衛明, 譚鐵牛. 人運動的視覺分析綜述[M]. 計算機學報, 2002, 25(3): 225-237.
[2] 李妍婷, 羅予頻, 唐光榮. 單目視頻中的多視角行為識別方法[M]. 計算機應用. 2006, 26(7):1592-1594.
[3] 張麗君, 吳曉娟, 盛贊, 等. 基于HMM復雜場景下的行為識別方法[M]. 計算機工程, 2008, 34(7): 212-214.
[4] 胡長勃, 馮濤, 馬頌德. 基于主元分析法的行為識別[M]. 中國圖象圖形學報, 2000, 5(10):818-821.
[5] 凌志剛, 趙春暉, 梁彥. 基于視覺的人行為理解綜述[M]. 計算機應用研究, 2008, 25(9):2570-2578.
[6] Kittler J, Ballettem, Christmasw J,etal.Fusion of multiple cue detectors for automatic sports video annotation[M]. Workshop on Structura, Syntactic and Statistical Pattern Recognition. 2002: 597-606.
[7] Tjondronegoro D,Chen Y P P, Pham B. Content-based video indexing for sports applications using integrated multi-modal approach[M]. The 13th Annual ACM International Conference on Multimedia. 2005: 1035-1036.