許慧芳,許亞軍
(太原理工大學(xué) 信息工程學(xué)院,山西 太原 030024)
智能視頻監(jiān)控系統(tǒng)中多攝像頭協(xié)同跟蹤算法
許慧芳,許亞軍
(太原理工大學(xué) 信息工程學(xué)院,山西 太原 030024)
為了提高智能視頻監(jiān)控系統(tǒng)中運(yùn)動目標(biāo)跟蹤的準(zhǔn)確率和有效性,利用數(shù)據(jù)融合和協(xié)同跟蹤技術(shù),實(shí)現(xiàn)了多攝像頭協(xié)同跟蹤系統(tǒng)中運(yùn)動目標(biāo)的有效跟蹤。首先,利用單攝像頭獨(dú)自跟蹤得到目標(biāo)圖像,然后利用平面單應(yīng)性和極線幾何約束結(jié)合實(shí)現(xiàn)多攝像頭視圖間的目標(biāo)匹配和協(xié)同跟蹤,最后得到精確的目標(biāo)跟蹤結(jié)果。通過在MATLAB上實(shí)驗(yàn)仿真,并與單攝像頭目標(biāo)跟蹤進(jìn)行對比,得出該算法具有較好的跟蹤效果以及抗遮擋性能,可廣泛應(yīng)用于智能視頻監(jiān)控系統(tǒng)中。
智能視頻監(jiān)控;數(shù)據(jù)融合;協(xié)同跟蹤;平面單應(yīng)性;幾何約束
隨著計(jì)算機(jī)性能的不斷提高,以及圖像處理技術(shù)的不斷發(fā)展,智能視頻監(jiān)控(Intelligent Video Surveillance)已經(jīng)逐步在國家經(jīng)濟(jì)建設(shè)、國防力量支撐、智能家居安防等諸多領(lǐng)域得到了廣泛的應(yīng)用。尤其當(dāng)前我國提出了“互聯(lián)網(wǎng)+”的新一代信息技術(shù)創(chuàng)新革命,智能視頻監(jiān)控技術(shù)潛在的市場價值必然會促使更多研究人員投身這一科研行列。
智能視頻監(jiān)控技術(shù)的關(guān)鍵是從視頻序列中對運(yùn)動目標(biāo)進(jìn)行檢測、分類、目標(biāo)跟蹤以及目標(biāo)行為的理解與描述這幾個部分,如圖1所示[1]。其中,低級視覺部分包括運(yùn)動目標(biāo)檢測、分類識別以及目標(biāo)跟蹤;中級視覺部分即多攝像頭數(shù)據(jù)融合,主要是融合來自多個單攝像頭的數(shù)據(jù),協(xié)同整個系統(tǒng)的跟蹤;高級視覺部分主要由行為理解和描述等部分組成。雖然智能視頻監(jiān)控經(jīng)過了十幾年的快速發(fā)展,也取得了顯著的成就,但應(yīng)用場景復(fù)雜性與多元化決定了在未來較長階段還需要科研學(xué)者投入大量的精力研究解決該技術(shù)的重點(diǎn)難點(diǎn)問題。尤其是,目標(biāo)跟蹤作為智能視頻監(jiān)控的關(guān)鍵技術(shù)之一,當(dāng)應(yīng)用場景范圍較廣或者存在感興趣目標(biāo)互相遮擋問題時,多攝像頭之間如何協(xié)同工作已經(jīng)成為智能視頻監(jiān)控技術(shù)的一個發(fā)展瓶頸,引起了人們極大的研究熱情。

圖1 智能視頻監(jiān)控技術(shù)的研究內(nèi)容
2.1 目標(biāo)交接與數(shù)據(jù)融合
作為多攝像頭跟蹤系統(tǒng)的核心技術(shù)之一,多攝像頭之間目標(biāo)交接的基礎(chǔ)往往是目標(biāo)匹配。因此,對目標(biāo)交接方法的研究也是對目標(biāo)匹配的研究。目標(biāo)交接技術(shù)解決的主要問題是,目標(biāo)從一個攝像頭視野中消失或者進(jìn)入另外一個攝像頭視野時,如何完成目標(biāo)匹配和確認(rèn)的問題[2]。Guler. S等[3]首次提出了一個基于視野分界線的多角度多攝像頭視圖跟蹤系統(tǒng),其中的目標(biāo)交接就是利用了目標(biāo)與視野分界線之間的關(guān)系。L. F. Teixeira等[4]提出的量化局部特征描述符與自適應(yīng)學(xué)習(xí)相結(jié)合的方法來匹配目標(biāo),就是通過目標(biāo)之間的對應(yīng)關(guān)系來完成目標(biāo)交接。
同時,數(shù)據(jù)融合也是建立在目標(biāo)匹配的基礎(chǔ)之上的,數(shù)據(jù)融合能否進(jìn)一步提取有效信息的關(guān)鍵就是能否進(jìn)行良好的目標(biāo)匹配。常用的數(shù)據(jù)融合理論包括卡爾曼濾波、模糊邏輯理論、神經(jīng)網(wǎng)絡(luò)等,這里不再贅述。值得注意的是,現(xiàn)在所提出的目標(biāo)匹配算法都有其一定的局限性,普適的匹配算法目前并未被人們所發(fā)現(xiàn)。
2.2 多攝像頭協(xié)同調(diào)度
在廣域的動態(tài)場景監(jiān)控系統(tǒng)中,多攝像頭協(xié)同調(diào)度技術(shù)在穩(wěn)定跟蹤性能、提高跟蹤質(zhì)量以及有效分配計(jì)算資源等方面起著重要的作用。由于計(jì)算機(jī)性能的不斷提升,信息技術(shù)的持續(xù)革新,攝像機(jī)網(wǎng)絡(luò)化已經(jīng)在逐步代替單純的多攝像頭協(xié)同。作為近兩年研究的熱點(diǎn),攝像機(jī)網(wǎng)絡(luò)越來越多地受到相關(guān)學(xué)者的關(guān)注。
攝像機(jī)網(wǎng)絡(luò)主要分為集中式和分布式兩種結(jié)構(gòu),拓?fù)湫问揭妶D2。攝像機(jī)網(wǎng)絡(luò)作為多攝像頭系統(tǒng)發(fā)展雛形出現(xiàn)的時候是建立在集中式基礎(chǔ)之上的,系統(tǒng)的整體性能更多地依賴于中央處理計(jì)算機(jī),對攝像頭本身的計(jì)算性能要求較低。基于分布式結(jié)構(gòu)的攝像機(jī)網(wǎng)絡(luò)已經(jīng)逐步得到廣泛的應(yīng)用,因?yàn)檫@種網(wǎng)絡(luò)化攝像機(jī)系統(tǒng)幾乎不需要中央處理器,并且對通信環(huán)境、通信帶寬以及數(shù)據(jù)中心等要求較低,但分布式網(wǎng)絡(luò)對每個攝像機(jī)的數(shù)據(jù)處理能力要求較高[5]。A. Alahi等[6]提出了一種基于視覺的攝像頭跟蹤調(diào)度算法,這種固定攝像頭與移動攝像頭相配合的主從分布系統(tǒng)其構(gòu)成思想就是來源于無線傳感器網(wǎng)絡(luò)。

圖2 多攝像頭拓?fù)浣Y(jié)構(gòu)示意圖
本文研究實(shí)現(xiàn)的基于分布式多攝像頭協(xié)同跟蹤系統(tǒng),系統(tǒng)框架如圖3所示。分布式系統(tǒng)對單攝像頭的硬件性能有較高的要求,但隨著技術(shù)的不斷進(jìn)步,目前的集成電路、計(jì)算機(jī)視覺技術(shù)已經(jīng)能夠滿足這樣的要求。分布式主要體現(xiàn)在圖像處理和控制兩個方面,依賴每個攝像頭獨(dú)自的數(shù)據(jù)運(yùn)算環(huán)節(jié),就可以實(shí)現(xiàn)單攝像頭對目標(biāo)的跟蹤;同時,通過攝像頭之間網(wǎng)絡(luò)化通信,可以有效完成攝像頭之間的協(xié)同控制等;攝像頭之間目標(biāo)匹配傳遞和運(yùn)動狀態(tài)的交接確認(rèn),又為數(shù)據(jù)融合提供了平臺。下面首先對算法中2個關(guān)鍵內(nèi)容進(jìn)行研究。
《造紙裝備及材料》是為造紙裝備制造企業(yè)、材料制造企業(yè)專業(yè)服務(wù)的期刊,國內(nèi)統(tǒng)一刊號CN43-1535/TS,國際連續(xù)出版物刊號:ISSN 2096—3092,全國公開發(fā)行。(2018年是第47卷,176期,季刊,大16開版)
3.1 平面單應(yīng)性(Planar Homography)
一個平面到另一個平面的投影映射,在計(jì)算機(jī)視覺中這種投影映射被定義平面的單應(yīng)性。空間中同一平面的任意2幅不完全對應(yīng)的圖像可以通過單應(yīng)性關(guān)聯(lián)在一起,這一特性在很多現(xiàn)實(shí)應(yīng)用中受到了廣泛的關(guān)注?;趫D像平面單應(yīng)性來實(shí)現(xiàn)多視圖的目標(biāo)融合,較基于標(biāo)定的多攝像頭跟蹤方法易于實(shí)現(xiàn)而且算法相對簡單,因此本文中采用平面單應(yīng)性來實(shí)現(xiàn)目標(biāo)融合。
假設(shè)有2個攝像頭a和b,這2個相機(jī)都向平面π中的點(diǎn)P看去。點(diǎn)P在攝像頭a和b中的成像分別為Pa和Pb,如圖4所示。根據(jù)攝像頭投影成像原理[7]可知
Pa=HaπPπ
(1)
Pb=HbπPπ
(2)
式中:Haπ表示攝像頭a的投影矩陣,相應(yīng)地,Hbπ為攝像頭b的投影矩陣,平面圖像上的點(diǎn)通過這種存在映射關(guān)系的投影矩陣與目標(biāo)圖像上的點(diǎn)聯(lián)系了起來。由式(1)和(2)可推導(dǎo)出
(3)
平面中任一點(diǎn)在多個攝像頭中的成像點(diǎn)之間存在著一定的對應(yīng)關(guān)系,即存在一個H矩陣,使得Pb=HPa。這個3×3的矩陣H稱為平面單應(yīng)性矩陣(Planar Homography Matrix),這種投影對應(yīng)關(guān)系稱為平面單應(yīng)性(Planar Homography)。

圖4 平面點(diǎn)與成像點(diǎn)空間模擬圖
3.2 極線幾何約束(Epipolar Constraint)
在多視幾何系統(tǒng)中,有2個攝像頭在不同角度拍攝物理空間中的一實(shí)體點(diǎn),在2幅圖像上分別成有2個成像點(diǎn)。立體匹配就是已知其中的一個成像點(diǎn),在另一幅圖像上找出該成像點(diǎn)的對應(yīng)點(diǎn)。極線幾何約束是立體匹配技術(shù)中應(yīng)用較廣的一種,由于極線幾何約束提供的約束條件,使得目標(biāo)圖像上的匹配對應(yīng)點(diǎn)的范圍限制在一條直線上。極線約束這種點(diǎn)對直線的約束與點(diǎn)到點(diǎn)的平面單應(yīng)性映射一樣,給出了對應(yīng)點(diǎn)的重要約束條件,也常被用來進(jìn)行多攝像頭融合。
如圖4所示,對于平面中任何一點(diǎn)P,點(diǎn)P在攝像頭a和b中的成像分別為Pa和Pb。根據(jù)極線約束原理,空間平面中任一點(diǎn)的多個成像點(diǎn)之間存在著一種約束關(guān)系,也就是這里的Pa和Pb之間存在一種約束關(guān)系,即Pb一定在與點(diǎn)P和Pa確定的直線L平行的直線L′上。直線L′可由下式確定
L′=FPaπ
(4)
其中,F(xiàn)是一個3×3的基礎(chǔ)矩陣(Fundamental Matrix)。與單應(yīng)性矩陣相同,可以通過2幅圖像中的對應(yīng)點(diǎn)來計(jì)算基礎(chǔ)矩陣F。本文使用findHomography函數(shù)以及findFundamentalMat函數(shù)來分別計(jì)算單應(yīng)性矩陣H、基礎(chǔ)矩陣F,并將平面單應(yīng)性和極線幾何約束相結(jié)合,來實(shí)現(xiàn)多攝像頭圖像之間的數(shù)據(jù)融合與目標(biāo)關(guān)聯(lián)。
整個系統(tǒng)采用基于單攝像頭目標(biāo)檢測進(jìn)而跟蹤的方法,也即目標(biāo)的檢測與跟蹤首先在單攝像頭層完成,對于每個攝像頭輸入的每一視頻幀,根據(jù)目標(biāo)檢測提取的前景結(jié)果在單攝像頭上使用融合Mean Shift的粒子濾波算法對多目標(biāo)進(jìn)行自動跟蹤,單攝像頭目標(biāo)跟蹤具體算法參見文獻(xiàn)[8],這里不再贅述。當(dāng)各個攝像頭的獨(dú)立跟蹤完成后,再通過平面單應(yīng)性和極線幾何約束,實(shí)現(xiàn)在不同攝像頭視圖中同一目標(biāo)的匹配,通過對多個攝像頭的數(shù)據(jù)信息進(jìn)行融合和協(xié)同跟蹤來確定目標(biāo)的運(yùn)動狀態(tài)。最后,對單攝像頭跟蹤結(jié)果進(jìn)行修正,并輸出最終跟蹤結(jié)果。算法流程如圖5所示。

圖5 多攝像頭協(xié)同跟蹤算法流程圖
本文在MATLAB 7.10的仿真環(huán)境下,選用ICGLab6[9]數(shù)據(jù)集中的視頻測試序列“chap”(分辨率1 024×768,幀率 20 f/s (幀/秒),共3 760幀)來評估系統(tǒng)的跟蹤效果進(jìn)而驗(yàn)證算法的有效性,該數(shù)據(jù)集使用3個攝像頭搭建了一個有公共重疊區(qū)域的應(yīng)用場景。然后在對比單攝像頭獨(dú)立跟蹤效果與多攝像頭協(xié)同跟蹤效果的基礎(chǔ)上,使用MOTA[10]等指標(biāo)給出了跟蹤效果的數(shù)據(jù)對比。
ICG多攝像頭室內(nèi)數(shù)據(jù)集“chap”的跟蹤效果如圖6所示。圖中第1、2、3列分別對應(yīng)第1、2、3個攝像頭在第326幀、417幀和742幀的跟蹤結(jié)果。由圖可以看出,目標(biāo)在行走狀態(tài)多變、遮擋面積較大的情況下,都能被多攝像頭準(zhǔn)確穩(wěn)定地跟蹤。

圖6 ICG視頻測試序列“chap”多攝像頭協(xié)同跟蹤效果圖
圖7對比了在跟蹤目標(biāo)之間存在互相遮擋的情況下,采用3個攝像頭協(xié)同跟蹤和使用單個攝像頭獨(dú)立跟蹤的結(jié)果。其中,圖7a展示了采用3個攝像頭進(jìn)行協(xié)同跟蹤的時候,第1個攝像頭在第494幀、第539幀和第731幀的跟蹤結(jié)果。從跟蹤效果可以看出,本系統(tǒng)能夠相互交換視野中多目標(biāo)的運(yùn)動狀態(tài)數(shù)據(jù)信息,所以可以保持良好的跟蹤性能,并且克服了單攝像頭獨(dú)自跟蹤視野受限這種情況。而圖7b則展示了采用單攝像頭進(jìn)行單獨(dú)跟蹤時第1個攝像頭在上述幀的跟蹤結(jié)果,由于視野中目標(biāo)之間存在嚴(yán)重的互相遮擋,單個攝像頭無法像多攝像頭系統(tǒng)那樣從多個視角獲取目標(biāo)的信息,無法對目標(biāo)進(jìn)行有效跟蹤,容易發(fā)生錯誤匹配和跟丟的現(xiàn)象。

圖7 多攝像頭協(xié)同跟蹤與單攝像頭跟蹤效果對比圖
計(jì)算機(jī)視覺領(lǐng)域有許多針對多目標(biāo)跟蹤效果的衡量指標(biāo),MOTA(Multiple Object Tracking Accuracy)是其中公認(rèn)度較高的一項(xiàng),主要用來衡量跟蹤的準(zhǔn)確度。設(shè)定t時刻的跟丟個數(shù)由mt來表征。同樣的,t時刻的誤判數(shù)、誤配數(shù)和目標(biāo)總數(shù)分別由fpt,mmet和gt表征,計(jì)算如下
(5)
為了更好地評估該多攝像頭協(xié)同算法的跟蹤性能,這里使用MOTA、MT(跟丟個數(shù))、FP(誤報(bào)個數(shù))以及ID-Switch(目標(biāo)ID變換次數(shù))等4個指標(biāo)對ICG視頻測試序列“chap”中第1個攝像頭采集的視頻的前1 500幀(共計(jì)2 740個行人目標(biāo))在單攝像頭跟蹤和多攝像頭協(xié)同跟蹤2種情況下的跟蹤效果進(jìn)行比較,對比結(jié)果如表1。單攝像頭跟蹤采用了系統(tǒng)中融合均值偏移的粒子濾波目標(biāo)跟蹤算法。在該實(shí)驗(yàn)室監(jiān)控場景中目標(biāo)之間很多時候容易發(fā)生嚴(yán)重的遮擋,單攝像頭獨(dú)立跟蹤很難長時間準(zhǔn)確地跟蹤目標(biāo)。但是,多攝像頭的協(xié)同配合很好地克服了這一缺陷。由表1可知,多攝像頭協(xié)同跟蹤的MT僅有單攝像頭獨(dú)立跟蹤的12%。其次,由于算法中引入平面單應(yīng)性和極線幾何約束函數(shù),多攝像頭之間受映射精度的影響,導(dǎo)致其FP和ID-Switch較單攝像頭獨(dú)立跟蹤稍多。但是,相比較好的跟丟個數(shù)指標(biāo),這個誤差在可接受的范圍之內(nèi)。綜合對比,基于多攝像頭協(xié)同目標(biāo)跟蹤算法的表現(xiàn)比單攝像頭單獨(dú)跟蹤算法要優(yōu)異很多。
表1 ICG場景單、多攝像頭跟蹤方法數(shù)據(jù)對比

方法MOTA/%MT/個FP/個ID-Switch/次單攝像頭跟蹤0 804516813多攝像頭跟蹤0 941625940
本文以智能視頻監(jiān)控系統(tǒng)的發(fā)展瓶頸——多攝像頭目標(biāo)跟蹤為研究背景,詳細(xì)闡述了多攝像頭協(xié)同跟蹤的關(guān)鍵技術(shù),在此基礎(chǔ)上設(shè)計(jì)了一個基于多攝像頭協(xié)同跟蹤系統(tǒng)的算法。算法采用融合均值偏移的粒子濾波方法來實(shí)現(xiàn)單攝像頭的獨(dú)自跟蹤,然后采用平面單應(yīng)性和極線幾何約束的目標(biāo)匹配方法,對不同攝像頭之間的目標(biāo)進(jìn)行映射,從而方便地實(shí)現(xiàn)了多攝像頭融合和協(xié)同跟蹤。最后,在實(shí)驗(yàn)室環(huán)境下使用該算法實(shí)現(xiàn)了對多個目標(biāo)的自動跟蹤。從仿真結(jié)果可以看出,該算法跟蹤效果與單攝像頭目標(biāo)跟蹤相比較,具有跟蹤準(zhǔn)確度高、抗遮擋干擾強(qiáng)等特點(diǎn),是一種高性能的多目標(biāo)跟蹤方法,可廣泛應(yīng)用于廣域動態(tài)場景的多攝像頭智能視頻監(jiān)控系統(tǒng)中。
[1] 許亞軍, 許慧芳, 張艷春. 智能視頻監(jiān)控系統(tǒng)中運(yùn)動目標(biāo)檢測的研究[J]. 電視技術(shù), 2014,38(9):228-231.
[2] 孫曉燕. 多攝像機(jī)接力目標(biāo)跟蹤關(guān)鍵算法研究[D]. 濟(jì)南:山東大學(xué), 2014.
[3] GULER S, GRIFFITH J M, PUSHEE I A. Tracking and handoff between multiple perspective camera views[C]//Proc. Applied Imagery Pattern Recognition Workshop. [S.l.]:IEEE Press,2003:275-281.
[4] TEIXEIRA L F, CORTE-REAL L. Video object matching across multiple independent views using local descriptors and adaptive learning[J]. Pattern Recognition Letters,2009,30(2): 157-167.
[5] AVED A J, HUA K A, GURAPPA V. An informatics-based approach to object tracking for distributed live video computing[J]. Multimedia Tools and Applications,2014,68(1):111-133.
[6] ALAHI A, MARIMON D, BIERLAIRE M, et al. A master-slave approach for object detection and matching with fixed and mobile cameras[C]// Proc. 15th IEEE International Conference on Image Processing. [S.l.]:IEEE Press,2008:1712-1715.
[7] CHU C, HWANG J. Fully unsupervised learning of camera link models for tracking humans across non-overlapping cameras[J]. IEEE Trans. Circuits and Systems for Video Technology, 2014,24(6):979 - 994.
[8] 許慧芳, 許亞軍. 智能視頻監(jiān)控系統(tǒng)中運(yùn)動目標(biāo)跟蹤的研究[J]. 電視技術(shù), 2014,38(19):202-206.
[9] POSSEGGER H. Multi-Camera Datasets[EB/OL].[ 2015-03-20].http://lrs.icg.tugraz.at/download.php.
[10]ALANKAR S R B,BABU C S M. Efficient human tracking system[J]. International Journal of Research in Computer Applications and Robotics,2014,3(2): 21-28.
責(zé)任編輯:閆雯雯
Algorithm Research on Multiple Cameras Collaborative Tracking in Intelligent Video Surveillance System
XU Huifang, XU Yajun
(TaiyuanUniversityofTechnology,CollegeofInformationEngineering,Taiyuan030024,China)
To improve the accuracy and effectiveness of the moving objects tracking in intelligent video surveillance system, using data integration and collaborative tracking technology,effective tracking of moving targets in multi-camera tracking system is achieved. Firstly, the foreground image is got by every single camera targets tracking, and then use the planar homography and the epipolar constraint,targets correlation and collaborative tracking between multi-camera views are achieved, and finally accurate tracking results are got. Through experiments and simulations in MATLAB, comparing with single camera tracking results, the algorithm has better tracking performance and anti-blocking properties, and can be widely used in intelligent video surveillance system.
intelligent video surveillance; data integration; collaborative tracking; planar homography; epipolar constraint
山西省自然科學(xué)基金項(xiàng)目(2013011017-3)
TN949.6
A
10.16280/j.videoe.2015.18.020
2015-03-29
【本文獻(xiàn)信息】許慧芳,許亞軍.智能視頻監(jiān)控系統(tǒng)中多攝像頭協(xié)同跟蹤算法[J].電視技術(shù),2015,39(18).