崔智高 李艾華 姜 柯 周 杰
①(清華大學自動化系 北京 100084)
②(第二炮兵工程大學502教研室 西安 710025)
隨著世界范圍內對公共安全以及軍事安全的迫切需要,視覺監控成為計算機視覺領域的重要研究課題。一般來說視覺監控包括以下幾個方面的研究內容:感興趣目標檢測、目標分割與跟蹤、行為分析與理解等[1-3]。由于目標跟蹤是其中的中心環節,因此得到了國內外學者的廣泛關注。傳統的跟蹤系統[4]多采用靜止相機,由于相機視場固定,分辨率單一,無法獲得跟蹤目標的高分辨率圖像,為日后的查詢、舉證等工作帶來困難;隨著硬件水平的提高,基于單目 PTZ(Pan-Tilt-Zoom)相機的主動跟蹤系統得到了廣泛研究與應用[5],這些系統可使目標以較大尺度出現在圖像中心,但由于視場狹小丟失了全景信息,難以直觀獲得目標在場景中的位置。
針對上述缺陷,包含PTZ相機的多目視覺系統成為視覺監控中的研究熱點,這些系統一般工作在主從模式下,主相機實現目標在全景下的跟蹤,并控制PTZ相機對目標進行主動跟蹤。如文獻[6,7]提出了一個靜止相機與一個 PTZ相機相結合的系統構架,該系統主要問題在于監控視場有限,僅局限于靜止攝像機的監控視場,無法適應于大場景下的監控;為了擴大系統的監控范圍,文獻[8]提出了多靜止相機與PTZ相機相結合的系統配置,這無疑增大了系統的硬件開銷;此外,文獻[9,10]提出了全向相機與PTZ相機相結合的跟蹤系統配置,但該系統一般應用于室內場景,且由于全向相機分辨率低,較難實現兩相機之間的信息融合。
受變色龍視覺系統的啟發,本文提出一種基于雙PTZ相機的主從跟蹤方法。由于雙目PTZ相機的對稱性和參數的可變性、可控性,相比于傳統主從跟蹤系統,具有靈活性強、監控范圍廣、便于信息融合等優勢。針對傳統主從控制方法的局限性,本文設計了一種基于球面坐標模型的主從控制方法,統一了兩相機不同參數下的情況,可以實現兩攝像機任意pan-tilt-zoom參數下的主從模式跟蹤,適應于大范圍場景下的監控。實際監控場景中的多組實驗結果驗證了本文方法的有效性。
系統總體結構如圖1所示。可分為圖像捕獲模塊,兩個攝像機的控制模塊以及兩個攝像機的跟蹤模塊。攝像機控制模塊一方面的用途是改變攝像機pan-tilt-zoom參數以切換監控視場,另一方面的用途是主動跟蹤時受另一相機(主相機)控制,從而獲得目標的高分辨率圖像。兩攝像機的跟蹤模塊具有對稱的結構,某一相機發現目標后即成為主相機,另一相機為從相機,主相機在每一幀圖像中將跟蹤目標的預測值傳送給從相機,從相機根據預測值以及主相機pan-tilt-zoom參數利用球面坐標模型計算其pan-tilt-zoom參數。
視覺巡視過程中,發現感興趣目標的相機為主相機,記為 Cam-M,另一相機為從相機,記為Cam-S。本質上,本文問題可描述為主從跟蹤過程中的從相機參數估計問題,即主相機 Cam-M 在任意pan-tilt-zoom參數(PM,TM,ZM)下,由跟蹤目標在 Cam-M 觀測圖像IM上的運動軌跡(t=1,…,n),估計從相機 pan-tilt-zoom參數(t=1,…,n),使得跟蹤目標始終處于Cam-S圖像中心位置。本文之所以強調 Cam-M 在任意 pan-tiltzoom參數下,是因為實際應用中不同的監控場景或監控任務對應的pan-tilt-zoom參數不同,實現任意參數下的主從模式跟蹤,具有更大的實際應用價值。

圖1 系統結構圖
傳統靜止相機加PTZ相機的系統配置中[6,7],兩攝像機的協同控制采用離散采樣的標定方法。設[xs,ys,1]T為靜止攝像機圖像中目標的齊次坐標,[p,t]T為使該圖像坐標位于PTZ相機圖像中心的參數,通過手動采集一系列圖像點及其對應的參數,可獲得兩者之間的匹配函數F。
針對本文系統,如果采用上文提到的離散采樣映射的標定方法,當 Cam-M 參數變化時,需要重新建立Cam-M圖像坐標與Cam-S的pan-tilt-zoom參數之間的映射關系,這無疑會影響系統的應用。本文設計了一種基于球面坐標模型的主從控制方法,只要兩個相機安裝固定,不受 Cam-M 參數改變的影響,可實現任意pan-tilt-zoom參數下的主從模式跟蹤。
3.2.1主相機目標跟蹤主相機 Cam-M 發現目標后,采用靜止相機下的跟蹤方法逐幀跟蹤目標。基于系統的實時性要求,本文采用基于顏色直方圖的Mean Shift跟蹤算法[16]。顏色模型選用受光照影響較小的H分量作為目標的顏色特征向量,并把H分量量化為16個色度空間,利用該分量核函數加權直方圖作為目標模型,通過Mean Shift的迭代運算,可在當前幀中搜索與目標模型最相似的潛在目標,目標模型與候選模型的相似度用巴氏系數度量。
在2008年,針對英語專業課程改革,文秋芳以 Swain 的“輸出假設”作為理論基礎,首次提出了基于“學用一體”理念的“輸出驅動假設”。2013 年文秋芳將該假設拓展應用到大學英語教學,2014年該假設被修訂為“輸出驅動-輸入促成假設”,并將其正式命名為“產出導向法”(如圖1所示)。
Mean Shift跟蹤算法一般采用前一幀目標的中心作為當前幀跟蹤窗口的初值進行迭代,當目標運動速度較快時,有可能丟失跟蹤目標,為此,本文引入Kalman濾波器。本文中Kalman濾波器有兩個作用:一是通過先前幀的觀測預測目標在當前幀的中心位置,并在當前幀的預測鄰域內進行目標搜索與匹配,這樣既可提高迭代收斂速度,又可以減小目標丟失的可能性;二是將跟蹤目標中心位置的預測值傳送給從相機,從而可以抵消圖像處理和從相機機械運動的延時誤差,保證目標處于從相機中心位置。如圖2所示。
3.2.2 從相機參數估計主相機能夠及時捕捉目標運動的全景信息,但分辨率較低,目標的精確定位與跟蹤需要由從相機完成,從相機需要不斷調整自身參數以適應目標位置的變化。本文設計了基于球面坐標模型的從相機參數估計方法,其基本思想是對兩個攝像機坐標系分別求取一個變換矩陣RM和RS,建立球面坐標系,并使兩攝像機坐標系上對應點在球面坐標系上的經度值保持一致,緯度差可用來表達視角差異。這樣以兩個攝像機的球面坐標系為橋梁,通過一系列坐標變換,可準確地估計從相機參數。

圖2 目標跟蹤與目標預測示意圖
為了估計變換矩陣RM和RS,采用文獻[11,13]的方法:手動采集監控場景中的N對圖像,并使每對圖像的視場基本保持一致以獲得更多的匹配特征點對,然后采用多組基礎矩陣的方法計算變換矩陣RM和RS,由于此方法是基于統計意義上的,理論上講N越大,RM和RS估計越準確,本文中取N=2 0。當攝像機安裝固定后,即使兩攝像機pantilt-zoom參數變化,RM和RS也不會改變,因此可以方便處理相機參數變化的情形。
從相機參數估計過程具體可以分為4個步驟,如圖3所示。

圖3 從相機參數估計流程

本文采用匹配特征點[17]的方法對 PTZ相機進行標定,攝像機參數矩陣R和K可直接通過攝像機pan-tilt-zoom參數進行計算。
步驟 2 Cam-M 攝像機坐標到球面坐標的變換。將變換到Cam-M對應的球面坐標系,并計算經度和緯度,計算公式如式(2)所示。




因此

事實上場景中目標的深度Dt是未知的,系統無法準確估計目標在Cam-S球面坐標系下的緯度。本質上,計算目標深度Dt和計算目標在 Cam-S球面坐標系下的緯度是基本等價的,它們可看作chicken-and-egg問題。


圖4 根據深度范圍確定從相機緯度范圍

其中λ和γ為加權系數,滿足λ+γ=1 。


3.2.3 從相機控制估計出從相機pan-tilt-zoom 參數后,即可通過串口發送命令控制相機運動到指定參數。PTZ控制包括參數控制和速度控制兩部分。對于參數控制,由于本文在主相機目標跟蹤環節引入了預測機制,因此可以部分抵消指令發出的通訊延遲以及相機機械運動的延時誤差,保證目標處于從相機中心位置。此外,相機 pan-tilt運動的速度應與目標運動的速度成正比,因此本文在主相機中度量前一幀目標中心位置和當前幀目標預測位置的差異,如果某個方向坐標偏移較大,則給定一較大速度,反之,則給定一較小速度(x方向坐標差異對應pan控制速度,y方向坐標差異對應tilt控制速度),這樣可保證跟蹤的平滑性,并可降低相機運動帶來的圖像模糊。
3.2.4高分辨率結果圖跟蹤結束后,系統以高分辨率全景形式輸出,其作用在于可以提高可視化效果,并且有利于后期進行行為分析、犯罪取證等應用。
首先,采用基于特征點和直接像素相結合的方法[14]對兩相機的同步幀圖像進行配準,由于基線長度相對于監控場景深度可忽略不計,本文采用仿射配準模型。采用running average[18]方法估計主相機背景區域并分離前景,通過兩相機同步幀不同分辨率圖像間的配準模型,估計出從相機對應幀圖像中的前景區域和背景區域。


依次將從相機每一幀高分辨率圖像的背景區域映射到IH中,并采用running average[18]的方法進行更新。
最后,依次將從相機每一幀高分辨率圖像的前景區域映射到IH中,生成每一幀的高分辨率全景圖。
本文系統使用SONY EVI D70系列PTZ相機,兩個 PTZ相機固定在室內屋頂用來監控室外大場景。兩個PTZ相機通過RS232串口總線控制,捕獲圖像的大小為320×240,整個系統在C++環境執行,運行環境為3.0 G CPU和1 G內存的PC機。
實驗中給定場景深度范圍為 50~200 m,兩相機基線長度為0.78 m,由于監控場景較大,跟蹤目標尺度變化較小,本文對從相機給定固定的 zoom值,令zoom=18。加權系數λ和γ取0.5,生成的高分辨率全景圖大小為1600×1200,即k=5。在室外場景中進行了多組實驗,驗證了方法的有效性,實驗結果可從http://ivg.au.tsinghua.edu.cn/index.php?n=Main.Data下載。下文中給出了其中的兩個實驗結果。
實驗1Cam-L發現感興趣目標成為主相機(Cam-M),對應的pan-tilt-zoom參數為p=-63.52,t=-1 1.32,z=1 1.50。實驗結果如圖5所示。圖5(a)給出了其中幾幀的跟蹤結果,在第 1幀圖像中Cam-L發現目標并開始跟蹤,Cam-R從初始位置開始調整PTZ參數,在第48幀獲得目標的高分辨率圖像,中間圖像為第195幀、310幀以及460幀的跟蹤結果,第565幀為目標離開Cam-L視場,跟蹤結束,兩相機恢復到預先設定位置。圖 5(b)為高分辨率全景拼接結果(為了可視效果及節省空間,本文將48幀、195幀、310幀以及460幀的前景映射到一張圖像中)。
實驗2Cam-R發現感興趣目標成為主相機(Cam-M),對應的pan-tilt-zoom參數為p=-90.66,t=-1 3.50,z=10.00。實驗結果如圖6所示(說明可參照實驗1)。
為了驗證從相機主動跟蹤過程中參數估計的準確性,本文以實驗1為例,根據目標在主相機的運動軌跡,手動調整從相機參數,使目標在主相機每一幀圖像上軌跡點坐標處于從相機中心位置,并記錄從相機 pan-tilt參數,該參數可以看作真實值,將其與本文從相機參數估計結果進行比較,如圖 7所示。可以看出,本文方法能夠比較精確地估計從相機參數,其中pan參數的平均估計誤差為0.243°,tilt參數的平均估計誤差為0.299°。
本文借鑒變色龍視覺系統的機制,利用兩個PTZ相機構建了能夠實現大場景下廣域監視和高分辨率精確關注的主從跟蹤系統。該系統相對于其它系統具有靈活性強、監控范圍廣、便于信息融合等優勢。針對傳統主從控制方法的局限性,我們設計了一種基于球面坐標模型的主從控制策略,可方便處理兩相機參數變化的情形,能夠實現兩攝像機在任意參數下的主從模式跟蹤。此外,為了直觀獲得目標運動的高分辨率信息,系統以高分辨率全景作為結果輸出,增強了系統的可視性和實用性。在室外場景中進行了多組實驗,驗證了方法的有效性,為大場景下可變視角監控以及多分辨率視覺跟蹤提供了一條有價值的途徑。

圖5 主從跟蹤與高分辨率全景拼接結果(Cam-L為主相機)

圖6 主從跟蹤與高分辨率全景拼接結果(Cam-R為主相機)

圖7 pan參數和tilt參數估計結果
本文下一步將構建準確的場景深度模型以實現對從相機的精確控制,此外,考慮到一般監控場景下,地平面總是可見的,研究如何利用地平面約束實現主從模式跟蹤也是本文下一步的研究內容。
[1]Salti S, Cavallaro A, and Stefano L D. Adaptive appearance modeling for video tracking: survey and evaluation[J].IEEE Transactions on Image Processing, 2012, 21(10): 4334-4348.
[2]李擁軍, 曾標, 徐克付, 等. 復雜背景下基于貝葉斯-全概率聯合估計的前景檢測[J]. 電子與信息學報, 2012, 34(2): 388-392.
Li Yong-jun, Zeng Biao, Xu Ke-fu,et al.. Foreground object detection in complex background based on Bayes-total probability joint estimation[J].Journal of Electronics&Information Technology, 2012, 34(2): 388-392.
[3]Jiang F, Yuan J S, Tsaftaris S,et al..Anomalous video event detection using spatiotemporal context[J].Computer Vision and Image Understanding, 2011, 115(3): 323-333.
[4]趙高鵬, 薄煜明, 尹明鋒. 一種紅外和可見光雙通道視頻目標跟蹤方法[J]. 電子與信息學報, 2012, 34(3): 529-534.
Zhao Gao-peng, Bo Yu-ming, and Yin Ming-feng. An object tracking method based on infrared and visible dual-channel video[J].Journal of Electronics&Information Technology,2012, 34(3): 529-534.
[5]Varcheie P D Z and Bilodeau G A. People tracking using a network-based PTZ camera[J].Machine Vision and Application, 2011, 22(4): 671-690.
[6]Zhou X H, Collins R T, Kanade T,et al.. A master-slave system to acquire biometric imagery of humans at a distance[C]. ACM SIGMM International Workshop on Video Surveillance, Berkeley, USA, Nov. 7, 2003: 113-120.
[7]Choi H C, Park U, and Jain A K. PTZ camera assisted face acquisition, tracking & recognition[C]. IEEE International Conference on Biometrics: Theory, Application and Systems,Washington, USA, Sept. 27-29, 2010: 1-6.
[8]Krahnstoever N O, Yu T, Lim S N,et al..Collaborative real-time control of active cameras in large-scale surveillance systems[C]. Workshop on Multi-camera and Multi-modal Sensor Fusion Algorithms and Applications, Marseille,France, Oct. 18, 2008: 1-12.
[9]Chen C H, Yao Y, Page D,et al..Heterogeneous fusion of omnidirectional and PTZ cameras for multiple object tracking[J].IEEE Transactions on Circuits and Systems for Video Technology, 2008, 18(8): 1052-1063.
[10]毛曉波, 陳鐵軍. 基于人類視覺特性的機器視覺系統[J]. 儀器儀表學報, 2010, 31(4): 832-836.
Mao Xiao-bo and Chen Tie-jun. Machine vision system based on human vision features[J].Chinese Journal of Scientific Instrument, 2010, 31(4): 832-836.
[11]Wan D R and Zhou J. Stereo vision using two PTZ cameras[J].Computer Vision and Image Understanding, 2008,112(2): 184-194.
[12]Wan D R and Zhou J. Multi-resolution and wide-scope depth estimation using a dual-PTZ-camera system[J].IEEE Transactions on Image Processing, 2009, 18(3): 677-682.
[13]Wan D R and Zhou J. Self-calibration of spherical rectification for a PTZ-stereo system[J].Image and VisionComputing, 2010, 28(3): 367-375.
[14]Zhou J, Hu H, and Wan D R. Video stabilization and completion using two cameras[J].IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(12):1879-1889.
[15]Zhou J, Wan D R, and Wu Y. The chameleon-like vision system[J].IEEE Signal Processing Magazine, 2010, 27(5):91-101.
[16]Comaniciu D, Ramesh V, and Meer P. Kernel-based object tracking[J].IEEE Transactionson Pattern Analysis and Machine Intelligence, 2003, 25(5): 564-577.
[17]Sinha S N and Pollefeys M. Pan-tilt-zoom camera calibration and high-resolution mosaic generation[J].Computer Vision and ImageUnderstanding, 2006, 103(3): 170-183.
[18]Cucchiara R, Grana C, Piccardi M,et al..Detecting moving objects, ghosts, and shadows in video streams[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003, 25(10): 1337-1342.