孟 宇,王長波
(華東師范大學 軟件學院,上海 200062)
面向動感影院交互控制的視頻分析方法
孟宇,王長波
(華東師范大學 軟件學院,上海 200062)
動感影院給人身臨其境體驗的關鍵在于與影片視頻結合的互動操控.傳統的互動控制方法是根據影片手動編輯動感座椅的運動參數文件,費時費力也不精確.設計并實現了一種基于視頻的智能分析方法,可以對視頻進行自動分析反求出攝像機參數,經過智能編輯后傳遞給動感座椅.實驗表明,該方法能夠快速準確求解影片中攝像機的位姿信息,滿足動感影院中播放的實時性,給觀眾更強的體驗感.
動感影院;視頻處理;特征點;交互控制
動感影院是從傳統的立體影院基礎上發展而來的,具有主題突出、科技含量高、效果逼真等特點,越來越受到觀眾喜歡.動感影院的一個主要技術問題是動感座椅的操控.這需要求得影片攝像機的自身三維位姿,從而實現座椅有更強的動感效果,而不僅僅是簡單顛簸震動效果.目前的互動控制方法,或者依靠美工根據影片手動編輯動感座椅的運動參數文件,或者采用搖桿設備硬件來計算,費時費力且不精確,影響了互動體驗感.
動感影院交互控制的關鍵是獲取攝像機的運動參數. 文獻[1]提出了基于SIFT[2](scale-invariant feature transform)的目標識別和粒子濾波定位方法,實現單目攝像機的自定位. 文獻[3-4]提出的Mono-SLAM算法[5]可以定位單個攝像頭的三維軌跡. 文獻[6]結合基于卡爾曼濾波的視覺算法,提高了Mono-SLAM算法的魯棒性和可靠性.但在動感影院的互動控制中,由于涉及動感座椅機械運動幅度限制等,同時需要一些特效運動,比傳統的視頻反求更復雜.
本文提出了一種面向動感影院播放控制的視頻智能反求方法,采用自動化的智能視頻分析過程,基于時間動作碼的動態影院軟硬協同控制方式,實現精確的六自由度動感平臺控制具體包括以下幾步:(1)檢測和跟蹤基于視頻的特征點;(2)根據特征點求解攝像機六自由度信息;(3)定義一套匹配運算規則,把攝像機的位姿參數映射到動感座椅的運動范圍上,并且對攝像機鏡頭劇烈運動做監測和處理;(4)把六自由度信息編成指令通過網絡通信接口傳到動感座椅.
采用光流檢測與跟蹤運動目標是計算機視覺[7]領域一個很重要的研究方向.文獻[8]采用了Horn-Schunck[9]方法計算光流;文獻[9]提出一個VLSI(very large scale integration)計算框架來改進Lucas-Kanade[10]方法,從而快速估計光流. 本文采用改進的Lucas-Kanade光流法進行檢測和跟蹤,圖像序列中的光流可以通過跟蹤相鄰幀的特征點來進行計算.光流計算的兩個基本假設條件是亮度恒定和時間連續[11].對于圖像中某個點P(x,y),在t時刻的亮度為I(x,y,t),運動速度為(u, v).在Δt→0時間內,亮度不變,可以得出:
I(x, y, t) = I(x + uΔt, y + vΔt, t+Δt)
(1)
在光流計算中,當光流較大,也就是物體運動范圍較大時,計算誤差可能會比較大,這里采用圖像金字塔[12]的方法來提高計算的魯棒性.當圖像分解到一定層后,相鄰的幀之間圖像運動量將變得足夠小,滿足光流計算的約束條件.
金字塔特征跟蹤的步驟:從最上層開始,計算出光流、仿射矩陣、變換矩陣,并把計算結果傳遞給下一層圖像;然后計算下一層的光流、仿射矩陣、變換矩陣,直到計算得到最后一層的光流、仿射矩陣、變換矩陣.假設計算得到某一層的光流gL、仿射矩陣GL、位移矢量dL和變換矩陣AL,那么下一層的計算結果[13]為
gL-1=2(gL+GLdL)
GL-1=GLAL
(2)
由目標物體上的若干個特征點和它們在圖像中的對應點,可以計算得到目標物體的位姿參數變化[14].本文采用的POSIT(pose from orthography and scaling with iterations)算法[15]是高精度的攝像機位姿求解算法,并且滿足實時性的要求.
圖1所示為尺度正交投影和透視投影的模型.以P0為參考點定義目標參考坐標系為(P0u,P0v,P0w).特征點Pi在參考坐標系的坐標為(Ui,Vi,Wi),在圖像坐標系的對應點為pi(xi,yi),Pi在攝像機坐標系的坐標記作 (Xi,Yi,Zi).特征點Pi的尺度正交投影點為Qi.經過特征點P0取平行于像平面G的平面D,投影中心O到它的距離為Z0.將特征點Pi正交投影到平面D于Qi,再將Qi透視投影到平面G于qi.

圖1 尺度正交投影和透視投影的模型示意圖Fig.1 Model of scale orthogonal projection and perspective projection
位姿計算主要是求解攝像機的旋轉矩陣R和平移向量T.旋轉矩陣R是攝像機坐標系的單位向量i, j, k在物體坐標系(P0u,P0v,P0w)中的投影.可以表示為
(3)
攝像機坐標系原點Oc和參考點P0之間的向量是平移向量T,即坐標值Z0.物體姿態的求解,即求解i, j,X0,Y0和Z0.目標坐標系和攝像機坐標系的對應關系為
(4)

(5)
(6)
在給定εi下,可以通過式(5)的線性方程組歸一化得到i, j和Z0,再由式(6)得到更精確的εi,然后將εi迭代計算得到更精確的位姿參數.最后,根據攝像機坐標系和目標坐標系之間的關系(式(3)),求解出攝像機的六自由度信息.
由于攝像機六自由度參數信息與動感座椅的運動范圍(位移為±200 mm,偏轉角度為±15°)不是直接對應的,本文設計了一套合理的運算規則,對六自由度參數做了映射處理(圖2所示),其中,X,Y,Z分別代表攝像機和座椅在三維空間中的坐標,α, β, γ分別代表攝像機和座椅的偏轉角度.當動感座椅的運動參數在攝像機動作比較小時(在±30 mm內)略微放大,若某個方向的位移為d(0<|d|<30 mm),那么調整后的d′=d/sin2(|d|·2+30);在攝像機動作比較大時(大于100 mm或小于-100 mm)作了縮減處理,若某個方向的位移為d(|d|>100 mm),那么調整后的d′=40·d1/5.其他的位移參數直接映射. 對攝像機偏轉角度介于±3°的參數做了放大,若某個方向的偏轉角度為c(0<|c|<3°),那么調整后的c′=c·sin(|c|·2+30). 對偏轉角度大于10°或小于-10°的參數做了縮小,若某個方向的偏轉角度為c(|c|>10°),那么調整后的c′=c·cos3(|c|·2-30).其他的偏轉參數直接映射.
考慮到動感座椅突然劇烈運動可能會引起危險,對于前后時刻的六自由度參數相差太大(位移差超過50 mm,偏轉角度差超過5°),則后一時刻的位移或者偏轉角就會調整到前一時刻與閾值的差值,確保動感影院安全運行.






圖2 攝像機參數和動感座椅六自由度參數Fig.2 Parameters of camera and dynamic seats
基于以上理論與方法,本文研發了動感影院的控制集成系統,包括影院總控制系統、影片放映系統、動感座椅平臺及控制系統和環境特效控制系統
4.1六自由度信息的顯示與智能編輯
在影片放映系統(圖3所示)六自由度參數顯示區域,顯示了影片實時計算結果,以及添加人為震動后的結果.

圖3 影片放映系統和影院總控制系統界面Fig.3 System interface of video playing and major control
在交互操作一欄,可以添加合適的周期性震動.目前分別定義了舒緩和劇烈兩種震動:(1)頻率為3 Hz,振幅為3 mm;(2)頻率為2 Hz,振幅為5 mm.
4.2動感座椅的交互控制
輸出結果操作會將六自由度信息以文本方式保存到本地,以備檢查或其他需要,也可以直接將六自由度信息通過指令方式傳到動感座椅. 影院總控制系統能夠自動控制所有與影片放映有關的活動并使之同步運作,系統自動監測各分系統,顯示系統現狀,并根據預先編排的任務發出指令,控制影院的自動運行.
該系統在四川省級綜合科普教育基地等動感影院中示范應用(圖4所示),不僅可以智能方便地進行互動參數文件的獲取,同時智能編輯也為動感影院的特效控制提供了便利,運動的連貫性和體驗感得到了大大增強.

圖4 動感影院示意圖Fig.4 Schematic diagram of live movie theatre
本文提出的面向動感影院播放控制的視頻智能分析方法解決了單目攝像機定位困難的問題,添加了周期性震動的交互設計,實現了從攝像機參數到動感座椅的映射,可以運用到虛擬現實中,具有主題突出、效果逼真、畫面沖擊性強等特點.未來的工作包括:進一步提高攝像機位姿計算的準確率,以及時間編碼動作信息轉換成平臺動作的準確度,并添加更多的交互功能.
[1] KARLSSON N, BERNARDO E, OSTROWSKI J, et al. The vSLAM algorithm for robust localization and mapping[C]// International Conference on Robotics and Automation. 2005:24-29.
[2] LOWE D. Object recognition from local scale-invariant features[C]//In Proc of the International Conference on Computer Vision (ICCV 1999).1999:1150-1157.
[3] DAVISON A. Real-time simultaneous localization and mapping with a single camera[C]//In Proc of the International Conference on Computer Vision. 2003:1403-1410.
[4] DAVISON A. Active search for real-time vision[C]//Proc 10th Int’l Conf, Computer Vision. 2005:66-73.
[5] DAVISON A, REID I, MOLTON N. MonoSLAM: Real-time single camera SLAM[J]. IEEE Trans Pattern Anal, 2007, 29(6):1052-1067.
[6] SUNDERHAUF N, LANGE S, PROTZEL P. Using the unscented kalman filter in Mono-SLAM with inverse depth parametrization for autonomous airship control[C]//IEEE Int Workshop on Safety, Security and Rescue Robotics. 2007:1-6.
[7] BIRCHFIELD S, RANGARAJAN S. Spatiograms versus histograms for region-based tracking[C]//Int Conf on Computer Vision and Pattern Recognition (CVPR’05). 2005: 1157-1162.
[8] LABUTOV I,JARAMILLO C,XIAO J. Generating nearspherical range panoramas by fusing optical flow and stereo from a single-camera folded catadioptric rig[J].Machine Vision and Application,2013, 24(1):133-144.
[9] MAHALINGAMV, BATTACHARYA K, RANGANATHAN N. A VLSI architecture and algorithm for lucas-kanade-based optical flow computation[J].IEEE Transactions on Very Large Scale Integration System, 2010, 18(1):29-38.
[10] HSIEH C K, LAI S H, CHEN Y C. An optical flow-based approach to robust face recognition under expression variations[J].IEEE Transaction on Image Processing. 2010,19(1):233- 240.
[11] LASARUK A. Approximate regularization for structural optical flow estimation[C]// International Conference on Advanced Concepts for Intelligence Vision Systems. 2012:336- 348.
[12] TOMASI C, KANADE T. Detection and tracking of point features [R]. Carnegie Mellon University Technical Report. 1991.
[13] SENST T, EISELEIN V, SIKORA T. Robust local optical flow for feature tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(9):1377-1387.
[14] CHEN P,HU G D.A simple algorithm for camera pose estimation[C]//Proceedings of International Conference on Mechatronics and Automation.Chengdu:IEEE,2012:2181- 2186.
[15] TRIGGS B.Camera pose and calibration from 4 or 5 known 3D points[C]// Proceedings of the 7th IEEE International Conference on Computer Vision.Kerkyra,Greece:IEEE, 1999:278-284.
A Video Analysis Method for Live Theater Interactive Control
MENG Yu, WANG Chang-bo
(Software Engineering Institute, East China Normal University, Shanghai 200062, China)
The key point to be personally on the scene brought by the live theater is the interaction manipulation combined with the film. Traditional interactive control method is to manually edit the motion parameters file of the dynamic seat from the video, which costs lots of time and even not be accurate. An intelligent analysis method is designed and implemented based on video, which can automatically analyze the feature points from the video, then compute six dimensional motion parameters of the camera, and transmit it to the dynamic seat after intelligent editor. Experimental results show that this method can fast compute pose parameters of camera in the film, satisfying the real-time playback in theater movement,giving the audience a stronger experience feeling.
live theater; video analysis; feature points; interactive control
1671-0444(2015)04-0474-04
2014-11-30
國家高技術研究發展計劃(863計劃)資助項目(2015AA016404);國家自然科學基金資助項目(61272199);教育部博士點基金資助項目(20130076110008);上海科委科技攻關計劃重點資助項目(12511504700)
孟宇(1989—),男,浙江嘉興人,碩士研究生,研究方向為計算機圖形學、人機交互等.E-mail:clark_abrams@outlook.com
王長波(聯系人),男,教授,E-mail:cbwang@sei.ecnu.edu.cn
TP 301.6
A