周忠 孟明 周頤
虛擬現實(VR)是一個新興的科學技術領域,該技術建立人工構造的三維虛擬環境,用戶以自然的方式與虛擬環境中的物體進行交互,極大地擴展了人類認識、模擬和適應世界的能力。
虛實融合(MR)技術將虛擬環境與真實環境進行匹配合成,降低了三維建模的工作量,并借助真實場景及實物提高用戶的體驗感和可信度。隨著當前視頻圖像的普及,MR技術的探討與研究更是受到關注。
視頻融合技術利用已有的視頻圖像,將它們融合到三維虛擬環境中,可以實現具有統一性的、深度的視頻集成。該技術最早可追溯到1996年Paul Debevec[1]提出的一種視點相關的紋理混合方法,即實現了不在相機視點的真實感漫游效果,但仍在很多方面存在難點。
1 MR的技術特點
現在業內普遍認可從真實世界到虛擬環境中間經過了增強現實與增強虛擬環境這兩類VR增強技術[2],混合現實則是包含這兩類技術及其融合。
增強現實技術與增強虛擬環境技術,可分別形象地描述為“實中有虛”和“虛中有實”。增強現實技術通過運動相機或可穿戴顯示裝置的實時連續標定,將三維虛擬對象穩定一致地投影到用戶視口。增強虛擬環境技術通過相機或投影裝置的事先或實時標定,提取真實對象的二維動態圖像或三維表面信息,實時將對象圖像區域或三維表面融合到虛擬環境中。兩項技術的MR方式如圖1和圖2所示,圖中虛線對象代表虛擬環境對象,實線對象代表真實對象或其圖像。
隨著VR技術的發展,其與現實世界正趨向于深度融合,一些技術開始兼具“虛中有實”和“實中有虛”這兩種模式。20世紀70年代電影《星球大戰》中展示的全息甲板是科幻中的終極理想狀態,但U.C.Berkeley提出的Tele-immersion遠程沉浸系統、微軟的Holoportation、Magic Leap所設計的光場頭盔顯示原型等已經具備了這種深度MR特點。
2 視頻融合技術分類
早期的視頻融合技術只能做到將圖片向地面或簡單立面映射,現在的新技術則已經能夠快速將視頻實時地映射到復雜的三維模型上。根據實現MR的維度不同,可將相關方法分為4類:視頻標簽地圖、視頻圖像拼接、視頻疊加到三維場景,視頻融合到三維場景。需要說明的是:這些技術針對的是易于獲取的普通攝像頭視頻,FreeD等基于多視圖幾何的三維重建方法不在討論中。
2.1 視頻標簽地圖
基于視頻監測控制對于多地點視頻有效組織的需求,采用視頻標簽與地圖的索引集成,實現在地圖上放置和觀看視頻。美國FX Palo Alto實驗室、美國三菱電機研究所、韓國電子通信研究院和法國原子能署CEA LIST等機構在該方面開展了工作。
美國FX Palo Alto實驗室提出了用于室內的多相機實時監測控制系統,動態物體跟蹤系統(DOTS)[3],該系統通過對平面設計圖的特征分割,獲得系統中視頻與位置信息的關聯,直接向用戶提供一種視頻分析結果的展示手段。美國三菱電機研究所MERL的Ivanov等也實現了用于室內居住環境可視化的類似系統,通過加入運動傳感數據等信息,為建筑系統的設計人員和管理人員提供整棟樓的上下文信息[4]。視頻標簽索引的融合方法除了用于監測控制系統,還廣泛應用于地理信息系統(GIS),它們通過建立提取的視頻內容與數據庫中GIS數據的對應關系,進行視頻與GIS的融合。韓國電子通信研究院的Tae-Hyun Hwang等基于這個思想,將視頻和虛擬場景中的meta元素提出,建立了基于meta元素的視頻與GIS系統的關聯[5],通過簡單的點擊地圖查詢即可在手機上直接訪問視頻。此外,法國原子能署CEA LIST的Gay-Bellile等通過增強現實AR和相機追蹤的方式建立了實時視頻與2D GIS的關聯[6]。
2.2 視頻圖像拼接
視頻圖像拼接是指將空間上可配準、相互之間具有足夠重疊區域的圖像序列經過特征對齊、空間變換、重采樣和拼接合成之后形成寬視角甚至全景圖像的方法。經過數十年的發展,圖像拼接算法目前已經比較成熟,全景相機出現了低成本、消費級的特點,利用魚眼相機來降低對相機數量的要求,達到小型化成為新的“爆點”。圖像拼接主要針對的是窄基線相機圖像序列,寬基線相機不具備統一的單應性,特別是遮擋大大影響重疊區域的匹配,其圖像拼接是目前研究的難點。
2.3 視頻疊加到三維場景
視頻疊加到三維場景的方法以2D和3D特征注冊為基礎進行虛實融合,允許用戶在相機視點的轉移路徑上觀看疊加的結果,其效果優于視頻標簽地圖方法。
塞爾維亞利茲大學CG&GIS實驗室中Milosavljevic^等提出基于GIS增強的視頻監測控制系統,將視頻窗口疊加到3D模型視圖窗口的上方顯示,在3D GIS環境中建立視頻與空間信息的位置關聯[7-8]。美國微軟公司的Snavely等于2006年提出了照片旅游系統[9],該系統利用對互聯網上照片集的匹配,重構一個稀疏的三維點云場景,通過圖像變換的渲染方法進行照片瀏覽。荷蘭代爾夫特理工大學的Haan等人受到Snavely等共平面視點轉移方法的啟發,于2009年面向監測控制系統提出了第一人稱式的場景導航方法[10],通過交互地在場景中放置畫布的方法完成視頻的注冊,進而通過動態視頻嵌入實現導航,緩解了視點移動時視頻間重疊區域的視覺差異現象。
2.4 視頻融合到三維場景
視頻與三維場景的融合方法,實質是將相機捕捉的視頻圖像,以紋理的方式實時注冊到虛擬環境中,達到增強虛擬環境的效果,能夠允許用戶從非相機虛擬視點觀察融合結果。這種方法比前幾種融合方法在視點可選范圍上進一步擴大,實際上是從另一個角度解決了寬基線相機以及無重疊視域相機的圖像拼接問題。但這類技術仍會存在一些難以克服的問題。
在IEEE VR 03上,南加州大學的Ulrich Neumann等人[11]系統闡述了增強虛擬環境的概念,實現了隨著圖像數據變化的動態三維模型效果,解決了非相機視點下貼圖扭曲現象[12]。在ACM MM 10上,麻省理工學院的DeCamp等人[13]設計了一套用于智能家庭的沉浸式系統HouseFly,通過魚眼相機的三維融合,讓用戶可以漫游于掀頂式樓宇。在ISMAR 09上,佐治亞理工學院Kihwan Kim等[14]提出基于動態信息增強Google Earth等航拍地球地圖的方法,提出對視頻進行分類處理和增強顯示的方法。2012年國立臺灣大學的Chen等人[15]建立了GIS輔助的可視化框架,融入了多分辨率監測控制策略,以固定視角的相機提供低分辨圖像,球基相機根據用戶交互提供興趣區的高分辨圖像。endprint
3 MR技術進展
近幾年,我們在這方面開展了一系列工作,主要特色是將圖片建模技術用到MR中,以得到準確的虛實對齊效果。其中圖片建模技術是利用二維圖片恢復場景三維結構的數學過程和計算技術,這一技術能夠很容易地達到虛實融合過程中對三維模型精度的高要求,克服了視頻投影本身帶來的二三維深度不匹配問題。
3.1 基于圖片建模的視頻模型
該方法的核心部分是一種快速建模視頻背景的交互式方法,使用體元和場景樹來描述圖像中各點之間的建模關系,首先針對單幅圖像,在圖像幾何分析的預處理基礎上,進行圖像與場景模型的三維注冊,然后提出了一種體元的定義,支持交互式的方式進行基本幾何結構的恢復,實現單幅圖像場景的視頻模型生成。場景樹結構示意如圖3所示。
監測控制場景中存在大量相機視頻區域重疊度很小的情況,現有基于多視圖的建模方法不能適用。進一步針對低重疊度圖像序列,使用點線聯合的匹配方法進行新圖像與現有視頻模型的注冊,用戶可以進一步進行新圖像場景的結構建模,最終鏈式地匹配和注冊更多的圖像場景結構,如圖4所示。
在此基礎上,我們定義了一種基于單幅照片建模生成的視頻模型,它描述了該照片對應的三維幾何結構,可以供二次開發使用。
3.2 基于視頻模型的MR方法
我們提出了基于視頻模型的MR方法,針對每個視頻創建對應的視頻模型[16],然后通過紋理投影[17]和陰影投影方法將視頻與其模型進行融合。方法整體流程如圖5所示,分為兩個階段:(1)預處理階段。提取視頻的背景幀進行交互式建模,得到簡單的視頻模型,然后與三維場景模型進行注冊;(2)在線階段。該階段與直接投影的融合方法類似,但不再執行遮擋測試。
3.3 MR場景中的自動路徑規劃方法
由于MR中視頻中的動態物體并未三維化,這類技術不可避免存在偏離原視點會出現畫面畸變的現象。研究視點變化與畫面畸變之間的關系,我們給出了一種基于視頻投影中的畫面畸變的視點質量評價方法,進一步提出了一種MR場景中的自動路徑規劃方法,來盡量減少畸變現象。
3.4 支持大規模視頻融合的視頻
監測控制
以上技術被應用于支持大規模視頻融合的視頻監測控制,如圖6所示,各建筑模型是手工建模得到的精細模型,視錐區域是視頻模型。通過空間劃分和瓦片關聯,可以很容易地擴展到大規模的視頻模型場景。
4 展望
隨著視頻監測控制在公共安全、交通等領域的廣泛應用,多相機監測控制網絡中相機數量日益增多,MR技術將現實世界中大量的相機視頻進行整合,提供與真實世界具有幾何結構一致性的統一視圖,解決的是人類“認知”的問題。另一方面,實際上不同位置的相機在內容上也很難關聯分析,對于計算機的智能分析能力也帶來了巨大的挑戰,這同樣需要MR的信息支持。
在MR技術的基礎上,我們正在研究多相機拓撲中的幾何-語義聯合理解與關聯問題,研究并實現了一種基于幾何-語義結構分析的多相機場景拓撲連通圖的構建方法。以多相機拍攝的監測控制視頻為輸入,如圖7所示,解析相機圖像的語義信息與基本幾何結構,通過分析目標在不同相機之間的轉移狀態,計算各相機區域之間的連通概率,從而建立多相機間的拓撲連通圖。
圖8中展示了使用我們的算法在Duke[18]數據集上恢復出的相機拓撲連通圖,各視頻圖像和地圖上對應的語義區域進行對齊,和原始場景中的拓撲連通關系相符。這種細粒度的相機視頻融合方式可以很容易地作為一個地圖圖層推廣到大規模GIS系統中,可以從根本上解決現有的海量視頻碎片化問題。
MR技術正在快速發展中,這種虛實信息的可視關聯對于人類認知和人工智能都已表現出顯著的提升作用,未來作為一種基礎的地理信息資源來提供,有著重要的發展意義。
參考文獻
[1] DEBEVEC P E, TAYLOR C J, MALIK J. Modeling and Rendering Architecture from Photographs: A Hybrid Geometry-and Image-Based Approach[C]//Proceedings of the Annual Conference on Computer Graphics and Interactive Techniques. USA: ACM, 1996:11-20. DOI: 10.1145/237170.237191
[2] AZUMA R, BAILLOT Y, BEHRINGER R, et al. Recent Advances in Augmented Reality[J]. Computer Graphics and Applications, 2001, (21): 34-47
[3] GIRGENSOHN F, SHIPMAN T, TURNER, et al. Wilcox, Effects of Presenting Geographic Context on Tracking Activity Between Cameras[C]//Conference on Human Factors in Computing Systems. USA: California, 2007:1167-1176
[4] IVANOV Y, WREN C, SOROKIN A, et al. Visualizing the History of Living Spaces[J]. IEEE Transactions on Visualization and Computer Graphics, 2007, 13(6):1153-1160.DOI: 10.1109/TVCG.2007.70621
[5] HWANG T H, CHOI K H, JOOL I H, et al. MPEG-7 Metadata for Video-Based GIS
Applications[C]//Proceedings of IEEE International Geoscience and Remote Sensing Symposium. USA: IEEE, 2003, (6): 3641-3643. DOI: 10.1109/IGARSS.2003.1294880
[6] GAY-BELLILE V, LOTHE P, BOURGEOIS S,endprint