馬 楠 駱駪駪
1.北京電影學院中國電影高新技術研究院,北京 100088
2.北京電影學院影視技術系,北京 100088
動作捕捉(Motion Capture)是指記錄并處理人或其他物體動作的技術,它可以將人類的動作轉化為數字數據,并且實時地在計算機圖形中顯示出來。而實時交互影像則是一種通過計算機和傳感器等技術,使觀眾能夠與影像內容進行實時互動和交流的影像展現形式。近年來,動作捕捉技術被大量地應用在電影、游戲、虛擬現實和增強現實等領域中,而實時交互影像則通過觸摸屏、手勢識別、姿態識別等技術進行實現。
但目前通過觸摸屏、手勢識別、姿態識別等技術實現的實時交互影像在交互方式上較為單一,其交互手段多局限于二維,且不包含物理模擬。此外,由于設備的傳感器精度、算法的處理能力或通信延遲等方面的問題,目前的實時交互影像在交互精度上也存在不足,因此本文提出了一種基于光混動作捕捉技術的實時交互影像系統。該系統可以使觀眾在三維場景中實時地與虛擬角色進行交互,并可以使其與虛擬物體進行包含物理模擬的高精度實時交互,大幅提高實時交互影像的多樣性和準確度。
如圖1 所示,實時動作捕捉交互影像系統的技術流程主要分為場景搭建、角色設計和交互實現三個環節,主要通過三維建模技術,如在傳統建模軟件3ds Max、3D Maya、Cinema 4D 等中進行三維場景建模、材質貼圖和燈光構建,并將搭建完成的場景導入實時渲染引擎;在角色設計環節中,對虛擬角色進行設計、建模、骨骼綁定,并通過動作捕捉的方式實時驅動角色動作;在交互實現的環節中,進行角色交互設計和交互實現等。

圖1 實時動作捕捉交互系統的技術流程
動作捕捉是指通過跟蹤和記錄真實的人體運動過程中,各個標記點在世界空間坐標系下的位置變換過程,以運動數據的形式保存下來,再基于得到的運動數據驅動虛擬人運動[1]。從早期的機械式動作捕捉設備,物體運動帶動機械被傳感器實時記錄下來,發展到現在的光學動作捕捉技術和慣性動作捕捉技術,動作捕捉技術廣泛應用于影像制作和數字人等領域的動作設計和交互功能實現。在技術上,光學動作捕捉技術是由相機發出紅外光,在標記點上發生反射,從而捕捉到標記點的絕對位置信息。慣性動作捕捉系統是通過慣性傳感器來捕捉人的關鍵骨骼旋轉信息,通過算法還原人體運動姿態,如圖2 所示。光學相比于慣性,追蹤準確性更高,但由于光線容易受到干擾,其對于場地的要求也更加高。因此,本文采用了光混動作捕捉系統,能夠彌補光學動作捕捉中標記點丟失等不足。

圖2 動作捕捉系統操作流程圖
交互影像源于20 世紀80 年代開始發展的電子信息技術和當代新藝術形式觀念的融合。其本質是通過信息采集技術裝置,在空間中采集需要的數據信息,介入計算機系統對數據進行運算處理,再根據需要的交互反應進行展現,從而達到和觀眾互動的效果。交互影像具有沉浸性、交互性、多感知性等特點,這些特點能更好地表現畫面信息,帶來更佳的視覺效果。
動作捕捉實時交互系統主要由動作捕捉系統和實時交互系統組成。
實時動作捕捉系統使用的是基于諾亦騰光慣混合技術的Noitom VTS 套裝,包括8 枚PCC 光學攝像頭,慣性數據收發器和光慣混合追蹤模塊。將光學攝像頭使用桁架架設在使用場地上方,桁架下沿一般為2.8m~3m。光學攝像頭通過網線與PoE 交換機進行連接,數據收發器將捕捉到的實時動作捕捉數據輸入VTS Manager 系統。在全局設置中,在數據網絡IP 框中選擇攝像頭對應的IP 地址,在SIK 選項卡中為對應的頻段選擇對應的編號。
在場地搭建完成后,對動作捕捉系統進行搭建。首先進行相機校準和地面標定,在VTS Manager 相機管理模塊的一級界面中確認相機上線數量和幀率是否和硬件設備預設匹配,之后對場地進行掃場計算以及地面標定。標定結束后,在慣性管理模塊采集慣性數據,采集完成后,活動光混部位以及道具使用的光混追蹤模塊,使之進入光混匹配狀態。在數據采集完成后,進行人體姿態校準,在人體追蹤的二級界面中,選擇對應人體進行姿態校準,按照校準人型全流程A-T-V-B-P 進行校準。對采集到的實時動作數據進行輸出,打開MoCap 輸出開關,選擇對應的協議。如圖2所示操作流程,實時動作捕捉交互系統包含了兩臺計算機節點,計算機節點1負責收發實時動作捕捉數據,計算機節點2負責通過實時渲染引擎實現實時交互部分設計。我們將兩臺計算機接入了PoE 交換機中,即與諾亦騰設備接入了同一局域網,因此在同一局域網中,可選擇通過TCP 網絡協議進行數據傳輸。
如上文所述,計算機節點2 與計算機節點1 接入了同一局域網中,主要負責在實時渲染引擎中實現實時交互部分的設計。我們采用虛幻引擎5(Unreal Engine 5,UE5),負責實時交互的實現和渲染輸出。在計算機節點2 打開UE 工程文件,安裝Neuron Live Link 插件,版本為1.2.16,使動作捕捉的數據能夠實時傳輸到計算機節點2 中。搭建完成的動作捕捉實時交互系統如圖3所示。

圖3 動作捕捉交互系統搭建示意圖
動作捕捉實時交互影像具體制作主要包括主題內容設計、角色和角色動作設計制作以及交互內容設計實現等三個部分。
在沉浸式影像內容上,筆者選擇了展現廣東地區的茶文化。據《廣東新語》說,廣東種茶始于唐代,唐代曹松把茶種移植到南海西樵山,拉開了廣東茶文化的序幕。通過設置實時動作捕捉角色——茶客,展示傳統茶館中的喝茶習慣,與觀眾進行實時交互展示。
在Cinema 4D 中搭建茶樓的模型,借鑒傳統茶樓風格,在中間放置傳統方桌椅子,桌上擺放茶碗茶壺,以供客人喝茶聊天。在茶樓場景的左側設置柜臺,負責結賬等事宜。將搭建好的場景導入UE5,添加材質、燈光等細化環節,最后形成茶樓內部的景象,如圖4所示。

圖4 茶樓三維場景效果圖
人物角色上設置了兩個實時動作捕捉角色,分別為茶客和店小二,在茶館中負責與觀眾進行實時交互的部分。實時動作捕捉角色由演員穿戴動作捕捉設備,將采集到的動作捕捉數據傳輸到實時渲染引擎中的角色上,由演員控制角色與虛擬場景中的物體實現交互動作。在動作上,店小二演員需要給茶客上茶、倒茶和續茶。茶客的演員需要完成叩手茶禮,即彎曲手指,叩手指關節,然后進行喝茶動作,如表1所示。

表1 角色動作設計
筆者使用C4D 建模軟件對茶客和店小二的角色形象進行建模,分別如圖5、圖6 所示。在骨骼綁定過程中,由于實時動作捕捉是以諾亦騰Perception Neuron Studio(PNS)系統設定的骨骼模板進行動作捕捉的,因此綁定需要符合諾亦騰PNS 針對于實時動作捕捉的綁定規范,PNS 綁定規范參考圖7。

圖5 店小二角色建模和骨骼綁定

圖6 茶客角色建模和骨骼綁定

圖7 PNS綁定規范
在角色的實時交互實現上,根據腳本設計,需要實現店小二手持茶壺,向茶杯倒水的效果,主要需要解決的問題是精準地實現虛擬角色與虛擬物體的實時交互效果,要求虛擬物體按照腳本的設定配合虛擬角色的動作。為實現該效果,本文提出了兩種解決思路:一種是在虛幻引擎中通過編寫藍圖來實現交互,一種是通過動作捕捉設備實現。根據角色動作腳本的設置,角色會與茶杯和茶壺兩個虛擬物體進行交互。
方案一的主要思路是通過UE5 的藍圖功能來實現交互。在UE5 中新建Actor 藍圖類,在組件里添加茶杯的靜態網格體組件和碰撞體,并將碰撞體設置為可生成重疊事件。根據茶客動作腳本,需要實現拿起茶杯的動作,動作可分解為:識別手碰到茶杯——茶杯附著在手上——茶杯跟隨手運動。首先需要讓系統識別到角色的手碰到了茶杯,在角色藍圖中添加類型轉換節點,用于檢測和人物重疊的事件Actor 是否為茶杯。下一步需要實現將茶杯附著在手上,我們通過在角色骨骼添加插槽來實現。將茶杯通過骨骼插槽與角色的特定位置綁定,在骨骼插槽處將茶杯與手的位置調整到最佳,并將對象添加到組件,連接角色骨骼網格體(圖8)。此時,當角色觸碰到茶杯,茶杯就會附著在左手位置,跟隨人的手部進行運動。但編寫藍圖的方案存在很大的局限性,因為藍圖編寫對每個道具的狀態和使用方式都進行了限制,演員需要嚴格的按照道具的設定進行表演,所以會一定程度上減弱交互性。

圖8 藍圖交互實現
在此基礎上,我們設計了方案二,通過動作捕捉道具的位置來實現實時交互。按照動作腳本的設計,角色的交互主要體現在茶客、店小二和茶杯等道具的交互上。整體思路是在動作捕捉角色動作的同時,將需要實時交互的物體模型與剛體綁定,捕捉到的剛體運動數據即為場景中物體的運動數據。在VTS Manager 系統中設備管理的二級界面里添加道具(圖9),在剛體上裝上傳感器,對道具信息進行編輯和管理,將茶壺設置道具名稱為“teapot”,將茶杯設置道具名稱為“teacup”。選擇對應ID 的光混追蹤模塊,并導入對應識別的道具模型自定義光混追蹤模塊與道具的offset,以實現精準定位和適配。在UE5 中,選擇茶杯的靜態網格體,在細節面板中添加Live Link Component Controller 組件,在Subject Representation 中選擇對應的道具,此時道具的位移數據就已經傳輸到UE5 的靜態網格體中。

圖9 在VTS Manager 中添加道具
為了便于精確調整道具在場景中的位置,需要將場景和道具的位置歸零,使用相對位移驅動道具,才能使得道具出現在正確位置。調整道具位置可以通過VTS Manager 的平移修正和Live Link 中的offset,VTS 中平移修正改變的坐標數值是UE 中的1%,因此可以計算出精確位置來進行調整。調整完畢后,人手朝對應位置轉動,茶壺就會實現向茶杯傾倒效果(圖10)。

圖10 茶壺向茶杯倒水實現效果
通過在實時性、精確性和完整性上對兩種方案進行測試,在實時性上,方案一只需要動作捕捉人物,而方案二增加了兩個動作捕捉道具,所以方案一優于方案二。在精確性上,由于方案一中角色碰到道具后,道具將直接綁定在角色手上,綁定的位置預先設定,所以影響精確度的因素主要在于引擎中交互物體碰撞體的大小、形狀以及演員手的位置。如果碰撞體過大或者身體的其他部位誤碰到了道具,也會使道具綁定在相應位置。方案二中,道具在手中的方向和運動位置都是實時的,演員需要記住剛體結構的位置點和運動走向,來防止手部穿模以及茶壺傾倒方向錯誤等。在完整性上,方案一無法實現第二次相同動作,只能進行一次交互,方案二則可以反復實現,更具有靈活性和可操作性。綜上所述,實時交互影像制作最終采用方案二。
將計算機節點2 通過HDMI 線連接一臺投影,本測試使用的是極米(XGIMI)NEW Z8X 投影,連接完成后,UE5 中的實時渲染畫面就被投影在墻面。根據畫面的設計調整演員和道具的位置,此時,兩位動作捕捉演員的動作實時傳輸給茶客和店小二這兩個虛擬角色。基于動作捕捉的實時交互影像系統的最終效果如圖11 所示,現場畫面如圖12 所示,該系統能夠實現動作腳本的設定動作,例如當動作捕捉演員拿起道具做傾倒動作時,實時渲染畫面就會顯示店小二給茶客倒水的畫面。

圖11 店小二給茶客倒水最終畫面效果

圖12 動作捕捉實時交互影像系統最終實現效果
本文在廣州國際燈光節項目基于動作捕捉的實時交互影像的設計和制作中,通過實時渲染引擎的藍圖功能和動作捕捉道具位置兩種方法,實現了虛擬角色和虛擬物體的實時交互功能,豐富了實時交互影像的交互多樣性、大幅提升了交互精度。目前,該技術在虛擬直播、沉浸式展覽等領域也具有創新內容呈現形式、增強影像交互性等重要意義。未來隨著沉浸式交互影像在國內外的不斷發展,動作捕捉技術也會被廣泛地運用到交互式影像的設計和制作中,為交互影像的內容創新帶來更多的可能。
作者貢獻聲明:
馬楠:設計全文框架,搜集文獻資料,實驗測試,撰寫并修訂論文,全文文字貢獻80%;
駱駪駪:修訂論文結構及論文規范,全文文字貢獻20%。