吳曉雨,閔靜萱,邱駒成,吳建琴
(中國傳媒大學信息與通信工程學院,北京 100024)
伴隨前沿技術的迭代升級,傳統拍攝對于智能拍攝的需求日益強烈,機位計算的關鍵技術也有了更高的要求。演藝場景真實拍攝過程中,面臨著空間局限、人為干擾和成本較高等問題,如何通過AI 技術實現節目拍攝的高效低成本輕量化制作,無疑是非常重要的。此外,高質量拍攝離不開專業鏡頭語言知識,一定程度上限制了非專業人士參與,而智能化拍攝的研究將有助于降低數字演藝內容的拍攝門檻。與此同時,近年來隨著虛擬世界以及元宇宙等理念的出現,利用Unity 和Unreal 等虛擬引擎能夠較為真實地還原現實世界,使用虛擬仿真環境也可避免現實條件下時間、空間及成本的限制。
本文主要研究了面向云演藝的智能拍攝仿真技術,在基于真實視頻學習的數據驅動方式基礎上加入了美學評估,進而反映鏡頭的藝術表征。通過美學評估技術對數據驅動下計算的機位進行微調,構建以機位計算為核心、美學評估為輔助的基于數據驅動的智能拍攝系統,從而有效驗證和輔助指導真實拍攝環境下的高質量拍攝,降低拍攝的專業門檻,提升拍攝智能化水平。
目前對于一個演藝節目而言,真實視頻拍攝過程一般包括場景設計、表演安排、情節設計和相機位置設定等多個步驟。每個拍攝的鏡頭都受到上述因素的影響,由于客觀條件的限制,視頻制作者可能無法拍攝出最好的鏡頭。同時,這類節目由于其不確定性,導演往往會選擇提前進行一次預演的拍攝,這需要耗費大量的人力物力。所以高成本和低可控性是目前演藝節目提前預演的主要問題,如果能夠在正式拍攝前在虛擬場景中進行模擬并由AI 提供幾種較好的相機拍攝方案,將有助于導演快速找到最佳拍攝方案,提高節目的制作效率并且節省大量的成本消耗。
在過去的時間里,許多研究人員提出了不同的自動化相機拍攝的方法。
傳統的方法大多數使用了機器學習和腳本套用的方法。從視頻中提取鏡頭知識,從而構造了一個鏡頭庫,使用鏡頭時,通過腳本直接調用該鏡頭的相關參數應用到相機上,但是該方法過于簡單,使用起來有諸多限制。Wang 等[1]建立了視頻素材庫并標注了關鍵詞,用戶輸入腳本后,將相符的素材庫中的視頻合成輸出。Xiong等[2]提出一個弱監督的框架,使用腳本作為輸入,從廣泛的鏡頭集合中自動創建視頻序列。Chen 等[3-5]使用循環決策樹網絡訓練了一個三自由度的相機位姿預測器來自動拍攝籃球和足球比賽,可以通過運動對象和當前相機的位姿來預測下一個相機的最佳拍攝角度,但該種方式簡化了相機的參數,只能應用于室內固定機位的拍攝任務。Jia 等[6]則是使用具有目標玩家運動行為數據的決策樹網絡在空中自動拍攝虛擬開放游戲中建筑物的視頻。
隨著深度學習的興起,其在自動攝影中也被廣泛應用,Huang等[7]采用序列到序列(seq2seq)的結構來進行單人室外運動視頻自動拍攝,結合時間和空間信息,根據當前的位置和運動狀態預測下一幀中相機的光流,再根據光流和相機的參數矩陣來算出相機的坐標,但該種方式較為復雜且誤差較大。在最新的虛擬相機研究中,Jiang等[8-9]使用復曲面空間坐標[10]來代替傳統的六自由度空間坐標,減少了因坐標系產生的誤差,然后使用真實電影視頻提取出它們的拍攝風格,再應用到虛擬場景中來驅動相機的拍攝,并且加入了關鍵幀技術使得用戶可以進行精細化的相機控制,然而由于坐標系的原因,只能應用到兩個人的場景中,十分受限。Yu 等[11]提出了一個自動動畫電影拍攝的框架T2A,對于給定的虛擬場景和腳本,該框架可以自動拍攝出符合腳本內容的鏡頭,其中自動拍攝優化使用逼真度和美學模型來進行聯合優化,在優化過程中可以共同考慮輸入腳本的視覺呈現以及生成的視頻與給定電影技術規范的合規性。
近期最新的研究中,模仿學習開始被應用到自動攝影中,而RT2A[12]則是在T2A[11]的基礎上加入了強化學習的內容,提出了一個獎勵函數來指導算法找到最佳拍攝策略并模仿導演對每個場景的相機選擇的決策過程,其實驗結果表明,所提出的RT2A可以有效地模仿導演對鏡頭語言模式的使用。文獻[13]提出了一個基于強化學習的無人機的自動拍攝程序,可以實時跟隨移動的演員,同時根據鏡頭設計做出實時的決策,這些決策是基于通過強化學習得到的經驗得到的。Dang 等[14]為無人機攝影系統提出了一個端到端的模仿學習框架,提出了基于路徑分析的強化學習(PABRL)算法,由人物運動信息、圖像構圖特征和相機運動矩陣得到人物運動相關的美學拍攝策略,同時使用了一種注意力機制和一種長短期獎勵函數,分別增強運動特征空間和生成軌跡的完整性。文獻[15]提出了一個集成的航拍系統,用于自動捕捉動作場景的電影鏡頭,通過模仿觀看主體運動的演示來學習預測下一個相機的最佳視點。
然而對于演藝場景而言,其運鏡要求更為專業,所得到的拍攝效果美學要求更高,場景也較為復雜。基于腳本驅動的智能拍攝仿真技術缺乏對于環境和攝像機的控制,虛擬環境下生成內容實用性較差;基于真實視頻學習的數據驅動方式,忽略了鏡頭語言美學屬性的學習,得到的內容無法有效體現構圖和拍攝意圖。因此,本文在基于數據驅動的智能拍攝基礎上,通過美學評估來反應鏡頭的藝術表征,并基于此技術研發了面向云演藝的智能拍攝系統。
系統的框架圖如圖1 所示,前端為用戶操作的微信小程序,設計常用的按鈕、界面,用戶可以通過上傳運鏡參考視頻來得到理想的運鏡軌跡和虛擬仿真的效果視頻。后端分為核心算法、數據庫以及Unity 虛擬場景,前后端通過API 接口傳遞信息。后端算法模型部分是系統的核心,包含關節點提取、特征提取、相機運動提取、相機軌跡預測和美學評價這五個模塊。前4個模塊根據用戶上傳參考視頻來預測合適的相機參數,并在虛擬環境中仿真,得到軌跡及輸出視頻,最后的美學評估網絡模塊則是對相機參數的仿真畫面進行美學評分預測和主要構圖模式判斷,并進行拍攝指導,進一步選擇最合適的機位;內嵌數據庫用于存儲用戶信息、視頻數據;Unity 虛擬環境則是把算法模型的參數結果進行仿真,得到更用戶友好的運鏡軌跡和仿真視頻。最終,將經過美學指導的仿真結果(相機運動軌跡圖及虛擬相機拍攝畫面)返回前端小程序并呈現給用戶。

圖1 系統框架圖
本節主要介紹智能拍攝的核心算法模型——基于Unity 虛擬環境的相機參數計算模型。如前文所述,該模型包括關節點提取、特征提取網絡、相機運動提取、相機軌跡預測和美學評估等五個模塊。機位計算模型的結構圖如圖2所示。

圖2 機位計算模型結構圖
3.2.1關節點提取
該模塊首先將根據用戶所選擇的特定鏡頭切換方式或影片拍攝風格在數據庫中選取合適的影片片段,或者直接使用用戶上傳的運鏡參考視頻,然后使用DEKR 模型[16]提取其中的人物關節點信息。該模型采用了自底向上的方法,使用自適應卷積激活關鍵區域的像素,進而能夠聚焦人物關節點區域,返回其空間信息。
在構建坐標系時,本系統采用了復曲面坐標系,即Toric 空間[10]。該空間是以兩個演員為參考點構建的曲面坐標系,相比起傳統的直角坐標系,Toric 空間可以將相機和演員構建在一個坐標系中,避免了坐標估計和轉換帶來的誤差,同時也更容易理解相機的運動控制。但是缺點是只能受限于兩個人,不能多也不能少。
為了解除視頻人數的限制,我們將上述方法拓展到了多人,使得網絡能接受多人的視頻輸入,從中提取出兩個主要人物的關節點信息。通過人臉到屏幕中心距離和人臉大小來判斷出主要演員[17],同時考慮人物的大小、距離屏幕中心的距離以及人物的清晰度,最終得到每個人的重要性分數,選取分數最高的兩名人物提取其關節點。
3.2.2特征提取網絡
得到兩個主要人物(A,B)關節點后,我們使用一個回歸網絡,即特征提取網絡[8]來提取相機特征c 和人物特征v,在Toric 空間中的相機、人物特征分別如下:
其中,pA和pB表示人物的屏幕位置,為二維信息,θ和φ是兩個參數角,直觀地表示兩個主要人物之間偏航角和俯仰角;dAB是兩個演員之間的3D距離,sA是直線AB 和演員A 肩膀正交向量的夾角,sAB=sA+sB代表了A 和B 的朝向的不同,M代表是否為主要人物,?5、?6分別表示5維和6維實數空間。。
將演員的骨骼關節點輸入特征提取網絡,即可提取出畫面中對應的人物特征θ、φ和相機特征dAB、sA、sB、sAB。
3.2.3相機運動提取
將運鏡參考視頻的一段序列輸入相機運動提取門控網絡,其中每一幀都包含之前提取的相機參數和人物信息,然后使用長短期記憶(Long Short-Term Memory ,LSTM)網絡將參考視頻逐幀輸入。網絡在LSTM 的基礎上還加入了多頭自注意力機制(head=3),在提升模型泛化能力的同時,也能更好地捕捉長距離的上下文信息。
選取最后一幀輸出,經過Softmax 和全連接層得到一個和為1 的專家向量,即成功將相機運動特征整合成一個專家向量,該專家向量為用戶選取的2D 視頻相機行為的壓縮表示。相機運動提取模型結構如圖3所示。

圖3 相機運動提取模型結構圖
3.2.4相機軌跡預測
相機軌跡預測模塊的設計參考文獻[9],將相機運動特征整合成一個專家向量(即相機行為壓縮向量),送入到混合專家(MOE-Mixture of Experts)網絡中,網絡嘗試把樣例視頻識別為訓練數據集中的一種或幾種相機行為的組合,賦予不同權重后送入預測網絡進行相機運動軌跡預測。
相機軌跡預測網絡由三個全連接層構成,采用ELU 激活函數,輸入新場景的人物信息后,在專家向量和人物信息的控制下逐幀生成新場景的相機參數信息。最終輸出信息為Toric坐標下5維參數:
其中,(xA,yA)、(xB,yB)表示兩個演員頭部在幀中的位置坐標,取y 坐標的平均值確保相機在坐標系中保持水平。θ和φ分別表示相機在空間中的偏航角和俯仰角。將這些相機參數傳入Unity3D 虛擬環境中,通過腳本控制相機位置及運動,仿真生成相應的運鏡軌跡圖和虛擬相機拍攝畫面。
3.2.5圖像美學質量評價模型
圖像美學質量評價模型可以輔助優化攝像機參數計算,是系統中重要的一部分,其整體框架圖如圖4所示。虛擬場景運鏡軌跡可能會有一些小誤差,帶來不好的觀演體驗。因此,在計算生成攝像機參數后,在該參數下生成相應的畫面,將該畫面輸入圖像美學質量評價模型,對虛擬場景中各機位畫面進行整體美學評分預測,選取平均得分最高、標準差較小的機位作為參考機位,以這種方式取代了以個人主觀為導向的美學判斷。其次,對參考機位畫面進行構圖評分預測和主要構圖模式判斷。當收到構圖評分較低的反饋時,我們可以適當調整攝像方向使畫面構圖更加貼近主要構圖模式,直到構圖評分和畫面美學達到預期。

圖4 美學評估算法框架圖
本模塊使用MobileNetV2[18]作為提取視覺特征的骨干網絡。在整體美學預測模塊,參考了文獻[19]的網絡結構。首先基于視覺特征提取網絡的輸出,構建一個全連通圖來表示圖像的組成。在連通圖中,每個位置都被視為一個節點,將每兩個節點特征向量之間的余弦距離表示為圖像邊緣特征。由于在高維特征中可以捕捉到各種視覺特征,如銳度、色調、幾何形狀等,因此邊緣特征被認為能夠表征圖像的構圖特征。所有節點特征向量的平均值代表全局特征,全局特征可以描述各種各樣的美學特征。然后使用門單元GU將美學特征faes和構圖特征fcom結合,賦予它們不同權重u,v 并進行拼接操作,得到融合特征Saes。最后通過一個全連接層獲取圖像整體美學評分分布,根據評分分布可以計算圖像分數均值,用于選取合適的參考機位。
在圖像構圖模式預測模塊,輸入上一模塊選取的機位畫面,獲取全局特征圖,并對該畫面進行顯著圖提取和最大值池化下采樣。然后,將全局特征圖和顯著圖送入顯著增強多模式池化(Saliency-augmented Multi-pattern Pooling, SAMP)[20],得到圖像多模式(八種基本構圖模式)權重和聚合特征fsamp。引入三分法、整體構圖的平衡程度(Balancing Elements)、是否有主體物體(Object Emphasis)、重復與對稱這五個屬性作為屬性特征來補充構圖特征[20],將聚合特征fsamp分解成構圖特征fcom和屬性特征fatt。再動態權衡fcom和fatt對構圖評估的貢獻,得到融合特征ffused。
f′com和f′att分別代表動態權衡后的構圖特征以及屬性特征。最后獲取圖像構圖評分分布計算平均分。當評分較低時,我們可以對機位方向進行適當地調整,使圖像更貼合由最大模式權重對應的基本構圖模式。該操作使機位畫面構圖評分增大,即更符合大眾審美。
其中八種構圖模式如圖5 所示[20],每個構圖模式包含兩個或多個不重疊的分區,并為評估構圖中質量提供了單獨的視角。其中,模式1、2、6、7、8 與考慮對稱或徑向視覺平衡的對稱構圖有關;模式3、4 涉及對角線構圖;模式5與中心構圖有關,該構圖的主要對象被放置在圖像的中心。

圖5 八種基本構圖模式示意圖
前端小程序具體用戶交互邏輯結構圖如圖6所示。

圖6 前端用戶交互結構圖
前端部分主要采用首頁、功能選擇頁面、個人中心界面、結果展示頁面。其中包括視頻、圖像、文字等UI 設計和顯示。各頁面UI 原型設計圖如圖7所示。

圖7 前端小程序原型圖
首頁歡迎界面清晰地展示小程序的logo,底部欄包含三個頁面定位:首頁、素材庫以及用戶信息管理,在歡迎界面點擊START 按鈕,即可跳轉到功能選擇頁面。在功能選擇頁面中,用戶可以選擇上傳視頻、輸入文字指令、查看處理記錄或者查看三維場景。結果展示界面則清晰展示了4 項內容:用戶上傳的運鏡參考視頻/用戶輸入的文字指令、原始虛擬場景視頻、運鏡軌跡圖和輸出的仿真視頻,便于用戶進行對比。
3.4.1數據庫設計
為了便于用戶查看任務進程狀態以及之前的處理記錄及結果,生成自己的視頻素材庫,采用了MySQL 數據庫,設計了兩張表分別存儲視頻數據、任務數據,具體字段設置如表1、表2所示。

表1 視頻數據表

表2 任務數據表
3.4.2前端-后端接口設計
采用RESTful API 來設計前后端的接口,API 接口設計如圖8所示。

圖8 API接口示意圖
前端:用戶在小程序前端上傳視頻(先小程序端將視頻上傳對象存儲,然后將cloud://開頭的鏈接通過POST /v1/videos 接口上傳),即可在用戶數據庫中的獲取已有視頻(GET /v1/videos),用戶選擇要處理的視頻(POST /v1/tasks)。等待后端算法模型處理完后,或者點擊了刷新按鈕的流程,即可查看目前的處理情況和結果(結果視頻也是cloud://開頭的文件 GET /v1/tasks)以及服務器在線情況(GET /v1/servers)。
后端:定時攜帶“AFS-SERVER-ID”header 獲取小程序端傳來的任務(GET /v1/tasks all=0),獲取到后就占據想要處理的任務(POST /v1/tasks/
系統的開發環境如表3所示。

表3 智能拍攝系統開發環境表
將機位計算模型相機運動提取模塊中所采用的門控網絡(LSTM 加多頭自注意力機制(LSTM+sa3))與其他模型進行性能的對比。計算預測的5 維參數的整體均方誤差 (Mean-Square Error,MSE),將其作為評價指標來對比各模型性能。MSE 的值越小,代表模型的性能越好,實驗的結果見表4。為方便對比,各模型Epoch均取300。

表4 門控網絡模型性能比較表
表格中的se 表示在LSTM 之后加上SE(Squeeze Excitation)模塊,其中參數reduction設為2;sa1表示單頭自注意力機制,sa3表示3頭自注意力機制,sa9表示9頭自注意力機制;skip表示skip connection。
由表4 所示,將LSTM 替換成GRU 模型后模型性能反而下降,因此在本系統中采用LSTM 更為合適。而加入SE 模塊或skip 也對模型性能提升并無幫助。但加入自注意力機制后,MSE 降低,模型性能有所提升,故本系統的相機運動提取門控網絡采取LSTM 加多頭自注意力機制(head=3),其誤差最小、性能較優。
4.3.1美學評價指標
為了評估不同模型的性能,采用了4 個廣泛使用的指標,即分類準確率(Accuarcy,ACC)、推土距離(Earth Mover's Distance,EMD)損失、皮爾遜線性相關系數 (Pearson Linear Correlation Coefficient,PLCC)和斯皮爾曼等級相關系數 (Spearman's Rank-order Correlation Coefficient,SRCC)。其中,EMD[21]度量預測得分分布與真實得分分布之間的相似程度;PLCC 和SRCC[22]表示預測值和真實值之間的線性相關性。ACC、PLCC 和SRCC 值越大,性能越好;EMD 和MSE值越小,性能越好。
4.3.2對比實驗結果
基于AVA數據集,將本系統所采用的美學評價模型與A-Lamp[23]和NIMA[21]模型進行了ACC、EMD、PLCC、SRCC四個指標的對比。算法性能對比實驗的結果如表5所示。

表5 模型在AVA數據集上的性能比較表
可以看到,A-Lamp 在美學上的性能突出,而代價是大量的計算復雜度,因為它需要額外的對象檢測器,而且輸入復雜,需要提取原始圖像的特征來附加輸入。而NIMA 的美學性能略遜一籌,這是因為它在美學評價時沒有體現圖像的構圖,而只提取了全局特征。
本系統所采用的美學評價模型在分類準確率上看,和A-Lamp預測的效果比較接近,而實現過程的復雜度卻要更小;在損失函數上看,我們的模型雖然不如使用VGG16 的NIMA 和用inceptionV2 的NIMA,但是相比起這二者,我們的視覺特征提取網絡需要較少的參數,有著更精簡的訓練過程。并且在其他三個指標上,我們所使用的美學算法模型表現都優于NIMA。
基于Unity 中傳大禮堂的虛擬環境,選定了多個不同的參考鏡頭視頻,通過機位參數計算模型,可以得到如圖9 所示的實驗結果(包含預測的運鏡軌跡和相應生成的畫面)。

圖9 機位計算模型實驗效果圖
同時對得到的輸出視頻進行構圖評分預測和主要構圖模式判斷并進行拍攝指導,部分指導結果如圖10、圖11所示。圖11中,左側(a)畫面的最主要構圖為模式1(縱向對稱構圖,該圖中地面和墻體剛好在中間部位有明顯的分界線,橙色線標注),權重達到了0.6889,修改空間不大。因而,選擇權重占比第二的模式5(中心構圖)給出調整意見:在該模式下將畫面中人物主體移到中心部位可能會提高構圖質量。結果顯示,模式5 權重占比提升,預測構圖評分也增大了0.354,調整所得畫面更符合大眾審美。所以在攝像機機位參數計算模型(虛擬智能拍攝)的基礎上,可以使用美學評估的反饋來進一步優化。

圖10 不同拍攝效果和美學評分(均值±標準差)

圖11 美學評估攝像指導結果圖
4.5.1后端接口測試
使用Postman進行后端接口測試,選擇請求方式并且輸入服務的外網地址、請求的參數或post的body內容,點擊“send”發送請求,最后返回請求結果。后端API接口測試結果如表6所示,所有端口均可正常響應請求。

表6 后端API接口測試表
4.5.2前端小程序測試
由圖12 小程序結果展示頁面所示的前后端聯動測試結果可以看出,用戶上傳運鏡參考視頻后,小程序均能獲取到當前任務且“處理成功”,并可以跳轉到結果顯示頁面,直觀清晰地向用戶展示最終效果。

圖12 小程序測試效果圖
本文研發了一種基于機位計算的云演藝智能虛擬拍攝系統,僅通過真實參考視頻即可學習到相機運動參數及風格,并可將該運鏡方式遷移到新的虛擬場景中,預測得到機位參數和運鏡軌跡。本系統在采用基于數據驅動的智能拍攝(機位計算)基礎上,加入了美學評估技術,提升了鏡頭的藝術表現力。本文的研究可用于云演藝場景下的自動運鏡,可為其提供實用性高的虛擬拍攝工具。此外,本文還對前端、后端、算法模型分別進行了部署測試,測試結果驗證了模型和算法的可行性和先進性,且系統各部分較為獨立、有利于后續功能拓展。