薄一航
北京電影學院美術學院,北京 100088
電影是藝術,更是技術。縱觀電影自誕生至今,每一次質的飛躍都離不開技術的突破與進步,從默片到有聲,從單聲道到立體聲,從黑白到彩色,從平面到3D,再到今天的球面、全景以及虛擬現實電影等,處處可見新的科學技術給電影的發展進步所帶來的生機。對于電影美術的創作也不例外,從最早借鑒舞臺的單片繪畫布景到多層的立體空間布景,從實景搭建到實景與虛擬場景的結合以及純虛擬空間場景的制作等,技術的迭代更新也一直在推動著電影美術的發展和革新。到了今天虛擬現實 (VR)、人工智能 (AI)、5G、人機交互、顯示技術等各種新興技術迅猛發展的年代,尤其是在虛擬制片技術逐漸成熟的時刻,如何將這些新技術融合到電影美術的創作當中,提升創作效率,拓寬創作思路,將電影美術創作推進到一個新的歷史階段是一個值得思考和探索的問題。
機器學習方法里程碑式的發展突破了人工智能(Artificial Intelligence,AI)多年來難以逾越的瓶頸,將其推進到了一個新的歷史階段。人工智能技術也越來越廣泛地應用到了工業、醫學、軍事、航天、教育、文化、藝術等各個領域,在很大程度上幫助和輔助了人們的工作與生活,同時也極大程度地提高了我們的工作和生活效率。盡管如此,現階段的人工智能依舊還處于模仿復制的弱人工智能階段,機器仍然不具備人的思維、意識、靈感,以及理解能力等。然而,人作為藝術創作的主體,是任何一種藝術創作形式的核心,離開了人的因素,藝術作品也便失去了自身的價值和靈魂。換句話說,藝術作品更多地是藝術家或者創作者情感的一種表達和釋放。近年來,AI作曲、AI繪畫、AI作詩等各種人工智能藝術形式層出不窮,不得不說,人工智能技術的融入的確提升了這些新的藝術形式的生成效率,而這些作品是屬于機器的,是對原有規則的一種模仿與復制,無所謂創意和創新,是制作而非創作。真正的藝術創作是離不開人的,創作者、藝術家才是藝術創作的核心與靈魂。
早在20世紀80年代,錢學森先生就提出了“人-機結合”的重要性和必要性。無論到什么時候,人始終是認識和改造世界的主導者,我們不能忽略掉人的主觀能動性的重要作用。隨后,戴汝為院士在第七次全國院士大會上正式提出了 “人-機結合”這個新的科學研究領域。2019年 《新一代人工智能發展規劃》中確定了我國未來人工智能的總體要求與戰略目標,并將人機協同的混合增強智能作為我們重要的發展方向之一。目前,人機協同已經應用于人機共駕、在線智能學習、平行管理與控制等多個領域。在高效快速的虛擬制片時代,如何利用人工智能、機器學習、人機交互等技術,在提升電影創作效率的同時,又確保了以人為中心的創作地位,依舊由創作者來主導整個創作過程,充分利用機器的運算與存儲能力來提升創作效率,是現階段電影創作過程中亟需考慮的問題。
電影分鏡頭畫面設計是整個電影創作過程中至關重要的一步,是將劇本文字視覺化的第一步,可以說,劇本是美術部門一切工作的起始點,也是激發美術師創作靈感的源泉。美術師通過分析劇本從中挖掘出形象的潛質,并通過認真解讀對劇本中的環境以及人物進行視覺化的思考,進而引發創作靈感,形成視覺語言。除此以外,美術師還要與導演和攝影師圍繞劇本共同展開分析與討論,確定整個影片的視覺風格,以及場景、人物、道具等各個細節,達成一致,以滿足各個視覺創作部門的要求與需要。尤其是在步入虛擬制作時代的今天,各種前期預覽、實時預覽的需求給美術部門的工作提出了更多、更高的要求。如何在確保美術師、導演以及攝影師創作主導地位的同時,大大提升分鏡頭畫面設計的效率與質量是本文主要探索的問題。
人們在將文本轉化成圖像時,通常要在大量的學習訓練的基礎上才能實現,通過對不同對象的學習,而形成關于顏色、紋理、形狀、語義以及空間布局等知識基礎。對于給定的文本描述,我們便會利用這些學習過的先驗知識來形成一個視覺印象。
目前,從文本到圖像的生成方法在圖像編輯、視頻游戲、生成藝術,以及計算機輔助設計中都有應用。鑒于其廣泛的應用領域和前景,已有許多從文本到圖像生成的方法 (Text-to-Image),旨在將一段抽象的文字描述轉化成具象的視覺表達。文本與圖像之間存在著明顯的語義差異,因此,這一轉化過程最難,最關鍵的問題在于如何讓計算機從非結構化的文字描述中學習其屬性特征,并將這些屬性特征與相應的視覺屬性特征一一對應,生成相應的視覺元素。
通過深層生成模型進行文本到圖像生成的方法有很多種,比如,近似Langevin采樣,變分自動編碼器方法,pixelCNN方法,以及生成式對抗網絡(Generative Adversarial Network,GAN)方法等。其中,最常用,也是最有效的機器學習方法莫過于生成對抗網絡深度學習模型。Gauthier等人對GAN模型進行擴展,提出了一種條件化的GAN模型用于人臉的生成。Xu等人采用跨模態注意的方法,通過提升文本中某些字或詞的注意力,提出了一種逐步細化的多階段生成框架,更為注重所生成圖像的細節信息。文章 [15]提出一個 “鏡面”的方式,通過在所生成圖像生成文字標題來強制原始文本與生成圖像的一致性。上述方法雖然在準確度、分辨率以及真實性上取得了可觀的結果,但這些方法更適用于簡單場景的情況。針對復雜場景的情況,文章 [16][17][18][19]根據文本描述,推斷其語義布局,并對其中的對象進行建模,形成一個從布局 (Layout)到遮罩 (Mask),再到圖像的框架。為了更進一步模擬人的文字到圖像的處理過程,Zhang等人提出了一種基于視覺記憶的創意對抗網絡來解決復雜場景的情況,在圖像生成過程中適當地利用外部視覺知識記憶。還有一些研究者將對比學習用于GAN模型,通過對比正對和負對來提升圖像表示的一致性。場景圖 (Scene Graph)的提出對解決復雜場景問題又更近了一步,從文本分析中生成對應的場景圖,并根據場景圖以及目標與目標之間的關系最終合成相應的圖像。
前面我們提到,深度學習方法的出現打破了人工智能多年以來發展的瓶頸,將人工智能技術推進到了一個具有里程碑意義的新階段,也已經成功地應用于眾多領域。尤其是在藝術領域,出現了一種新的藝術形式——人工智能藝術 (AI Art)。無論是AI作曲、AI作詩還是AI繪畫,都已相對成熟,借助人工智能技術,可以生成完全符合人們作曲、作詩以及繪畫規則和規律的作品,讓我們也深深體會到這種新的藝術形式的魅力所在。而談到藝術創作,藝術作品的誕生離不開創作過程,而藝術創作的主體離不開藝術家,即人的因素。藝術家或者創作者經歷了藝術經驗、藝術構思以及藝術傳達來完成整個作品的創作過程。從另一個角度講,藝術作品的創作過程是藝術家、創作者情感、心理、人生閱歷以及思維方式的表達過程,任何一種形式藝術作品的創作都不能忽略人作為藝術創作者的核心和引領作用。然而,目前的人工智能依舊處于弱人工智能的階段,換句話說,即使深度學習方法極大地推進了人工智能技術的發展,但當下機器所能做到的還停留在模仿和復制的水平,只能起到輔助作用,而無法完全取代人的位置,距離具有創造性思維的強人工智能還有很長的路要走,這也是人工智能在發展道路上的又一個新的瓶頸。
“以人為中心、人-機合作的人工智能”方法的提出,無疑引導人工智能朝著更加合理、更加人性化的方向發展。混合增強智能的人機協同系統的提出試圖將人的認知能力引入到人工智能系統中,在利用好機器強大的運算與存儲能力的同時,還可以充分地發揮人的認知與思維能力,進而產生 “1+1>2”的合力效果,也彌補了目前機器學習算法中所存在的限制與不足。
關于混合增強智能系統主要有兩種形式的模型:人在回路的增強智能和基于認知計算的增強智能。其中,人在回路的增強智能模型中,人也作為模型的一部分,通過人機交互的方式參與到模型運算當中,換句話說,人也是該智能系統的一部分,計算機通過機器學習算法生成中間運算結果,對于置信度較高的結果可直接作為最終結果輸出,而對于置信度較低的結果,人會針對該結果提出判斷、修整指令,機器在接收到這些反饋指令后會重新學習并調整機器學習模型,以生成新的運算結果,重復該過程,形成一個能夠不斷提升整個系統智能的反饋回路,雙向的信息流將人的認知與思維和計算機強大的計算與存儲能力有力結合,達到智能增強的效果。而基于認知計算的混合增強智能則是通過模仿人腦的功能,來建立具有像人腦感知、推理以及決策能力的智能模型。無論哪種模型,都著重強調了“人”在其中的重要作用。如今,混合增強智能模型已經成功地應用到了人機共駕、在線智能學習以及平行控制與管理等多個領域,人工智能技術也正在迎來一場新的歷史性變革。
哈佛大學的Kochhar等人提出了一種人機協作的方法,通過人機交互的對比描述對圖形目標進行建模,即對圖形目標進行設計與表達。其中的設計過程其實為創作過程,單獨依靠計算機自身的力量只能完成生成過程,而達不到創作的高度。人機協作的工作模式融入了人對整個設計過程的指導與控制,將人的認知與思路通過人機交互的形式傳達、反饋給計算機,從而指導計算機完成設計過程。從藝術創作的角度講,這種方法的提出對于真正將人工智能用于藝術家們的藝術創作又向前推進了一大步。Sun等人設計開發了一套基于GAN模型的共同創作繪畫系統,進行卡通景觀的繪制,可以得到較高質量的卡通繪畫作品。人機合作的人工智能將會是未來藝術創作的一種新方式。
在電影虛擬制作技術日益成熟的今天,對整個制作過程中視覺前置、實時預覽的效率和質量提出了越來越高的要求。電影美術設計是將抽象劇本文字視覺化的第一步,也是關系著整個影片風格和視覺效果至關重要的一步,可以說電影鏡頭畫面的設計是一部影片能否吸引觀眾的最主要因素。對于鏡頭畫面的設計,傳統的手繪方式已經逐漸被各種繪圖軟件所替代,無論從視覺效果上,還是在創作效率上均有了不同程度的提升。而高效的虛擬制作流程給視覺設計提出了更高的要求,能否在保留人作為創作者的領導核心地位的同時,借助人工智能的方法,運用機器學習算法,充分發揮機器的高速運算能力與強大的存儲能力,將創作者的創意、情感和靈感與機器的算力和存儲能力有效地融合起來,實現人機協同,來共同完成電影鏡頭畫面的設計,進而達到 “1+1>2”的創作效果,是本文所要探索的主要問題。
分析劇本是將電影視覺化的第一步,導演、美術師以及攝影師等負責視覺創作的主創人員會圍繞劇本展開討論,初步確立整部影片的視覺風格和方向。美術師會根據討論結果設計并繪制出多種分鏡頭畫面,繼續與主創進行分析討論,直至最終確定一套大家滿意度最高的分鏡頭畫面。為了提升整個分鏡頭畫面創作過程的效率與質量,我們提出了一種人機協同的電影分鏡頭畫面創作框架,如圖1所示。劇本文本作為整個系統的輸入,經由深度學習算法生成一組可能的分鏡頭畫面,對于其中置信值較低的生成結果,創作者們通過人機交互的方式輸入調整建議,針對這些建議,機器重新訓練學習生成模型,進而繼續生成新的分鏡頭畫面,該過程重復執行,直至輸出令創作者滿意的設計結果。

圖1 人在回路的人機協同電影分鏡頭畫面創作方法框架圖
我們可以把整個創作框架定義為一個過程(Process):
P={I,I,I,G,O,O,C,D}
其中,I為輸入劇本文本,I={i,i,…,i} 為電影數字資產庫,這里包括角色、場景、道具、聲音等各種不同的數字資產,機器以及創作者可根據需要調用和修改資產庫中的各類資產。I為創作者的需求,即創作者創作時的一些個人習慣、風格以及具體要求等。G為生成模型,該模型會根據具體輸入內容生成一組中間設計結果,即G(I,I,I)=O,這 組 中 間 結 果 O={o,o,…,o} 經過美學度量之后會輸出給創作者進行選擇和評價,創作者會將個人的修改建議以及新的需求反饋給機器進行重新訓練學習,調整算法模型,進而生成新的中間結果。該過程循環執行,直至輸出令創作者滿意的結果O:

其中,D為決策函數,C為創作者的理想結果,有助于通過決策函數確定最終的輸出結果。
這其中主要包括以下幾個關鍵問題。
對于導演或者美術師而言,從劇本 (文字)到分鏡頭畫面的轉換是一個從抽象到具象轉換的復雜過程。同一段劇本文字,對于不同的導演或者美術師而言會產生出截然不同的畫面。不同的人生閱歷,不一樣的思維方式,甚至不同的時間節點,所產生的靈感都會有所不同,美術師、導演和攝影師會作為創作者參與到我們的人機協同的創作系統當中。
在分鏡頭樣本庫中主要包含兩類數據,即分鏡頭畫面圖和其對應的分鏡頭腳本文字,如圖2所示。樣本庫中,以下列幾種類型的影片分類,包括動作片、戰爭片、災難片、愛情片、喜劇片、懸疑片和科幻片等。為了生成更符合人類視覺和心理認知與構圖的分鏡頭畫面,對于每種影片而言,將分鏡頭畫面分為特寫、近景、中景、全景和遠景等五種不同的景別。

圖2 分鏡頭畫面樣本庫示例圖
另外,應將劇本文字中的關鍵信息標注在對應的每一張分鏡頭畫面中,如圖3所示,分鏡頭腳本文字中出現的具體表示某個人物或者物體的名詞“1900”“琴”和 “香煙”等。以及分鏡頭腳本文字中出現的表示動作的動詞所對應的人物應具有的動作或姿勢等。同時,還要考慮不同景別鏡頭的構圖規律、不同類型影片的色彩色調,以及紋理特征等。

圖3 數據庫標注示例圖
從最早盧米埃爾兄弟在巴黎放映的第一部短片《工廠大門》開始至今,電影美術的品質體現在 “景物與人物的關系互動、個別形象與整體形象之間的并列、環境的形式、畫面構圖、視線體的運動等”各個方面,主要包括以下幾種形象:人物、景觀(場景)、道具與視效。其中,人物是鏡頭畫面的核心,也是故事的核心,場景是人物動作發展的外部環境,是故事的空間元素,可以說,道具支撐了人物動作的發展,是引發人物動作關系的條件,而視效則負責渲染場景的氛圍,往往起到畫龍點睛的作用。
數字資產庫按照時代分類進行建立,主要分為古代、現代、幻想和混合四個大的類別,如圖4所示。不同的類別均包括人物、場景、道具和視效四種形象。其中,對于人物來講,以性別分類為根本,按年齡階段分為老年、中年、青年、少年、幼年和嬰兒,不同的年齡段又可以包含有不同的職業等。對于場景,主要分成室內與室外兩種,室內場景可分為居家、辦公、商業、娛樂、醫院、學校等若干不同地點,而室外場景則可以大致分為自然場景、街景以及建筑場景等幾種。道具,按照其具體用途與出現的場景,分為陳列型道具與戲用型道具。視效則按照其具體內容與功效分為光學類視效、化學類視效和物理類視效幾種。

圖4 電影數字資產庫分類示意圖
數字資產庫本身應既包含各類資產的三維模型,還包括各類皮膚、貼圖等。對于數字資產庫中的各類資產,創作者們不僅可以隨時調用,還可以根據具體的需要調整和修改。與此同時,修改或調整后的資產可以作為新的資產存在于資產庫中。因此,對于數字資產庫而言,其資產是不斷更新、完善和與時俱進的。
近年來,在繪畫、作曲、作詩等多種AI藝術中,隨處可見生成式對抗網絡 (GAN)的身影。在生成式對抗網絡中,包含兩個子網絡,即生成器網絡 (Generator)和判別器網絡 (Discriminator)。Goodfellow等人將GAN模型定義為:

其中,

這里,D:χ→ [0,1]為判別模型,將來自數據分布的概率分配給給定樣本x∈χ,即來區分由生成器生成的圖像和來自于訓練集的真實圖像。G為生成模型G:Z→χ,Z為輸入數據,即通過學習努力生成近似于訓練集中的圖像。判別器D對生成器G所生成的圖像進行真假的判斷,并將判斷結果反饋給生成器G,直至判別器D無法判別出生成器G所生成結果的真假,二者博弈過程結束。
與傳統的GAN模型不同,我們所提出的人機協同的GAN方法是在傳統GAN模型的基礎上融入創作者的指導因素,以保證最終的設計結果仍以人的創意為引領,是創作的結果,而非模擬生成的結果。
我們提出一種基于外部記憶的生成網絡模型,如圖5所示,主要包括四個組合模塊,即場景圖模塊、角色掩膜模塊、景別注意模塊以及外部記憶模塊,分別用來控制畫面構圖、人物角色與場景的層次關系、鏡頭的景別以及整個畫面的視覺注意區域。根據所生成的分鏡掩膜圖,調用數字資產庫中相應的數字資產生成分鏡圖畫面。

圖5 生成器網絡示意圖
判別器網絡要對生成器生成的分鏡圖與真實的美術師繪制的分鏡樣本進行比較和判斷,如圖6所示,主要包括三個方面的判斷:美學判斷、風格判斷以及與劇本的匹配程度判斷。對于評分較低的結果,創作者會根據自己的創作經驗通過人機交互的方式將修整建議反饋給生成網絡以及判別器網絡,其中包括色調、構圖、層次關系等。生成器與判別器在接收到創作者的反饋之后,會重新學習訓練和調整生成模型與判別模型,進而生成更加理想的分鏡頭結果。

圖6 判別器網絡示意圖
這一部分是整個系統的核心,也是引領著整個創作過程朝著更加人性化方向發展的關鍵問題所在。如圖7所示,人機協同系統中主要包括人、人機接口和計算機三個重要組成成分。其中,人機接口起到了連接和溝通人與計算機的橋梁紐帶作用。人們通過觀測,分析、推理并決斷出自己的判斷結果通過人機接口輸入給計算機,對于計算機而言,有其自己對應的數據庫、規則庫和進程方法庫,根據人們的反饋輸入,推理計算出滿足人們輸入需求和意見的結果,仍舊通過人機交互接口反饋給人。對于計算機反饋的結果,人們重復之前的決斷過程將新的反饋輸入給計算機。如此循環,直至產生令創作者們滿意的結果為止。

圖7 人機協同系統示意圖
在我們的人機協同創作系統中,最關鍵的問題在于其中人機接口的形式,即對于計算機生成的結果以什么樣的形式輸出給創作者,而創作者又以什么樣的形式將自己的決斷結果反饋輸入給計算機。這里的創作者包括美術師、導演以及攝影師等與視覺設計相關的主創人員。
為了給創作者提供更加直觀、便捷的中間結果,且便于創作者反饋自己的決策意見,可以通過多通道的人機交互接口來共同實現。主要包括五個不同的通道:視覺注意通道 (圖8(a))、構圖通道(圖8(b))、特征通道 (圖8(c))、極性通道(圖8(d))與強度通道 (圖8(e))。其中,在構圖通道接口,創作者可以使用手繪板通過構圖線條對生成結果的構圖進行調整,或者通過構圖線條給出新的構圖,計算機會根據創作者輸入的線條重新學習和調整畫面的層次結構與布局。特征通道通過滑動特征按鈕來調整顏色、飽和度、亮度、光影等圖像的各種底層特征,計算機會根據創作者的輸入來重新學習各種底層特征,調整模型參數,以生成更理想的結果。視覺注意通道最為重要,視覺注意中心是整個分鏡頭畫面中最能吸引觀眾眼球的區域,也是畫面中突出強調的部分,創作者根據自己的認知將更符合人們視覺感知的視覺中心反饋給計算機,計算機根據創作者反饋的新的中心重新調整畫面結構和關系。

圖8 人機交互通道示意圖
創作人員的參與能夠極大地提升對抗網絡的博弈效率,快速準確地生成符合主創人員要求的分鏡頭設計結果。在此過程中,既保留了藝術創作過程中創作者創作的主導地位,充分發揮了創作者的創作靈感、創作理念以及創作情感和創作習慣,還最大程度地利用了計算機超強的計算能力與存儲能力,將人與機器的能力與作用均發揮到最優狀態。
藝術創作離不開人,離不開人的靈感與情感,可以說,人在藝術創作中起到了靈魂核心的作用。在人工智能、互聯網、人機交互、5G以及電影虛擬制片技術快速發展的今天,如何將這些新興技術手段融合到電影美術創作的過程中,以契合電影虛擬制片技術實時、高效的新需求,是我們必須要思考和解決的問題。傳統的手繪分鏡頭畫面的方式顯然已經無法滿足創作者們的需要和腳步,深度學習算法、人機交互技術的進步給電影美術的創作帶來了直接的創作工具。本文提出了一套人機協同的電影分鏡頭畫面創作系統,創作者在回路中針對機器產生的結果及時反饋給機器自己的想法與意見,讓機器進一步重新更新、學習生成模型,進而生成更優的、更令創作者滿意的結果,如此循環,直至產生最優的,讓創作者們最滿意的結果。該系統不僅保留了創作者在整個創作過程中的靈魂核心地位,還最大程度地利用了機器的計算與存儲能力,讓二者融合協作,進而達到 “1+1>2”的最終效果。在未來的工作中,我們將針對文中所提到的各個主要問題具體展開實驗和測試,建立分鏡頭樣本庫、建立電影數字資產庫,測試調整生成模型與判別模型,并根據具體情況選擇最佳的人機交互通道和交互方式來完成整個系統的搭建。