■文/張俊波
人工智能的引入可以從根本上改變虛擬人、虛擬場景、虛擬物品等數(shù)字資產(chǎn)的生產(chǎn)方式,讓打造數(shù)字資產(chǎn)的生產(chǎn)流水線成為可能,從而實現(xiàn)規(guī)模化、批量化生產(chǎn)。這是實現(xiàn)未來元宇宙世界的必經(jīng)之路。
近年來,互聯(lián)網(wǎng)及軟件行業(yè)的各種技術(shù)發(fā)展迅速,這也構(gòu)成了我們暢想未來元宇宙時代的基礎(chǔ)。但是,從科技領(lǐng)域的生產(chǎn)流程而言,我們還處于工業(yè)革命之前的狀態(tài),生產(chǎn)效率低下,距離實現(xiàn)大批量、規(guī)模化生產(chǎn)還有很長的路要走。數(shù)字資產(chǎn)的生產(chǎn)成本高昂、對技術(shù)人才的要求苛刻,已然成為阻礙其發(fā)展的重要原因。
以近幾年非常火爆的數(shù)字人為例,靈動表現(xiàn)的背后是動畫師在一幀幀地精修渲染,不僅成本高昂,而且制作流程耗時費力。在生產(chǎn)流程中引入人工智能(AI)技術(shù),將工具訓(xùn)練成開發(fā)者大腦的延伸勢在必行。只有在數(shù)字資產(chǎn)制作的流程中引入AI技術(shù),才能夠大規(guī)模生產(chǎn)高質(zhì)量的虛擬內(nèi)容,從而引領(lǐng)元宇宙時代的生產(chǎn)力革命。
元宇宙有3個不可或缺的基礎(chǔ)要素:人、場、物,這些數(shù)字資產(chǎn)共同構(gòu)成了元宇宙世界,影響著人們在元宇宙世界中的體驗。作為全球領(lǐng)先的實時3D互動內(nèi)容創(chuàng)作和運營平臺,Unity已經(jīng)在有意識地探索如何通過AI加速數(shù)字資產(chǎn)的生產(chǎn)流程。
元宇宙最早落地的應(yīng)用場景是虛擬數(shù)字人。當(dāng)前,很多公司采用的流程是讓模特在光場設(shè)備中做出極限表情并拍攝下來,然后讓藝術(shù)家用K幀(關(guān)鍵幀)的方式進行模型清理,這個步驟耗時耗力,卻是避免“恐怖谷”效應(yīng)的必經(jīng)之路。
人的表情是由面部肌肉牽動的,只要掌握了面部肌肉間的相互作用關(guān)系,就可以借助AI技術(shù)模擬出人類的所有表情,而不需要找真人來一一掃描。例如,Unity收購的全球領(lǐng)先的數(shù)字角色創(chuàng)作公司Ziva,就十分擅長利用機器學(xué)習(xí)來幫助實時角色創(chuàng)作,精通復(fù)雜模擬與模型變形。Ziva打造的虛擬人Emma,可以在Unity平臺中實時運行(見圖1)。

圖1 Ziva打造的虛擬人Emma,可以在Unity平臺中實時運行
通過Ziva Faces、Ziva Face Trainer(見圖2)等AI賦能的工具,結(jié)合人工智能的計算,原本要耗費數(shù)周甚至數(shù)月的角色臉部創(chuàng)作,可以濃縮成云端的一次按鈕點擊。這種新穎的方式不僅能加快創(chuàng)作流程,還能讓更多的創(chuàng)作者參與其中,發(fā)揮他們的創(chuàng)意。

圖2 Ziva Face Trainer
如今,Ziva和Unity正在合作規(guī)劃開發(fā)路線,著重普及可負擔(dān)、可擴展的實時3D人臉技術(shù),讓數(shù)字角色的表演無須昂貴的頭戴攝像機(HMC)或體積捕捉設(shè)備即可完成。
Ziva與Unity還合作開發(fā)了工具Ziva RT,其主要功能是將復(fù)雜的顯式表達變成一個AI模型的隱式表達,從而大大提升性能與效率,減少算力代價和運行期內(nèi)存消耗,讓原來需要藝術(shù)家十幾天時間才能完成的創(chuàng)作,現(xiàn)在只需要短短2小時就能完成。
Ziva RT的使用非常簡單,只需要用戶提供一個復(fù)雜的程序化動畫綁定系統(tǒng)10 000幀的動畫結(jié)果,即每一幀網(wǎng)格體的頂點數(shù)據(jù),Ziva RT就能學(xué)到這個復(fù)雜系統(tǒng)的隱式表達,然后在運行時取代它。Ziva RT帶來的變形效果可以直接用于最終成品,它還可以加快用工具評估動畫裝配的速度,加快數(shù)字內(nèi)容創(chuàng)作(DCC)迭代流程(見圖3)。

圖3 Ziva RT帶來的變形效果
Ziva的能力遠遠不止于完善3D面部模型與面部表情制作,也能用于動作模擬。例如,使用Ziva VFX 2.0中的新準靜態(tài)積分器與生物力學(xué)彈性體求解器模擬真實世界中軀體柔軟的獅子,從而提供準確的結(jié)果,確保肢體動作最高保真度的變形。
正如面部表情一樣,人類的肢體動作是靠關(guān)節(jié)控制的,所以只要理解了關(guān)節(jié)間實時互動的邏輯,就能夠用AI來加速肢體動作的制作。例如,利用Unity Deep Pose功能,就可以通過控制某個關(guān)節(jié),自動模擬出在該動作的作用下身體其余關(guān)節(jié)的正確反應(yīng)(見圖4)。

圖4 Unity Deep Pose功能
同樣用于動作制作的AI驅(qū)動功能還有動畫系統(tǒng)Kinematica。在傳統(tǒng)做法下,開發(fā)者需要在混合樹(Blend Tree)或狀態(tài)機安排兩個動作之間的切換,才能夠模擬出逼真的人物動作。基于Kinematica,開發(fā)者只要給予一個骨骼姿勢和所需要的軌跡運動,系統(tǒng)就會演算出慣性的動作位移。
在元宇宙中,除了虛擬人之外,場景也是重要的組成部分,而且其體量比數(shù)字人要大得多。現(xiàn)在創(chuàng)作數(shù)千甚至數(shù)萬平方千米的虛擬世界,已經(jīng)無法用純?nèi)斯さ姆绞綌[放和設(shè)計每一寸土地了,程序化和規(guī)則化生成世界成為開放大世界的一個關(guān)鍵技術(shù),人工智能生成內(nèi)容(AIGC)在這個方面發(fā)揮著至關(guān)重要的作用。
Unity在場景創(chuàng)作中也已經(jīng)引入AI功能。例如,Unity World Generation是由AI技術(shù)驅(qū)動的美術(shù)輔助工具,開發(fā)者只需要簡單地“掃”幾下,就有一座高山憑空而起,并且實時模擬出真實的光影效果(見圖5)。

圖5 由AI技術(shù)驅(qū)動的美術(shù)輔助工具World Generation
如果想要更多的細節(jié),也可以借助機器學(xué)習(xí)快速生成。例如圖6中,用戶通過可視化的方式在左側(cè)的小區(qū)域內(nèi)“放置”樹木、地皮等資產(chǎn),機器學(xué)習(xí)模型就會根據(jù)山體的坡度、水流侵蝕等表面特征實時模擬出植被的正確狀態(tài)。

圖6 通過機器學(xué)習(xí)可快速生成植被
此外,Unity還推出了智能資產(chǎn)(Smart Assets)。在這種資產(chǎn)里的每一個元素都由AI驅(qū)動,用戶通過可視化的方式控制每一個元素在場景中所占的比重,系統(tǒng)就會自動生成符合物理真實的場景。所有的計算都通過AI自動完成,不需要再去手動調(diào)整參數(shù)。
在人與場景之外,物體也是元宇宙世界必不可少的構(gòu)成要素。逐一地建模復(fù)刻設(shè)計無疑是一個效率低下的方式,而通過3D掃描技術(shù)和AI則可以大幅提高效率。目前,Unity已經(jīng)推出了一些AI驅(qū)動的功能,通過可視化的方式與3D掃描對現(xiàn)實世界的對象進行三維重建。
例如,Unity ArtEngine利用AI改進了表面攝影制圖工作流程,可以通過AI來根據(jù)照片自動生成模型資產(chǎn)中的材質(zhì)數(shù)據(jù),并快速去光照、去接縫,消除不需要的偽影,從而快速將照片轉(zhuǎn)換為基于物理渲染(PBR)的素材。形象地說,通過Unity ArtEngine,用戶可以輕松地將貓毛提取為PBR材質(zhì),然后應(yīng)用于任何物品,如做成一張獨一無二的地毯。
近期,Unity ArtEngine推出了全新的Style Transfer功能,可進一步釋放設(shè)計師、獨立制作者的創(chuàng)作潛力。Style Transfer可以幫助用戶以圖像為基礎(chǔ),生成不同氣氛與色調(diào)的圖像,將一張參考圖像的藝術(shù)風(fēng)格轉(zhuǎn)移到另一張圖像上,效果如圖7所示。

圖7 Unity ArtEngine可以快速生成不同風(fēng)格的圖片
Unity ArtEngine可以生成PBR材質(zhì),而Unity的RestAR能夠為任何產(chǎn)品或?qū)嶓w創(chuàng)建3D模型。RestAR借助計算機視覺和深度學(xué)習(xí),讓沒有技術(shù)背景的用戶通過使用移動設(shè)備即可對產(chǎn)品進行高質(zhì)量的3D掃描和渲染。用戶只需要用手機拍攝1分鐘的視頻,然后將其上傳至云端,視頻就會在AI技術(shù)的輔助下進行處理和壓縮,從而成為高質(zhì)量的3D模型。
UGG、Off-White等時尚品牌和電商平臺都已經(jīng)率先使用了RestAR,應(yīng)用場景包括3D預(yù)覽、AR試穿等。未來,這項技術(shù)可以成為用戶在元宇宙世界的好幫手,如把生活中的擺件、書籍等物品掃描成3D模型(見圖8)。

圖8 RestAR可以快速生成3D模型
通過Unity的技術(shù),開發(fā)者可以高效創(chuàng)作出元宇宙里的人、場、物。但是,元宇宙并不僅僅是一個靜態(tài)的畫面,“交互性”“社交屬性”同樣是元宇宙不可忽視的基本特征。
元宇宙世界中的數(shù)字人,就如同游戲中的非玩家角色(NPC),需要能夠與用戶對話、給出實時反應(yīng)與反饋,不僅要有精美靈動的外表,還需要有近乎人的智能,甚至是“靈魂”。這涉及兩個部分:交互設(shè)計與行為模擬。
交互設(shè)計包括語音驅(qū)動、動作捕捉、面部捕捉以及物體追蹤,這更多涉及的是現(xiàn)實世界向虛擬世界轉(zhuǎn)換與移植的問題。例如,在召開虛擬會議的時候,可以實現(xiàn)變臉,通過Unity的AR Foundation就可以在Unity中以多平臺方式進行面部捕捉。在不久的將來,用戶用一個普通的攝像頭就可以實現(xiàn)非常精細、準確的面部捕捉,而不再需要非常專業(yè)的設(shè)備。
對元宇宙世界而言,更重要的是AI在行為模擬方面的作用,也就是如何讓元宇宙中的NPC能夠與用戶交互,如何讓它們看起來如同擁有自主意識和“靈魂”(見圖9)。

圖9 元宇宙是生機勃勃的世界,NPC能夠自然地與人“交談”
針對這個問題,Unity已經(jīng)擁有了成熟的工具,如ML-Agent。ML-Agent為開發(fā)者提供了強化學(xué)習(xí)和模仿學(xué)習(xí)框架,以及游戲虛擬仿真環(huán)境,能夠大大降低游戲AI領(lǐng)域各種行為模擬算法的訓(xùn)練和測試成本。
訓(xùn)練與測試是一個方面,推理則是另一條根本捷徑。只有將二者結(jié)合,才可以讓這些原住民不僅能夠在預(yù)設(shè)的條件中靈活應(yīng)對,還可以自己推理演算,滿足與真人接觸時不可預(yù)測的種種情況。
Unity為基于計算機圖形(Computer Graphics)結(jié)構(gòu)開發(fā)的AI算法模型,提供了一個跨平臺的推理引擎Unity Influence Engine。任何AI開發(fā)框架,如Tensorflow、PyTorch、Keras等,只要將訓(xùn)練結(jié)果導(dǎo)出成開放神經(jīng)網(wǎng)絡(luò)交換(ONNX)格式都可以導(dǎo)入Unity的推理引擎中,直接使用該AI模型的功能。
基于ML Agent與Influence Engine這兩項技術(shù),Unity讓元宇宙中的NPC可以像真正的人一樣與用戶的數(shù)字分身進行交互,給他們更好的生活體驗。
雖然我們已經(jīng)可以在技術(shù)層面構(gòu)建出虛擬的人、場、物,并且讓元宇宙中的原住民NPC看上去仿佛擁有了“靈魂”。但是,元宇宙離我們依然很遙遠。
首先,元宇宙其實就是一個廣泛的實時3D版本的互聯(lián)網(wǎng),其特征為始終實時、3D為主、高度交互、高度社交和持續(xù)穩(wěn)定。從這個定義來看,現(xiàn)在很多所謂的元宇宙概念的產(chǎn)品,要么是純靜態(tài)展示無法互動,要么互動是由設(shè)定好的程序按部就班執(zhí)行,無法對設(shè)定程序以外的行為做出反應(yīng)。這其實還不能被稱為真正意義上的元宇宙,因為它們無法滿足“實時性”與“交互性”的要求。真正的“實時”狀態(tài),應(yīng)該就像我們的日常生活一樣——沒有人知道接下來會發(fā)生什么,完全取決于你現(xiàn)在做了什么以及你周圍的環(huán)境,而這只能由可以像人一樣思考,甚至超過人的人工智能來實現(xiàn)。
其次,只有通過AI實現(xiàn)流水線式批量生產(chǎn),才能確保有足夠多的數(shù)字資產(chǎn)打造一個豐富的元宇宙。元宇宙并不是一個空間概念,而是一個時間概念。也就是說,當(dāng)人們在虛擬世界里花的時間越來越多,直到超過現(xiàn)實世界時,才可以說我們進入了元宇宙時代。這就需要元宇宙世界有足夠多的、豐富有趣的內(nèi)容,能夠給人以比現(xiàn)實世界更多元的體驗,才能讓人更愿意在虛擬空間而非物質(zhì)世界里花費時間。
但是,要實現(xiàn)這一點,就需要海量的虛擬人、場景、資產(chǎn)等素材。如果再想要追求3A級內(nèi)容(一般指高成本、高體量、高質(zhì)量的游戲),就需要大量的時間成本、金錢成本、人力成本,按照現(xiàn)在這種相對傳統(tǒng)的生產(chǎn)模式,必然無法滿足海量的內(nèi)容需求。因此,能夠指數(shù)級降低數(shù)字資產(chǎn)制作成本的AI技術(shù)就成為實現(xiàn)元宇宙必不可少的先決條件。
AI的引入可以從根本上改變虛擬人、虛擬場景、虛擬物品等數(shù)字資產(chǎn)的生產(chǎn)方式,讓打造數(shù)字資產(chǎn)的生產(chǎn)流水線成為可能,從而實現(xiàn)規(guī)模化、批量化生產(chǎn)。我認為,這恰恰也是實現(xiàn)未來元宇宙世界的必經(jīng)之路。
近期,Unity非常關(guān)注的一個關(guān)鍵技術(shù)方向是神經(jīng)輻射場(NeRF)。
美國加利福尼亞大學(xué)伯克利分校、谷歌研究(Google Research)和加利福尼亞大學(xué)圣迭戈分校的研究團隊在2020年歐洲計算機視覺會議(ECCV 2020)上發(fā)表的一篇里程碑式的論文中提到,NeRF實現(xiàn)了神經(jīng)場(Neural Field)與圖形學(xué)體渲染(Volume Rendering)的有效結(jié)合,首次利用神經(jīng)網(wǎng)絡(luò)隱式場景表示實現(xiàn)了照片級的渲染效果。
NeRF是一種有可能完全改變虛擬世界表達方式的技術(shù),無論是畫面的產(chǎn)生,還是數(shù)字資產(chǎn)的表達方式,都可以參數(shù)化到一個隱式空間。
NeRF技術(shù)具有很強的使用價值。例如,通過神經(jīng)網(wǎng)絡(luò)渲染等技術(shù),NeRF不僅可以生成較好的視覺效果,還能控制生成結(jié)果的風(fēng)格和語義結(jié)構(gòu)。通過NeRF,我們可以讓用戶自主輸入顏色、紋理等細節(jié)信息,制定并修改內(nèi)容,進而將用戶指定的語義圖映射為逼真的圖像。
這其中涉及的神經(jīng)網(wǎng)絡(luò)渲染,在很多方面改進了傳統(tǒng)的渲染方式。神經(jīng)網(wǎng)絡(luò)渲染可以預(yù)設(shè)在特定環(huán)境下的所有渲染效果,但這對算力與存儲有很高的要求。如果采用神經(jīng)元網(wǎng)絡(luò)渲染技術(shù),就可以通過AI解決算力與存儲壓力,以一種類似于查表的機制去獲得描述性表達。以員工走進辦公室的場景為例,在這個場景中,隨著員工的位移,光影也會隨之變動。傳統(tǒng)模式是預(yù)設(shè)一些根據(jù)光影變化而呈現(xiàn)的畫面,但通過神經(jīng)網(wǎng)絡(luò)渲染,就可以提前渲染出更多種甚至無數(shù)種情況。在實際運行過程中,系統(tǒng)會根據(jù)員工所在的位置實時調(diào)取正確的光影配置,而且這個過程也更加準確、可控。
NeRF與神經(jīng)元網(wǎng)絡(luò)渲染如果能夠?qū)崿F(xiàn),將取代當(dāng)前GPU光、聲、畫的影視化表達,就能夠完全顛覆呈現(xiàn)虛擬3D世界的方式。
當(dāng)然,目前的NeRF如果要完全替代傳統(tǒng)GPU渲染和數(shù)字資產(chǎn)的表達還存在效率問題。對工具廠商來說,Unity一直在為開發(fā)者用最小的算力存儲代價獲得最好的虛擬交互體驗而努力。雖然目前NeRF的數(shù)字表達無論是生產(chǎn)階段還是使用階段,算力效率以及與傳統(tǒng)方式的協(xié)同都存在一些問題,但這無疑是一個很值得關(guān)注的技術(shù)方向。
接下來,Unity會將NeRF等AI相關(guān)技術(shù)集成、納入更多的創(chuàng)作流程中,讓工具真正成為創(chuàng)作者的大腦,讓在現(xiàn)實世界中的所見成為元宇宙世界中的所得。