影視動畫作品在制作立體人物形象時,為確保角色動作的真實性與準確性,往往采用動作捕捉方式形成初步人體動作模型,其后再根據藝術創意進一步調整修改。專業動作捕捉需要專用空間、設備、軟件和技術人員等支持,具有一定成本和技術門檻,在當今的數字化生產環境中,簡便的全身動作捕捉方式的需求缺口較大。而通過人工智能 (AI)驅動的動作捕捉解決方案可簡化動畫制作流程并降低成本,為不同需求的中小型創作者和項目提供更大的創作靈活性,同時此類運動捕捉意味著演員無需穿著動作捕捉服裝,從而可以做出更加自然和自由的動作。
最早的人體姿態識別項目OpenPose開源庫由美國卡耐基梅隆大學(CMU)基于卷積神經網絡和監督學習并以Caffe為框架開發,是世界上首個基于深度學習的實時多人二維姿態估計應用,可實現人體動作、面部表情、手指運動等姿態估計,適用于單人和多人,具有極好的魯棒性,基于它的應用實例不斷推出。此類應用實例基本流程可概括為:錄制一段真人動作視頻,探測并提取視頻中人物動作關鍵點,將其連成一段連續的基線,利用無監督對抗學習 (Unsupervised Adversarial Learning)對畫面中2D 關鍵點估算3D 動作,再利用卷積殘差網絡(Convolutional Residual Networks,CRN)推測視頻深度,最終形成相應格式的3D 動作文件并導出。此類應用最初需要用戶具有編程知識背景,具備一定的技術門檻,但近年來基于網頁的轉換工具越來越多,非專業人士也可利用其簡便、高效地完成從真實人物動作視頻到3D 動作動畫的轉換工作。
法國初創公司Kinetix已開發出一套基于網頁的服務,可直接將視頻中的人物轉換為3D 動畫并用于電影、游戲、VR、AR 等作品中,適合不具備動作捕捉條件的制作團隊或非技術人員。用戶可將自己拍攝的MP4、MOV、AVI視頻文件上傳至Ki-netix網站,也可直接鍵入某個在線視頻的URL,Kinetix網站即可自動識別人物動作,包括手部姿態、半身動作等,但尚無法進行面部捕捉。Kinetix與Adobe合作,豐富了其3D 形象庫,用戶在使用Kinetix網站進行動作轉換時可從網站自帶和Adobe Mixamo形象庫中選擇真實、卡通等不同風格的3D動畫形象作為立體動作的載體。轉換完成后的3D動畫可直接導出FBX、gl TF 等格式,4096×4096像素,PBR 材質的文件,再導入至Blender、Maya、UE、Unity等主流后期制作軟件或引擎中,完成進一步調整。此外還可生成共享URL,用于在XR 環境下觀看。Kinetix的3D 模型自動生成算法基于深度學習,用戶上傳的視頻也將作為訓練數據持續改進Kinetix模型。與Kinetix相似的服務還包括Animate 3D、Pix Cap、Plask 等,技術路線基本一致,在轉換精度、可識別內容方面略有差異。創作者如果使用基于AI的智能掃描功能,可利用手機或平板電腦的攝像頭進行全身運動捕捉。與攝影棚專業設備相比,智能手機具有局限性,但是與價格昂貴、體積大的動作捕捉裝置相比,普通消費者更傾向于手機。
用電視、電影或游戲開發等傳統方法制作3D動畫并不容易,但隨著技術不斷進步,大量便捷的工具和程序持續推出,以簡化此類數字內容的創建。尤其是當下不適宜大批人群聚集的時期,或者獨立制作團隊需要遠程或居家制作數字內容時,傳統制作方式會增加各種成本,而AI驅動的動作捕捉解決方案為不同規模的創作提供了機會,推動了3D動畫普及化創作,也能夠保證創作過程中減少人員聚集的健康風險。