李昊 丁龍 宋佳
摘要:隨著類腦科學、深度學習、人工智能和計算機圖形學的快速發展,下一代互聯網的完整形態元宇宙整體架構正趨于完善。作為元宇宙重要媒介的“虛擬數字人”的實際應用價值和落地場景也在被逐步挖掘,越來越多的虛擬數字人被設計、制作和應用在各種場景,小范圍驗證了元宇宙生態實現的可能。文章在分析現有研究報告和相關案例的基礎上,明確虛擬數字人的內涵,厘清與其他概念的混淆點,從真人驅動和計算機驅動兩個方向論述虛擬數字人的構建過程,簡要介紹當前虛擬數字人的產業鏈條,并以虛擬主播、虛擬主持人、虛擬偶像為典型案例闡述虛擬數字人在傳媒領域應用的現狀,簡要分析現有不足和未來應用前景,以期為虛擬數字人未來發展提供思路和參考。
關鍵詞:虛擬數字人;構建過程;傳媒領域;應用案例;發展前景
中圖分類號:TP18 文獻標志碼:A 文章編號:1674-8883(2022)16-0001-03
課題項目:本論文為黑龍江省省屬高等學校基本科研業務費科研項目“教育新基建時代數字化學習資源整合模式創新與實現路徑研究”成果,項目編號:145109222;教育部產學合作協同育人項目“人工智能視域下的創客工作坊建設”研究成果,項目編號:202002030027
2021年10月,國家廣播電視總局印發的《廣播電視和網絡視聽“十四五”科技發展規劃》提到,要積極推動虛擬主播、虛擬主持人在天氣預報、文藝科教、新聞報道等場景中的應用,借助新技術創新節目形態,積極提升節目制作效率和智能化水平,提升觀眾和用戶的滿意度[1]。因此,虛擬數字人在政策和社會需求的雙重推動下正加速向傳媒領域滲透。
傳播學專家麥克盧漢曾經指出,“媒介本身即是內容,所以媒介所產生的影響遠遠大于用這個媒介具體做的事情”。當前虛擬數字人正廣泛應用在元宇宙生態中,在其中承擔著制造、傳播信息的重任,是元宇宙中“人—物”和“人—人”之間信息傳遞的新型媒介和重要載體[2]。顯而易見,以虛擬數字人為代表的新型技術必將成為傳媒行業新一輪變革的起點和希望。因為這類技術具有更廣闊的應用場景、更能降本提效,同時虛擬數字人的形象朝著智能寫實化的方向發展,交互性、功能性都大大增強,而內容質量和生產效率又有指數級的上升,可以說,傳媒行業即將迎來顛覆性的技術浪潮。
對于虛擬數字人目前官方尚無統一的概念,市面上也將其稱為數字人、虛擬人、虛擬形象,但筆者并不認可這樣的描述。如果按現有案例對這幾種概念進行解釋說明,則數字人偏向存在于數字世界,能夠完成基礎的對話交互[3],如外賣平臺上的機器人客服;虛擬人則強調人物身份的虛擬,現實世界并不存在,如社交平臺上的虛擬網紅;虛擬形象一般指游戲中的人物,可以由現實中的人設計其造型、性格,如RPG(角色扮演類)游戲中的角色形象。而虛擬數字人具有前述幾者的特征,具體指的是存在于非現實世界中,由深度學習、類腦科學等技術疊加生產的一類智能體,目前主要以“擬人化+互動性+智能化”三重標準來衡量虛擬數字人的智能程度,完整形態的虛擬數字人不僅能夠解決人類日常生活、學習、工作上的問題,還能給予人類完美的“情感陪伴”體驗。
目前虛擬數字人還處于基礎建設階段,主要有兩種構建方式,分別是真人驅動和計算驅動[4]。
(一)真人驅動的虛擬數字人
真人驅動的構建方式起步較早,最早應用在影視特效制作中,指的是通過攝像機來捕捉現實人類的一舉一動,再映射到虛擬形象上,這種方式實際上是“動作捕捉+計算機3D建模”的結合應用,由于圖形識別和人工智能技術的進一步發展,現階段已經不再需要通過復雜的傳感器來捕捉人物動作和神情,只需要普通相機就可以獲取到精度非常高的信息,再通過計算機強大的算力構建虛擬人物。真人驅動的虛擬數字人構建主要有以下幾個步驟。
第一,依據需求和使用場景設計虛擬數字人的理想形象,對動作關鍵點進行3D建模。
第二,對真人和虛擬數字人形象進行關鍵點的一一綁定,關鍵點數量越多,虛擬數字人形象越逼真,最終效果也越真實。
第三,真人在特定環境下根據要求做出不同的肢體動作、神態表情等,通過“圖像識別+攝像頭”進行實時捕捉,完成形象數據采集。
第四,對虛擬數字人語音進行數據訓練,通過語音合成形成想要的語音。
第五,合成虛擬數字人的動作、表情與語音,與現實人類互動。
(二)計算驅動的虛擬數字人
計算驅動的虛擬數字人構建過程相比于真人驅動更為復雜,其原理是通過深度學習算法對真人的動作、表情、聲音進行建模,主要有以下幾個步驟。
第一,形象設計,這一步主要是通過多角度的攝像頭對真人形態、表演進行打點掃描,可以按需求選擇全局掃描和局部掃描,重點是針對眼神、嘴唇、肢體動作進行數據采集。
第二,虛擬數字人的形象建模,可選擇基于真人的高還原度建模或者是特定虛擬形象建模,基于真人的高還原度建模可以將真人的不同角度照片遷移到虛擬模型上,生成最終的虛擬形象;還可以設計動漫類、游戲類虛擬形象,將真人視頻數據和虛擬形象匹配,完成虛擬形象的建模。
第三,通過深度學習算法訓練各類驅動模型,讓虛擬形象不斷吸收真實人物的唇形、語音、動作、表情等數據,能夠高度復原人類骨骼、肌肉的細微變化,形成虛擬形象自身的驅動模型,進而能夠順暢自然地展現動作和神情。
第四,以語音合成為底層技術,將事先準備好的文本通過語音模型生成為對話語音,通過面部和唇部的驅動模型與生成好的語音進行匹配輸出,將語音和虛擬數字人的表現完美結合。
第五,通過計算機進行在線或離線渲染,如果使用場景涉及系統專業知識且需要對話互動,還要配合知識圖譜和語義理解進行深度訓練。
可以看出,兩種方式主要區別在于驅動邏輯上,真人驅動較為靈活,操作和流程稍微簡單一些,但普適性和傳播性不強。而計算驅動的虛擬數字人,涉及的環節和技術較多,前期準備更復雜,但是一旦訓練的模型達到要求,那么渲染合成后將快速高效適用于不同場景。
(一)產業鏈上游
虛擬數字人產業鏈上游主要是具有核心技術的研發公司,它們是虛擬數字人整個產業鏈條的基礎,核心技術包括動畫渲染技術、建模技術、采樣技術及與人工智能技術相關的算力升級、算法開發等。可以這么說,核心技術能否取得突破性進展,不僅影響產業下游的具體應用場景能否落地,還對整體的研發成本和虛擬數字人的實際效果起到決定性作用,哪個領域找到了“虛擬數字人+傳統產業”有機結合的鑰匙,哪個領域就能率先完成場景創新。
(二)產業鏈中游
虛擬數字人的產業鏈中游主要是提供行業方案的平臺方,他們既是虛擬數字人在不同場景應用落地的探索者和設計者,又是連接上游虛擬數字人技術研發企業和下游內容生態構建者的關鍵主體,主要負責人物形象的設計、基本運營、品牌形象的維護等。各平臺將根據行業特色和業務方需要,完成虛擬數字人與具體場景或產業的融合方案,支持定制化的虛擬數字人形象和功能設計,目前在傳媒領域落地的虛擬主播、虛擬KOL取得的效果都非常不錯。
(三)產業鏈下游
虛擬數字人的產業鏈下游主要是虛擬人實際的運營方,是不同類別虛擬數字人內容生態的創作者和構建者。虛擬環境的內容生態質量、數字虛擬形象的IP運營、現實環境的多重支持都將影響產業鏈下游的健康發展,因為這一環節不僅是呈現最終效果的一環,還是傳統行業與元宇宙技術緊密結合創新應用的一環,能直觀感受到虛擬數字人與行業融合后的效果。
(一)虛擬主播
由聯通沃音樂文化有限公司推出的虛擬數字人主播“COCO”能夠根據不同場景完成不同的任務。在新聞報道方面,“COCO”能靈活切換中英粵三種語言報道新聞;在擔任視頻客服時,不僅能24小時在線,還能依據語義理解和知識問答庫實現實時有溫度的語音交互;在2022年全國兩會和北京冬奧會期間,“COCO”還及時播報和解讀了重要新聞和賽事[5]。類似“COCO”這類的虛擬主播還有央視網小C、人民日報果果、湖南衛視小漾等。
需要特別提到的是,央視推出了全球首個能夠完成手語互動的虛擬主播“小聰”,它是虛擬數字人在傳媒領域的一項重要突破,尤其是在視聽媒體中擁有廣泛的應用價值。它的主要底層技術是深度學習和機器翻譯,小聰能夠基于《國家通用手語詞典》完成健全人與聽障者手語語言的翻譯,能夠比較準確流暢地實現手控信息和非手控信息的表達,通過機器翻譯和內部模型生成手語表征信息,包括面部表情、唇形變化、手部動作等多個維度。
(二)虛擬主持人
虛擬主持人的代表之一是浙江衛視推出的宋韻文化推廣人——“谷小雨”。作為浙江衛視近期重點支持建設的虛擬主持人,谷小雨身上最明顯的特征就是完美結合了傳統文化和現代科技的優勢,是兩個領域探索合作的優秀案例[5]。在技術方面,谷小雨開創了國內首個使用虛擬引擎在電視媒體AR舞臺應用的先河,依托實時渲染技術和AI智能驅動系統,谷小雨在具備交互、表達、感知能力的同時,還是一個擁有超過200萬面數的高精度寫實虛擬人。文化方面,谷小雨的形象不僅具有古典美,還融合當下流行的潮流元素進行了創新設計,如水墨長裙的印花服飾靈感源于南宋西湖圖,最終的舞臺效果一方面呈現了傳統文化底蘊,另一方面向觀眾呈現了科技在傳媒領域的應用潛力。
浙江衛視還計劃推出不同類型的數字藏品,招募人才組建數字虛擬技術實驗室,探索虛擬數字人在傳媒領域更多可以落地的應用場景。目前,浙江衛視已經正式宣布成立數字虛擬工作室。
(三)虛擬偶像
由AI未來影像創作中心和中國聯通5G共同推出的虛擬數字人安未希是虛擬偶像的代表之一。安未希是通過自研的影像數字人系統,融合“實時動捕技術+AI數字人生成技術”打造的,它的名字寓意為“未來充滿希望”,整體形象積極向上。安未希的人設定位為能歌善舞、多才多藝、熱愛自由的達人。安未希的核心能力是能夠進行一定程度的音樂創作,以柔美空靈的嗓音征服了數以萬計的網民,在“深度學習+語義理解”技術的加持下,能夠完成作詞、作曲、演唱、跳舞等一系列活動。事實證明,安未希這樣的虛擬偶像具有極高的商業價值,未來希望以更多元的方式觸達客戶[6]。
總體來看,在傳媒領域應用的虛擬數字人可以歸為服務型虛擬人,相比之前的聊天機器人、數字助理,可以提供更好的擬人化服務,其優勢在于通過人工智能和計算機建模等技術能夠更大范圍地承接垂直領域的社會工作,其服務型角色廣受線下客戶和網絡用戶的喜愛。
傳媒領域是重信息傳遞和感官體驗的行業,虛擬數字人的出現正好強化了這兩個方面。傳統的新聞播報都是通過文字、語音、視頻形式來完成,缺乏沉浸式的交互體驗,而虛擬數字人基于AI情感算法、多模態人機交互、類腦科學等技術,大大增強了信息傳遞和互動過程的沉浸感。憑借智能化的虛擬數字人來傳遞信息,甚至是與人交流,將極具創新性和藝術性。同時,虛擬數字人的應用將改變以往傳媒行業的采編發流程,其智能化、規模化的生產方式將促進新的產業生態形成[7]。未來虛擬數字人的交互方式還會有多種衍變,使虛擬數字人可以擁有一次喚醒、多次交互的能力,其功能也逐漸完善,由簡單對話朝智能糾錯、智能響應、多輪對話的方向發展。隨著計算機視覺、人工智能和渲染技術的不斷發展,完全智能化的虛擬數字人將擁有全面的聽、說、讀、寫能力,將會在傳媒領域有更廣泛、更高效的應用。
未來,虛擬數字人將會在更多行業應用,通過“虛擬數字人+應用場景”的深度融合,使虛擬數字人也能走進尋常百姓家,每個人都會有專屬的智能助手,信息的生產、傳遞方式將徹底改變,由之前的UGC(用戶生產內容)向AIGC(人工智能生產內容)轉變。所以,即便現在虛擬數字人的落地應用還有法律、技術和模式方面的不足與缺陷,但仍要堅信虛擬數字人發展前景一片光明。
參考文獻:
[1] 廣播電視和網絡視聽“十四五”科技發展規劃[EB/OL].國家廣播電視總局,http://www.nrta.gov.cn/art/2021/10/8/art_113_58120. html,2022-07-16.
[2] 謝新水.虛擬數字人的進化歷程及成長困境:以“雙重宇宙”為場域的分析[J].南京社會科學,2022(6):77-87,95.
[3] 陸正蘭,趙勇.數字時代的身體意義:科幻電影中的三種虛擬人身體范式探析[J].福建師范大學學報(哲學社會科學版),2020(5):116-124,171.
[4] 陳龍強,張麗錦.虛擬數字人3.0:人“人”共生的元宇宙大時代[M].北京:中譯出版社,2022:136-142.
[5] 2022年中國虛擬人產業商業化研究報告[R].艾媒咨詢,2022-04-01.
[6] 黃慎澤,王俊賢.人機交互技術在虛擬偶像中的應用研究[J].傳媒,2021(16):51-53.
[7] 王建華,蘇日古嘎.智媒時代深度合成技術的實踐與思考[J].中國記者,2020(10):87-92.
作者簡介 李昊,碩士,助教,齊齊哈爾大學教師,研究方向:智慧教育、數字化資源開發。丁龍,本科,教授,齊齊哈爾大學教師,研究方向:智慧教育、STEAM教育。宋佳,博士,講師,齊齊哈爾大學教師,研究方向:智慧教育。