簡圣宇


摘 ? 要: 作為社會數字化轉型的伴生產物,“虛擬數字人”產業蘊含著巨大的市場需求。從經濟到文化教育等各個行業和領域,都需要能與人類實現協同合作的虛擬員工。當下的“虛擬數字人”仍只是些只有外觀而沒有自主思想的數字人物形象,不過隨著驅動程序的升級,它們也將對人類社會產生更深的影響。其在“元宇宙”這類智能虛擬平臺搭建起來后還將有更廣闊的應用空間,為人類社會增加新的人力資源。ChatGPT的出現帶來了新的契機,它能夠作為未來數字人的內在驅動而產生關鍵作用,賦予后者以“類人心智”。盡管如此,在人物形象的自動生成和智能驅動等方面,虛擬數字人產業仍有較多技術瓶頸問題亟待解決。
關鍵詞: 人工智能;元宇宙;虛擬數字人;ChatGPT;類人心智;智能驅動;智能生成內容
中圖分類號:G20 ? 文獻標識碼:A 文章編號:1004-8634(2023)04-0045-(13)
DOI:10.13852/J.CNKI.JSHNU.2023.04.005
“虛擬數字人”是社會數字化轉型的伴生產物,也是構建元宇宙的核心要素,目前其相關產業正處于自身發展的初級階段。1 當人類文明發展到一定階段時,必然將自己的存在場域從單純的現實世界升級到“現實世界+數字世界”的狀態。由于物理世界的容納能力和應用場景是有限的,故而必須通過向數字世界拓展才能打破舊文明的束縛,走向數字文明。2 構成“虛擬數字人”的三要素包括:自然流暢的語音、廉價快捷生成的外貌,以及智能驅動支撐的心智內核。這其中,心智內核是最重要也是最需要技術積淀的部分。當有了GPT模型和“人類反饋強化學習”(Reinforcement Learning from Human Feedback,縮寫RLHF)等方案的賦能之后,人工智能的高級自然語言處理能力又上了新的臺階,其運用在“虛擬數字人”身上就使其更具有了“類人”的心智特征。GPT模型的成功案例說明,人類可以通過神經網絡路徑去持續優化算法,從而深入模仿人類認知過程。1 而若人工智能能夠產生“心智”(至少是“類人心智”),那也就意味著已知為驅動內核的“虛擬數字人”也能具備相應的能力。
一、內涵持續豐富的“虛擬數字人”概念
所謂“虛擬數字人”,即以人類外貌、心智等元素為設計底本,借助信息技術構建出的虛擬人物形態。它可以對人們顯現具體外貌,也可以僅用語音來與人交流,總之,它只要能具有特定的類人的功能,就能被歸入該范疇。“虛擬數字人”還被稱為“虛擬人”“數字人”等。英文方面有“Metahuman”“Digital Human”“Virtual Human”“AI being”等稱謂。
對于“虛擬數字人”概念,相關調研機構都提出過自己的定義。如《2021年度我國虛擬數字人影響力指數報告》將之定義為:“從技術層面看,虛擬數字人(Metahuman)可以理解為是通過計算機圖形學、語音合成技術、深度學習、類腦科學、生物科技、計算科學等聚合科技(Converging Technologies)創設,并具有‘人的外觀、行為、甚至思想(價值觀)的可交互的虛擬形象。”2 次年,該報告第二期又給出了更為寬泛的定義,提出只要“擁有外形、聲音、動作、表情、技能等一個或者多個數字基因”,都可被視為“虛擬數字人”,即哪怕是沒有外觀的所謂“只聞其聲、不見其人”的語音助手、智能客服等也屬于此范疇。3
而“量子位白皮書”發布《虛擬數字人深度產業報告(2021)》中的定義是:“存在于非物理世界中,由計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等計算機手段創造及使用,并具有多重人類特征(外貌特征、人類表演能力、人類交互能力等)的綜合產物。市面上也多將其稱為虛擬形象、虛擬人、數字人等,代表性的細分應用包括虛擬助手、虛擬客服、虛擬偶像和主播等。”4
“知乎”發布的《2022年中國虛擬數字人行業研究報告》則將之定義為“具有數字化外形的虛擬人物”,“與具備實體的機器人不同,虛擬數字人依賴顯示設備存在,并且擁有類人的生理構造(模仿人的形象、肢體構造)、人的行為(能說話、能運動)以及人的思想(基本的邏輯能力、并可以出輸出內容如書寫、與人交談)”。5
嚴格說來,真正具備諸如“人類交互能力”的“虛擬數字人”在目前的歷史階段尚未出現,即便是有弱人工智能加持的“虛擬鄧麗君”也只是在模擬而非具備人類的認知能力。與“虛擬數字人”所涉的智能驅動等基礎技術層面發展相對穩健不同,外觀設計由于“投資小、見效快、噱頭足”的緣故,其商業應用領域的發展頗為迅速。作為產品的所謂虛擬偶像、虛擬主持人和虛擬品牌代言人等就在此時開始走入公眾視野,這些產品雖在智能化程度上還存在諸多欠缺,但已被相關機構嘗試運用在娛樂、營銷、教育等領域。6
自20世紀后半段起,虛擬數字人的制作和研究工作呈現出愈加豐富的態勢,其影響也逐步溢出專業研究圈子而走向社會大眾。在20世紀80年代到21世紀初這段時間里,“虛擬數字人”還主要是指工具性的數字化人體模型(digital manikin),7 故而相關研究主要圍繞著醫學、制造和工程學等學科進行。8 但隨后“虛擬數字人”的設計開始超越傳統用途,向娛樂消遣領域延伸,這就需要讓它們具備相應的社交互動能力。為此,21世紀初開始,研究人員就開始將“智能行為模塊”(intelligent behavior modules)運用在“虛擬數字人”設計過程中,以便使它們具備及時的反饋能力。1 雖然那時的軟件資源相對原始,但關于虛擬數字人所應達到的技術要求已基本明確,即具有一定的互動能力和相對逼真的人類外觀。與軀干動作相比,面部表情更能傳遞人類情緒、情感。關于面部表情的圖形學研究,甚至可以追溯到赫伯特·蘭菲爾德(Herbert Sidney Langfeld)在1918年所做的研究。2
到了數字時代,如何升級計算機圖像技術來創造更加靈活多變的虛擬面部表情就更成為一項重要攻關課題。通過三維面部捕捉技術(3D facial capture)來制作虛擬面部表情是一種比較高效的手段,借助專業圖像采集設備,再加以數據建模,就能得到一張可編輯的高清人臉。“數字艾米麗項目”(The Digital Emily Project)可謂是這方面的代表(圖1)。3 采集好的真人面部可以生成為三維圖像,根據需要而動態生成虛擬面部。如圖1中,A和C所示,程序生成的虛擬面部經過調色等步驟之后,變成了如B和D所示的高清仿真人臉,這張人臉是如此逼真,以至于一般人很難通過肉眼加以識別。
此類圖像采集設備正在不斷升級中,代表性的如“光舞臺”(Light Stage)就采用了“細分的二十面體”(Subdivided Icosahedron)方案進行全立體的高清拍攝,然后再借助計算機圖像進行三維重建。4 但從成本控制的角度看,這種依賴面部捕捉和動作捕捉來制作“虛擬數字人”的路徑恐難持久發展,而只會是一種過渡性的、小眾性的制作方式。因為它的成本(所需時間、人力、財力)都太高,不符合“盡可能自動化生成”這一壓縮成本模式的要求。
相比之下,虛幻引擎(Unreal Engine)推出的應用程序(MetaHuman Creator)則聚焦于不借助掃描就直接生成高清“虛擬數字人”的道路,讓用戶在數字平臺上設計出具有逼真的“面部表情+肢體動作”的立體數字人,其甚至可以將虛擬人物面部上包括毛孔和皺紋等諸多細節部分呈現出來。而在平面構圖方面,Stable Diffusion WebUI平臺的出現將“文本生成圖片”模式推上了新臺階,特別是技術玩家們又琢磨出了基于此平臺再使用LoRA模型文件加上tag標簽等搭配組合模式,通過詞句提示的方式生成一系列高清照片級別的人物圖像以供篩選,這就直接將智能繪畫從所謂“二次元”提升到了“三次元”的層次。5 而“輸出指令+AI生成”的方式如果得到進一步優化,將成為一種較佳的“虛擬數字人”生產方式。以AI模型社區Civitai里展示的繪畫作品為例(圖2),6 A是通過發出“超寫實、長發、長袖”(photorealistic,long hair,Long sleeve)等正向提示(Prompt),以及去掉“最差畫質、老年斑、多余的手指”(worst quality,age spot,extra finger)等否定提示(Negative prompt),來引導模型生成一位長袖藍衣少女形象;而B也是通過發出“上鏡的英俊成熟男性、穿著背心和牛仔褲、留著濃密的胡須肌肉、長著凌亂的棕色卷發”(photogenic handsome mature man in tank-top and denim jeans with full beard muscular,with long curly messy brown hair)等正向提示,以及去掉“最差畫質、怪誕、畸形”(ugly,grotesque,malformed)等否定提示,來引導模型生成一位穿牛仔褲的男性形象。插件ControlNet還進一步提升了人物形象姿態控制的精確度。1 這些由模型設計生成的形象雖然在具體生成時還存在“多手指”、畸形等問題,需要再做二次篩選調整,但外觀確已達到了能以假亂真的水準,屬于“虛擬數字人”片面外觀生成方式的一次重要進步。若將來視頻的幀也能通過特定模型以指令輸出的方式自動生成,那么對于“虛擬數字人”制作的廉價化走向將有巨大推動作用。
隨著技術的發展,“虛擬數字人”的種類也在逐漸增多。若按照其歷史發展順序做大致分類的話,“虛擬數字人”應當包括但不限于以下7種類型:
1.“數字活體”
“數字活體”(Digital Human Models)即以數字化形式存在,用以模擬真實人體的形態、機能等特征的虛擬人體。這種“數字活體”的開發側重于其“器官”的虛擬仿真程度,因為需要借助這些“器官”對實驗過程的系列反應來研究真實人體在同等情況下可能出現的狀況,從而更安全、高效地開發相關的醫療、工業產品。比如醫學用途的虛擬人,被開發出來以用作醫療培訓、手術模擬,乃至藥物開發。相關制藥公司、醫院等機構先按照患者人體模型構建出一個虛擬人,然后通過對這個虛擬人進行參數測試來預估藥物和治療手段可能在真實人體身上產生的反應,車企的汽車碰撞試驗也開始引入“數字活體”來進行評估。2 這方面的工作開展得很早,美國方面在20世紀80年代就開啟了“可視人類計劃”(Visible Human Project),3 歐洲、日本等隨即跟著推進,中國也在國家“863”計劃中列入“數字化虛擬中國人”項目,各國也持續在這一領域取得新的成績。4 “數字活體”雖然在概念屬性上也屬于“虛擬數字人”的范疇,但終究不是一種有完整形象和“靈魂”的“人”,不具備主體性,而只是一種工具性的數字客體。
2.“數字化身”
“數字化身”(Digital Avatar)即人類在虛擬世界里的數字映像。“數字化身”在數字場域的活動受主人在物理場域的限制,該形態的“虛擬數字人”的主體性是主人賦予的,而非通過算法等人工智能等技術來逐步進化形成的。5 如在現階段里,游戲玩家在游戲世界里有著自己的映像,未來元宇宙出現后每個人也將在其中擁有自己的映像,這種映像的一舉一動都與現實中的人類相對應。當技術發展到一定階段時,或許每個人都將在元宇宙或類似虛擬平臺上擁有一個自己的“數字化身”,以所謂“原生主人+數字孿生副本”的模式而存在。1 在基于區塊鏈技術的通證經濟環境下,這個數字化身將具有唯一性和不可更改性,它可以作為我們在數字世界的映射,以我們的身份開展各種活動。
3.“數字人物形象”
“數字人物形象”(Digital Characters)即模仿人類外觀,加以數字建模而成的各種人物形象。通常數字人物形象不需要以現實生活中的真實人物為模版來構建,如“阿麗塔”這種電影中的人物形象,以及開始在現實中陸續出場的虛擬主播、虛擬偶像、虛擬主持人等都是由設計師自由創作出來的形象。這類“虛擬數字人”的主要功能就是以具有親和力的人形面貌出現,在社交、展演類領域提供服務。受近幾年短視頻熱潮的帶動,以及“二次元”等亞文化的助推,虛擬形象備受關注和熱捧。產生了諸如被冠名為“一個會捉妖的虛擬美妝達人”的“柳夜熙”,號稱“會彈琴的虛擬大學生”的“華智冰”,以及僅以形象照作為露臉形式,但已經跟法國嬌蘭、路易斯威登等資方在廣告代言和宣傳方面合作的“AYAYI”等數字網紅。2 照此趨勢,日后每一個場館(博物館、美術館、圖書館等)或將會常設一個數字導游,借助類似于AR眼鏡的設備,以“視覺疊加”的形式立體呈現在參觀者眼前,為他們提供講解、翻譯等服務。雖然受技術局限,它們仍屬于缺少智能驅動加持而沒有自主互動能力的“數字木偶”,但正是它們讓“虛擬數字人”成了目前被公眾高頻率接觸到的熱詞。
4.“數字仿象”
“數字仿象”(Digital Mimics)是一種特殊的數字人物形象,即根據特定人物(主要是名人)的外貌加以數字建模而成的人物形象。與“阿麗塔”之類不以現實人物為依據而新設計出來的人物形象不同,“數字仿象”乃是根據已有的名人構建的“仿象”,比如《速度與激情7》里借助“AI換臉”技術制作出的已故演員保羅·沃克、《終結者:創世紀》里1984年青年施瓦辛格形象、《雙子殺手》里虛擬的年輕版威爾·史密斯,以及因為參加江蘇衛視2022年跨年演唱會等活動而引發關注的“數字鄧麗君”,還有2023年《流浪地球2》里被復原的已故演員吳孟達的形象等。如此林林總總,反映了新科技對身體和媒介關系的影響進一步加深。如果未來構建一個元宇宙數據生態系統,再獲得相應授權把這些已逝人物設置進去,那么他們的形象甚至可以達到所謂數字永生的效果。雖然這些只是他們的“數字仿象”而非本人,但在效果層面上的確能具有部分的相應功用。
5.“數字偽像”
“數字偽像”(Digital Deepfake Characters)即經過機器算法制作出的深度偽造人物形象。由于“深度偽造”(Deepfake)的稱謂具有顯著的貶義,也有學者認為應用更為中性的“深度合成”的稱謂來取代,3 中國國家網信辦也傾向于使用“深度合成”這一稱謂。4 2016年時,德國紐倫堡大學發布了可以將視頻里的人物面部進行“表情移植”的“Face2Face”應用程序。當應用程序的開發和使用者把經過深度偽造的美國總統奧巴馬等名人的演講發布出來后,學界和大眾才意識到這種技術潛在的危險性。因為這種真假莫辨的“數字偽像”很容易被別有用心的人用來操縱輿論,帶來不可預料的后果。5 而如今MidJourney V5生成的那種照片級逼真程度的虛擬人物形象,讓人已難以通過肉眼分辨其真假了。“深度偽造”作為“深度學習”和“偽造”的結合,其技術層次在人工智能的賦能下不斷升級迭代,如今不但可以篡改視頻里的人物面部,還可以生成偽造的肢體動作,乃至模仿特定人物的聲音,并且達到聽音模聲與面部表情乃至唇形都同步的程度。6 正如現實世界充滿了各種類型的犯罪一樣,未來“虛擬數字人”的應用逐漸普及之后,也將出現以“數字偽像”為代表的諸多欺詐現象,這都有待相關機構設計出相應措施加以應對。除了前述的外觀偽造之外,還可能出現智能交流帶來的思想誤導問題,比如ChatGPT、Google Bard這類GPT模型所展現出“一本正經地胡說八道”的可怕表達能力,不得不讓人對日后“虛擬數字人”的具體運用產生警惕。1 因為在生成式人工智能加持下,“虛擬數字人”同樣可能也用不容置疑的權威口吻,將大量虛假或錯誤的信息以大眾很難分辨的形式敘述出來,從而對大眾進行一系列后果難料的誤導。2 信任,是對話的一項基本條件,人際對話如此,人機對話亦概莫能外。但目前GPT模型尚不具備讓人信任的品質,所以充分的“人機對話”也尚未真正存在。
6.“數字副本”或“數字幽靈”
“數字副本”或“數字幽靈”(Digital copy or Digital Ghost)特指在“弱人工智能”條件下,人類活動在數字世界里留下的印跡。這些印跡是可以如同影子一樣將它主人的行為和思想的真實輪廓還原出來的。
與“數字仿象”概念側重于“虛擬數字人”的面貌、身體和聲音等外在特征不同,“數字副本”概念將目光更多地投在了行為、觀念、思想等內在特征上(當然,隨著技術的發展,兩者是可以合二為一的)。網民在數字世界會留下他/她的“數字足跡”(Digital Footprint),而隨著技術的不斷升級,這種“數字足跡”終將升級到“數字副本”的程度。如今某些游戲會將人們在虛擬平臺上面的行為記錄并且儲存下來,為玩家構建一個專屬副本。3 學界已有學者開始探討個體生命去世后如何處理其數字副本的問題。4 當然《黑鏡》等科幻影視劇里設想出的未來技術,還讓人產生一種現實擔憂:我們是否會在未被告知、自己未察覺的情況下,被建立起一個“數字副本”?比如,某些機構是否有可能根據人們的數字足跡,在其平臺上構造出能夠高度還原人們個體性格、行為偏好、消費習慣等特征的“數字副本”,然后根據這個影子來更深入地針對人們進行定量研究,運用大數據來預判人們的意圖,最終把人們的行為模式琢磨得比他們自己更透徹,以具有可親外觀的“個性化算法”的形式,更細致地、實時互動式地操控人們。5 已經有企業借助“數字足跡”監測用戶行為,如“劍橋分析”公司就通過對用戶點贊行為進行數據挖掘而針對用戶心理制定出相應的操控策略。6 一旦“數字副本”可以容納諸如人臉、指紋、虹膜,乃至指靜脈、DNA等生物特征的關鍵個人隱私數據,它所帶來的潛在安全風險就更大,因此必須有更為周全的安全措施來加以防范。
如果將死亡定義為“自我意識的消失”,1 那么數字化記錄很可能是一種“永生”的途徑。雖然現在距離掌握真正的“數字永生”技術還很遙遠,其至多還只是個科幻概念,但學界對此的研討已相當火熱。2 如果日后“元宇宙”應用在這方面取得相應的進展,那么我們每個人都很可能在其中擁有一個專屬“數字副本”,當我們抵達壽命終點之后,那個擁有我們諸多個人信息的數字化身就將成為數字幽靈。這雖然聽起來頗有些驚悚,但如果能夠實現,就可以將社會各領域杰出人士身上對人類發展最具價值的部分提取出來加以數字化,從而讓后人仍然能夠在與他們的數字幽靈對話中獲得啟迪,從而站在巨人的肩膀上創造社會價值。試想一下,如果在達·芬奇、愛因斯坦、霍金等思想巨人活著時就為他們逐步構建其“數字副本”,他們留下的“數字幽靈”將給后世帶來很大的寶貴精神財富。
7.“數字人類”
“數字人類”(Digital Human)即未來科技發展更加進步,最終造出的具有與自然人類相同智能甚至超越自然人類智能的數字生靈,它已成為具有“自我意識”的生命體。
這已是一種在賽博空間里演化出的所謂“智能的、有感情的、活的虛擬人”,3 它跟自然人類的區別只在于兩者分別存在于數字世界和物理世界。這種“數字人類”可以是基于現實世界里的個體而生成的對應物,也可以是不基于現實模板,只是在數字世界里按照自己的邏輯路徑生成的“生命體”。科幻片《流浪地球2》里設計了一個“數字生命計劃”的內容,即上傳意識和創造“數字人類”,但要實現該計劃,恐非電影里所描述的那么順利。作為一種對“數字人類”未來前景略帶科幻色彩的展望,人們可以看到由于虛擬世界遵循著與現實世界不同的運行邏輯,故而虛擬世界的“時間”也可以通過參數的變化進行調整,在某種程度上擺脫現實時間對人類的束縛,讓數字世界里的“人類”以超越人們若干個數量級的速度去學習、積累和進化,那時的人類文明很可能以今人無法想象的速度演化。
還需說明的是,筆者所列出的類型僅僅是一種粗略的劃分,而非在內涵上能夠完全自足的嚴謹學術概念。因為這些類型除了“數字活體”之外都不是孤立的存在,彼此之間并不存在絕對的界限,只是根據具體使用場景進行相對劃分,并且隨著日后的技術升級,它們也很可能會彼此融合并且產生新的類型。比如“數字化身”與“數字副本”具有同源關系;“數字影子”在用戶去世之后又會變成“數字幽靈”;“數字人物形象”和“數字仿象”之間在內涵上存在諸多重疊;“數字仿象”和“數字偽像”所憑借的形象合成技術多為同源;“數字活體”也可以升級到“數字副本”的層次。
二、“虛擬數字人”所包含的應用領域和發展前景
“虛擬數字人”概念因當下的虛擬偶像、虛擬主持人和虛擬品牌代言人等“數字人物形象”的崛起而走紅。然而,從更長的歷史維度觀之,當下泛娛樂業的這些應用都尚歸屬于淺層次范疇。“虛擬數字人”最重要的潛在生產力價值,在于其能成為現實人力資源,從而為推動現實世界的生產力發展而服務。換言之,發展“虛擬數字人”產業的根本目的,乃是希望跨域調動包括它們在內的來自數字世界的力量去推動人類文明進步,故而其未來的應用前景將圍繞著這一根本目的而展開。
在人類文明數字化轉型的歷史進程中,如何實現跨域調動人力資源并且開展更高效的協同合作是一項非常關鍵的研究內容。千百年來,人們為了最大限度地拓展自己的生存空間并在擴大的生存空間里盡可能地調度起更多的人力資源進行社會建設,一直在嘗試利用各種聯合模式增強自身的集體凝聚力。最初是通過氏族,然后是借助宗教、國家,以及各種基礎設施,20世紀末開始基于互聯網構建起更為龐大的協同合作方式。隨著虛擬現實技術的發展,21世紀還出現了“元宇宙”這類數字平臺,它具有兩大潛力:一是把身處全球不同區域的人通過VR眼鏡等設備集成在一個虛擬空間里協同工作,二是運用虛擬世界各種智能場景為現實服務。故而Epic首席執行官斯威尼(Tim Sweeney)提出:“元宇宙作為一種未來媒介,能夠成為比現存的任何封閉系統都更高效的引擎,推動經濟效率提升。”1 雖然“元宇宙”的真正建成還是非常遙遠的事情,Facebook轉型為Meta之后也遭遇了較大波折,2 不過在人類數字化轉型大趨勢下,“元宇宙”這種數字平臺仍然是在未來世界必然出現的事物,因為跨域協作帶來的生產潛力確實相當誘人。
如上所述,所謂“跨域”,不僅包括要將現實世界里不同區域的資源統攝起來形成巨大合力,而且還包括要將數字世界的虛擬資源調取出來,“憑空”增加現實世界里可資調配的資源。3 作為社會數字化轉型伴生產物的“虛擬數字人”正是由此登場,公眾需“從實向虛”地以“數字化身”的“虛擬數字人”形式進入數字世界開展工作和娛樂活動,同時也需要把可能的人力資源從數字世界里召喚出來,成為現實世界里的日常工作者。4 試想,當用于驅動虛擬員工的技術在未來能升級到一定程度時,如果有一家企業乃至一個國家能生產出相當于成千上萬個人類員工勞動力的虛擬員工,那么將讓該企業或國家產生多么大的人力資源優勢?這種虛擬員工對生產力的推動作用,就相當于昔日的蒸汽機(17世紀末蒸汽機被發明出來之后,它讓普通工廠陡然間具備了比之前的古代社會多出幾十甚至幾百倍的生產力,于是在隨后的18世紀引發了導致人類社會深刻變革的第一次工業革命)。由于其所具備的重要生產價值及潛力,“虛擬數字人”技術在未來甚至有可能成為關系國運的具有戰略級意義的產品。
對個人用戶而言,“虛擬數字人”技術除了前述的應用場景之外,接下來還將以更為貼身的“數字助手”形式深入日常生活。就像如今的人們從小接受貓狗等家庭寵物的陪伴一樣,日后的人們可能將在虛擬人物陪伴下成長起來,習慣了在日常生活中也有這些數字助手的日夜陪伴。“數字助手”扮演的具體身份可依據其功能差異分為不同類型,如“數字保姆”“數字秘書”“數字護士”“數字伴侶”等,其共同點皆以為用戶提供個性化服務為核心。這些能有效分擔人類工作的“數字助手”,不僅能重塑人類的日常生活,并且還將引發一場對傳統工作制度的顛覆性變革。5 與“虛擬偶像”“虛擬主播”往往只是作為“網紅”曇花一現且更側重于單一的娛樂功能、用戶相對小眾不同,“虛擬助手”從一開始就是作為一個日常生活中常態化使用的貼身伙伴來開發的產品,所以,它面對的乃是一個極其龐大的用戶人群,擁有著多面向、立體性、持續性的現實需求。雖然以現在的技術,“虛擬助手”的智能化程度及其功能相當有限,但是按照該應用技術發展邏輯,其逐步走向階段性成熟只是時間問題。
具體到當下的公司而言,即便只是技術尚未成熟的“準虛擬數字人”,也能成為一名獨特的數字員工:它要么是一個沒有可能發生緋聞劣跡,甚至不會變老的形象代言人,要么是一個24小時在線的工人,其在面對無盡的工作時不會產生厭惡情緒,更不會有肉身疲憊之感,可以日夜不眠地持續工作。須知,人工智能不受體能、情緒等人類無法擺脫的肉身束縛,且在特定領域內的學習和工作能力遠超人類。比如,對于人類來說頗為艱難的背誦工作,在擁有強大信息儲存和處理的人工智能看來就是小菜一碟,這種工具性的強大讓人類只能望洋興嘆。未來一旦“虛擬數字人”背后的智能驅動技術升級到一定高度,那么它們將具備無可比擬的勞動力優勢。6 有研究機構甚至認為,人工智能很可能在一個世紀左右的時間里替代人類所有工作,重塑人類文明。1
三、“虛擬數字人”所面對的技術瓶頸
目前“虛擬數字人”所面臨的技術瓶頸問題主要來自兩個方面:一是作為外觀建模的人物形象生成方面,二是作為內在支撐的智能驅動方面。相較而言,前者面對的主要是應用層面的內容,所需要的技術相對更容易研發,每隔三至五年時間就會出現階梯式突破。后者則相對困難許多,面對的是基礎層面的研發,需要長時間的積累,在十幾年甚至幾十年的時間里能有一定的突破就已經是可喜之事。2 OpenAI的GPT系列模型從2018年的1.0版本到現在的3.5版本僅用了5年,這在此領域已算是“神速”了。然而如果算上該模型1.0版本推出前的理論準備期,以及接下來還需持續迭代所消耗的時間,該模型從設想到初步成熟其實也需相當長的時間,絕非一蹴而就的短期行為。3
科技是“虛擬數字人”的底層支撐,從基礎科學研究到具體應用等都對“虛擬數字人”的迭代升級起著全方位的決定性作用。特別是人工智能的發展與“虛擬數字人”有著高度綁定的共生關系。就人工智能的發展歷程而言,距離初步成熟的階段尚為遙遠。而人工智能技術的不成熟,也限制了當下虛擬人的發展。
當下的“虛擬數字人”產業,其實是指基于當下技術水平的泛文化產業,包括娛樂、教育和服務等領域,這些領域需要大量的虛擬偶像、虛擬主持人、虛擬教師、虛擬導游導購、虛擬助手等工作角色。該產業面臨“外觀”和“內核”的技術問題,這兩個問題其實也對應著該產業的短期和長期問題。所謂“外觀”技術問題,即讓“虛擬數字人”在外觀(面部表情和肢體動作)的逼真度和靈活度等方面達到一定的水準,從而使得公眾在視覺上接受它們。
而所謂“內核”技術問題,則是指讓“虛擬數字人”具備一定的自主思維能力,不依賴于人類的實施控制就能相對獨立地做出判斷和決策,乃至采取行動。即便它的自主思維能力無法達到科幻電影里與人類無異的程度,至少也需能夠“從形式上模擬意識”,4 具備基于場景與人們進行互動、協助人類開展日常工作的基本能力,由此而能作為新的人力資源參與到社會建設活動當中。有學者將“完成復雜目標的能力”作為評判“智能”的標準,5 若想“虛擬數字人”達到此標準,作為內驅的人工智能技術在場景認知、互動反饋、機器學習等一系列方面需取得突破性進展。只有當“內核”技術問題得到有效解決,“虛擬數字人”才能對社會生產力產生實質性影響。
作為虛擬人物形象需要攻克的難關之一,人物面部表情的生動化問題一直在困擾數字娛樂業的設計者。人類面部表情極其豐富,在引入智能算法之前,動畫人物形象的面部表情往往相當僵硬。公眾很難在面對這樣一張沒有表情的木偶臉時,產生發自內心的情感共鳴。經過數十年的技術積淀之后,這方面的問題已有很大改觀,借助AI深度學習算法不但能讓面部數字建模愈加精致,甚至還解決了面部表情與聲音不同步的問題。英偉達開發出的“Omniverse Audio2Face”程序就相當友好地解決了虛擬人面部表情與聲音不同步的問題。這款應用程序可以僅僅依據音頻就即時生成與之匹配的面部表情模型。而小冰公司研發的“小冰深度神經網絡渲染技術”(Xiaoice Neural Rendering,縮寫XNR)可以將“數字孿生”類型的虛擬人在容貌表情、肢體動作等外觀的自然流暢度方面提升到以假亂真的程度。6
在“虛擬數字人”表情和動作的制作方面,除了需要克服具體制作環節上的技術問題之外,還需使得這種制作工作更具性價比,以便符合“高效、價廉和可批量化生產”這三項基本的市場要求。艾倫·庫伯(Alan Cooper)等學者曾提出這樣一個關于數字產品的悖論:創造出計算機等硅機設備,原本是為了讓人類更加省事省力,然而人類僅僅是為了能夠恰當地去使用設備里的軟件就必須被迫投入大量的時間精力。1 這個悖論在“虛擬數字人”生產領域現在也未能消除:創造“虛擬數字人”是為了節約人類工作的時間,然而創造和維護它們的過程本身就在極大消耗著人類自己的時間。
相對于之前粗糙的建模技術而言,晚近時段誕生的這類虛擬人物的面部表情和身體生成方式確已頗為先進,然而如果按照未來工業級“元宇宙”建設的要求而言,則仍舊相當落后。因為當下的虛擬人物面部建模仍然離不開相關設計師的參與,仍非人工智能自動生成,而“動態捕捉技術”也依然需要真人穿戴信息捕捉設備去具體行動,此種建模形式屬于“手工作坊”式的生產,達不到產業化生產的規模化水準。以當下“柳夜熙”“華智冰”等所謂虛擬偶像為例,它們雖然號稱是“人工智能虛擬人”,但它們的外觀建模仍須經由相關設計師手工完成,而且在虛擬程度上只能算是“半個”而非“整個”。它們只有臉部是智能建模的,身體仍然是人類替身用真身去扮演。“創壹視頻”制作“柳夜熙”的方式是真人扮演和后期換臉。作為由“清華大學計算機系、北京智源研究院、智譜AI和小冰公司聯合培養”的“華智冰”,僅采用省力的方式做AI換臉,后者為此還一度引起過輿論風波。2 這些所謂虛擬人不僅只能算是“數字人物形象”,而且還只是局部“數字人物形象”,并不是交由程序自動生成的充分“數字人物形象”。
實際上,就當下已有的技術儲備而言,形象生成這類外圍問題并非不可克服的障礙。前述“光舞臺”(Light Stage)那樣能提供高清立體人像建模的“球狀分布燈”(LED sphere)拍攝方法,如今也已有一定的技術積累了。3 之所以仍采用“真人換臉”之類的“低端技術”作為處理手法,主要還是因為當下的科技水平尚不具備高效、低成本的“虛擬數字人”生產能力。目前各大公司正在解決“虛擬數字人”外觀上的問題,他們制作出的數字人類圖形已接近自然人類照片的逼真程度,但他們目前以及未來很長一段時間內都難以解決制作這些外觀所涉及的性價比不高問題。畢竟精細化建模所消耗的人力、資金和時間等都非一般團隊所能承受,即便現在已有虛幻引擎(Unreal Engine)提供強大的制作平臺,設計者要想制作出高清晰度和仿真度的“虛擬數字人”外觀,也需要耗費相當多的時間。當然,OpenAI的DALL-E讓學界有了更樂觀的想象,因為既然能開發出這種通過文本描述來創作圖像的“對比語言圖像預訓練”(Contrastive Language-Image Pre-Training,縮寫CLIP)技術,4 那么按照這樣的思考路徑或許未來還可以進一步開發出能生成動態圖形的技術。
人類近現代歷史發展的經驗表明,消除這種悖論只有一個方法,那就是進一步提升生產數字人的自動化程度。正如手工作坊時代的棉紡織品價格注定難以降低,而且這些產品的質量亦難以精確把控,只有當其升級到工業時代的機械化大生產后才有所改變,當下的虛擬人物構建所需成本,必然高于日后交由人工智能自動生成的模式,只有通過升級機器學習算法,實現更高程度的所謂“自動化本身的自動化”,5 才能壓低目前“虛擬數字人”高昂的制作成本。6
在沒有能夠設計出人工智能輔助生產技術之前,“虛擬數字人”制作領域很難取得實質性的成就,最多只能在既有的原始技術框架之內進行內卷式的精致化處理。從當下的虛擬偶像的生產狀況,也可管窺接下來元宇宙的建設進度。畢竟只有當虛擬人物形象、虛擬設施等數字內容的制作流程能升級到高度自動化的程度,才能把建設元宇宙所需要消耗的成本(包括人力、資金和時間等)有效降下來,同時也才能讓內容生產更具性價比地滿足用戶對及時更新的實時需求。目前“人工智能生成內容”(AI-Generated Content,縮寫AIGC)領域的研發正在取得一系列成果,如ChatGPT的強大文字生成功能以及Stable Diffusion的智能生成圖片能力,已經給人以更大的想象空間。1 GPT模型、Stable Diffusion、MidJourney等AIGC應用的歷史性登場表明,生成式人工智能正在成為接下來智能化應用領域重要的攻關方向。2 與“虛擬數字人”相關的AIGC并非只限于文本和圖像的智能自動生成,實際還包括音樂、視頻生成,乃至編程等領域,在生成學習算法、預訓練模型等技術的加持下,其未來的地位將逐步提升到“互聯網的內容生產基礎設施”的高度。3 只有“虛擬數字人”日后從外觀到內核都具備了AIGC屬性,才算初步抵達1.0的范疇。
目前業界對于AIGC模式的動畫制作已有諸多嘗試,如程序員雷希(Ammaar Reshi)基于ChatGPT和MidJourney來制作短片,4 網飛(Netflix)也以智能生成作為輔助,創作了畫質更精良的短片,5 這些方法對日后“虛擬數字人”的制作頗具啟發性。而Runway推出的Gen-2已具有通過圖像和文本提示生成視頻的能力,6 雖然現有版本生成的畫質還顯得粗糙,但日后若能升級到跟ChatGPT、MidJourney之類的軟件搭配使用,那么還會產生新的成就。按照現在AIGC領域的研發進展速度,估計三五年內就有可能創構出高效、廉價的“虛擬數字人”外觀形象生成方式,但創構能順利驅動它的智能內核的技術仍需時日。
正如不能指望一棵大樹的成長如同野草藤蔓一樣迅速,我們也不該奢望“虛擬數字人”產業化的時代迅速到來。“虛擬數字人”涉及的智能化領域尚需更多的時間去實現技術積淀。關系到人機交互核心問題的“自然語言處理”技術(Natural Language Processing,縮寫NLP),仍然存在著“語音和語義的歧義性”“句法模糊性”“言語行為的語境性”等諸多尚未獲得有效解決的難題。7 因為人類的自然語言本來就存在著不嚴謹、不完善的問題,而人類的思維也往往是非理性、非邏輯性的。8如何在這種悖論當中做出選擇,才是真正考驗所謂“智能”的關鍵問題,故而讓機器從“識別語音”升級到“理解語音”乃是一個重要的智能化突破點。在人工智能的情感分析領域,已誕生出基于情感詞典、機器學習和深度學習的不同情感分析法,但這些算法還相對機械,在更為復雜的情感語境中往往不能完滿讀取對象信息。9 一些研究團隊嘗試用“任務驅動的語言模型”對此進行優化,但最終效果如何,仍要通過相關實踐進行評估。1如今GPT模型演化到4.0版本后,在自然語言處理方面有更進一步的突破,但還存在所謂“幻覺”(illusion)問題。2以上這些問題究其原因,本質就在于當下的人工智能技術尚未發展到讓“虛擬數字人”具備足夠的認知、反饋和決策能力,更不要說具備“自我意識”能力了。
就“心智”一詞的語義而言,其被視為能將感知、記憶、思考、評價、決策等綜合起來的一種復合能力。3 當GPT模型出現后,學界意識到人工智能雖尚未產生“自我意識”(self-awareness),但它能借助“預訓練”+“算法篩選”的方式去模擬“心智”運行過程,在形式上接近于人類的“心智”樣態。這種模仿心智的樣態可稱為“類人心智”(AI-Mind),或更形象地稱為“硅基心智”。實際上,即便是在目前的技術條件下,GPT模型也可以進行“感知、記憶、思考、評價、決策”。當然,這樣的“心智”畢竟不是來自自主意識,而是基于被動的“預訓練”,所以只是一種“類人心智”。
缺失智能驅動的“虛擬數字人”,其外觀再迷人,也只是一具沒有靈魂的“數字木偶”。目前“柳夜熙”“華智冰”這類所謂虛擬人在技術上只能被稱為“虛擬形象”,由于不具備最基本的“情境覺知”能力,4 它們在智慧能力方面并不符合“虛擬數字人”這個概念的內涵。這種連AIGC屬性都沒有的虛擬形象只是一種“偽數字人”。形象是客體,而人是主體,兩者之間有著質的區別。之所以仍將之稱為“虛擬人”而非“虛擬形象”,主要是遵從當下主流的口語習慣而已。盡管它們的外觀在“類人”特征上越來越逼真,在人工智能賦能下,無論是面部建模還是肢體動態建模,都逐步度過“恐怖谷”階段,然而這都回避不了它們仍停留在客體狀態的事實,有待類似于ChatGPT這樣的智能應用給它們注入“靈魂”,讓它們在形式上成為能模擬人類心智的“活物”。5
不過遺憾的是,在“流量為王”的時代,相關團隊在打造這類虛擬人的時候,其實對它的智慧化(主體性)發展方面并不感興趣,其焦點主要集中在如何將這些“網紅”在形象(客體性)展示方面進行更深入細致的打造,從而通過各種花里胡哨的虛招來實現商業變現。于是乎,“柳夜熙”這類虛擬偶像在發展上被關注最多的問題,并非涉及智能算法、自然語言處理等深層次的技術問題,反而是聚焦于外貌之類的淺層次的形象建模問題。
這些虛擬偶像的幕后團隊之所以不得不持續地圍繞它們的“人物設定”推出各種新的內容,就是源于他們更加關注它們的商業價值。正因為著力點不同,這些虛擬偶像的“出圈”只是在聲勢上擴大了“虛擬人”的影響力,但對基于人工智能“虛擬數字人”的深層建構層面并沒有太多貢獻。從長遠來看,虛擬偶像僅有精致姣好的面容和曼妙的身材是不夠的,如果在這些外在形象之下缺乏能夠持續吸引人的內在魅力,那么也就是些花瓶式的空架子罷了。它們的擁躉們在新鮮感過去之后就會很快感到厭倦,而這些虛擬偶像的商業壽命也就到此為止。如何賦予虛擬偶像更充分的主體性,仍將是一個關系到它們是否可以持續發展的重要問題。
所謂“智能”,首先意味著具有一定的感知、交互能力。6 “虛擬數字人”至少應該能理解用戶語言并且實現實時互動,而依據此標準,目前大部分的“虛擬數字人”連1.0版本的要求都達不到,只能算是“虛擬數字人”的“前史”階段。要想達到實時互動的要求,就必須要有強大的智能后臺(數據、算力和算法)作為底層支撐,而構建這樣的底層支撐仍需時日。在目前技術條件下,“虛擬數字人”與“元宇宙”概念一樣,也是個被過度熱炒的概念——這些產品在未來將起到非常重要的作用,但并不意味著它們發揮作用的時刻能很快到來。相關方面為了迎合資本炒作的需要,故意將相關產業初步成型的時間說得很短,讓投資方感覺一切觸手可及。其實兩者所涉及的底層技術都尚需更長的發展時間,遠未數年內就發展到為相關產業提供直接技術支撐的程度。當“虛擬數字人”技術發展到一定程度后,還需整合進產業鏈中,通過持續升級迭代而形成立體的商業生態,并非如同當下這樣零散分散在互不關聯的各種應用場景中。
結語
20世紀末時,尼葛洛龐帝就指出:“人類的每一代都會比上一代更加數字化。”1 這種趨勢進入21世紀更呈現出加速趨勢。在新冠疫情環境中成長起來的21世紀“10后”這一代人,其思維受到的影響可能超出我們的預估。網絡課程、網絡娛樂、網絡消費等在線生活給他們的童年留下了深刻的時代烙印,他們對數字化娛樂、元宇宙、“虛擬數字人”等在線事物的接受和運用程度都將超越前代。在他們中的不少人看來,在線生活不是現實生活的補充,而是與之平行的“第二生活”,甚至是比后者更為重要的生活方式。在人類社會的數字化轉型過程中,作為其衍生產物之一的“虛擬數字人”在接下來的社會發展過程中還將扮演愈加重要的角色。因此,在這一歷史趨勢下如何發揮“虛擬數字人”的優勢、如何應對其引發的問題,將是人們需要進一步思考的議題。
The Concept of ?“Virtual Digital Human”:
Connotation, Prospect and Technical Bottleneck
JIAN Shengyu
Abstract: As a companion product of the digital transformation of society, the “virtual digital human” industry contains a huge market demand. Various industries and fields, from economy to culture and education, need virtual employees who can collaborate with humans. At present, “virtual digital people” are still only digital characters with appearance and no independent thought, but with the upgrading of drivers, they will also have a deeper impact on human society. The “virtual digital human” will have a broader application space after the “Meta-universe” and other intelligent virtual platforms are built, adding new human resources to human society. The emergence of ChatGPT presents a new opportunity to play a key role as the inner driver of the digital person of the future, giving the latter a “human-like mind”. Nevertheless, there are still many technical bottlenecks in the virtual digital human industry that need to be solved in terms of automatic generation and intelligent driving of character images.
Key words: artificial intelligence; Meta-universe; virtual digital human; ChatGPT; AI-mind; AI-drive; artificial intelligence generated content (AIGC)
(責任編輯:陳 ? 吉)