蔡劉明 高天婧
(南京師范大學泰州學院,江蘇 泰州 225300)
該時期數字人的外在特征是對真人的擬態和仿真,內部邏輯則是對信息編碼的讀取和理解,即感知智能。自20 世紀60 年代中期波音公司推出的第一個數字形象波音人(Boeing Man),到80 年代結合特效化妝出現的偽虛擬數字主持人Max Headroom,再到90年代流媒體技術不斷迭代發展,結合計算機圖形處理CGI、全息投射拍攝以及AR 增強現實技術,先后出現動漫偶像“初音未來”、語音助手“Siri”“Cortana”、虛擬主播“康曉輝”和AI 模型“華智冰”等虛擬數字人形象。但本質上講,以上甚至更多的案例都處于虛擬數字人1.0 版本,其在應用場景、底層技術和交互方案三個方面存在近似之處,筆者將之總結如下:
應用場景偏向公共服務領域。虛擬數字人1.0 被廣泛應用在新聞、旅游、策展、游戲、影視等活動中,作為虛擬主持人、動漫角色、科幻人物、虛擬解說員等形象出現,這些行業或領域的公共服務屬性明顯。因為其服務對象多且影響廣泛,對前沿技術更加敏銳,所以往往是新技術落地的先行者,應用場景也多是公共領域而非私域。通過引入虛擬數字人,賦予其與崗位要求相適配的業務技能,公共服務領域的工作效率得到極大提升,精簡后的人力、物力和財力資源可以投入到內容創新方面,并進而形成宣傳推廣和服務模式的新業態。
底層技術依托三維建模支撐。虛擬數字人1.0的“擬真”在于對真人的模仿和重現,在數字技術出現之前,各行各業依靠實景拍攝和微縮模型的結合完成“擬真”。以電影業為例,由喬治·盧卡斯執導的《星球大戰》系列在70 年代拒絕使用CGI 建模,大量使用模型道具和特效化妝進行電影拍攝。雖然解決了影像的逼真性問題,但面對龐大繁多的拍攝對象(非單個個體),這種技術就顯得捉襟見肘難以應付。直至1993 年《侏羅紀公園》的上映,導演對非洲野生鴕鳥群進行動作捕捉,并逐個設計建模,呈現出數億年前的地球景象,其身臨其境的感官體驗讓該片成為數字技術的里程碑之作。由此可見,不論是虛擬數字人還是特效電影的擬真場景,底層技術都是從視覺效果出發,制作逼真的三維模型。
固定文本交互,互動性弱。所謂交互方案,是指虛擬數字人和用戶之間的互動模式。這一階段的數字人屬于感知智能,通過圖片視覺、語音聽覺和計算機編碼接收指令,回應能力欠缺,只有雙向交流的外殼,卻沒有交互的內核——學習、反饋和創造能力,也就是人類智能。虛擬數字人1.0 的交互方案是以固定文本的形式出現,以系統代碼為觸發,完成特定對話內容的生成。以蘋果iOS 操作系統的語音助手“Siri”為例,研究團隊事先構建了龐大的對話庫,通過關鍵詞、簡單句以及關聯詞等羅列具體的檢索標簽,當服務對象以文字或語音觸發這些標簽時,Siri 就會鏈接有關提問的固定答復,本質上還是預先設定好的固定文本,互動性較弱。
2023 年OpenAI 更新了ChatGPT4.0 語言模型,并被Animato 公司迅速引入虛擬數字人Annie 的生成,使手機應用“Call Annie”成為虛擬數字人2.0 的誕生之作。它能夠實時與用戶聊天,且話題和談話方式沒有任何限制,因此受到了全世界的廣泛關注。原本只是模仿真人形象的數字人真正擁有與人類智能匹敵的“人工智能”,甚至這種基于深度學習的“認知智能”必將迅速超越人類智能,這已成為虛擬數字人從1.0 到2.0時代的分野標志。相比之前,它有以下三方面的變化:
應用場景從公域轉向私域。虛擬數字人1.0 以提供服務、提升服務質量和效果為目標。伴隨著社會需求增多,服務類型和服務內容的進一步細分,虛擬數字人的應用場景逐步進入私人領域,直面情感咨詢、心理疏導及教育培訓等問題。以“Call Annie”為例,這是一款能夠實時聊天的教育App,軟件開發者創造性地給ChatGPT4.0 語言模型賦予了白人女性的數字人形象。區別于付費教學、標準課綱、限定課時等傳統網絡課程的特征,Call Annie 以純聊天的形式進行英語口語教學,完全不受時間、空間以及授課內容的限制,在面對發音、語法和修辭等問題可以現場詢問Annie如何改正,甚至超越傳統一對一私教的范疇,能夠咨詢語言學以外的其他專業知識,并具備如今手機郵件、查詢、支付等一切功能,所以虛擬數字人2.0 更像是一位無所不能的私人助理。
底層技術依托超大型語言模型。數字人Annie 可以說是套著人類形象的ChatGPT 語言模型,該模型是美國0penAI 公司開發的一項人工智能技術,通過算法、算力和數據迭代不斷擴容語言模型庫。GPT-2、GPT-3、GPT-3.5 屬于感知智能階段,應當定位為“搜索引擎+文本生成器”的技術性融合,ChatGPT4.0 才是真正意義上的認知智能,業界將之稱為生成式AI(AI Generated Content)。該技術首先通過超大模型的查詢、關聯和推理訓練,更準確地了解用戶意圖,提供順暢有條理的應答;其次,超高頻率的訓練下,那些無效信息、胡編亂造、缺乏依據及偏見歧義的應答通過對比被刪減或屏蔽,讓語言模型有了一定的糾錯能力,提升模型庫內事實和知識的準確度;最后,對話生成的樣式上更豐富且具有新意,避免了固定文本的呆板機械,讓用戶的體驗更具對象感,再配合三維“擬真”形象,虛擬數字人2.0 的認知智能一步步從量變積累質變。
生成式文本交互,互動性強。生成式文本是認知智能的表征,看似自由隨意卻依然受規則和數據兩個維度的制約。特別是訓練規則方面,一是詞語預測。ChatGPT4.0 會生成一個類似文字接龍的語言模型,根據文本之前的內容依次預測下一個字,利用上下文和分布概率繼續推定。二是偏好模仿。語言模型內部會結合人工答案對語詞預測的輸出進行打分評定,依靠超大型模型海量的樣本,提高應答的適配性和準確度。三是自問自答。在人類智能眼中的海量數據,ChatGPT依然可以處理殆盡。當人類語言模型庫里的內容都生成一遍后,ChatGPT 開始自主創造問題并獨立應答,最終形成認知智能自己的數據庫,這也是深度學習的本質,因為相比人類的學習能力,它是高效和無限擴容的。以虛擬數字人Annie 為例,基于ChatGPT4.0 的內核,可以在任何話題下和真人進行自主對話,不受固定程式和固定文本的制約,甚至其應答方式已經擴展到人類的副語言層面,利用肢體動作、表情神態和語氣詞代替語言的回答,如點頭、微笑或者有意識地挑眉等等。
虛擬數字人3.0 如何破局,未來在“可視化”方面依然面臨諸多挑戰,究竟是VR/AR 虛擬現實、增強現實技術創造沉浸式的交互體驗,是通過全息投影技術將虛擬體與現實世界進行深度融合,還是利用更先進的決策智能賦能仿生機器人,虛擬數字人3.0“虛實結合”的發展趨勢不會改變。另一方面,基于算法和數據的數字人內在邏輯必將繼續迭代進化,從虛擬數字人1.0 的感知智能、到數字人2.0 的認知智能,再到3.0 階段的決策智能,虛擬數字人的核心價值從協調“人—機”關系,強調機器向人類趨近,機器向人類學習,開始向“機—人”關系靠攏,由人類向數字人尋求方法路徑和決策方案,使社會治理的決策效果更具現實意義。
2.1.1 AI 繪圖渲染靜幀
軟件“Call Annie”設計了兩個英語口語老師角色,分別是女性Samantha(或叫Annie)和男性Dan,其中又以昵稱Annie 的女性角色最為典型。通過征集網絡用戶意見,“Call Annie”被設定為女性角色,使用20世紀90 年代的復古造型,她擁有一頭棕紅色長發、藍色瞳孔、高飽和度的唇彩、挺立的鼻梁以及飽滿的鼻頭,神似安妮斯頓和安吉麗娜·朱莉的結合體,整體造型和90 年代大熱美劇《老友記》中的瑞秋趨于一致,是傳統白人女性形象,儼然是這些成長于90 年代的科技公司創始人對通俗流行文化和互聯網文化符號的集體記憶。而這樣的結論并非無的放矢,一切源于設計并制作這一形象的軟件——Midjourney。
Annie 的形象是利用AI 繪圖軟件Midjourney,通過輸入事先征集的提示詞生成而來。該軟件的付費版本基于ChatGPT4.0 打造,和“Call Annie”使用同樣的語言模型驅動,只是用途不同,一個專門制作渲染圖,另一個負責交互聊天和網絡一對一教學,簡單來講,就是輸入文字后直接生成圖片。Midjourney 背靠大型超算的數據庫在云端部署,提示文字不需要精確,模糊度高、容錯率高,就算沒有細致的表述,軟件也能識別用戶意圖并快速生成圖片。而Annie 的形象就是通過征集意見,經由軟件公司初步篩選出簡單的提示詞,再導入Midjourney 生成和精修,最終確定了她的形象。
2.1.2 面部光學動作捕捉
單有數字人Annie 的靜幀圖片是不夠的,在進行實時互動甚至是直播時,需要連續活動影像。首先,通過對靜態圖進行三維掃描建模,使三維模型和面部表情動畫實現初步綁定,基于頂點流解算算法,在控制亞厘米級誤差表情重建的同時,實現準確的跨人像表情語意遷移,并針對實時場景優化人像面部綁定效果。這樣,數字人Annie 的完整形象才真正被設計出來,而這一切依靠的是面部動作捕捉技術。
其次,確定數字人Annie 的女性真人原型,采集她豐富的面部表情和肢體動作。這是一項復雜工程,包括喜怒哀樂等各種情緒的類型,不但采集狀態還要細分不同的程度,以情緒的負荷、強度、速度和頻率為標準越精細越好。以“笑”這樣的快感表情為例,正向負荷的微笑和負向負荷的奸笑;不同的情緒由弱到強,淺笑、大笑、狂笑;速度不同的含笑、嬉笑;頻次不一的哄堂大笑和連笑等,最終構建完整的表情數據庫,筆者將這一過程統稱為“面部表情編碼系統”(Facial Action Coding System,簡稱FACS)。因為Annie 采用類似動漫的三維形象,相比特效電影中的合成形象,其對眼睛特別是眼球動效的要求大幅降低,巧妙地規避了采集人類眼睛生理數據的難點,降低計算機數據負載。
最后,進行光學點運動捕捉,將面部變化的數據傳輸給數字角色,也就是平常俗稱的“換臉”。當前,動作捕捉技術日趨成熟,各家廠商在制造數字人的過程中,所考慮的無非是成本和精度的問題。早期的慣性動作捕捉利用接近傳感器、壓力傳感器、陀螺儀等設備記錄數據,但因精度太低逐漸被業界淘汰。使用無標記動作捕捉,前提條件又十分苛刻,必須有能識別景深的攝像機和特定軟件記錄相關數據,而捕捉精度只能算一般。“Call Annie”則使用影視特效行業流行的主動光學動捕技術,給真人戴上光線傳感器頭盔,動捕攝像機鏡頭發出光線,在面部形成一系列反光的標記點(Marker),標記點數據回傳到動捕攝像機內,形成單個Marker 的二維坐標。至少三臺攝像機分別對應每個反光標記點的高度、寬度和縱深數值,最后合成出標記點在攝像機內的持續時間、三維坐標、速度加速度、剛體等位姿信息。
2.1.3 三維模型動效綁定
動捕攝像機修正機內數據,導入三維模型軟件進行特效綁定。之前的數字人在進行特效綁定時往往會出現表情僵硬、不流暢等問題,這和算法有關。正常人的動作是非線性的,有速度和加速度,轉化成數據呈現為貝澤爾曲線。Animato 公司創造性地設計了修正曲線,以解決運動軌跡線性的缺陷。
動捕攝像機記錄的是點位信息,利用類似IPB 視頻幀間壓縮的編碼方式,把單個攝像機對應的二維平面劃分為攝像機像場內的無數個像素格,也被成為宏塊。從起幅到落幅,連貫動作分解為宏塊內反光標記點(Marker)的序列,先確定初始、中間和結束標記點的點位信息,得到關鍵幀;對每個分段的運動過程進行預測,得到少量的預測幀;再對預測幀同時向前向后進行二次運算,得到更多的預測幀,提升之前預測幀的準確性,這被稱為雙向預測幀。雙向預測幀之間相互參考,進行微調和修復,最終由關鍵幀、預測幀、雙向預測幀等點位信息共同構成面部動作捕捉的連續活動影像,這就是上文提到的“頂點流解算算法”的內部原理。但這一算法也存在線性運動的劣勢,通過動捕攝像機機內修正相關數據。最后,這些數據會統一導入Maya、Blender 等軟件內與模型進行綁定,完成虛擬數字人Annie 的動效制作。
2.2.1 與真人視頻通話般的模式創新
在“Call Annie”出現之前,相比真人授課或網絡一對一教學,手機App 自學存在明顯不足,這并非個體差異,而是教學模式的落后。一是自學內容的專業性和可靠度存疑。即便有標準答案,答案的出處和答案的選定依據卻不得而知。二是相比當面授課,學習App 缺少交流、示范和演練,自學可以學到知識,但學不來方法和習慣。三是碎片化管理,效率太低。長時間無休止的學習讓自學者感到單調乏味,從而降低學習興趣;短時間高頻次的學習,又不容易形成學習的連貫性和系統性。當面授課有時限、有節次、有規律地教學,往往能最大限度保證學習效果。
虛擬數字人Annie 讓手機App 學習從自學模式的窠臼中跳脫出來,回歸傳統教學理念,結合最新科技讓模式創新平添新意。“Call Annie”的界面UI 沒有延續網頁設計的思路,完全仿照社交群組列表、手機通訊錄及聊天軟件界面。點擊Annie 的頭像,轉場特效會播放對方接聽網絡電話的待機畫面。接通后,手機屏幕會出現數字人的形象,下面分別是人員列表、語音文字切換、錄屏、音量及掛斷的按鈕,開發者還非常細心地調用前置攝像頭,顯示用戶自拍的畫中畫。所有流程都在引導用戶并營造仿佛真人授課的儀式感,讓手機App 學習變成如真人視頻通話般的自由交流,這種模式創新在知識付費領域當屬首次。
2.2.2 教學與娛樂無縫銜接的環節創新
“Call Annie”的英語口語教學以不定話題的隨意聊天為主模塊,優點是以練代學、學用相長,是真正的情境教學法。而授課內容和授課形式完全由學生主導,甚至類似于翻轉課堂,學生自主發布任務,進行項目研究,獲得深刻理解,是真正的自主學習。在學習的同時,又能起到告知、愉悅和啟發的作用,更是真正的寓教于樂。不僅如此,提問的內容可以是如何糾正發音、語法使用是否規范及修辭對不同語意的適用性等進階內容,也可以是中英文夾雜、方言口音、邏輯不清等復雜情境,基于ChatGPT4.0 語言模型的數字人都能夠實時根據學習者的水平,對她的語速、句式難易和對話內容進行調整,最大限度地在主模塊中給予學生自由度。
環節創新的第二個表現是專項訓練副模塊的參與。“Call Annie”為有特定需要的學生提供了6 個自選項目(custom prompts):學習、娛樂、旅游、職場、社交和網絡搜索。數字人Annie 根據學生的偏好設置和之前對話的內容,在這6 個選項的菜單欄下再次生成6 個,總計36 個提示詞的子選項,學生根據選項開啟本次對話的主題。因為數字人的語言模型存儲在云端,在談話過程中,她會在內容上鎖定重點、兼顧熱點、回顧難點,保證談話主題不偏移,從而提升口語練習的效度。環節內部寓教于樂,環節之間相輔相成,整體上“智”趣相合,無縫銜接。
2.2.3 客制化服務的元素創新
“Call Annie”與蘋果iOS 的系統軟件深度綁定,可以在軟件內設置由虛擬數字人提供定時叫醒和早間新聞的服務。教學元素方面,除了語音學習,還可以通過發送圖片開啟聊天,錄制視頻完成應答,或以字幕或歷史文字記錄的形式進行復習。根據用戶的學習能力,同樣是數字人Annie,甚至可以定制化她的語言模型和底層算法。以1.3.1 更新為例,該軟件提供免費和付費共兩個版本的數字人服務。免費版本基于ChatGPT3.5 語言模型,數據庫相對較小,部分功能被屏蔽;付費版本則是基于ChatGPT4.0 語言模型,數據庫完整,全部功能針對用戶開放,而且通過長期對話,結合數字人的“深度學習”能力,她的言語風格、聊天偏好和肢體動作都存在個性化差異。
虛擬數字人的感知智能日趨成熟,認知智能也在不斷迭代,但推動這種進步的主體依然是人類。數字人不應被囿于數字媒體時代的新介質或新載體,更有望在數字人3.0 時代成為內容創作的主體,其將推動傳統媒體打破單一的“媒體域”而走向多域整合,高效助力融媒體內容生產創新整合,更有望成為云宇宙的入口,有力推動主流媒體改變自身在信息傳播格局中的被動地位。目前,虛擬數字人的應用場景依然非常局限。比如Annie 雖然擁有教學、社交、娛樂等屬性,但本質還是服務型的數字人,以提供解決方案為宗旨。未來,在技術可控的前提下,讓數字人在更多領域更多場景成為開拓者,以人工智能的驚人算力、數據整合能力和高效準確的決策能力,在科研、管理、演藝、設計等具體場景中發揮重要作用。
積極擁抱數字技術的同時,必須警惕信息安全漏洞對國家根本利益和國民人身財產可能造成的潛在危害。虛擬數字人理應成為信息安全的第一道關,站好崗守好門,禁止涉黃、涉暴內容傳播、甄別網絡虛假信息、監測犯罪活動、主動保護涉密內容,努力將社會治理的風險降到最低。未來,在媒體場景活動的數字人則有著更特殊的權責,一旦出現問題,媒體公信力將遭受重大打擊,公共資源被大量占用,社會信任危機頻發。因此,國家應盡快出臺虛擬數字人監管的相關法律法規,提前布局內容審核、數據追蹤、數字身份識別和認定等技術,引導相關產業健康有序發展。
Annie 的誕生標志著虛擬數字人正式進入認知領域,其背后的ChatGPT4.0 語言模型,更是超脫了算法或技術的范疇,豐富的情感和獨特的人格屬性,讓人類重新思考自身與數字人之間的關系。數字人的底層邏輯也從協調“人—機”關系,強調機器向人類趨近,機器向人類學習,開始向“機—人”關系靠攏,由人類向數字人尋求方法路徑和決策方案。雖然數字人的應用前景一片光明,但要從技術和法律層面加強引導和監管,真正與數字人實現價值共創。