王小豪

最近在科創界,先后出現了兩件令人驚奇的新聞,都與“數字人”有關。
第一件是ChatGPT推出了真人語音功能,它能夠扮演5個不同的角色來回答用戶的問題。和Siri等語音助手不同的地方在于,它的回答更加自然,甚至還會出現停頓、語氣詞,口水音,和正常人類說話沒什么兩樣。如果不事先知道這個聲音來自AI,很難分辨得出來。
另一件事情,是扎克伯格接受了一場特殊的采訪,他和視頻博主Lex Fridman戴上了最新版的Quest Pro頭顯,進入Meta的元宇宙中,用各自的虛擬形象進行交談。令人嘖嘖稱奇的是,他們在元宇宙里的臉孔形象,已經與他們的真實模樣相差無幾,微笑、咧嘴、皺眉等細微表情都能得到細致還原。
這不得不讓人驚嘆,畢竟一年前扎克伯格在元宇宙展示出來的虛擬分身,還是個像“小丸子爺爺”那般簡陋的卡通形象,當時還受到了輿論群嘲。僅一年的時間,他就擁有了一個超越“恐怖谷”效應的元宇宙版本的“自己”。
這兩則新聞,一則指向了AI的擬人化,一則指向了人類的虛擬化,看起來是截然不同的方向,但這兩條路徑的目標顯然是一致的—在虛擬世界復刻真實的人類生活,而不論這個“人”該如何定義。
扎克伯格的這場元宇宙訪談,談到了兩個細節,可以作為我們討論“數字人”的引子。
首先是他逼真的虛擬形象。他解釋道,自己的虛擬形象采用的是目前最先進的臉譜掃描技術,需要通過幾百個相機進行長達數小時、360度無死角的掃描才能實現。但他的團隊正在努力縮短這個流程,未來讓用戶只需要拿起手機在臉上晃幾分鐘,說幾句話,做幾個表情,就可以掃描一個高精度的人像模型。
其次,在扎克伯格的設想中,這項技術與AI的聯系非常緊密,他希望將兩者結合起來,打造具有自主思維和逼真形象的“數字人”,為人們提供社交、游戲等服務。
他談到的這兩點,基本上涵蓋了當前“數字人”在技術上的研發要點:“擬真度”和“互動能力”。我們先從“擬真度”談起,這個領域可以分為兩種技術方向,以Meta為代表的走的是“還原”路線,旨在盡可能地復刻真人相貌,令其充當替身。另一種方向則是創造全新的臉孔,在這條路徑里,三星旗下的STAR Lab在2020年發布的“neon數字人”便提供了很好的示范。
Neon數字人最令人驚嘆的地方是,它的樣貌、行為乃至思維習慣和真人別無二致,它有著真人比例的大小,形態各異的造型,活動起來就像是在看一段真人錄制的視頻。但區別在于,這些臉孔都是“原創”的。更新奇的地方是,每個“neon數字人”還有著自己的脾性,它可以從事瑜伽教練、接待員、客服助手等工作,但也會因為長時間“打工”而感到厭倦。
簡言之,它不是語音助手,而是“虛擬人類”,如果對他不好,他可是會鬧脾氣的。
在“互動能力”方面,應該說,以ChatGPT為代表的生成式AI的飛躍式發展,讓業界真正看到了創造智能化“數字人”的希望。在此之前,并沒有多少企業或機構把可交互性當作“數字人”的研發重點。
對“數字人”的研發最早可以追溯到上世紀80年代,從日本的動漫、宅文化中衍生出來的二次元“虛擬偶像”。1982年,日本動畫《超時空要塞》的女主角林明美被制作成首個虛擬偶像歌手。2007年,初音未來誕生,并采用全息投影技術舉辦了全球首個“虛擬偶像”演唱會。
此后,隨著數字建模技術的進步,業界才逐漸走向真人化“數字人”的研發。追求形體的擬真,是“數字人”由來已久的研究方向,而且在電影、游戲、音樂等行業有著真切的商用需求。但這一方向走到底,最多也只能做到外表上的百分百相同,但它的交互要么依賴真人,要么非常程式化。盡管三星開發的“neon數字人”形象極為逼真,但官方展示出來的“數字人”都經過預渲染處理,實際上臨場交互能力達不到宣傳的高度。
直到生成式AI技術的崛起,開發“數字人”的獨立交互能力,才真正有了技術基礎。
斯坦福大學的研究者們創建了一個名為Smallville的虛擬小鎮,在里面植入了25個AI像素人,他們在里面工作、社交、甚至舉辦情人節派對,看起來像極了AI版的《星露谷物語》。
英偉達在把自己開發的游戲AI智能體“voyager”接入GPT-4后,他們甚至可以自行在游戲里挖礦、建造房屋,進行遠程探險。
AI的擬人化、人類的虛擬化,看起來是截然不同的方向,但這兩條路徑的目標顯然是一致的—在虛擬世界復刻真實的人類生活。
設想一下,如果把Smallville里的像素小人替換成真人形象數字人,那么就是扎克伯格所暢想的元宇宙圖景了。不妨大膽想象,如果未來兩個“i人”在元宇宙里見面,尷尬得不知道聊點什么時,可以召喚一個“e人”性格的AI數字人出來活絡氣氛,充當社交潤滑劑。
而生成式AI與游戲NPC的合體,無疑將使游戲玩家們的體驗上升一大截,與具有獨立思考能力的NPC進行互動,在游戲體驗上肯定比現在程式化的設計要好得多。
也難怪已經“All in 元宇宙”的扎克伯格,在不久前的2023財年第三季度財報電話會議上表示,AI技術將成為Meta在2024年最大的投資領域。
就像“互聯網+”改變了各行各業一樣,生成式AI也可以“+”任何事情,包括賦予“數字人”以靈魂。
如果說先進的科研機構、科技巨頭還在琢磨怎么“創造人類”,那么講究實用的業界,已經把一些更為粗糙、簡陋的“數字人”應用到了商業領域。
應用最廣泛的便是直播行業。如今,“數字人”主播已經十分普及,在抖音、快手等短視頻直播平臺,很多在鏡頭前滔滔不絕、兜售商品的主播,其實是“數字人”。
這些直播間里的“數字人”的外觀五花八門,有2D、3D的二次元人物,也有仿真人、真人建模等走現實主義的“數字人”。其內里的“靈魂”,可能來自后臺的真人,也可能是根據文字生成的語音,再高級點的則用上擬真的聲線。
這些“數字人”的制作過程也不復雜。如果是“拷貝”一個真人形象,通過動作捕捉技術,只需要主播在綠幕前穿上幾件出鏡用的衣服,記錄下一些常用動作、手勢,就可以在不到5分鐘的時間里制作出一個足以“以假亂真”的分身。
有up主曾在自己的視頻欄目里做過測試,在視頻播出了近5分鐘后,他才以真人面目出現,告訴觀眾們前面出鏡的其實是“數字人”版的自己,而幾乎沒有觀眾發現異樣。
更高級一些的技術,還能在仿真的基礎上任意地改變自己的外貌特征,讓自己看起來更年輕或者更成熟,如果愿意的話,可以一直保持在“凍齡”狀態。
如果要求低一些,還可以用一些“公模”,筆者在進行研究時,選擇了騰訊智影這款數字人播報產品進行體驗,它默認提供了幾個人物形象,只需要在右側的文字框輸入想要生成的語音文字,隨后點擊“合成視頻”,稍等片刻,就可以得到一段帶有“真人播報”的視頻。
細看還是能看出異樣,例如臉部與身體的銜接有點不自然,肢體動作也比較簡單,看上去有點像掉幀的畫面。在聲音方面則是和我們在地圖導航中聽到的差不多,雖然為了逼真一些,可以在文本中插入“停頓時間”,但無法與ChatGPT極為逼真的口語表達相比擬。
雖然說這些“數字人”的形態比較粗糙,無法還原真實人類的相貌體態,口型也經常對不上,但在手機這樣的狹小屏幕內,對精度的要求并沒有那么高,這點瑕疵無傷大雅。
和真人主播相比,這些“數字人”主播最大的優點在于不用休息,可以24小時不間斷地直播,還不需要場地、攝影器材和人力投入。
此外,制作這些“數字人”主播的成本差異很大,上至幾十萬,下至幾百元,從便宜的2D形象到精細的真人“拷貝”,完全豐儉由人。平均下來,“數字人”主播的成本不及真人主播的幾十分之一。
從最終的效果來看,觀眾也為這些“數字人”主播買單,例如,在拼多多的特步直播間里,數字人主播日均GMV約為4.1萬元。甚至有的“數字人”主播的日均成交額比真人主播還高。
商業上的前景,極大地推動了這一行業的發展。據數據統計,僅2022年,數字人相關企業注冊數量就高達948家,增速68%,已然成為一個新的風口。
站在當下這個時間點,我們還很難定義“數字人”究竟是什么,因為它們的形態各異,外在形式與內在邏輯也各不相同。
從已經實現的程度來看,它更像人的“虛擬外殼”,這個外殼形態各異,但仍依賴人的思維進行驅動。但從研究重點與發展潮流來看,它必然會在生成式AI的加持下,走向發展出獨立行為邏輯的智能體的路徑,實現自我驅動。
對人的形象,特別是臉孔的確認,既是親密感產生的重要方式,也是信任關系得以建立的前提,而無論這個形象是否真實存在。
那么我們該如何看待生成式AI與“數字人”之間的關系?
從功能上看,毫無疑問是生成式AI促進了“數字人”的發展,推動其從低級邁向高級。如果它現在是有效率的生產機器—制造永不停歇的人類形象,用來帶貨、講課、表演,帶來商業、文化、娛樂等方面的價值,那么未來,它將成為人們投射情感,滿足陪伴需求的對象,甚至參與到人與人的交往中,成為關系網絡的有機組成部分。
但是,生成式AI與“數字人”之間的關系可能并不是簡單的單向關系。
站在用戶角度,“數字人”的內在是否具有“靈魂”,可能并不是最重要的事情,畢竟當前流行于直播間里的粗糙版本,也有不少受眾,甚至已經培育出了一個日益成熟的行業。
另一方面,生成式AI的核心能力—輸出“原創文本”,并不因套上一個人類的外殼而變得更加先進。
因此,反過來思考這個問題,可能有助于我們厘清兩者的關系:把AI智能體加載在“人類形象”上的必要性在哪里?
答案或許就在“人類形象”本身。在現實生活中,很多關鍵的互動,都是在人與人的直接接觸時完成的。
設想一下,如果一個直播間沒有主播在場,而只有聲音在飄蕩,其實很難建立起主播與觀眾之間的情感聯系,也會給人一種很不踏實的感覺。
對人的形象,特別是臉孔的確認,既是親密感產生的重要方式,也是信任關系得以建立的前提,而無論這個形象是否真實存在,畢竟人們可以把自己的情感投射到電影、游戲、動漫等虛構角色里去,從這個角度來說,具象比真實更為重要。
這種“面對面”效應,在人與AI的互動里同樣存在。對于AI這樣一個“多智而近妖”的智能體來說,無論它能夠實現什么樣的功能,賦予它一個“臉孔”,使它在最自然、熟悉的情景下與人互動,才能讓它的本領最大化地發揮。
就好比在元宇宙的世界里,我們不會希望由一個佇立著的黑色石碑來擔任指導,它的神秘氣息只會讓我們覺得自己是《2001太空漫游》里的猿人。
從這個意義來講,成為“數字人”,或許是AI更進一步發展的必然之路。