龔子洋 沈文君 李富豪
(武漢學院 湖北省武漢市 430000)
2015年6月27日、28日,日本知名虛擬歌姬初音未來首次在中國上海舉辦演唱會,作為首次在中國亮相的虛擬歌姬,演唱會直接爆滿,一票難求。即使如此,虛擬歌姬的形象終究和非愛好者相距甚遠,因此并無很大反響。但是在2016年3月,人工智能alpha go 與圍棋世界冠軍棋手李世石進行圍棋大戰(zhàn),以4 比1 的總比分獲勝,之后無一敗績。于是人們開始注意到人工智能這個新興產(chǎn)業(yè)并且將AI 與其他技術結(jié)合,開始紛紛投身于這些行業(yè)的紅利之中。
目前主流的虛擬主播有兩種類型:
通常使用live2D 或3D 模型,加上虛擬背景,對真人進行面部或者全身動作捕捉,但虛擬主播的語音與動作都來自于背后操作人員,即“中之人”,虛擬形象通常被稱為皮套。目前市面非?;鸨腣tuber,Vup,都屬于這類虛擬主播,也是最常見的一類。
這類主播的表現(xiàn)形式并不由真人操作,主要運用人工智能以及智能語音技術,提前對AI 主播的真人原型進行錄音和動作采集,再由人工智能進行深度學習,根據(jù)真人的動作習慣和音色自動生成一個獨一無二的AI 虛擬主播,并且對原型的還原成度相當高。央視的紀小萌就是此類型虛擬主播。
(1)虛擬主播可以運用到動畫類的教育軟件,比如可互動的電子圖畫書。電子圖畫書可以使兒童對繪本中的圖片文字有更加立體化的認知再加上討喜的虛擬主播的形象和聲音甚至可以實現(xiàn)讓書中的角色來講述自己的故事,這樣一來,兒童原本對讀書較為單一固化的思想就會被電子書所改變,再加上老師的教導,可以多方面地對兒童的思維進行拓展[1]。
(2)虛擬主播還可以用在貧困地區(qū)支教,很多貧困山區(qū),條件艱苦,生活環(huán)境較差,而且志愿者對于環(huán)境接受度不一樣,往往容易引起不必要的麻煩,采用AI 虛擬主播給山區(qū)孩子們授課,不僅可以避免人力方面的問題,還能讓山區(qū)孩子們真真切切地感受到科技帶來的生活上的改變,用一些特殊的虛擬主播形象,比如孫悟空、玩偶等新穎角色可以讓山區(qū)的孩子們興趣更濃,教學質(zhì)量也能大大提升。
(3)虛擬主播技術可以用在課堂上,將一些名人甚至歷史上的偉人“復活”,比如牛頓、愛因斯坦等,用智能語音技術和人工智能技術來實現(xiàn),對學生們講解公式的來源和當時的時代背景甚至一些對話場景,使學生能對一些枯燥的定理和公式有更深的理解,甚至喜歡上曾經(jīng)討厭的科目。
一般的虛擬主播可以分成2D 或者3D 兩類,制作者可以通過Photoshop、3ds Max、Maya 等繪圖軟件來制作。

圖1:相機陣列方法

圖2:標點式系統(tǒng)

圖3:無標記點方法
通過動態(tài)捕捉設備捕捉真人動作和表情,并映射到虛擬模型上。而這些形象通常以3D 模型,和Live2D 的形式來呈現(xiàn),各種等級的的動捕設備都辦得到。可以使用iPhone 或Kinect 等設備來采集臉部表情[2]。
3.2.1 面部捕捉
目前市面主流的就是直接用手機或者電腦攝像頭自動捕捉,IphoneX 的前置攝像頭就安裝了紅外線相機來支持animoji 的面部捕捉。以及專業(yè)的面捕設備Mocap Cameras 等。
而獲取面部數(shù)據(jù)通常有兩種方法:

圖4:動作捕捉
(1)結(jié)構(gòu)光方法,此方法也是使用最多最廣泛的方法,在光學鏡頭之外會配合紅外鏡頭,有時也需要泛光照明燈、泛光感應元件、點陣投影器等輔助設備,來獲取人臉的深度信息。點陣投影器可以向人臉投射肉眼不可見的光點組成的點陣,臉部的凹凸不平會使點陣形狀發(fā)生變化,紅外鏡頭可以讀取點陣圖案,再與前置攝像頭拍攝到的人臉通過算法相結(jié)合,以獲得帶有深度信息的面部信息。
(2)相機陣列方法,陣列即以一定間距和規(guī)則擺放相機,為面部動作捕捉設計的相機陣列通常呈環(huán)形,如圖1 所示。演員需要居于中心點進行拍攝,目的是通過不同視角所獲的不同人像,來獲取人面部表情及運動的三維數(shù)據(jù)。此方法精度高,但設備價格較昂貴[3]。
在人臉的拍攝上,又能細分為兩類:
(3)標點式系統(tǒng),需要在演員面部粘貼反光式標記點,用攝像機追蹤演員面部運動的標記點,記錄成坐標形式的數(shù)據(jù),在計算機上綁定虛擬人物的相應部位,虛擬人物就會實時的跟隨演員做相同的表情和動作,用在三維虛擬形象上實現(xiàn),如圖2。幾年前非常火熱的科幻電影《猩球崛起》正是采用了該技術。
(4)無標記點方法,通常依靠鼻孔、眼角、唇部、酒窩等標志性位置,確定臉部的表情和運動狀況,這種方法最早由 CMU、IBM、曼徹斯特大學等機構(gòu)通過使用主觀表現(xiàn)模型(AAM)、主成分分析(PCA)等模型及技術實現(xiàn),如圖3。無標記點面部動作捕捉系統(tǒng)也能追蹤人的瞳孔、眼皮、牙齒咬合等細節(jié),幫助完成動畫合成。有時需要對拍攝到的圖像進行人工處理,如對極限表情進行面部勾線等等[4]。主要應用有國產(chǎn)電影《爵跡》、日本CG 電影《殺戮都市》等,而本文探究的虛擬主播也主要應用該類型捕捉方法。
3.2.2 全身的動作捕捉
而全身的動作捕捉則需要專業(yè)的設備才能達到令人滿意的效果。通常是通過外接設備在真人身體上,通過采集真人動作數(shù)據(jù),一般是利用光學動作捕捉系統(tǒng),光學動作捕捉系統(tǒng)由紅外動作捕捉鏡頭、反光標識點、POE 連接器、動作捕捉軟件和若干配件(如標定工具和鏡頭云臺等)來實現(xiàn),通過高速攝像機拍攝反光點的運動軌跡,不同位置的鏡頭采集到標識點的位置后,就可以計算出這個點在空間中的三維坐標,在三維空間上還原人體在空間的運動。
采集到數(shù)據(jù)后,還需要進行識別:無論動作捕捉的目標如何,都需要分析出各個標識點之間的相互位置關系。因此,在動作捕捉系統(tǒng)第一次工作時,系統(tǒng)需要為每個標識點編碼,從而建立目標整體的參考模板,之后,動作捕捉系統(tǒng)就會根據(jù)這個模板完成識別工作。
語音合成是通過機械的、電子的方法產(chǎn)生人造語音的技術。它是將計算機自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術。TTS 技術又可以分為兩個步驟實現(xiàn):
語音庫是大量文本和其對應音頻的 pairs。為了實現(xiàn)更精細的語音合成,一般會用語音學標注系統(tǒng)自動標一遍文本[5]。再用類似語音識別的工具得到音素和音頻時間上的切分。這樣你就會得到,語音庫里的每一個音素,它在音頻中的起止時間(即音素本身的 waveform),以及其對應的語言學標注。該步驟涉及到很多值得研究的問題,比如拼寫相同但讀音不同的詞的區(qū)分、縮寫的處理、停頓位置的確定,等等。
語音合成的方法有幾種:
(1)參數(shù)法,即根據(jù)統(tǒng)計模型來產(chǎn)生每時每刻的語音參數(shù)(包括基頻、共振峰頻率等),然后把這些參數(shù)轉(zhuǎn)化為波形。參數(shù)法也需要事先錄制語音進行訓練,但它并不需要100%的覆蓋率。參數(shù)法合成出的語音質(zhì)量比拼接法差一些[6]。
(2)聲道模擬法,參數(shù)法利用的參數(shù)是語音信號的性質(zhì),它并不關注語音的產(chǎn)生過程。與此相反,聲道模擬法則是建立聲道的物理模型,通過這個物理模型產(chǎn)生波形。這種方法的理論看起來很優(yōu)美,但由于語音的產(chǎn)生過程實在是太復雜,所以實用價值并不高。
(3)拼接法,即從事先錄制的大量語音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節(jié)、音素等等;為了追求合成語音的連貫性,也常常用使用雙音子(從一個音素的中央到下一個音素的中央)作為單位。拼接法合成的語音質(zhì)量較高,但它需要錄制大量語音以保證覆蓋率。
5G 時代,實現(xiàn)無延遲直播是必然的事實,不管是購物,娛樂,教育乃至國家大事,都會完全適應直播這種方式,而虛擬主播,能從各個方面為直播帶來更好的觀賞體驗,不論是播出的成本,還是直播的效果,都能得到優(yōu)化。相比于日本虛擬主播的普及和飽和,當前的中國,虛擬主播才剛開始慢慢走入人們的生活,市面上的相關技術也在慢慢趨于成熟。因此,再告訴發(fā)展的時代,我們應當積極地將虛擬主播等高新技術用于教育行業(yè),培養(yǎng)出更加優(yōu)秀的下一代人才。