AI 虛擬數字人與用戶的關系建構
——發音人的視角

2023-02-06 20:19:22彭冬雪

中國傳媒科技 2023年12期

彭冬雪

（云南藝術學院，云南昆明 650500）

人工智能的應用自落地以來，相關技術逐漸從理論研究和應用研究走向落地實踐，互聯網和大數據的技術發展使得人工智能的數據和算法應用也逐漸普及，隨著人工智能技術的不斷發展和應用，AI 虛擬數字人也逐漸與其他技術和領域進行融合，形成了更加復雜和綜合的應用場景。而形成的大多數產品和應用都與用戶使用脫不開關系，以往的文獻重在人機交互的層面，方向多是以“由下向上”為主，也就是在產品的服務環節上，多以用戶的需求為重點，尤其在特定的場景下，如何迎合與適配用戶體驗成為AIGC 產品尤其是AI 虛擬數字人的改進目標和方向。探討AI 虛擬數字人與用戶關系建構的原理、方法和實際應用是本文關注的重點，尤其“發音人”的作用不容小覷。

1. AI 虛擬數字人的成長路徑

AI 虛擬數字人是一種具有多重人類特征（外貌特征、人類表演能力、人類交互能力等）的綜合產物，由計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等計算機手段創造及使用，具有語言交流、表情傳遞、行為決策等多種功能。AI 虛擬數字人從20世紀80 年代開始發展，起初受限于技術，虛擬人制作以手繪和化妝為主，制作形式主要是2D、3D 動畫，代表性虛擬偶像有：日本虛擬歌姬林明美和英國虛擬演員Max Headroom。到21 世紀初期，隨著CG 技術、動作面部捕捉技術的發展，逐漸取代了傳統手繪，虛擬人開始加速運用到影視行業。2007 年～2016 年，這個階段主要是音樂軟件的二次元虛擬形象，直到2016年被稱為人工智能元年，人工智能開始帶動虛擬偶像的發展。2020 年至今是AI 虛擬數字人的成長階段。

AI 虛擬數字人可以應用于虛擬助手、虛擬客服、虛擬偶像/主播等多個領域，但更強調其多重人類特征的模擬和呈現。目前比較成功的AI 虛擬數字人形象有以下：

清華數字學生“華智冰”是人工智能全新聊天機器人，能夠與人對話互動，作詩、作畫、作曲、翻譯，都游刃有余。柳夜熙是虛擬美妝博主，不僅擁有完美的身材和顏值，還會定期更新視頻，教網友如何化妝、如何搭配等。度曉曉、希加加是百度推出的AI 數字人，擁有二次元的形象，可以幫助人們搜索信息、回答問題等。

AI 虛擬數字人、人工智能主播和虛擬偶像都是基于人工智能技術創建的角色，但它們的應用場景、功能和形態存在一些區別：人工智能主播是基于人工智能技術開發的，具有語音識別、語音合成、自然語言處理等功能，能夠與用戶進行交互的虛擬主播。它通常被應用于直播帶貨、新聞播報等領域，能夠自動化地進行播報和回答用戶的問題。我們在一些媒體平臺看到的人工智能主播有的是以真人主播為原型，比較有代表性的人工智能主播有：新華社首位AI 合成主播“新小浩”，搜狗聯合新華社推出的全球首個3D AI合成主播“新小微”，科大訊飛推出的AI 主播“康曉輝”和“時間小妮”，央視的AI 主播“小白”，女主播“新小萌”。

虛擬偶像是基于人工智能技術開發的，具有音樂表演、舞蹈表演、形象設計等功能的虛擬人物。它們通常被應用于娛樂、音樂等領域，能夠進行多樣化的表演和互動。代表性的虛擬偶像有——翎：由魔琺科技與次世文化共同打造的虛擬偶像，以京劇梅派第三代傳人的聲音，現場演繹梅蘭芳代表作《天女散花》，成為首個登上央視舞臺的虛擬偶像。其發布于社交平臺的內容涉及琴棋書畫、梅蘭竹菊，均營造出一種“科技國風感”。洛天依：上海禾念信息科技有限公司運營的虛擬歌手，也是中國第一個擁有自己的專業聲庫和形象設定的虛擬歌手。ASoul：字節跳動旗下品牌朝夕光年的虛擬偶像組合，包括嘉然、向晚、乃琳、貝拉和珈樂。A-SOUL 第二任看板娘：米哈游發布的一個二次元虛擬偶像。K/DA：韓國女子團體，由阿貍、卡莎、莎彌拉和迦娜四位英雄組成。初音未來：CRYPTON FUTURE MEDIA 開發的音源庫，也是日本第一個使用全息投影技術舉辦演唱會的虛擬偶像。絆愛：日本女子團體，也是世界上第一個虛擬主播。未來明：日本的一位虛擬主播，因其游戲和直播內容而受到關注。七海Nana7mi：中國的一位虛擬主播，因其游戲和直播內容而受到關注。時乃空：中國的一位虛擬主播，因其音樂和直播內容而受到關注。

AI 虛擬數字人、人工智能主播和虛擬偶像雖然應用于不同場景，但是他們之間還有一點不同：“中之人”—發音人的作用不同。

2. AI 數字人如何喚起用戶的感知真實

AI 虛擬數字人是一種基于人工智能技術的虛擬形象，可以與用戶進行交互和交往，日常中的互動是社會上個人與個人之間，群體與群體之間等通過語言或其他手段傳播信息而發生的相互依賴性行為的過程，因此AI 虛擬數字人在與用戶互動的過程中也應該有一定的社會行為，以更好地實現人機互動。人工智能、圖形學和機器人方面的進展正在加速實現工具人身代理，如社交機器人、虛擬化身和數字人類。體現的虛擬人工代理的非語言行為是與現有媒介的關鍵區別。當我們與具有人類外形的代理人互動時，我們自然希望他們能像人類一樣做一些社會行為，這通常被稱為“社會負擔”，這種非語言行為在許多人與人的互動和人與代理的互動研究中被證明是有效的。代理人適當的手勢和表情有助于揭示代理人的意圖，使聽眾集中注意力，并與人類建立融洽的關系。[1]個人與具有類似人類存在的物體互動的方式與無生命的物體不同。他們傾向于將類似的社會規則賦予具有人類外觀的計算機技術，盡管他們完全意識到他們在與機器互動。擬人化的存在引起了個人的基本社會腳本，如禮貌和互惠，這導致了與機器的情感、認知和社會反應。過去的研究表明，非人類伙伴的可感知的人類相似性是寄生社會互動發生的重要前提，這使得它是真實的而不是虛構的。寄生社會關系的發展取決于對應方的真實性、現實性或可信度水平。[2]如何建立與用戶的真實的交往關系？在關系的這一層面里具有很多維度：情感關系、建立信任、互動的有效性等。接下來筆者將以百度的AI 虛擬數字人度曉曉為例，在多方面進行分析。

2.1 AI 虛擬數字人需要與用戶建立信任

信任被定義為某人愿意在某個問題、背景或信息方面變得易受影響。[3]這就是為什么當涉及人機交互時，信任具有特殊的重要性，用戶需要信任和依賴數字代理或虛擬助手，因為他們必須代表他們行事。[4]度曉曉是百度公司推出的手機虛擬AI 助手，是國內首個可交互虛擬數字人。度曉曉具備較為完整的語音交互體驗，與以往的智能音箱一樣，用戶通過語音喚醒App，就可以進行1to1 的對話體驗。除了能回答用戶的問題外，還可以主動感知用戶需求，分析用戶的行為、興趣和環境等信息進行智能分析，主動為用戶提供服務。目前度曉曉的應用場景也比較豐富，包括語音交互、內容創作、知識回答、情感陪伴等。而用戶對互動的內容也會有一個基本的判斷和要求，互動是自然的，并且這些服務以及提供的信息必須是真實的有效的。在今年5 月底舉行的2023 萬象·百度移動生態大會上，肖陽就演示了“AI 伙伴”的能力。互動過程中，這位“Al 伙伴”，能夠聽懂用戶的任何問題，并用語音進行互動，同時為用戶標記出答案中的重點，提供權威的來源，以及根據用戶意圖制作圖片或進行文案創作，重要的是所回答的問題都符合了用戶所問問題的主題。[5]不難看出，在用戶提問后，AI 虛擬數字人需要理解用戶的問題，并給出準確的回答，如果AI 虛擬數字人的回答與用戶問題不相關，用戶可能會感到困惑和不滿。

由于以人為本的設計理念，人們期望在AI 虛擬數字人那里獲得具有效益的信息并且期望符合內心的預測，Luke Balcombe 和 Diego De Leo 在《關于數字心理健康中的人機互動》指出機器學習的可用性挑戰，包括開發和運行模型需要足夠的技能和時間，用戶對模型缺乏信任，以及扎根于人機學習分歧的斗爭，重要的是建立信任，減少分歧，提高責任感，解釋模型的邏輯，量化對預測的具體貢獻，評估性能指標，并說明以前研究的歷史預測。[6]AI 虛擬數字人需要建立起與用戶之間的信任，才能達成長期的關系，這里的信任很大程度上指的是互動中給出信息的真實度和準確度。而在這個環節之前，發音人作為“存放聲音的倉庫”，也就是語音庫，是按照詞語或者句組的方式錄制的聲音，然后集中存儲到一個數據庫中，通常語音庫的文件體積越大，處理文本的能力就越強，發音效果就越好，也就越接近于真人發音，從而增強AI 虛擬數字人的“真實感”。另外信息的準確度來源之一是對互動中自然語言的理解，這同樣需要在發音人工作階段有大量的文本積累，從而通過計算機算法進行深度學習，更好地理解語義回答問題。在其他方面回答用戶問題的權威性和準確性也來源于知識庫和企業信息庫，綜合來說這些都可以進一步增強用戶與AI 虛擬數字人之間的信任感。

另一個必須考慮的方面是性別，這個領域的一些主要參與者，如蘋果、谷歌或亞馬遜，已經確保設備不僅有類似人類的語調，而且是女性的語調，因為她們被認為是更溫暖的、更值得信任的、更容易理解的，總之，更容易被人喜歡。[7]彭蘭在《AIGC 與智能時代的新生存特征》中提到，虛擬形象對人的另一種反射，是它所內隱的設計者的價值觀與文化，今天的智能機器在外觀上的設計更是如此，不管是外貌還是聲音，總是以女性為主，人類社會現有的性別偏見，通過設計者也延續到了機器身上。[8]這也是我們經常看到的一些虛擬形象多是以女性角色出現的原因。

2.2 AI 虛擬數字人需要創造與用戶有效的情感互動

AI 虛擬數字人需要與用戶進行互動，以了解用戶的需求和偏好，增強自身深度學習的效果。這可以通過語音交互、文本聊天、手勢識別等方式實現。而這些動態交互不能只是有，還要準確。機器像一面鏡子，反射著與之交流的人，影響其自我認知。有研究者認為，在人機交往中，虛擬的自我認同與現實的自我認同互相影響，共同建立起完整的“自我”。作為人的“化身”的虛擬交往對象，既讓“我”看到了另一個自己，也幫助“我”建立了“理想的他者”。[9]這也意味著這些互動有時不單單是為了獲取信息，還可能是一種情感陪伴和自我療愈的過程，數字平臺和人工智能（AI）在改善心理健康護理和自殺預防服務的預測、識別、協調和治療方面具有良好的潛力?；邮饺斯ぶ悄芸赡苡兄谠谶^時的、緊張的精神保健系統中進行實時篩查和治療。[10]譬如：如果有人在數字平臺的輸入欄輸入“該如何自殺”，這時AI 虛擬數字人是否可以探測到異常，能自然并擬人化的與用戶溝通，聊天甚至開導。這都是值得討論的問題。發音人在此環節創造的價值是，通過自然、流暢的語音交互，使用戶與AI 虛擬數字人之間建立自然有效的情感互動。例如，情感互動需要一定情境和背景，也就是我們常說的虛擬互動中的應用場景，發音人在采集數據時，被要求需要在不同場景表達出譬如喜悅、難過、平靜、驚恐等一系列情緒的話語和表情動作，并且體量很大，因此呈現在AI 虛擬數字人互動中的各種情緒性表達一定意義上來說都是由發音人賦予，以此讓用戶感受到AI 虛擬數字人的親切感，增強情感互動從而增強用戶的信任感。

2.3 AI 虛擬數字人需要給用戶提供個性化的建議和信息

基于大數據模型和計算機應用的深度學習以及算法應用，深度學習是AI 虛擬數字人在了解用戶習慣時經常提到的詞，這需要AI 虛擬數字人在面對不同群體不同問題時表現出專業性以及內容的垂直性，還是以百度AI 虛擬數字人度曉曉為例。2022 年度曉曉作答了全國新高考Ⅰ卷題為《本手、妙手、俗手》的議論文，拿下了48 分的高分，戰勝了超75%的考生，文章更是在全網刷屏，2023 年，在一場關于高考直播的中，百度“AI 伙伴”現場挑戰高考語文考試，包括作文、微寫作、古詩詞賞析、文言文翻譯等。一篇文言文作文甚至迷惑了資深語文老師莊臨旭，誤以為是真人所寫，給了很高的評價，認為水平超過95%的同學。這樣的互動實例就給了更多人愿意去嘗試AI 助手的信心。發音人在進行前期基礎工作時，可以根據用戶需求和偏好，提供個性化的語音，比如根據用戶的興趣再合成相關的語音推薦。還可以通過其知識儲備和信息來源，提供各種豐富的信息和建議，發音人和技術的結合讓AI 虛擬數字人幫助用戶更好地理解和應對各種情況，更好地解決問題獲得成長。

2.4 AI 虛擬數字人要具有一定程度的擬人化

擬人化被表示為 “一個形象看起來像人的程度”。[11]從AI 虛擬數字人的發展來看，幾乎所有的虛擬形象都有一個角色設定，這樣方便用戶能夠更好地理解他們的身份，角色設定應該與應用程序或網站的目標相一致，并能夠為用戶提供有價值的服務。而且虛擬數字人的發展方向在于交互能力的提升和形象呈現的進步，擬人化是發展的核心，表現為對真人的替代能力。彭蘭提出虛擬偶像部分采用的是“皮套”+“中之人”模式，對于虛擬數字人來說，發音人也類似于其中“中之人”，但與虛擬偶像的“中之人”不同的是，或許虛擬偶像的互動與在數字平臺的表現可能就來自真實的人，而虛擬數字人的互動表現是發音人語音和表情動作的深度學習與算法合成，并且“中之人”不會表現出特定某個人的具體特征。在現存的文獻中，幾乎70%的文章指出，擬人化的表現對虛擬人物的發展至關重要，因為它提供了其社會存在的線索，研究表明，虛擬人物越是擬人化，其可信度和熟練度就越高。[12]在Lisa Alazraki 和Ali Ghachem 等人在用于心理治療的人工智能聊天軟件的非臨床試驗結果中得出，聊天軟件中類人角色得到了更多的最高范圍的回應。[13]發音人如何在讓AI 虛擬數字人在深度學習后的互動時擬人化程度高，最主要的是在表達時語流的流暢度高、不同場景下情緒的飽滿程度好、動作表達更合時宜以及唇動幅度明顯和自然。但是是否交互過程擬人化程度越高用戶的接受度就越高呢？這是下一步需要大量調研去驗證的事情。

3. 發音人在人工智能領域的定義及作用

發音人是指掌握并運用某種方言的人，在人工智能領域中，發音人是指為語音合成、語音識別、口語評測等人工智能技術提供聲音數據的人。發音人的聲音質量、發音標準程度和口音特點等因素都會影響人工智能技術的性能和應用效果。筆者從2015 年開始接觸并參與人工智能語音合成項目，工作是為智能語音項目做前期的發音和播報，落地的產品就是智能音箱，通過TTS 語音合成技術將輸入的文本合成為語音。然而在技術合成之前需要有一個足量的語音數據庫，以便在后期合成時，在計算機算法的支持下形成具體的語音內容。2019 年開始參與AI 虛擬數字人的聲音及面部表情的采集工作，與智能語音項目不同的一點是，除了對發音人的聲音有要求外，對發音人的上鏡形象也有一定的要求，落地的產品就是具有動畫形象的虛擬助手。因此，如何給數據賦能，重要之一就是發音人的語音和行為及面部動作數據的采集。

3.1 人工智能語音及AI 虛擬數字人項目對發音人的要求

在發音人的選擇方面，也有一些固定的標準，尤其在智能語音項目中，發音人的語音質量要足夠高，聲音要清晰、自然、流暢，沒有雜音和干擾。隨后就是對發音人音色的要求，這里說的音色并不是單純指其定義（指聲音的特色，也可以說是聲音的本質，又叫音質。是不同的聲音能夠相互區別的最基本的特征。它決定于物體振動所形成的音波波紋的曲折形式不同。）而是發音人在不同場景下模擬出的聲音，在這一方面有點相似于配音演員。如發音人按要求模仿15歲左右的女生聲音，并且以俏皮可愛、生氣憤怒、撒嬌等情緒表達出來，在每個場景下需要的數據發音人大概要錄制三千句左右，但錄制的過程有嚴格的要求，需要每一句不論長短都保持同樣的音量、音高和音質，也就是錄制過程中錄音師經常對發音人提出的一項要求就是狀態要始終保持一致。錄制內容上面則是隨機的，并不會根據情緒表達的不同而在文本上會有所設計，這樣是為了確保基礎數據的準確性和概括性。而對于年齡和性別在人工智能項目里的傾向，在之后會詳細闡明。

AI 虛擬數字人對發音人的要求在聲音方面跟智能語音項目大致相同，語速要適中，不要太快或太慢，同時要有適當的停頓，以便后期AI 虛擬數字人能夠把語句意思與唇形變化匹配起來。發音人的聲音類型要與AI 虛擬數字人的形象和角色要求相符合，例如，如果是創建年輕女性的數字人，則需要年輕女性的聲音。除此之外，AI 虛擬數字人項目對發音人另一個重要的要求就是較好的上鏡形象，錄制時需要頭發扎好，顯露臉部，發音人臉部清晰明亮；口部正對攝像頭，面部與錄制手機保持平行；頭部動作幅度不要太大，盡量保持一致；口型豐富、生動、咬字清晰；錄制語速平穩，句子與句子之間需要自然閉嘴。隨著技術的更新，采集數據的要求也變高了，在動態捕捉方面更多開始往唇形的幅度靠攏，這里注重的是唇形變化的幅度而不是準確度，因為在視覺效果方面AI 虛擬數字人說出來的話要像真人一樣有唇動的變化，加之面部眉眼的動態，力求讓AI 虛擬數字人在與用戶交互的過程中能更生動與自然，也就是更擬人化。

3.2 發音人數據采集的準確度會影響AI 虛擬數字人的交互效果

發音人的工作對AI 虛擬數字人的影響很大，因為發音人是AI 虛擬數字人的聲音基礎和動態表達的形象基礎，其聲音質量、表達方式、語速、表情、唇形、動作幅度等都會直接影響AI 虛擬數字人的交互效果。如果發音人的聲音質量不好、表達方式不準確、語速過快或過慢，都會導致AI 虛擬數字人的語音交互效果變差，甚至讓用戶無法理解或產生誤解。如果發音人的面部動作捕捉幅度過小，顯示在AI 虛擬數字人上的動態會非常不明顯，從而降低交互的效果。因此，選擇合適的發音人是非常重要的，需要考慮到發音人的語音質量、表達方式、語速、動作幅度等因素，以確保AI 虛擬數字人的交互效果良好。綜上所述，AI 虛擬數字人對發音人的要求比較高，需要發音人具備專業的語音知識和技能，同時要根據數字人的要求進行針對性的語音錄制和表情動作的調整。

3.3 發音人助力人工智能技術的性能多樣化發展

發音人可以為人工智能技術提供多語種、多地域的聲音數據，使人工智能技術的性能更加豐富和多樣化。筆者參與的AI 虛擬數字人項目主要以普通話為主，其間有少部分英文。發音人在語音和面部動態捕捉方面的工作可以不斷優化計算機深度學習算法，提高語音識別的準確性和自然度，使虛擬數字人的發音更加準確，面部表情和唇動變化更加真實和自然。除了語音數據，還可以引入圖像、視頻、文本等多模態數據，通過多模態融合技術，提高虛擬數字人的智能和自然度，而在加強語言的理解方面則通過發音人提供的準確標準的語音數據，通過強化學習等技術，提高虛擬數字人對不同語言的理解和表達能力，使其更好地適應不同場景和用戶需求?；ヂ摼W產業時評人張書樂表示，虛擬數字人某種意義上是各大互聯網科技廠商展示“肌肉”的一個集中呈現物，即內容創造、人工智能、動作捕捉和各種與之相關技術的融合，本質上虛擬數字人不誕生新技術，而是用受眾最容易理解的方式展示黑科技成果。[14]

3.4 發音人為AI 虛擬數字人的交互效果提供準則

發音人可以為人工智能技術提供不同年齡、性別、文化背景、表情動作等特征的聲音和形象數據，使得人工智能技術能夠更好地適應不同的應用場景和用戶需求。與智能語音的交互不同，AI 數字人的交互需要通過畫面的動態形象來實現，而大量的基礎數據支持仍然來源于發音人，我作為發音人截至目前一共錄制了42.2 個成品小時的內容，內容的要求隨著產品的更新迭代也有不同，最初的19 個小時內容的要求主要是面部表情的動態識別，需要在不同的情緒下，如平靜、開心、憤怒、驚恐等展現不同的面部動態，每個表情的錄制內容在三千句左右。其中錄制最多的表情是平靜，以獲取更精準的面部識別數據。之后的內容則更加注重唇動數據的采集，在表達內容時要求唇形的變化要明顯，幅度要大要準確，更像“真人”在表達。

3.5 發音人協助人工智能技術升級

發音人可以為人工智能技術提供聲音數據，并協助開發者進行技術調試和優化，提高人工智能技術的準確性和可靠性。前文區分了AI 虛擬數字人、人工智能主播和虛擬偶像的區別，這三種人工智能角色在一定程度雖然都可以稱為AI 虛擬數字人，但值得注意的是，人工智能主播在真人數據采集，并以真人為原型作為基礎的情況下合成為智能主播時，在語音的采集和動作捕捉上面相對容易一些，呈現出的2D 或者3D形象也更像真人，尤其在唇動數據和動作自然程度上更加貼切，這都是因為一切都“有跡可循”。而不以現實中真人形象作為基礎的AI 虛擬數字人則在語音的采集和動作捕捉上面難度更大，還原到虛擬人物上時，唇動數據和動作自然程度的逼真度要低，這就要求發音人在進行內容表達的時候要做到絕對的準確。

在采集的數據應用到模型上之前，計算機需要對語音和面部動態數據進行深度學習，因為這進一步影響到交互中語義理解的問題，在語音交互中，語義理解要處理的問題是用戶在口語化表達，也就是自然語言表達下的意圖，而現實生活中的自然語言表達通常存在上下文關聯、場景特定用語、口語化、常識背景、省略說法等語言現象，同時一些垂直領域實體取名復雜，存在大量實體歧義的現象（比如“三只羊”是一個通常詞匯，也是一個公司的名字）。場景、語境、交互對象的不斷切換讓語音交互中的語義理解更加困難。對于缺乏較大量訓練數據的特定對話任務，為了提升模型的語義理解能力，通常還需要結合相應實體或句式等其他資源，抑或者通過底層句子語義建模能力的提高來獲得泛化性能的增強。[15]在一些文章中會把AI 虛擬數字人稱為虛擬代理，其中的研究表明，虛擬代理在交互中的積極影響隨著代理的質量而增加：虛擬代理越看起來越擬人化就越好。因此，代理功能的質量，如作為類似人類的聲音、手勢、面部表情、眼睛注視和身體運動等發揮著重要作用。[16]而這些工作都需要處在基礎環節的發音人去完成。由此，我們提出AI 虛擬數字人的發展依靠技術升級的同時，還要結合更多方面，例如發音人在基礎工作中的表現。

4. AI 虛擬數字人和實驗語音學之間存在密切的關系

AI 虛擬數字人喚起用戶的感知真實需要落到具體的交互過程中，體現在AI 虛擬數字人上就是在語言表達和面部動作呈現尤其是唇動數據的采集上，而落實在實操上面的語音和唇動就與發音人在表達過程中與實驗語音學之間的關系有關聯了。實驗語音學是研究語音的生理、物理和心理因素的學科，而AI 虛擬數字人則是利用計算機技術和人工智能技術來創建和模擬人類語音的數字人物，兩者之間互相影響。在前文筆者也提到一直參與人工智能語音項目和AI 虛擬數字人數據采集工作，接下來筆者將以部分工作經歷和發音人的采訪作為內容分析的出發點和落腳點。

4.1 實驗語音學的研究成果為AI 虛擬數字人提供重要的支持和參考

實驗語音學可以通過對語音生成的生理和聲學機制的研究，開發出更準確的語音識別算法和語音合成算法，使得虛擬數字人和智能語音工具的聲音更加自然和真實。實驗語音學的研究成果可以為AI 虛擬數字人的語音合成、語音識別、語音評估等方面提供重要的支持和參考。例如，實驗語音學的研究成果可以用于優化AI 虛擬數字人的語音質量、語音表達方式和語速等，從而提高其語音交互效果，喚起用戶在互動中的交流真實感，激發交流欲望。筆者從事智能語音工作時，有一階段發音人需要在脖子上佩戴儀器監測聲音發出時的振幅，但在進行過程中很有難度，為了保證一致性，在統一情緒的表達下（如開心、難過、憤怒等）振幅差別太大需要重錄，并且儀器的佩戴需要緊貼脖子，發音人的表達舒適度降低，進程也會放緩。而在這一過程中發音人要始終保持一個狀態，這是為了在固定場景下保證交流效果的統一性和準確性，確保在真實交流環境下，用戶不會因為不穩定情緒而表達“出戲”。在前文提到的，進行AI 虛擬數字人的發音人數據采集工作時，尤其注意唇動數據的采集。但是從實驗語音學的角度來講，正常人在日常表達中是有語流音變的，再加上發音規律中涉及唇形和舌位的變化，最后加上語境，很多句子和詞匯的在表達過程中唇形的變化就沒有那么的明顯，例如裊裊炊煙一詞，裊的發音在唇形的變化體現在從展唇到圓唇，但對于疊詞裊裊，如果想表現出語流的自然，唇形在建模系統中的采集就不會很明顯，呈現出來的就只是上下唇的輕微張合；再比如知識一詞，如果都按照展唇發音，就會出現聲音發出的時候唇部沒有變化。而在視頻互動中缺少明顯的動態表達，似乎是AI 虛擬數字人與用戶交互的大忌，那該如何改變呢？在整個錄制的過程中也達成了一種“規范”，在遇到唇動不明顯的疊詞時，語速可以稍微放緩，唇動的變化稍許夸張，動程做到位，盡量體現出唇形的變化。對于zh、ch、sh 的組合發音，則可以輕微撮唇。在效果的呈現上，唇形的豐富度使得虛擬數字人在與用戶交互時更加自然流暢，機械感降低，擬人化程度也提高。但是與此同時實驗語音學也需要大量的數據和實驗來支持，來驗證在多場景下部分唇動的不規則變化是否會影響語音的語義理解，而這些數據和實驗往往需要較高的成本和時間。

4.2 AI 虛擬數字人的發展為實驗語音學的研究提供了新的方法和工具

例如，AI 虛擬數字人可以用于模擬不同條件下的語音信號和唇形數據，為實驗語音學的研究提供可靠的實驗數據和實驗環境。大部分的數字虛擬助手都采用自然語言理解技術，可以解析用戶的語言，理解其含義，并作出相應的回應，除了普通話和外國語的區別之外，國內的少數民族語言和方言的使用情況復雜，口音問題也在普通話的表現明顯，中國的方言有一百多種，而這一百多種方言可以細分到一個具體的地點，比如某市、某縣、某鎮、某村的方言，正所謂“十里不同音，百里不同俗”。中國有五十六個民族，在五十五個少數民族中，一個民族說一種語言的比較多，有的民族說兩種或兩種以上的語言，據統計，我國少數民族語言的數目在七十種以上。面對如此龐大的數量，AI 虛擬數字人的廣泛應用可以為實驗語音學的多方面研究帶來助力。還是以度曉曉為例，度曉曉基于多模態交互技術，可以實現語音識別、文本輸入、語音合成等多種交互方式，交互的頻次越多，數據就越豐富。度曉曉還具備機器翻譯能力，可以自動翻譯語音或文本，為用戶提供多語言的服務，這樣可以吸引更多使用不同語言的群體。此外，度曉曉采用自然語言理解技術，可以解析用戶的語言，理解其含義，并作出相應的回應?；谏疃葘W習技術，可以進行語音識別、文本分類、情感分析等任務，為用戶提供更加智能、個性化的服務，互動方式和服務越完善，擬人化程度越高，就能吸引更多的用戶使用。AI 虛擬數字人和實驗語音學共同推動語音技術和人工智能技術的發展和應用。

結語

人工智能技術的飛速發展，使AI 虛擬數字人在各個領域的應用都越來越廣泛，人機交互技術的不斷提升，讓AI 虛擬數字人與用戶的關系建構方面變得越來越重要。通過分析現有研究，筆者發現AI 虛擬數字人在用戶關系建構中的應用主要集中在以下幾個方面：用戶體驗、情感傳遞、行為影響等。其中從發音人的視角來看，發音人在數據采集的工作中發揮重要作用，提供的聲音數據是人工智能技術的基礎，為語音合成、語音識別、口語評測等技術提供訓練和測試的數據。其聲音質量、發音標準程度和口音特點等因素都會影響人工智能技術的性能和應用效果。發音人可以為人工智能技術提供多語種、多地域的聲音數據，使得人工智能技術的性能更加豐富和多樣化。也能為人工智能技術提供不同年齡、性別、文化背景等特征的聲音數據，使得人工智能技術能夠更好地適應不同的應用場景和用戶需求，協助開發者進行技術調試和優化，提高人工智能技術的準確性和可靠性，因此在AI 虛擬數字人的生產和設計過程中也參與解決了一個最核心的問題——與用戶的關系建構。而在與實驗語音學的相互影響中，也探討了更多理論在具體實踐中的差別與應用，即唇動的變化在擬人化表現和語義理解中的作用。最后，期望AI 虛擬數字人能夠應用到更多的領域和場景中去。

AI 虛擬數字人與用戶的關系建構——發音人的視角