





[摘 要]國家圖書館立足本館資源和業務實際利用人工智能和虛擬數字人技術,設計并實現了超現實風格的3D虛擬數字館員。通過3D形象建模、多模態集成、語義理解等技術模塊,打造了多個強交互性的服務場景,賦予虛擬數字人圖書館員的能力,為讀者提供智能化服務。分析研究國家圖書館虛擬數字館員建設的總體設計架構、關鍵技術和應用場景,以期為其他公共文化服務機構的數字人建設提供有益借鑒。
[關鍵詞]數字人 人工智能 智慧圖書館 虛擬數字館員 人機交互
[分類號]G250.7;G251.6
1 引言
虛擬數字人存在于非物理世界中,是由計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等計算機手段創造及使用,并具有多重人類特征(外貌特征、動作表情能力、人類交互能力等)的綜合產物[1]。隨著人工智能技術的迅速發展,數字人技術作為其中較為前沿、可落地的技術體系,正在被引入各行業的多個領域。近年來,國家也相繼出臺眾多相關政策規劃引導數字人產業發展。2021年11月,發展虛擬數字技術被納入《“十四五”軟件和信息技術服務業發展規劃》[2]。2022年8月,北京市經濟和信息化局發布《北京市促進數字人產業創新發展行動計劃(2022—2025)》[3],明確了北京市數字人產業的發展目標,從強化協同組織、打造國際交流化平臺以及探索多層次風險防控機制上開展數字人產業的保障措施。
在技術革命與用戶需求的雙重驅動下,探索利用虛擬數字人技術打造智慧館員服務體系新業態,提升自身智能化服務水平契合時代發展趨勢,對國家圖書館(以下簡稱“國圖”)智慧化轉型高質量發展具有重要的意義。通過數字人的人性化交互和社交屬性,拓展服務空間,為用戶提供交互性更強、不受時空限制、應用場景豐富的智能化升級服務,鏈接更多智慧圖書館服務資源,可實現圖書館業務的提質增效。
2 虛擬數字人研究現狀
目前市場上應用數字人類型多樣,涉及技術鏈條非常廣,而且不同虛擬數字人的制作應用涉及不同技術領域和應用案例。《2024年中國虛擬數字人研究報告》從技術上將虛擬數字人分為算法驅動型和真人驅動型。算法驅動型主要依賴實時AI和捏臉技術,而真人驅動型則更多使用動作捕捉技術。在視覺維度上,既有2D型的簡單設計,也有3D型的復雜構造,設計風格有二次元動漫、類人渲染、超寫實或未來科幻風格;商業模式上,可分為IP型(如KOL、娛樂偶像)和非IP型(如功能性或學術用途);產品應用方面,虛擬數字人既可用于提供特定功能和服務,也可扮演特定身份或角色[4]。《中國虛擬數字人影響力指數報告》數據顯示,國家知識產權局2023年數字人領域專利申請數高達544個,其中發明專利申請共計517項,實用外型專利申請共計6項,外觀設計專利申請共計21項,發明專利申請約占專利總申請數的95%,反映出業界在核心技術研發上的強勁勢頭和深度創新[5]。
2.1 “互聯網”行業數字人應用
在當前的人工智能發展趨勢中,百度智能云、小冰、商湯、騰訊等互聯網巨頭已經對AI數字人進行深入的實踐探索,并有了一些顯著成功的案例。這些案例的應用方向主要集中在虛擬助手、虛擬客服、虛擬偶像、虛擬主播等領域。百度智能云曦靈平臺推出了多個服務型和演藝型數字人,如央視手語主播和高考數字人助理度曉曉。小冰公司推出了超過400個基于3D孿生數字人技術的案例,如萬科虛擬員工“崔莜盼”和虛擬清華學生“華智冰”。商湯構建了“一站式”AI數字人生產流水線,如軟銀副總裁寫實數字人。騰訊云小微發布了全新數智人產品矩陣,如導覽數字人和金融客服數字人等。這些成功案例展示了AI數字人作為一項前沿技術,正在不斷推動人機交互和社會互動的新模式誕生。
2.2 文化行業數字人應用
自2022年以來,虛擬數字人的應用數量在文化行業迎來快速增長,包括圖書館在內的國內外文旅領域積極開展了虛擬數字人項目布局。國家博物館推出的“艾雯雯”“仝古今”的數字人形象先后通過短視頻亮相,下一步將通過數字人進行策展和講解;敦煌研究院和騰訊聯手打造首位數字敦煌文化形象大使“伽瑤”[6];浙江衛視與騰訊聯合打造的虛擬數字人“谷小雨”[7],宋韻宋詞信手拈來,為游客提供博物館內的指引與解答,傳頌經典宋詞。紅河哈尼族彝族自治州圖書館、中新友好圖書館引入的博看期刊數字人屏,上海長寧圖書館商湯數字人“馨葉”都帶來新的閱讀方式和理念,虛擬數字人的應用為文旅行業帶來了新的機遇,也對傳統的服務模式和文化傳播方式產生了巨大的影響,值得進一步探索和研究。
3 國圖AI數字館員設計與實現
虛擬數字人的產生,是文化與科技的融合。研究發現,目前文旅業虛擬數字人的建設多停留在形象設計數字知識產權(數字IP)方面的呈現,尚未孵化出真正意義的成熟產品來滿足用戶智能交互需求,真正面向公眾人機強交互的應用場景非常有限。因此,國圖在分析對比各類行業數字人基礎上,進行了數字人應用相關項目的設計、開發與實踐,開創新一代虛擬數字館員人機交互服務系統。
3.1 建設內容
圍繞“十四五”發展規劃的具體目標,國圖綜合考慮讀者需求變化,以數字人技術重塑圖書館新型業務,賦能國圖智慧化轉型。鑒于數字人涉及技術體系的復雜性,國家數字圖書館的數字人建設在資源有限的情況下分階段進行。第一階段項目的建設目標重點是打造專屬于國圖的3D超寫實數字人形象,實現數字人在大屏、PC、手機等多終端的交互應用,利用大語言模型賦予其問答交流能力,結合業務場景初步構建以語音交流與語義理解為核心的數字服務模式。
在文化行業離線渲染、非交互類型數字人主流的當前時期,國圖推出的多終端服務型AI虛擬數字館員在人機智能交互、AI協同等方面具有深遠影響。在首期項目實踐中,國圖利用AI驅動實現了實時交互和實時渲染技術路徑,其技術優勢主要表現在幾個方面。第一,國圖數字人全流程AI驅動。采用實時渲染引擎、頭發和布料物理仿真算法,以及面部生成動畫等多種AI技術,使得國圖數字館員的外觀更加逼真。同時,數字人還融合了語言理解和表達能力,使其能夠與讀者進行自主交互并具備較強的自主決策能力。第二,開辟了新的人機交互入口。國圖數字人與讀者之間實現了“人—數字人—機器”的交互模式。讀者可以通過語音指令操控數字館員,滿足其應用系統頁面操作的需求。第三,以3D超寫實外觀為特色。國圖定制的數字人擁有獨特的IP形象,融合《永樂大典》《十竹齋箋譜》等特色館藏典籍進行人物形象設計,豐富的人物背景和沉浸式場景全面展現國圖美學,有效促進文化傳播。第四,實現了人性化的自然語言交互。國圖數字人采用數據驅動和自學習相結合的框架構建語言理解模型。數字館員具備問答生成能力,能夠根據實際情境生成個性化且友好的回復。第五,國圖數字人與業務場景緊密結合。實現了線上線下多端沉浸式的“全真”體驗與可操作的實時“互聯”服務。智能問答、圖書查詢、資源伴讀等新型業務服務場景,為圖書館和讀者之間創造了新的信息交互形式,推動了服務方式的拓展和創新。第六,實現了沉浸式空間再現。系統構建了全景3D虛擬空間,動態模擬場景中物體的光影、自然環境和物理特性,實現數字人與虛擬環境的高度融合。這不僅為讀者提供了沉浸式體驗,也為未來的圖書館沉浸式空間建設奠定了基礎。
3.2 系統總體設計框架
國圖虛擬數字館員系統總體框架包括底層的形象模型及渲染層、服務層、中間計算層、應用層和展示層等不同層級的技術融合、業務融合和服務融合(見圖1)。主要由數字人形象模型、渲染系統、多模態系統、知識庫、傳感器等子系統組成。其中前端主要技術支撐包括3D模型、渲染系統、傳感器,負責數字人的視覺呈現和多模態輸入。后端技術支撐主要包括多模態系統與知識庫,實現核心的語音交互、語義理解與對話能力。多模態系統中也可分為前后處理,語音識別等為前處理,對話管理等為核心邏輯。
渲染層主要負責數據的可視化渲染,生成數字人的外觀形象。渲染3D模型,結合多模態系統的輸出,進行實時動畫渲染和顯示,實現數字人在視覺上生動逼真的外觀。
服務層提供數字人所需的基礎服務支持,其中多模態系統是數字人技術的核心,包含語音識別、語義理解、對話管理、語音合成等模塊,負責處理各類模式的輸入和輸出,它接收渲染層輸出的結果,調用對應服務進行處理,同時還可以處理面部表情、身體動作等視覺模式,以及文本、圖像等其他模式,并返回響應結果給應用層。
應用層集成不同服務功能,并根據讀者交互情況進行邏輯判斷,選擇性執行相關服務功能。負責管理數字人的知識庫和程序規則,驅動數字人參與對話和其他交互。其中知識庫為數字人提供所需的知識,比如國圖讀者指南對話知識庫、常識知識庫等。
展示層是數字人與讀者直面交流的層面。通過現場大屏、手機、電腦等數字設備將數字人三維實體展示出來,并與讀者進行自然語言對話交流,實現人機交互。
3.3 國圖數字人關鍵核心技術
建設過程中攻克的關鍵技術瓶頸主要體現在兩個方面:一是超現實3D人物形象制作和多模態集成,二是作為數字人多終端交互的內在語義模型驅動。簡單來講,就是如何實現“漂亮的皮囊”與“有趣的靈魂”完美統一[8]。前者面對的主要是精致的形象展示效果,需要攻克的技術難點是數字人的微表情、復雜的人物動作,以及音頻流、視頻流合成的穩定、流暢;后者面向智能驅動,需要在大模型的算法支持下,對多終端進行交互體驗涉及的大量語料進行收集、清洗、標注、預訓練、調優。筆者重點介紹國圖強交互應用數字人在快速構建與優化中運用的幾個關鍵技術點,以及數字人圖書館垂直域語料知識庫的建設經驗,為數字人技術在圖書館行業實際應用中的落地提供支持。
3.3.1 外在“型”:超寫實三維數字人的快速構建與優化
國圖虛擬數字館員以UE5(UnrealEngine5)虛擬引擎作為數字人渲染的主要平臺。制作過程中使用全動態照明、物理仿真、粒子特效等模擬人物環境效果,形體部分采用MetaHuman快速建立虛擬人物模型。MetaHuman利用內部骨骼綁定和預設模型模板,簡化了虛擬人物制作流程,跳過了大量模型建立和動畫設置步驟。為了解決MetaHuman默認的體型參數無法滿足部分定制需求的問題,研究人員在UE5中開發了藍圖腳本,通過調節體型參數的方式定制虛擬人物形體。這種基于藍圖的修改方式,既實現了后期設計參數調整的靈活性,也保留了模型原有的骨骼和蒙皮,不僅縮短了項目周期,也節約了制作成本。國圖通過實踐充分證明了基于MetaHuman和UE5的工作流在虛擬人物快速開發中的優勢。國圖虛擬數字館員的制作在精細和真實度方面進行了突破,其面部毛孔細節達到精致的皮膚級打磨效果,頭發采用發絲級植發技術,可呈現立體層次感和真實的發絲光澤。三層套裝服飾,細膩仿真了布料的褶皺,外層透明紗質輕盈而縹緲,其光澤和柔韌性的表現力都實現了高度的還原,使衣物在運動中具有自然的飄動效果(見圖2)。
面部表情的生成一直是虛擬人物建模中的難點。系統使用Nvidia Omniverse的Audio2Face插件模塊實現語音驅動的面部動畫生成,以每幀的形式讀取模型輸出的JSON文件,并通過流式方式傳輸到UE5中,實現語音直接驅動面部肌肉運動,生成細致自然的面部動畫。這種AI驅動的面部動畫生成方式,使語音與面部動畫參數之間進行了高質量的匹配,大大簡化了面部動畫的制作流程,成功使數字人能夠根據隨機生成的語音內容,實時渲染出高度逼真的口型動畫,這套動畫系統為“圖靈靈”的嘴型運動建立了優異的解決方案。
3.3.2 內在“心”:國圖數字人語義模型構建與語料庫建設
相較于傳統對話系統依賴人工組織數據和問答對話的方法,系統采取了數據驅動與自學習相結合的框架來構建數字人語言理解模型,以期獲得更強的語義表達和推理能力。開發者依托主流開源的AI語義模型,通過多個垂直領域語料的遷移學習,組織業務場景語料庫,將訓練好的模型部署到本地服務環境中,進行訓練和模型的自主學習,大大提高了響應度和適用度。此外,優化語義模型問答流程的邏輯順序對于提高系統性能具有重要作用。合理的順序可以最大限度利用匹配率高的子模型回答問題,減少不必要的低效匹配,提升整體問答效率和質量。
在國圖建設數字人語料庫時,根據數字人角色設定與應用場景意圖的要求,定義了語料內容的組織和收集標準,按照這一標準對語料進行組織和匯集。在背景知識方面,數字館員熟悉圖書分類、流通、管理等專業知識;在興趣愛好方面,喜歡文學、歷史等相關話題;在工作職責方面,能夠解答讀者的書目查詢,提供閱讀推薦,并播報圖書館資源內容等。此外,還對國圖的讀者服務政策非常熟悉,比如各專業閱覽室的布局和服務時間、讀者預約和續借的相關流程等常見問題。明確的數字人應用設定,使得其在語料收集和知識庫構建方面都更加貼合圖書館的專業屬性和互動場景。相比通用語料,垂直域語料規模較小、范圍更集中,模型生成的響應更符合圖書館行業的需求。同時,明確的數字人應用設定提高了語義模型對該領域知識的理解能力,從而能生成更高質量的響應。
可以看出,相較于傳統方法和主流商用語義模型產品,國圖數字人語義模型的技術路線在形成自有知識產權的語料數據集上,實現了在行業領域內語義理解能力的大幅提升和突破,更加契合未來對話系統與人機交互的發展需要。
3.4 虛擬數字館員業務功能實現
國圖設計實現的數字館員,可以在多種應用平臺上實現各類業務場景,如表1所示。這些場景覆蓋了系統人機交互中的主要功能,展示了虛擬數字館員作為智能助手的特性。通過主動式的服務模式,定義了一種新的館員與讀者關系模式,創造出靈活便捷的服務體驗。
3.4.1 智能圖書查詢助手
對話式語音交互,幫助讀者方便快捷地查找目標書籍。在線下大屏或者移動端語音喚醒數字人,通過語義模型使其對復雜語句形成理解,在收到讀者有查詢圖書意圖時,接入國圖的OPAC圖書借閱信息數據,對接入數據進行分析,完成映射關系的梳理,實時快速呈現被查詢書籍的多個版本及概要信息。當讀者確認簡要信息后,再將圖書的內容提要、館藏借閱區域、中圖分類號、主題等詳細信息反饋給讀者。整個書籍查詢過程支持多輪對話、即時打斷,讀者實時與數字人進行互動,幫助讀者精準、便捷、快速實現圖書查詢功能。數字人實時交互場景如圖3所示。
3.4.2 館藏資源伴讀助手
陪伴式語音講解館藏資源,幫助讀者理解和深度閱讀館藏資源。通過定期抽取主題資源進行知識分解,以圖像、文字、視頻和語音的多媒體形式,對古籍的歷史背景、作者生平、作品主題和風格等進行多角度的資源內容解讀。在大屏端,互動UI用戶界面以直觀的形式展示資源,當數字人接收到讀者的閱讀意圖時,會實時調用相關資源包進行講解。在講解過程中,數字人模擬傾聽、思考等人類行為,并引導讀者進行提問。數字人這種仿真度和親和力能夠促使讀者進行更多的交流,討論式閱讀的方式也可以促進讀者對資源內容的深度理解,從而提高閱讀質量。古籍資源講解場景如圖4所示。
3.4.3 智能問答服務助手
問答服務人性化、智能化,提升讀者咨詢效率。國圖虛擬數字館員具有熟悉讀者服務政策的能力,能夠有效減輕咨詢館員的工作量,并及時解答一些常見的問題,如各專業閱覽室的布局和服務時間、讀者預約和續借的相關流程等。在多個終端應用場景中,數字人會捕捉對話的語境和語義,通過搜索、匹配和推理等方式,找到最合適的答案,并以自然語言的形式進行回應。值得一提的是,數字人的回復不僅限于預設的答案模板,而是可以根據實際情況生成的個性化的、友好的回復,使得對話更加貼近人性、親近感十足。如果讀者對某個問題或主題提出模糊或混淆的疑問,數字人會通過回答或提供詳細信息來幫助讀者理解和進一步明晰相關的內容,進而不斷優化答案結果。
3.4.4 創意互動引導助手
吸引讀者參與多種實時互動的數字人任務協作,體驗新的人機交互范式。數字館員與真實世界的讀者進行互動和交流,引導讀者找到最佳的拍照位置留影;幫助讀者留存時光膠囊,協助讀者與自己、與他人、與過去、與未來進行溝通和對話;介紹近期館內活動,推薦適合的展覽和路線或者直接掃描二維碼訪問線上活動專題。同時,結合文化和科技的特點,利用3D建模技術為國圖數字館員設計建造“古—今—未”交互場景,將多維空間進行塑造與融合,展示了圖書館的歷史、現狀、發展和愿景。通過AI數字館員引導讀者進行多樣化互動,讓讀者隨著數字人的移步換景,在自由穿梭的時空中感受圖書館的文化魅力。漂流瓶互動場景如圖5所示。
4 虛擬數字館員服務的挑戰和反思
結合上線運行過程,筆者在當前的虛擬數字館員系統中發現幾個問題。首先,交互輸入方式過于單一,目前系統主要依賴語音輸入,這限制了用戶的選擇和靈活性。其次,數字人在面部表情和情緒表達方面的能力尚未達到理想水平,影響了用戶與系統的情感交流和溝通體驗。最后,雖然系統已經率先實現了AI驅動的線上線下語音語義互動場景,但目前推出的應用服務在廣度和深度上還不夠,特別是在多模態感知和交互能力方面有待進一步加強。這些問題不僅挑戰了技術實施的復雜性,也反映了需求分析、技術規劃以及團隊溝通在項目早期階段的重要性。這些經驗使當前數字館員項目建設人員認識到技術創新的難度和需求的靈活性,同時也積累了寶貴的實戰經驗,為后期項目的實施提供了借鑒。
5 虛擬數字館員二期實踐展望
未來隨著數字人多模態感知和交互的能力不斷完善,AI數字館員有望通過肢體感知、表情感知等多種喚醒方式,擴展其輸入端的感知方式。同時,數字館員的應用范圍將進一步擴展到多模態分析大模型,使其能夠獲取動作信息、表情信息和情感信息,并將轉化為基于語義的交互。基于目前的研究成果,結合圖書館海量資源的知識組織基礎,國圖下一步將全面考量圖書館知識資源的特性和用戶類型,突破國圖數字館員服務的場景邊界。探索以“介紹+引導+咨詢”為主的多元服務場景,并推出具有“分析+伙伴”身份的多端陪伴型智慧館員服務,以提升數字人應用的服務層次和質量。
5.1 實時導航助手
擴展移動端服務,將虛擬數字館員整合至手機門戶應用中并引入導航功能,實時獲取圖書位置和導航信息,使讀者能夠通過與虛擬數字館員的交互迅速找到所需圖書的位置。作為文化交流的中心,圖書館吸引了許多參觀者和訪客。針對這一群體,虛擬數字館員可通過視覺識別讀者的位置和姿勢,提供國圖內的活動和展覽導覽服務。通過視覺輸入與讀者進行交互,從而增強參與感和體驗感。
5.2 個性化智能伴讀
虛擬數字館員通過問答內容、讀者表情和交互數據進行分析,感知讀者信息需求與興趣變化。在讀者閱讀過程中,虛擬數字館員可以提供閱讀建議,指出書中精彩部分或知識要點,并在讀者提出問題時提供即時答疑,成為一名“智能伴讀者”。特別是對于一些較難理解或冷門的書籍,數字人可以在讀者閱讀過程中提供背景知識解釋、概念解析、人物關系梳理等,幫助讀者更好理解書中內容,掌握主題精髓。從而吸引更多讀者的使用與參與,提高讀者與知識、讀者與圖書館資源的互動與融合體驗感。
5.3 智能搜索助手
讀者借助虛擬數字館員進行智能語音搜索。通過語音、圖像與數字人進行自然交互,識別讀者的環境、行為、偏好和需求,系統利用多模態分析大模型獲取信息并轉化為搜索意圖,搜索引擎執行相應的目標搜索,為讀者提供更加個性化、精準和有效的搜索結果。例如,讀者可以說:“我想找一些關于MAYA的視頻教程”,數字人可以分析出讀者需要搜索“MAYA視頻教程入門”,并將這個意圖傳達給搜索引擎,從而返回相應的教程搜索結果。此外,當讀者的搜索內容或問題可以對應到某個主題時,虛擬數字館員還可直接提供知識回答,而不僅是搜索結果。這種交互式搜索體驗為用戶提供了更加自然且智能化的搜索方式。
6 結語
綜上所述,國圖利用數字人的多模態交互能力賦能讀者服務體驗,是將AI技術引入圖書館行業服務場景的一次創新性探索,不僅改變了圖書館人工館員服務的傳統模式,也推動了讀者服務模式的轉型升級,使其向主動服務、智能化方向發展。國圖構建的虛擬數字館員系統,不僅可以提供社交屬性強的實時數字人語音交互服務體驗,還可以提供基礎的語義問答和文獻檢索服務。對于館藏資源的推介和實時交互伴讀,為讀者提供更加豐富和立體的知識獲取渠道。此外,虛擬數字館員系統通過組織專業領域語料庫,實現問答庫的動態關聯和創新,形成自有知識產權的智能咨詢生態。未來,國圖將持續豐富數字館員的知識庫,并加強其知識推理與知識創新能力,實現從傳統圖書館到新時代公共知識平臺的轉變,讓知識的力量惠及每一個人。
參考文獻:
[1] 孫柏林.虛擬化背景下的“數字人”[J].計算機仿真,2023(1):1-5,10.
[2] 中華人民共和國工業和信息化部.“十四五”軟件和信息技術服務業發展規劃[EB/OL].[2023-11-06].https://wap.miit.gov.cn/jgsj/ghs/zlygh/art/2022/art_f43c068acfb14f15b8daf4238945deb0.html.
[3] 北京市經濟和信息化局.北京市經濟和信息化局關于印發《北京市促進數字人產業創新發展行動計劃(2022—2025年)》的通知[EB/OL].[2023-11-06].https://jxj.beijing.gov.cn/zwgk/2024zcwj/202405/t20240531_370
0395.html?sid_for_share=99125_3.
[4] 21經濟網.《2024年中國虛擬數字人研究報告》[EB/OL].[2024-01-16].https://www.21jingji.com/article/2024011
6/herald/ef2a85d64435522bc8b0c619e81ab72f.html.
[5] 中國傳媒大學.2024年度《中國虛擬數字人影響力指數報告》[EB/OL].[2024-03-31].https://mp.weixin.qq.com/s?biz=MzAxMTc0MjkwOA==amp;mid=2652649091amp;idx=1amp;sn=9472610df7d1ee55ceb1066f32227769.
[6] 王錦濤.“數字敦煌”張開文化傳播翅膀[N].人民日報,2023-02-16(07).
[7] 徐琦.主流視聽媒體虛擬數字人應用創新與優化策略[J].中國電視,2023(1):102-107.
[8] 郭亞軍,等.ChatGPT賦能圖書館虛擬數字人:技術優勢、應用場景與實踐路徑[J].圖書館論壇,2024(8):69-79.
王宇鴿 女,1981年生。碩士,副研究館員。研究方向:文化科技融合、圖書館信息化與智慧化建設。
肖 琛 女,1980年生。本科學歷,工程師。研究方向:智慧圖書館。
(收稿日期:2024-06-11;責編:鄧鈺。)