AIGC賦能下的智慧有聲閱讀：服務特征和應用場景

2024-02-22 07:28:45郭愚?方堃

出版廣角 2024年1期

郭愚?方堃

【摘要】在政策引導、技術賦能及用戶需求的合力作用下，有聲閱讀呈迭代發展態勢。AIGC技術擁有內容豐富性和閱讀易得性、交互智能化和場景延伸性、服務定制化與體驗個性化三大服務特征，未來可應用于智慧有聲圖書館和全景聲沉浸服務、泛聲音社交空間和大眾有聲共創兩大應用場景。科學、合理地使用AIGC技術可以促使智慧有聲閱讀向善向好發展，社會多元主體需要從不同領域合力共建技術應用規范，以引導AIGC技術更好地賦能智慧有聲閱讀，打造智慧時代的有聲閱讀新生態。

【關? 鍵? 詞】AIGC；智慧有聲閱讀；服務特征；應用場景

【作者單位】郭愚，新疆大學新聞與傳播學院；方堃，新疆大學新聞與傳播學院。

【基金項目】國家社科基金西部項目（22XXW013）研究成果。

【中圖分類號】G230.7 【文獻標識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.01.012

我國自2014年以來連續10年將“全民閱讀”寫入政府工作報告，多個部門也出臺政策為全民閱讀保駕護航。除政策引領外，人工智能、虛擬現實等新興技術強勢賦能，也使社會大眾的閱讀習慣、閱讀方式和閱讀介質等發生翻天覆地的變化。據第二十次全國國民閱讀調查結果和《2022年度中國數字閱讀報告》，2022年我國有三成以上（35.5%）的成年國民有聽書習慣，有聲閱讀市場規模已達95.68億元，前景可期。

當前，以ChatGPT為代表的新一代生成式人工智能技術已被視為各行業領域新一輪產業革命的催化劑，其對有聲閱讀領域同樣產生巨大影響。2023年云棲大會，喜馬拉雅聯合西北工業大學Aslp Lab推出珠峰語音生成式技術，通過AIGC機制賦能，重新定義有聲閱讀的內容、形式及服務體驗，打造智慧時代的有聲閱讀新生態。基于此，文章就AIGC賦能下的智慧有聲閱讀的趨向動力、服務特征與應用場景展開深入探討。

一、AIGC賦能下智慧有聲閱讀的趨勢動力

相較于視覺閱讀，有聲閱讀的伴隨性、流動性、便捷性等特征為大眾閱讀提供了新選擇，促使現代大眾的游徙性與聲音的彌散性相勾連，創造多元豐富的聲音景觀［1］。有聲閱讀從1.0到3.0的發展歷程，也是其智慧化轉型的過程。

1．有聲閱讀的智慧化發展趨勢

在有聲閱讀1.0階段，有聲閱讀的覆蓋面廣，但內容可選擇性較差，并受時空限囿。在有聲閱讀2.0階段，有聲閱讀的移動性得以強化，但有聲讀物制作者對聲音場景的營造是機械化、標準化和單一化的，帶給聽眾的想象空間和閱讀效果有限。在有聲閱讀3.0階段，聲音的智能化傳播與智慧化服務得以實現，用戶可充分享受個性交互的智慧閱讀服務帶來的全景聲體驗。

從1.0階段到3.0階段，有聲閱讀實現了從固定時空下的內容場景到基于個性化定制的全景聲場景的發展轉變，整體呈現智能化甚至智慧化的進階特征。當前的有聲閱讀服務是創造性嵌入AIGC機制并向用戶提供更多元、優質、個性的智慧閱讀，其范圍、規模、形式和服務效果遠超以往。

2．有聲閱讀的智慧化發展動力

第一，政策引領。國家相關政策為有聲閱讀的智慧化發展注入了重要動力。2017年國務院印發《新一代人工智能發展規劃》并強調，要促進“人工智能在生產生活、社會治理、國防建設各方面應用的廣度深度極大拓展”，其目的在于進一步提升社會信息化發展水平，為智慧城市、智慧鄉村乃至智慧社會建設提供引領。在此背景下，推動有聲閱讀的智能化乃至智慧化發展，無疑是全民閱讀事業新的目標和任務。

第二，技術賦能。以人工智能為代表的新一代高精尖技術的研發及應用，是有聲閱讀智慧化發展的核心動力。正如麥克盧漢在《理解媒介：論人的延伸》一書中所言，技術的影響不是發生在意見和觀念的層面上，而是堅定不移、不可抗拒地改變人的感官比率和感知模式［2］。目前，隨著生成式AI技術的成熟和AIGC機制的強化，多模態呈現、軟硬件結合、全景聲服務正在成為有聲閱讀的新引擎。《2022年度中國有聲閱讀影響力研究報告》顯示，隨著生成式人工智能技術的普及應用，有聲閱讀產業將迎來新一輪變革。

第三，需求刺激。用戶個性化需求是推動有聲閱讀智慧化發展的又一大重要動力。隨著社會信息化發展程度不斷加深，越來越多的用戶更加青睞于數字閱讀、聽書等智慧閱讀方式。據觀研報告網發布的《中國有聲讀物市場發展態勢分析與投資戰略調研報告（2023—2030年）》，2022年我國有聲讀物行業用戶數量約為4.2億名。在旺盛的市場用戶需求刺激下，各行業主體開始探索有聲閱讀領域，通過持續的技術創新優化閱讀效果，提升用戶體驗，發掘市場價值空間，助推有聲閱讀智慧化發展。

二、AIGC賦能下智慧有聲閱讀的服務特征

伯格曼的“裝置范式”理論認為：生活依賴于技術進步催生的各種裝置，它們成為社會生活范式；技術進步在構成新的生活范式的同時，也深刻改變傳統生活方式［3］。隨著人工智能、云計算、區塊鏈等新一代技術群落的迭代升級和普及應用，AIGC將全面重塑人們的聽書習慣和聽書方式，智慧有聲閱讀呈現與以往全然不同的服務特征。

1．內容豐富性和閱讀易得性

以人工智能技術為核心驅動力的智慧有聲閱讀已初步具備自主生產能力，可將海量內容資源瞬時轉化為有聲閱讀文本，再利用“AIGC+TTS”技術（將計算機產生的文字內容轉變為聲音內容的技術）組合實現有聲閱讀內容生產與服務目標，如谷歌公司的Tscotron和OpenAI公司的WaveNet，在AIGC的賦能下已能自主生成自然流暢、多元豐富的有聲閱讀內容產品。我國有聲閱讀頭部平臺之一的喜馬拉雅，現已利用AIGC機制創作了超過3.7萬部有聲書專輯，其內容豐富性不言而喻。憑借生成式AI技術，AIGC的內容生產能力再次提升，其基于大型語言模型和海量預訓練數據的賦能，可自主創作新的文本內容，并能根據用戶的指令需求實現從文本到音頻的全流程、一站式生成與服務目標。

傳統有聲閱讀產品生產周期較長，且真人錄音、對軌審聽都需要人工參與，制作成本高昂，因而提供給聽眾的有聲閱讀服務多以付費模式為主，閱讀易得性較差。AIGC的強勢賦能，加上TTS、ARS（語音識別技術）的創新運用，促使智慧有聲閱讀逐漸普及，其采用AI錄制、自動對軌、AI輔助人工審聽等方式，能在縮短有聲閱讀產品生產周期的同時取得降本增效的理想效果。據互聯網公開信息可知，喜馬拉雅珠峰語音實驗室的文語轉換速度現已達到3000字/分鐘，Reflect Audio旗下的有聲讀物制作平臺的AI主播制作速度更是超過500萬字/天。有學者言，以往將一本200萬字的長篇小說制作成真人有聲書至少需要花費10萬元，而AI有聲書的錄制成本則可節省90%以上，且生產周期也能大幅縮短［4］。如此，未來低價甚至免費的智慧有聲閱讀產品必會接踵而至，在擴大智慧有聲閱讀潛在用戶規模的同時，也會顯著提升智慧有聲閱讀的易得性。

2．交互智能化和場景延伸性

傳統有聲閱讀主要是單向的用戶收聽服務，即出版商制作好有聲閱讀產品交由平臺，向用戶提供有聲閱讀及相關服務。在AIGC的賦能下，智慧有聲閱讀可實現雙向交互，即用戶參與有聲閱讀內容生產與制作環節，通過及時溝通和定向指令，以強交互實現智慧閱讀服務目標。例如，2021年中央廣播電視總臺打造的新型有聲閱讀平臺——“云聽”利用人工智能技術和5G時代的傳輸優勢，推出首檔角色互動懸疑有聲讀物《真相街21號》，聽眾可化身為故事主角的好友，替主角作出選擇，推動不同劇情向多個方向延伸，以此感受智慧有聲閱讀的沉浸式推理體驗。除此之外，“云聽”還與中央廣播電視總臺農業農村節目中心共同打造AI語言互動版塊——“鄉音博物館”，不同省份的聽眾通過AI交互測試方言的種類，便可收聽地方傳統文化精品有聲內容。隨著生成式AI技術的迭代和應用，AIGC對智慧有聲閱讀的賦能作用更甚。目前，以Vall-E、喜馬拉雅珠峰語音生成式技術等為代表的新一代AI語音工具，不僅采用ToC的用戶交互模式，而且較以往的技術應用更易理解人類語言的模糊性，能在深度學習算法和海量數據“飼喂”的過程中與用戶進行實時對話和交流。未來，當生成式AI技術應用于智慧有聲閱讀領域，其帶來的有聲閱讀體驗感和用戶參與感必將更甚。

在AIGC的強勢賦能下，智慧有聲閱讀的服務場景將得到進一步延伸，聽書不再局限于圖書館、移動閱讀平臺等，而是借由新興技術的支撐全面覆蓋用戶日常生活的各種碎片化場景，使用戶能夠隨時隨地享受智慧有聲閱讀服務，滿足全場景消費時代的智慧閱讀需求。目前喜馬拉雅已經與杜比實驗室聯手打造杜比全景聲專區并上線蔚來汽車，首發上線內容包括科學、懸疑、兒童等品類的精品有聲書，旨在為不同的用戶群體打造高品質的有聲閱讀體驗場景。隨著AIGC的全方位、常態化應用落地，智慧有聲閱讀的應用場景將不斷延伸，從而支持更多聽眾在多元場景中隨時悅享高品質的智慧有聲閱讀服務。

3．服務定制化與體驗個性化

依托人工智能、大數據等技術，AIGC可收集、整理與分析用戶在進行閱讀行為時產生的數據，精準提供用戶需要、關注的閱讀內容，以此實現閱讀服務定制化目標。同理，當AIGC賦能智慧有聲閱讀平臺，其亦能根據內容和用戶精準畫像為用戶提供定制化服務。例如，喜馬拉雅車載版基于AIGC技術，可向用戶提供智能化、定制化內容推薦和導覽功能，用戶可根據自身的閱讀偏好，以語音指令實現智慧有聲閱讀目標。不僅如此，當服務終端了解用戶偏好后，還能自主為用戶推薦同類或同主題的有聲閱讀內容，以此實現“千人千面”的服務初衷。可見，基于AIGC技術，智慧有聲閱讀服務的用戶指向性更高，定制化程度更深，既能在實現用戶“所想即所得”的同時全面發揮智慧有聲閱讀服務平臺的核心生產力，又能以高擬人度的悅聽體驗和實時交互贏得用戶青睞。

良好的個性化體驗，是AIGC賦能智慧有聲閱讀服務的又一重要特征。所謂智慧閱讀，通常是指運用智能技術為讀者提供智慧服務的一類閱讀方式，其核心價值是關注讀者的閱讀需求及其滿足程度，個性化服務是根本［5］。基于AIGC技術，智慧有聲閱讀平臺或終端能精準識別用戶的需求，按照用戶的閱讀偏好及用戶習慣，向其提供個性化推薦服務。喜馬拉雅珠峰語音生成式技術作為國內AI有聲閱讀領域的最新技術之一，不僅為AIGC全面應用于智慧有聲閱讀賽道提供了新的支撐，還具備快速實現個性化語音音色和風格定制的能力。該項語音生成式技術已應用于喜馬拉雅APP的“爸媽講故事”功能板塊，家長只需錄制5段文本，便能在系統模型中訓練生成個性化聲音，可在“爸媽講故事”頁面或支持AI轉音的專輯中用自己的聲音為孩子講述中外名著、詩詞國學、神話傳說等，為親子共讀提供個性化的有聲體驗。

三、AIGC賦能下智慧有聲閱讀的應用場景

在AIGC的賦能下，智慧有聲閱讀在形塑大眾閱讀習慣、閱讀體驗的同時，也會導致閱讀場景產生巨大變化。場景的本質是以人為中心的連接方式，它實現了人與物、用戶與產品、需求與供給的有效連接，并以此達到隨時隨地地被激活、創造、界定和滿足的目的［6］。在AIGC時代，閱讀場景成為繼閱讀內容、閱讀形態之后的又一大核心要素，不僅決定了閱讀價值效力，也是內容及技術平臺等閱讀服務機構轉型升級和高質量發展的必經之路。結合AIGC的技術特色和智慧有聲閱讀的服務特征，其將在個人和社會兩大層面實現場景創新目標。

1．個人層面：智慧有聲圖書館和全景聲沉浸服務

（1）智慧有聲圖書館場景

在AIGC的賦能下，根據用戶的個性化需求為其精準提供優質內容及服務，打造個人專屬的有聲圖書館，必將成為智慧有聲閱讀服務應用的基礎場景。在人工智能技術的賦能下，AIGC的內容生產效率、生產周期得以不斷優化，且內容品類及數量規模也將大幅拓展。同時，其能夠結合大數據、云計算等技術群落不斷細化用戶精準畫像，捕捉用戶在閱讀過程中產生的真實數據并予以深度分析，從而增加為不同場景、不同內容需求下的用戶提供有聲閱讀服務的可能性，真正實現個人智慧有聲圖書館的服務目標。特別是生成式AI技術的問世和大型自然語言模型的應用，將再次為智慧有聲閱讀賦能，即平臺或系統應對不同用戶需求場景的內容自主生產能力得以顯著提升。借由海量優質資源和TTS、ARS等技術，用戶可獲得的有聲閱讀內容將無窮無盡，并在語音指令下充分享受高效、精準、個性的悅聽體驗。2023年10月，喜馬拉雅珠峰語音生成技術正式亮相，現已步入初步應用階段。該平臺早在2020年4月便與26家專業出版機構達成“有聲圖書館”合作計劃，未來其將在“專業機構權威資源+前沿語音生成式技術”的合力作用下，重新定義智慧有聲閱讀的應用場景，以用戶為服務核心的個人專屬聲音圖書館即將成為現實。

（2）全景聲悅聽服務場景

在AIGC的賦能下，全景聲悅聽服務將成為智慧有聲閱讀的又一大實踐應用場景。在AIGC的多模態、軟硬件結合、全景聲技術的通力協作下，用戶能更便捷地享受高品質的內容消費體驗，并能在不同的需求場景下無縫切換，不斷延伸智慧有聲閱讀的邊界。作為國內首家探索有聲閱讀全景聲服務的互聯網平臺，喜馬拉雅憑借自身的技術領先水平和跨界合作優勢，目前已經在車載場景領域初步實現全景聲悅聽服務目標，如該平臺與WANOS聯合打造的全景聲有聲劇作品已經上線理想汽車的L系列車型，搭配理想汽車自主研制的7.3.4音箱工具，為交通出行場景下的全景聲悅聽服務提供了有效支撐。此外，有聲閱讀的消費形式和內容場景也將更加豐富，車載、露營、游戲等都有機會成為有聲閱讀的“主陣地”，全景聲悅聽服務是平臺或企業在不同的消費場景中快速實現價值變現目標的核心。未來，基于AIGC的各種智慧數智人的問世及應用，將成為連接用戶和智慧有聲閱讀內容及服務的“橋梁”。

2．社會層面：泛聲音社交空間和大眾有聲共創

（1）泛聲音社交場景

AIGC的賦能必將為全民智慧有聲閱讀解鎖新的場景。其中，搭建泛聲音社交場景正在成為諸多內容平臺新的發力點。有學者從社交可供性的角度指出，作為聲音媒介的AI有聲書，除了提供信息獲取功能和消遣娛樂等功能，還能打破基于血緣關系的熟人社會，形成更多基于地緣、趣緣、業緣關系網絡的能力，服務于社會層面的大眾交往需求［4］。艾媒數據調研結果顯示，在2020年我國移動社交用戶偏好的社交產品中，語音配對和直播連麥占比達到32.8%，這說明泛聲音社交是新時代大眾社會與文化交往的重要組成部分。有聲閱讀平臺也是聲音社交的主要發生地之一，如“云聽”、喜馬拉雅等移動音頻平臺，它們以人工智能、5G、云計算等新興技術，提升聲音社交的語音質量，降低延遲性并增強互動性，塑造成熟高效的泛聲音社區。“云聽”通過“AIGC+語音社交”的互動模式，依托總臺和合作伙伴的海量內容資源吸引用戶關注，其中既有針對中小學用戶群體的“云聽朗讀評測”自交互系統（用戶與平臺交互），也有針對全年齡段社會大眾的“鄉音博物館”全交互系統（用戶與平臺、用戶與用戶之間的全面交互），旨在以技術賦能和媒介賦權打造泛聲音社交生態空間，促使智慧有聲閱讀全民化、大眾化發展。值得一提的是，隨著AIGC的賦能作用日益深化，泛聲音社交場景下的智慧有聲閱讀將呈現細分化、垂直化發展態勢。如頭部長音頻平臺喜馬拉雅、荔枝的語音直播業務，主流音頻平臺“云聽”的有聲互動板塊，它們將在個性化閱讀服務的基礎上根據用戶身份標簽進一步細化垂直群體的特征，盡可能將聲音打造成新時代全民社交的新紐帶，并不斷挖掘新的應用場景，以此實現智慧有聲閱讀的服務延伸和增值。

（2）全民有聲共創場景

與有聲閱讀服務模式不同，基于AIGC的智慧有聲閱讀主要以用戶共創為服務模式，有效提升智慧有聲閱讀服務的用戶黏性，進一步拓展其場景邊界，為全民共創下的有聲內容增值和智慧閱讀提效發揮積極作用。從大眾角度來看，AIGC擁有的自主內容生成能力，為社會大眾按需定制有聲閱讀產品及服務提供保障，如喜馬拉雅珠峰語音實驗室研制的新一代語音生成式技術在自有APP“爸媽講故事”板塊的應用，打造了用戶個性化、定制化的有聲閱讀場景空間。當下，AIGC技術實現了PGC與UGC機制的完美結合，即“喜馬拉雅專業權威內容產品”與“用戶有聲閱讀DIY呈現”在同一消費場景下彼此貫通，形成用戶與平臺共創的場景服務機制。基于AIGC的場景共創，平臺與大眾、大眾與大眾之間的閱讀關聯性和自主參與感會更強，以此強化用戶黏性和閱讀效果。

現階段的有聲場景共創和用戶服務創新還處于起步和探索階段，未來，隨著人工智能技術的不斷迭代，AIGC將開發更高階的智慧有聲閱讀共創場景，且在內容規模、服務功能、呈現方式等方面不斷優化。從文化角度來看，基于AIGC的共創場景將不斷提升有聲閱讀的內容體量和用戶黏性，創造更多更具智慧的聲音文化產品，并在技術賦能、媒體賦權和內容賦值的合力下加速向社會各領域傳播滲透，讓主流文化和非主流文化、大眾文化和精英文化“百花齊放”，恢復聽覺文化與視覺文化的傳播平等性，促使有聲閱讀的價值回歸。

四、AIGC賦能下的智慧有聲閱讀平臺發展思考

AIGC賦能智慧有聲閱讀的本質，是技術對閱讀內容、形式和效果的深層影響和全面改寫。然而，技術在賦能智慧有聲閱讀向善向好發展的同時，也可能導致諸多風險挑戰，我們需要對AIGC賦能下的智慧有聲閱讀新形態作出必要反思。

第一，AIGC賦能下的智慧有聲閱讀平臺收集大量用戶閱讀偏好數據，可能存在個人隱私泄露風險。第二，AIGC尤其是生成式AI技術的落地應用，可能由于技術隱蔽操縱加重有聲閱讀領域的版權危機。公開數據顯示，頭部有聲閱讀平臺喜馬拉雅僅2021—2023年的侵權司法案件就高達520起。目前，以ChatGPT為代表的生成式AI技術應用工具也相繼出現版權侵權問題，生成式AI應用于有聲閱讀平臺領域是否會加劇有聲作品版權侵權程度，甚至造成行業及市場的發展危機，需要持續關注。第三，AIGC賦能可以強化智慧有聲閱讀的服務效力，但也可能造成技術過度崇拜，導致用戶乃至社會大眾忽略有聲閱讀的內容價值，消解閱讀作為人類和社會發展進步手段的本質意義。此外，AIGC處于初步發展階段的技術成熟度、安全性等問題也有待考量。

面對上述問題，社會多元主體需要從不同領域合力共建技術應用規范。國家立法部門應出臺技術規制方案，確保技術合理使用；行業機構及有聲閱讀平臺應加大自審自查力度，確保AIGC賦能智慧有聲閱讀服務的同時盡可能避免版權侵權、隱私泄露等現象和過度技術崇拜導致的閱讀價值消解等問題；社會大眾應在不斷強化自身技術理性和智慧閱讀素養的同時，積極參與有聲閱讀的監督管理活動。馬克思·韋伯曾比喻，科學技術就像一張地圖，他可以告訴你到某一個地方怎么走，但是它不能告訴你往什么地方去。AIGC是智慧有聲閱讀的核心驅動力，但前提是它能得到科學、合理、規范的應用。

｜參考文獻｜

［1］許加彪，張宇然. 耳朵的蘇醒：場景時代下的聲音景觀與聽覺文化［J］. 編輯之友，2021（8）：12-17.

［2］馬歇爾·麥克盧漢. 理解媒介：論人的延伸·增訂評注本［M］. 何道寬，譯. 南京：譯林出版社，2011.

［3］王佑鎂，宛平，南希烜，等. 走向數字閱讀3.0：智能閱讀的特征、應用與發展［J］.現代遠程教育研究，2021（5）：26-32.

［4］李武，謝澤杭，楊飛. AI有聲書：價值優勢與未來進路［J］. 科技與出版，2023（6）：41-47.

［5］吳賽，劉思危.智慧閱讀發展與出版智能化升級研究［J］. 出版廣角，2022（19）：82-85.

［6］張莉. 移動有聲閱讀場景分類與場景應用路徑探析［J］. 出版科學，2020（2）：103-107.