智能合成聲音在有聲出版中的生產實踐及發展路徑

2023-12-02 12:11:56董海潤

傳播與版權 2023年22期

［摘要］現今，人工智能技術與有聲出版不斷融合發展。智能語音合成技術在有聲出版中的應用日益加深，扮演生成式人工智能的內容生產角色，呈現一種基于熟人聲音傳播的“聲音超市”，同時在重塑有聲出版產業鏈，推動有聲出版在智媒時代朝著更加智能化、專業化的方向發展。但智能合成聲音在有聲出版中存在生成內容的有限性、缺少伴隨性以及難以規避隱形版權問題等困境。面對有聲出版的創新發展，學術界需要對人工智能聲音進行辯證思考，從而推動有聲出版的高質量發展以及深度融合。

［關鍵詞］智能合成聲音；有聲出版；生產實踐

有聲出版是以聲音為主要表達符號，基于聽覺認知規律，用有聲語言創作、傳播知識性音頻內容產品的出版類型［1］。隨著人工智能時代的不斷發展，基于智能語音合成技術（Text To Speech）的智能合成聲音被應用于有聲讀物的出版中，通過模擬人聲進行讀物播報，進一步發揮聲音在有聲讀物中的知識價值、文化價值及伴隨價值等。在聽覺回歸的時代下，深入剖析智能合成聲音在有聲出版中的生產實踐及發展路徑，有助于挖掘智能合成聲音所含的聽覺價值，推動有聲出版朝著更智能化、專業化的方向發展。筆者通過綜合平臺影響力、智能語音合成技術運用程度、真人聲與AI人聲對比等進行目的性抽樣，選取喜馬拉雅FM平臺真人聲@單田芳評書、@喜道公子，智能合成聲音@喜小道_喜道公子AI、@單田芳聲音重現四個賬號（具體數據如表1所示）進行案例對比分析，探究智能合成聲音運用到有聲出版生產實踐的策略，以及其未來發展路徑。

一、聲聲相傳：智能合成聲音與有聲出版

從早期口頭朗誦、印刷書到磁帶、CD再到現在的移動數字音頻平臺，有聲讀物作為一種融合產物經歷新舊媒介的競合與迭代［2］。國外數字有聲書的正式誕生是1997年美國Audible網站推出世界第一款便攜數字音頻播放器，而我國有聲出版業主要開始于改革開放時期音像出版物盛行。目前，以喜馬拉雅FM、荔枝FM等聚合類音頻客戶端為代表的有聲平臺正不斷壯大有聲出版領域，而智能合成聲音的加入為有聲出版的發展提供新的活力。

當前，基于各大平臺的有聲朗讀主要分為兩種：人工朗讀和機器朗讀。人工智能合成聲音是機器朗讀的進一步升級，通過已有的語言訓練模型無限接近人聲，如喜馬拉雅FM中的@喜小道_喜道公子AI，基于真人賬號@喜道公子的聲音合成，已發出4萬多個作品，并擁有達9萬的粉絲量。人工智能合成聲音不僅助推有聲出版的流量變現，而且進一步反哺有聲出版的成本支配以及產業鏈的衍生發展。有聲出版已從過去紙質書籍的外圍副產品轉變為基于人工智能和沉浸式技術的閱讀新形式［3］。除了提供智能朗讀，語音喚起功能也正賦能有聲出版的智能發展，通過智能語音交互功能，用戶可以即時地獲取相關收聽內容，在平臺抑或智能音響等提供的聲覺空間中滿足情感需求。發展至今，有聲讀物在人工智能技術的支持下，更多的是以一種超媒介的形式存在，通過“補償”重新發揮聽覺的價值，在視覺中心主義下，以一種“人機共聲”的方式為有聲出版謀求融合創新的發展之道。

二、智聲入耳：智能合成聲音在有聲出版中的生產實踐

智能語音合成技術讓聲音不再單調，也讓有聲出版的創新發展有了更多的可能性。不同于視覺所具有的方向性、距離感、客觀性、外部性，聽覺提供了更為沉浸、更具主體感受的傳播體驗，給予聽者涉身的經驗和情感察覺［4］。從內容生產的類型到傳播方式再到產業鏈生產等，智能合成聲音在有聲出版中都有別于傳統有聲出版流程的繁雜。在智能媒介環境下，智能語音合成技術為有聲出版構建了新的智能場景，在高速流動的聲音景觀中重塑有聲出版的生產實踐。

（一）生成式人工智能的內容生產

生成式人工智能（Artificial Intelligence Gen-erated Content，AIGC）指利用人工智能技術生成內容的新型生產方式，其技術主要包括機器學習、自然語言處理等，通過學習大量已有的文本、音頻，進而生成新的內容，其所生成的內容與人類創作的內容極為相似［5］，同時可以借助已有的語料庫與數據模型等對已有文本進行有聲化朗讀。

智能語音合成技術在有聲出版的實踐運用中，從簡單地將文本轉換為語音內容到自動生成語音內容，增強了有聲讀物產品的多樣性、豐富性［6］。當前，AIGC的內容生產主要體現在在線數字出版，針對一些已有的評書、小說等進行自動化轉換。AIGC的內容生產節省了前期配音、后期剪輯的漫長過程，其超強的流動性大大提高了內容文本的轉換率。例如，喜馬拉雅FM平臺利用智能語音合成技術和特定的音韻模塊，將評書演員單田芳的智能合成聲音應用到不同風格的圖書中。當前，喜馬拉雅FM的@單田芳聲音重現賬號擁有38萬粉絲，已發布2萬多個作品，該賬號借助AI語音，讓評書大勢單田芳的聲音重現，在獨特的場景中呈現“書接上回”。AICG的內容生產模式大大豐富了有聲出版的內容類型，人工智能技術在有聲出版中的實踐應用正推動內容生產角色的多元轉化。

（二）呈現基于熟人聲音傳播的“聲音超市”

基于聲紋合成的智能語音合成技術的發展，聲音與其固定的發生空間和場所分離，這使得滿足用戶個性化需求的聲音出現多種選擇，“聲音超市”也因此生成。不管是對單田芳的聲音重現，還是基于喜馬拉雅簽約主播喜道公子的聲音技術合成，兩者都有固定的音源。聽覺—發音的循環原理指出：人只能發出他所能聽見的聲音［7］。在有聲作品的呈現中，用戶在聽到熟悉的聲音可以進一步激發其發音意愿，這也使得用戶傾聽甚至產生認同感從而進行分享的行為成為可能。

具有高度擬人化、人格化的智能合成聲音也可以在同一部有聲作品中實現互動式的有聲播放。在這樣的互動與分享過程中，用戶通過對話完成故事情節的描繪與敘事場景的構建。@喜小道_喜道公子AI首次推出《深空彼岸》的AI真人互動有聲劇，由AI完成大部分旁白，真人對其中部分對話進行錄音，完成小說的互動播報。目前，該作品共有227.1萬的播放量，266條評論，盡管相較于真人聲音，AI語音仍較生硬，但是首部AI真人互動有聲劇讓聲音空間增添了生活氣息或文學內涵，彌補了AI聲音生硬等不足。智能合成聲音通過構建聲場，再次復現原生口語文化時代互動的場景。這樣的有聲出版場景既是高度流動的，也是隨時定格的，在收聽中，用戶會根據對真人聲音播報的情感需求轉移到由智能合成聲音組成的有聲讀物上。

（三）重塑出版產業鏈的可能性

AIGC的內容生產模式正在進一步影響出版產業鏈的運作，智能語音合成技術增強了出版產業鏈的流動性。有聲出版物的更新周期較長，其編輯需要經過文本選擇、后期配音及剪輯等全流程才能完成，同時需要接受出版審查規范等，成本高且流程煩瑣。基于人工智能技術的智能合成聲音等功能可以簡化有聲出版的流程，大幅度削減出版成本。結合有聲出版中涉及的主體與環節可發現，其產業鏈主要由內容提供方、音頻制作方、傳播渠道方與用戶構成［8］。在喜馬拉雅FM平臺，AI主播的作品生成數量均達到萬級別，如@喜小道_喜道公子AI作品數量達4.7萬個。相比于傳統的有聲出版模式，基于智能語音合成技術的在線有聲出版可實現生產、分發一體化。智能語音合成技術是聲音在有聲出版運用中的一種再媒介化，擁有讓“逝去”或“遠處”的聲音“復活”的魔力，可激起用戶的好奇心以及滿足其情感需求，并強化產業鏈之間的整體聯動性，進一步加快產業鏈內外的雙向流動，為人工智能時代下重塑出版產業鏈提供更多可能性。

三、以聲助力：智能合成聲音在有聲出版中的應用困境

人工智能技術賦能有聲出版的發展，加快有聲出版產業鏈的流動。但目前智能合成聲音仍然無法解決固有的機器性、內容生產創作的有限性、聲音所缺少的伴隨性，以及隱形版權爭議等問題。

（一）智能合成聲音生成內容的有限性

相較于紙質出版物或電子閱讀，有聲出版物本身已將文本內容扁平化，多是對既有文本進行“二次創作”。有聲出版平臺的內容生產過程是一個二次選擇的過程。二次選擇，也被稱為二次出版，即在文本內容的基礎上再制作成音頻產品。但是受限于文本內容、制作成本以及模擬合成聲音，并非所有文本內容都能進行AI聲音的轉化，同時智能合成聲音轉化多是對照文本進行直接輸出，缺少由人工朗讀所需要考慮的文字語音加工改造等要素，也難以考慮朗讀時所要包含的人文內涵、文化價值、藝術價值和美學價值等［10］，導致最終呈現的有聲作品過于有限。相較評書演員單田芳的聲音，@單田芳聲音重現的聲音還是難以準確達到人聲中的抑揚頓挫的效果，這也導致該賬號不僅在二次創作中呈現內容的扁平化，而且在后續的多次延伸中難以豐富內容的層次和敘事表達。盡管目前AIGC的聲音轉換模式角色不斷豐富，但這種非人類的生產模式容易使用戶在自我聯想的情景化過程中形成對原著本義的差異理解甚至誤讀。

（二）智能合成聲音缺少伴隨性，難以留住用戶

盡管智能合成聲音在成本和生產速度上優先于人工配音，但是在聲音的強伴隨性以及情感感染上仍有所缺失，聲音的出版價值如文化價值、情感態度價值、伴隨價值等難以發揮。有聲出版物如睡前音頻讀物、相聲段子等可以幫助用戶紓解郁悶，提供一種有溫度的陪伴［11］。聲音的伴隨性恰恰滿足了用戶對高效率的追求，但是經過智能合成語音轉換后的語調、音速以及所傳達的二次情感正在消磨聲音的伴隨性。

聲音的文化價值多是在內容轉換上呈現，而情感態度價值與伴隨價值的衡量多是從用戶感知行為出發。@喜小道_喜道公子AI對小說《囚龍霸天訣》進行AI聲音轉換，盡管擁有3040.2萬的收聽量，但僅獲得158條評論。相比于真人@喜道公子的多部作品，@喜小道_喜道公子AI的用戶黏性較低，用戶對喜小道的喜愛多限于對真人主播的情感遷移以及文本本身的影響力。再者，從聲音的伴隨價值來看，不僅在于語音、語速以及語言包含的情感，還包括聲音所在的聲場和空間，AI合成的有聲出版多只有生硬人聲，缺少背景音樂的加持，整體合成聲音較為干澀，用戶的沉浸式體驗感較差，這難以激發用戶的后續情感價值。

（三）智能合成聲音難以規避隱形版權問題

有聲出版的版權問題一直亟待解決，智能合成聲音的多角色以及合成模型更難以規避隱形版權問題。智能合成聲音的快速流動帶來版權的問題，想要加快智能合成聲音在有聲出版中的融合發展，明晰版權歸屬是必須的。智能語音合成技術逐漸成熟，但是相關法律中對聲音生產的主體仍限定于自然人，基于該技術合成的聲音作品面臨授權主體模糊、侵權責任劃分困難等困境［12］。目前，智能合成聲音有聲出版物的法律性質尚不明確，AI生成的有聲書屬于何種類型？是否受到著作權的保護？聲音是否受到人格權的影響？基于智能語音合成技術的AI聲音多具有擬人化的性質，根據知名主播等進行聲音重現，不管是評書演員單田芳，還是喜馬拉雅FM平臺簽約主播喜道公子，都經過真人的聲音模擬合成，由于國內沒有單獨“聲音權”的規定，因此智能合成聲音的版權更多需要考慮是否有“人格權”的隱患。重視智能合成聲音在有聲出版的版權問題，有助于進一步規避有聲出版產業鏈中出現的版權問題。

四、聲聲相融：智能合成聲音在有聲出版中的發展路徑

收聽有聲讀物已成為當下聽覺文化的主流形式之一，隨著人工智能、語音交互等智能技術的發展以及移動設備和智能播放器等傳播載體的變遷，有聲讀物更富交互性和沉浸感［13］。將智能合成聲音廣泛運用到有聲出版的產業鏈中，進行普及化生產，有助于在人機協同下推進“人機共聲”，推動有聲出版的高質量發展。

（一）基于文化價值豐富內容生產

有聲出版受文化邏輯與技術邏輯的雙重支配。基于智能語音合成技術的有聲出版可以充分發揮聲音的文化價值，進一步彌補文本內容二次轉化的扁平化及有限性。文化遺產、方言文化以及歷史文化的有聲化生產，借助技術重現過去的瑰寶可以最大限度地發揮智能合成聲音的價值。許多文化遺產或方言文化是通過口口相傳的方式傳承下來的，而這些傳統文化知識的有聲化可以為其保護和傳承提供更好的途徑。數字出版融入文化數字化已成為國家發展的重要戰略，將數字出版與文化數字相結合，可推動數字出版內容與服務創新升級，有助于探索有聲出版的數字文化新模式［14］。現今，僅依靠智能合成聲音推動有聲出版朝著智能化出版發展仍遠遠不夠，在人機協同的智能理念下，將真人主播與智能主播相結合進行相互演繹，有助于進一步擴大聲音的傳播范圍。真人主播與智能主播相互補充，一方面可以憑借真人主播的專業度打造精品付費內容；另一方面通過智能主播擴大其他內容的傳播范圍，在內容質量與內容生產速度的相互補充中豐富有聲出版在智能合成聲音下的內容生產。

（二）利用場景再現增強聲音的伴隨性

聽覺空間不僅有聲音，還具備社會屬性，聲音應當參與廣義的文化和社會空間的再生產［15］。基于平臺不斷的發展，有聲出版不再僅靠“內容為王”取勝，而是打通社群化運營的場景聯通，實現場景再現。除了考慮物理空間的跨越時間與位置，有聲出版還需要融入用戶的生活空間，將用戶的社交意愿、生活習慣、喜愛程度等結合有聲書的文本內容進行社群營銷，以培養用戶更深層次的閱讀行為習慣，增強用戶黏性。在基于智能語音合成技術的有聲作品中，為了吸引用戶往往采取部分音頻內容免費收聽的機制。在@喜小道_喜道公子AI的有聲作品中，《囚龍霸天訣》免費有聲化小說的播放量超3000萬，相比真人主播@喜道公子的部分作品，AI有聲作品的播放量較高，這也意味著應用一定的內容營銷策略可以激發用戶的好奇心，增加有聲作品的點擊播放量。盡管智能合成聲音在播放語音情感中有一定缺失，但通過社區運營以及后期的數字營銷，實現用戶的場景再現，可以有效地補充情感空缺，形成語音社交氛圍，提升用戶對智能有聲讀物的接受度與包容度。

（三）明晰智能合成聲音的有聲出版權責劃分

隨著智能語音合成技術的深入發展，有聲書的制作成本將有所降低，面對市場化的擴大，有聲出版平臺明晰智能合成聲音的有聲出版權責劃分有助于更好地擴大應用范圍，防止后續有聲出版產業鏈中出現版權糾紛等問題。有聲出版平臺要明確智能合成有聲書的著作權定位，完善有聲書出版中的著作權許可機制，盡可能基于聲音授權選取更豐富的語料庫進行文本有聲化。除了制度層面的法律完善，有聲出版平臺還要借助技術支持對智能合成聲音進行溯源，通過使用數字加密技術進一步提升版權保護的效能，通過利用區塊鏈技術明確版權的歸屬和保護，提升版權管理的透明度和可信度。在有聲出版的產業鏈中，將區塊鏈技術應用到智能合成聲音中，能有效地溯源有聲讀物及智能合成聲音的具體流向與源頭，為后續有聲出版的營銷等提供可靠的數據支持，并有效地保護原作者的作品，減少有聲讀物高速流動帶來的內容泛濫和版權糾紛問題。

五、結語

隨著人工智能技術的發展，有聲讀物不再是簡單地將文字內容轉化為音頻，而是以平臺為依托進行原創音頻內容生產，對既有文本進行智能合成聲音的二次轉化，豐富有聲讀物樣態。有聲出版平臺將智能語音合成技術運用到有聲出版中，是在人機協同理念下推動有聲出版的產業鏈更迭，朝著高質量方向發展融合的重要手段。但有聲出版中早已存在版權問題，智能合成聲音中更有不可規避的內容泛濫及版權糾紛等問題。在有聲讀物的傳播過程中，有聲平臺明確其出版權責劃分，做到句句皆有源頭可查，才能推動有聲書產業的健康有序發展，也才能推動有聲出版朝更加智能化、耦合化的方向發展。

［參考文獻］

［1］李舒，張寅.移動互聯背景下有聲出版的特點、難點與突破點［J］.出版廣角，2021（20）：44-47.

［2］屈高翔，梅雨濃.迭代、再造與想象：有聲讀物再媒介化邏輯與未來場景［J］.中國出版，2022（14）：36-40.

［3］沈悅，金圣鈞.智媒時代有聲出版的作用機理及優化路徑［J］.中國編輯，2022（11）：86-91.

［4］李武，謝澤杭，楊飛.AI有聲書：價值優勢與未來進路［J］.科技與出版，2023（06）：41-47.

［5］王峻峰.人工智能生成內容（AIGC）及其在圖書出版中的應用探討［J］.傳播與版權，2023（10）：48-51.

［6］趙禮壽，馬麗娜，楊佚琳.我國有聲讀物出版產業發展模式創新研究［J］.出版廣角，2022（21）：71-75.

［7］希翁.聲音［M］.張艾弓，譯.北京：北京大學出版社，2013.

［8］李芳馨.再現、表現與實現：有聲出版發展中的技術賦能［J］.科技與出版，2020（07）：61-67.

［9］劉宏，滕程.口語傳播視角下有聲出版的知識傳播探析［J］.出版發行研究，2020（08）：33-38.

［10］張頌.朗讀美學［M］.北京：中國傳媒大學出版社，2009.

［11］彭穎，龔華靜.有聲出版：讓聲音從“幕后”走向“臺前”［J］.科技與出版，2021（04）：52-56.