AIGC技術賦能數字音頻內容生產：應用場景、存在問題與應對策略

2023-04-29 00:00:00李雅箏劉宇星

數字出版研究 2023年3期

摘要：在人工智能技術應用快速發展的今天，AIGC技術正在加速推動著數字音頻內容生產模式的變革。在賦能產業實踐提質增效的同時，智能語音技術也引發了一些問題與風險。基于案例分析發現，AIGC技術在有聲讀物等音頻內容生產、數字音樂創作、新聞廣播智能播報和多元需求的配音等多個應用場景具有較好的賦能潛力。基于實際應用中尚存的AI合成語音精度、用戶聲音權和作品版權侵權、虛假信息及用戶隱私數據泄露等問題的剖析，提出：應提升語音數據庫的質量管理，注重隱私保護措施，確保用戶數據的安全性和隱私性；通過添加音頻數字水印，保護音頻作品版權；盡快制定音頻法律規范和行業準則，強化著作權授權許可，規范市場傳播行為。

關鍵詞：AIGC；AI語音技術；數字音頻內容；有聲讀物；應用場景；內容生產

DOl： 10.3969/j.issn.2097-1869.2023.03.003 文獻標識碼：A

本文著錄格式：李雅箏，劉宇星. AIGC技術賦能數字音頻內容生產：應用場景、存在問題與應對策略[J]. 數字出版研究， 2023， 2（3）： 13-20.

人工智能生成內容（Artificial Intelligence Generated Content，AIGC）技術是一種基于人工智能自動生成文本、圖像、音頻、視頻等多模態內容的技術，被認為是驅動數字內容創新的新引擎。在數字音頻內容生產領域，ChatGPT、Claude、訊飛星火等大語言模型（Large Language Model，LLM）具備強大的語言理解和生成能力，可以高效輔助有聲讀物、廣播劇本等初稿內容文本的生成與優化。而基于從文本到語音（Text To Speech，TTS）技術，可以快速將文本內容轉化為配音員風格的有聲讀物或歌手風格的人聲歌曲，從而顯著提高數字音頻內容生產效率，實現降本增效的目的。

在AIGC技術應用不斷迭代發展的背景下，本文主要探討AIGC技術在數字音頻內容生產中的幾個潛在應用場景及需要關注的相關問題，以期通過全面理解人工智能介入下的數字音頻內容生成實踐，為相關研究和應用提供參考。

1 AIGC技術賦能數字音頻內容生產的應用場景

隨著AIGC技術的發展，尤其是智能語音技術的廣泛應用，傳統的人工配音、真人朗讀場景正在發生深刻變革。AIGC技術有望成為有聲讀物、有聲劇、數字音樂、新聞廣播智能播報等多元數字音頻內容生產轉型和升級的重要動力。

1.1 賦能有聲讀物、有聲劇等多元化音頻內容生產

目前，TTS技術可以根據不同的文本風格和應用場景，將文本內容轉換為配音員風格的有聲讀物，該技術已逐步被應用到廣告配音、社交媒體內容朗讀、有聲讀物和有聲劇等生產過程中。

在數字閱讀融合出版領域，書旗小說、晉江小說閱讀、七貓小說和掌閱等小說在線閱讀平臺中的語音朗讀功能可以朗讀整本書或指定章節。以番茄免費小說閱讀平臺為例，該平臺的語音朗讀功能不僅能根據不同題材的小說匹配相對應的音色，還可以在朗讀過程中匹配合適的背景音樂以增強閱讀的氛圍感，同時提供多檔語速調節功能和多角色對話功能[1]。這種基于TTS技術的數字出版融合應用，不僅優化了用戶的閱讀體驗感，還可賦能在線閱讀的多元化、多場景發展。

在新媒體內容有聲化領域，一些網站文章、博客內容或公眾號的長篇推送也可以通過語音合成直接轉換為音頻文件，供用戶瀏覽時聽取或下載以便離線聽讀。對于較長內容，還可以適當分割生成對應的音頻文件，供用戶逐段播放，幫助讀者更好地理解和吸收內容。這種便捷且人性化的文字轉語音功能打破了傳統閱讀的時間和空間限制，簡化了用戶學習和獲取信息的方式，是數字音頻內容生產領域的重要發展方向之一。

在專業的有聲讀物內容生產領域，除利用TTS技術替代真人朗讀制作有聲讀物、有聲劇外，喜馬拉雅平臺已嘗試進行頭部主播的訓練或者AI分身的運營。在此應用場景下，可以利用人工智能技術克隆還原任何人的聲音，并基于訓練好的聲庫模型進行有聲讀物或有聲劇的多元化智能創作。例如，喜馬拉雅的“單田芳原音重現”項目使用人工智能技術模擬評書大師單田芳獨特的嗓音。基于AIGC的能力，可生成單田芳未讀完的作品或新的作品，如以單田芳嗓音朗讀《明朝那些事兒》。這種個性化的聲音模擬和再應用的人工智能技術，可以提高有聲內容主播的創作效率，賦予更多UGC創作者進行有聲內容創作的能力，從而提高有聲讀物的內容生產力，為有聲閱讀市場提供更加豐富的多元和個性化內容。

1.2 賦能數字音樂的創作場景

在數字音樂創作領域，人工智能技術已經滲透到音樂行業的各個方面。作為算法和藝術的交叉產物，人工智能音樂已為公眾所熟知。從1957年計算機生成的《伊利亞克組曲》到2020年網易發布的全流程人工智能歌曲《醒來》，人工智能介入音樂已成為必然發展趨勢，智能語音技術在音樂創作中將占據越來越重要的地位。

一方面，智能語音技術可用于音樂歌曲的快速生產，通過算法對海量音樂數據進行解構、分析和學習，形成相對確定的審美風格的AI音樂模型。然后根據用戶要求在選定風格基礎上生成內容：輸入歌詞或旋律，智能語音技術可以自動合成相應的人聲或和弦。對專業音樂人來說，使用人工智能技術制作音樂demo比使用真人錄制更快捷方便。AI聲音克隆技術還可以收集歌手干聲素材進行聲線克隆，模仿歌手演唱風格。近期，網絡上爆火的“AI孫燕姿”就是用AI技術完美復刻了孫燕姿的聲音，并因在各大網絡平臺上翻唱一系列新老歌星的成名曲而“出圈”登上熱搜。QQ音樂數據顯示，歌手孫燕姿自出道以來共發布435首作品，而在B站上“AI孫燕姿”翻唱的作品就超過了1 000首，可以看出AI技術驚人的工作效率。另一方面，這項技術也可以幫助已故音樂人重新發聲：在鄧麗君逝世27周年之際，酷狗音樂用人工智能技術延續她的真人之聲，為“鄧麗君”量身打造新曲《沒有寄出的信》，以她的聲線和演唱風格重新創作歌曲，表達敬意和滿足歌迷心愿。總之，智能語音技術賦能音樂領域，既降低音樂歌曲制作門檻，又能提高音樂歌曲準入門檻。作為創作工具和拓展工具，智能語音技術為音樂創作提供更加豐富多元的可能性。

1.3 賦能新聞廣播智能播報場景

語音合成技術不斷優化的模型使合成語音的表現力和個性化程度持續提高，為新聞廣播電臺等場景帶來更真實自然的人聲體驗。在新聞和廣播電臺中，將新聞稿或熱點資訊輸入系統，智能語音技術可以自動為稿件合成配音并生成播報音頻，直接用于電臺新聞廣播或數字音頻廣播電臺制作。這不僅降低了人工播報成本，還實現了全天播報。例如，騰訊新聞通過語音合成技術生成每日新聞播報音頻，同步在騰訊新聞App、微信公眾號和各大音頻分享平臺，用戶隨時可以收聽和獲取新聞，實現新聞有聲閱讀。此外，智能語音技術還可以實現電臺節目的語音填充。采用語音合成技術和人工錄制相結合的方式，生成對話或解說來制作電臺DJ采訪和精選內容等欄目。這既能滿足一定的節目時長和效果要求，又降低了節目制作難度和成本。

當下語音合成技術輸出的語音內容除清晰流暢外，在語速、發音、停頓方面也無限接近真人語調和講話節奏，輸出的語音內容與人工播音的差距越來越小，因此被廣泛運用在天氣、路況、敘事等的新聞電臺媒體播報中。而運用語音克隆技術還能將主持人的聲音復刻出來，以進一步提升受眾的可接受程度[2]。一些新聞媒體也在訓練完全的人工智能虛擬動漫或仿真主持人形象。通過利用語音合成技術錄制大量訓練語音素材，實現主持人新聞播報和電臺節目的全自動模擬，為聽眾帶來全新的體驗。例如，北京衛視的數字人主播“時間小妮”便是依據主持人春妮的發音特點和形象表情進行語言處理和影像采集，通過情緒仿真引擎賦予其更加擬真的語音語調和情感表達，實現了97%的真人相似度。在2022年安徽春節聯歡晚會上首次亮相的“二次元”甜妹小安是安徽廣播電視臺的一個虛擬AI主持人，其陽光的形象和樂天的性格為整臺晚會注入了更多的科技元素和年輕氣息，體現了AI系統生成虛擬主持人形象的巨大潛力。盡管虛擬主持人或AI主播在很多語音應用中還處于起步階段，但這無疑是數字音頻內容生產轉型的一種重要方式。可以說，智能語音技術在一定程度上實現了新聞的多模態呈現和廣播媒體播報的智能化，提升了新聞和廣播電臺媒體節目的制作效率。

1.4 賦能多元需求的后期配音場景

智能語音技術在許多其他領域也具有廣泛的應用潛力。隨著智能語音生成模式的簡便化，作為互聯網和資本市場內容傳播的主流，短視頻的制作門檻大大降低。聲音是視頻內容的附屬品，人工智能配音自然就成為短視頻內容創作的首選。使用AI配音為視頻內容添加人物語音或畫外音，能夠為有聲視頻增添真實性和吸引力，在一定程度上賦能了UGC視頻內容創作。例如，抖音中的“一鍵成片”和“人工智能創作”等功能簡化了創作步驟，提高了用戶創作效率，進一步促進了短視頻用戶資源的爆發[3]。

一些影視作品和動畫片也廣泛使用人工智能配音進行內容創作。例如，紀錄片《創新中國》采用AI模擬人聲對解說詞進行改編，實現對重要畫面信息的解釋和補充。日本動畫《魔法禁書目錄》的中文配音版本中，部分角色的臺詞配音全部由AI完成。許多動畫在制作過程中也通過AI技術生成群眾的嘈雜聲和畫外音，以增添動畫氛圍感和代入感。在音頻內容后期制作中，智能語音技術還可以自動識別不同內容用于剪輯和處理，包括添加背景內容、去噪和增強音頻信號等。應用語音改編和定制技術可以對預先錄制或生成的語音進行編輯和修飾，如阿里云的語音加速和變聲技術通過改變語速、音高、音色或拼接不同語音片段生成新語音，減輕音頻后期制作難度且提高輸出質量。

在一些游戲領域的后期配音中，與真人配音相比，智能語音技術可以實現真人和角色聲音的分離，同時避免真人配音者由于個人原因影響整個項目推進。例如，米哈游旗下手游《未定事件簿》中，真人配音者由于個人原因無法完成后續語音收錄工作，公司使用逆熵人工智能技術為游戲角色“莫弈”生成人工智能配音，在一定程度上提高了項目的商業穩定性。

總體而言，智能語音技術與各個領域的融合程度日益加深，使數字音頻內容的生產和傳播變得更加頻繁，并不斷向內容服務靠攏，為數字音頻內容生產注入了源源不斷的活力。

2 AIGC技術在數字音頻內容生產中存在的問題

盡管AIGC技術給數字音頻內容生產帶來諸多便利，但其應用中也存在不可忽視的問題。AI合成語音技術雖然水平不斷提高，但輸出語音的精度和情感表達仍有待改進；其給用戶聲音權和數字音頻作品版權帶來的威脅也值得關注；AI人聲克隆技術可能造成虛假信息的泛濫；用戶隱私也面臨泄漏的風險。如何在發揮AIGC技術優勢的同時，加強對信息安全、用戶隱私和作品版權的保護，不僅是相關企業面臨的挑戰，也是需要社會共同關注和解決的問題。

2.1 AI合成語音的精度不高

音頻AIGC主要基于TTS技術，但在實際生產應用中，將文本直接轉化為語音的過程往往會存在一些難以控制的問題。

首先，輸出的語音目前仍存在識別不準確和拼讀斷句錯誤等問題。就智能語音技術前端的文本處理而言，統一規范化處理文本格式和兼容文本編碼標準是語音合成技術前端處理的一大難點。要輸出準確連貫的語音，輸入的文本應進行韻律的分詞分段和語義分析。由于切分長度適中的句子并標注讀音需要人工完成，因此這項工作難以避免標點錯誤或錯別字等現象。同時，要準確朗讀文本中的日期、符號或縮略詞等，語音合成系統的文本糾錯和分析能力面臨一定挑戰。目前，在線閱讀平臺廣泛采用語音合成技術進行語音朗讀，但AI系統模型生成能力的差異導致合成語音質量參差不齊，最常見的問題是多音字錯誤、詞句停頓不自然、語氣詞發音不準確、吞音漏音等。一些專業術語、人名和地名等較為生僻的詞匯在輸出過程中也很容易出現聽讀錯誤和不準確的問題。這些錯誤不僅降低了音頻用戶的聽覺體驗，導致其誤解原內容，影響其對原文的理解，甚至還會誤導兒童或老年人，傳遞錯誤知識，極大降低數字音頻內容的輸出質量和準確性[4]。

其次，智能語音技術對上下文語境的理解和情感表達能力還有待提高。現實生活中面對不同應用環境和語言，需要匹配不同口音、語速和音調等，所以多個語種、復雜音色和情感風格的還原對語音合成技術來說仍需改進。從合成語音的語調來看，目前的AI技術尚無法準確識別不同語氣和情感狀態，無法根據需要調整語調和音量。在合成表達強烈情感的語音時，輸出的語音存在失真和僵硬等問題，難以將文字內容的情感充分演繹和表達，無法給用戶提供很好的情感體驗。因此，人工智能合成語音的精度和情感表現力仍需要提高，才能使合成的數字音頻內容更加準確、生動和富有表現力。

2.2 用戶聲音權和作品版權侵權問題不易監管

TTS技術具有大眾化和自動化的特征，降低了數字音頻內容的制作難度，甚至可以合成已經達到以假亂真程度的任何人的聲音。一旦一些不法分子利用語音合成技術來合成特定用戶的聲音，將很可能會侵犯該用戶的聲音權，對用戶的人身及財產權益造成威脅。在AIGC賦能數字音頻內容生產中，AI語音合成是侵犯用戶聲音權的主要方式。語音克隆等開源AI工具的易得性使得進行語音合成的成本較低，虛假語音信息增多，導致信息監管難度加大。雖然AI語音合成算法需要大量語音庫來訓練克隆人聲，但互聯網的普及使得用戶的語音數據在互聯網上隨處可見，獲取聲源變得簡單且難以監管，這給聲音權的保護帶來了巨大的威脅和挑戰[5]。在將智能語音技術應用于數字音頻內容創作時，用戶聲音權和數字音頻作品版權侵權問題亟待各方關注和解決。

盡管聲音像人的肖像一樣具有明顯的識別度，但聲音本身并不受著作權法保護。將聲音制作成作品，形成聲音作品或音頻作品，才能成為著作權法的保護對象。目前，我國對聲音權的法律保護主要參照適用于肖像權保護的相關規定，將其作為自然人的權益進行法律保護。但針對人工智能相關技術的運用，我國暫未出臺相關法律進行約束。利用AI技術生成的侵權音頻的權責主體尚難以界定。

有聲讀物內容生產者可以利用AI技術，訓練識別性更強的聲庫模型，以豐富閱讀資源。例如，喜馬拉雅音頻平臺利用AI語音重新演繹評書大師單田芳的聲音，讓一代評書大師的聲音再次響起；運用智能語音技術進行音色定制，生成了一系列基于中國著名經濟學家管清友音色的AIGC專輯。盡管這些應用降低了數字音頻內容的制作成本，但涉及的內容版權的界限變得愈加模糊，且難以監管[6]。此外，一鍵生成式的AI配音使得短視頻配音門檻不斷降低，導致當前市場上的AI配音短視頻背后的聲音樣本來源版權模糊不清。“AI孫燕姿”等音樂領域的AIGC作為一種由全新創作方式生成的產物，其版權界定引發了不少爭議，法律上也尚未對AI音樂的性質做出規定。因此，創作者在事先未獲得他人作品的使用授權和某一歌手聲音授權的情況下，使用AI進行音樂創作和傳播也一定會產生侵權行為。

2.3 AI克隆人聲造成虛假信息泛濫

智能語音技術的應用與發展使內容創作變得更加智能化，但同時也使普通人有機會成為虛假音頻的制造者，從而埋下了很多隱患。合成語音擬人度的不斷優化，使虛假信息的表現形式從斷章取義的文字和PS的圖片發展到技術合成的虛假音頻，增大了分辨真實信息的難度，易造成虛假信息和電信詐騙等非法活動的泛濫。

如果偽造者運用人工智能語音合成技術模仿那些在社會上具有一定話語權和粉絲效應的人的聲音，在公共社交媒體平臺發布不正當言論、輸出錯誤的價值觀或惡意帶動輿論導向，不僅會損害他人的名譽、丑化歪曲他人的形象、侵犯他人的名譽權，甚至會激化社會矛盾、擾亂社會秩序。

此外，犯罪分子可通過非法搜集他人聲源，偽造他人聲音對其家人進行電信詐騙，或者制作虛假配音視頻進行敲詐勒索，損害他人名譽權、財產權甚至生命權，不僅逾越了道德的準繩，更觸碰了法律的底線。因此，如果對AI克隆人聲不加限制，互聯網上的虛假信息將層出不窮，法律底線和公眾的道德底線不斷被試探，媒體機構的公信力也將在很大程度上被削減。

2.4 用戶隱私數據存在泄露風險

由于智能語音技術需要收集用戶的聲音數據進行語音識別和語音指令的處理，因此在使用過程中存在一定的聲音數據泄露風險。為提升用戶體驗，相關技術服務企業可能通過不正規的渠道收集用戶的語音數據資源，比如通過手機語音助手、智能手環、智能家居和手機App等設備竊聽用戶日常生活中的對話來構建和豐富大語料庫，這些語音收集行為多數情況下都沒有獲得用戶的許可。

由于聲音具有身份識別的作用，其中還隱藏了個人行為、喜好和身體狀況等隱私信息，因此在用戶使用這些智能音頻產品的過程中很容易造成個人隱私的泄漏[7]。盡管我國的網絡安全保護法對個人信息保護提出了明確的要求，隱私數據的收集方應當秉持“誰收集、誰負責”的原則對用戶隱私信息的安全承擔起保障義務，但在實際操作中，無論是研發人工智能語音應用的公司還是傳播數字音頻作品的社交媒體平臺都很難對收集到的聲音等個人生物識別信息進行有效的保護。

在有聲閱讀領域，在用戶想要用聲音復刻技術去定制個人聲線進行作品朗讀時，后臺會對用戶的聲音進行捕捉分析和模仿，從而形成個人的語音數據庫。但在平臺傳輸過程中一旦出現系統漏洞或者遭遇黑客攻擊，用戶的聲音等個人生物識別信息將很容易被泄漏，存在一定的安全隱患。同時，一些科技公司會通過融資、并購等手段共享用戶信息來達成擴充自己數據庫的目的，個人信息的流轉過程也加大了用戶個人隱私數據泄漏風險，給用戶的生命財產安全帶來隱患。

3 AIGC技術介入數字音頻內容生產的問題應對建議

隨著人工智能技術不斷成熟，AIGC技術將深度介入數字音頻內容生產，這是產業發展大勢所趨。然而，在問題和風險尚未完全解決的當下，數字音頻內容生產要實現高效和可持續的發展，還迫切需要相關技術的迭代與創新，更需要相關制度的進一步完善與監管，以及行業內的規范與自律。針對相關問題與風險，需要各方攜手應對，不斷推進法規立法、技術變革和市場培育，保護數字音頻內容生產的秩序與權益，以推動AIGC與內容產業的高效融合發展。

3.1 添加音頻數字水印，保護音頻作品版權

數字音頻作品主要通過聲音進行內容輸出，產出的作品既不是實體又無法用肉眼看見，因此和其他文字、圖畫或視頻作品的版權保護方式有所不同，而聲音權的保護對數字音頻作品來說顯得尤為重要。

面對音頻盜版侵權現象，首先要從技術層面加強對聲音權和數字音頻作品版權的保護。針對AI合成的虛擬語音無法與真實的聲音區別開的問題，可以用添加數字水印的方法來解決，即在合成的語音中添加數字印痕來區分真聲與模擬，同時將音頻作品附加的版權信息通過水印的方式嵌入。由于音頻數字水印技術不會影響原始音頻的音質，且無論音頻作品被轉化為何種格式，其水印信息都不會消失。因此該技術不僅能夠保護數字音頻作品的版權，還能夠明確版權所有方到底是誰，在一定程度上能約束數字音頻非法復制行為[8]。

此外，隨著Web3.0時代的到來，在音頻作品的版權保護方面，可以利用區塊鏈技術進行音頻作品的版權認證，以確保數字音頻作品的唯一性和原創性。區塊鏈技術能夠提供一個分布式的、不可篡改的記賬系統，通過將音頻作品的版權信息與區塊鏈上的唯一標識進行綁定，可以確保該作品的版權歸屬不會被篡改或抵賴。區塊鏈技術還可以用于監督和追責合成語音的算法。通過在區塊鏈上記錄算法的訓練數據、模型參數和生成的語音樣本等信息，可以確保算法的透明性和可追溯性。這有助于監督算法的使用，防止濫用或侵權行為的發生。

3.2 提升語音數據庫質量，避免隱私泄漏風險

在注重數字音頻作品版權問題的同時，也要持續精進AI語音技術在數字音頻領域的深入應用。面對現階段合成語音精度方面存在的問題，智能語音開發公司應當優化語音合成的模型，采用深度學習和神經網絡來進行語言合成模型的訓練和預測；在音頻制作過程中改進聲音特征提取算法，提高語言合成模型對音頻信息的理解和分析能力，以提升音頻作品的準確性和自然度；及時進行數據集的擴充和優化，將更多高質量的語言數據集添加到語音合成模型中。就有聲閱讀領域來說，語音技術提供方應當盡可能完善語音數據資源包，設置實時更新的詞庫和多音字的發音規則等，調整正確的發音及詞語斷讀的位置，以提升智能語音的情感表現力。

針對音頻用戶隱私數據泄露的風險，平臺方和軟件制作方也應當采用相關隱私保護技術對用戶隱私進行保護。例如，運用模擬音頻、模糊化等技術在音頻生成之前將音頻中的個人隱私進行模擬和模糊處理；或采用數據隔離手段，將智能語音設備記錄的相關語音信息進行單項隔離，阻止數據傳輸至云端或其他設備上。同時使用數據安全監控技術，在數字音頻作品生成和傳輸的過程中對音頻數據進行實時監控和溯源，及時發現和處理隱私泄漏的問題，以保障用戶的隱私信息不被盜用。

由智能語音技術應用所產生的技術問題，理應用技術手段進行規避和處理，來提升智能語音技術在數字音頻制作環節的應用能力，保障上游制作、中游傳播和下游用戶的合法權益。如此，才能使數字音頻產業在AIGC賦能下獲得長足發展。

3.3 制定音頻法律規范，強化著作權授權許可

數字音頻內容產業的健康高效發展，離不開智能語音技術的不斷進步，同時也需要政府的宏觀引導和相關法律法規的制定。由于音頻作品與其他內容形式的作品有所不同，且涉及人工智能的特殊性和復雜性，因此現有的法律法規還無法完全涵蓋所有權責范圍。對此，政府相關部門應當出臺相關法律法規，明確數字音頻作品的版權歸屬問題，規定音頻作品的侵權責任范圍，以保護權益主體的合法權利。

語音數據收集應受到權威性法規的約束。可要求采集主體獲得授權，并確保后續的聲音使用符合授權范圍，以保證聲音的合規使用。大型公司應在兼顧隱私、法律和商業價值的基礎上，公開透明地進行數據收集，并制定相關監督機制。法律應采用技術手段對數字音頻信息的傳播和使用進行監督和審查，建立完善的責任制度和侵權懲處制度。數字音頻作品的創作與傳播，應根據內容、創作者和聲音進行授權分割，合理界定傳播平臺的著作權保護義務，避免中間環節出現侵權現象。對于已經完成的數字音頻作品，應加強音頻著作權的授權許可制度，分別強化著作權人、錄音制作和傳播平臺等各個環節對著作權的授權管理。通過法律的形式對數字音頻作品的制作和傳播進行引導和規范，以保護數字音頻著作權人的合法權益。

3.4 制定音頻行業準則，規范市場傳播行為

應對智能語音技術在數字音頻內容生產過程中存在的問題和風險，除制定相關法律法規進行約束外，也應當制定相應的行業準則來規范市場行為。例如，建立完善的音頻質量標準來規范數字音頻作品運用智能語音技術進行生產的制作過程，加強對數字音頻作品的監管力度，規范使用渠道，保障數字音頻內容的合法性和可信性。數字音頻內容分發傳播的平臺方應當對用戶傳播的音頻內容承擔起審核的義務，對一些由未授權的聲音或用其他語音克隆技術和語音合成技術制作生成卻沒有標注AI標識的音頻作品，從源頭上阻斷其傳播。

相關企業在提供智能語音服務之前應當向用戶出示使用協議，明確語音適用的范圍與權責歸屬等，同時將運用了AI語音技術的數字音頻作品標注AI標識；選擇與自身技術優勢相契合的內容側重點進行生產，構建和打造具有特色的音頻內容資源庫和專業的音頻內容生產能力，從而形成自己的音頻內容資本，提升市場競爭力。從優化用戶體驗的角度，可建立專門的用戶反饋和偏好收集渠道，收集用戶對數字音頻作品表現力的建議與期望，并根據用戶反饋進行技術和算法的升級，同時實現個性化的數字音頻內容生產，用技術創新和個性化的內容來推動音頻內容產業發展，促進數字音頻市場的良性循環。

作者簡介

李雅箏，男，安徽大學新聞傳播學院講師、碩士生導師，安徽新華發行（集團）控股有限公司博士后科研工作站在站博士后。研究方向：數字出版、智能傳播。

劉宇星，女，安徽大學新聞傳播學院碩士研究生。研究方向：數字出版。

參考文獻

高丁雪.智能語音合成技術應用于在線閱讀APP的現狀和進路研究[D].青島：青島科技大學，2022.

沈智婉.人工智能時代播音主持人的機遇與挑戰[J].傳媒，2022（20）：45-47.

王珍，胡銳.聲音景觀建構視角下短視頻AI配音濫用行為研究[J].電聲技術，2022，46（10）：31-33，46.

任子寒，姚瑤，余人.語音交互技術在有聲讀物中的應用風險與防范策略[J].編輯學刊，2021（4）：18-23.

馬瑞萍.AI語音合成技術的應用和風險與聲音權的保護研究[D].廣州：暨南大學，2021.

郝明英.人工智能語音合成有聲書著作權保護研究[J].中國出版，2023（1）：55-59.

王懿.芻議智能語音技術的應用與風險防范[J].法制與社會，2020（14）：222-223.

李海芳.面向數字化資源產權保護的數字音頻水印技術研究[D].沈陽：遼寧師范大學，2019.

AIGC Technology Empowers Digital Audio Content Production ： Application Scenarios， Existing Problems and Countermeasures

LI Yazheng1，2， LIU Yuxing1

1.School of Journalism and Communication， Anhui University， 230601， Hefei， China; 2. Postdoctoral Programme， Anhui Xinhua Distribution （Group） Holding Co.， Ltd.， 230061， Hefei， China

Abstract： With the rapid development of artificial intelligence technology application， artificial intelligence generated content （AIGC） technology is accelerating the transformation of digital audio content production mode. While empowering industrial practice to improve quality and efficiency， intelligent speech technology also triggers problems and risks. Based on case analysis， it was found that AIGC technology had potential to empower several application scenarios such as audio content production including audio books， digital music creation， intelligent news broadcasts， and multi-demand dubbing. Based on analysis of the existing problems in actual application， such as the accuracy of AI synthetic speech， infringement of voice right of users and copyright of works， 1 information and leakage of user privacy data， it was proposed that： the quality management of voice database should be improved and privacy protection measures should be paid attention to ensure the security and privacy of user data; audio digital watermarks should be added to protect copyright of audio works; audio legal norms and industry guidelines should be formulated as soon as possible to strengthen copyright authorization licensing and regulate market communication behavior.

Keywords： AIGC; AI speech technology; Digital audio content; Audio books; Application scenarios; Content production

數字出版研究2023年3期

數字出版研究的其它文章: Web3.0與未來出版; 主持人語; 基于沉浸式閱讀體驗的數字交互漫畫：理論與實踐進展; 我國數字閱讀行業的發展現狀、特征與趨勢; 以數字技術透視內容產業; 基于用戶評論的數字漫畫閱讀痕跡特征識別與分析