摘要:該研究基于阿里云智能語音交互的語音合成接口,通過先進的深度學習技術(shù),將文本轉(zhuǎn)換為自然流暢的語音。首先,程序通過HttpsURLConnection通信方式獲取阿里云Token以調(diào)用語音合成接口,將用戶輸入的文本轉(zhuǎn)換成自然流暢的語音;然后,通過FFmpeg和Lame類庫對合成的音頻進行編輯和格式轉(zhuǎn)換;最后,在特定功能按鈕中設(shè)置數(shù)據(jù)埋點,以采集用戶行為事件數(shù)據(jù)并上傳至服務(wù)器,用于后續(xù)業(yè)務(wù)處理。所設(shè)計的智能語音應用兼具技術(shù)先進性與商業(yè)可行性。
關(guān)鍵詞:語音合成;Android;音頻編輯;數(shù)據(jù)埋點;深度學習
中圖分類號:TP311" " " 文獻標識碼:A
文章編號:1009-3044(2025)23-0041-03
開放科學(資源服務(wù)) 標識碼(OSID)
0 引言
5G移動互聯(lián)網(wǎng)與人工智能技術(shù)的突破性進展,正深刻重塑著信息傳播的范式。當前,人工智能的關(guān)鍵技術(shù)均以實現(xiàn)感知智能和認知智能為目標,而語音交互是目前最火熱的領(lǐng)域之一。據(jù)市場研究公司MarketsandMarkets發(fā)布的一份報告顯示,文字轉(zhuǎn)語音市場規(guī)模在2016年達到13億美元,2022年有望達到30.3億美元,年復合增長率為15.2%。依托于深度學習算法與大數(shù)據(jù)處理能力的跨越式提升,以智能語音交互為代表的新型多媒體應用已悄然融入社會生活的各個維度,并逐步演變?yōu)檫B接虛擬與現(xiàn)實世界的關(guān)鍵紐帶[1]。文字轉(zhuǎn)語音技術(shù)已廣泛應用于導航、手機App助手等。智能手機、筆記本電腦、電視等現(xiàn)代化電子設(shè)備,也通過這種技術(shù)引導盲人或視力受損者通過聲音指示來訪問菜單,此外還有諸多其他用途。除消費電子領(lǐng)域外,其應用還覆蓋汽車與運輸、衛(wèi)生保健、教育、金融、零售、企業(yè)等垂直領(lǐng)域。
本研究提出構(gòu)建一個基于語音合成技術(shù)(Text-to-Speech, TTS) [2]的Android語音合成平臺[3],通過整合用戶身份認證、文本處理、語音生成及后期編輯等核心模塊,形成完整的閉環(huán)服務(wù)體系。所設(shè)計的程序是基于阿里云智能語音合成技術(shù)的一項實踐創(chuàng)新[4],聚焦于構(gòu)建具備高泛化能力的文字轉(zhuǎn)語音系統(tǒng),通過融合前沿的人工智能算法框架與多模態(tài)數(shù)據(jù)處理技術(shù)[5],實現(xiàn)了對人類語音特征的精細化建模與個性化呈現(xiàn)。系統(tǒng)深度耦合了自然語言處理技術(shù)與語音合成算法,致力于打造具備多場景適應能力的智能語音解決方案。所開發(fā)的軟件是一款符合當今市場需求的文字轉(zhuǎn)語音App應用,能使用戶辦公更智能化,娛樂生活更多樣化。后續(xù)章節(jié)包括背景介紹、系統(tǒng)設(shè)計、系統(tǒng)實現(xiàn)和總結(jié)等部分。
1 背景
20世紀初,出現(xiàn)了用電子合成器來模擬人發(fā)聲的技術(shù),最具代表性的是貝爾實驗室的Dudley,他在1939年推出了名為“VODER”的電子發(fā)聲器,該設(shè)備使用電子器件來模擬聲音的諧振。在共振峰合成器階段,即20世紀80年代,隨著集成電路技術(shù)的發(fā)展,出現(xiàn)了比較復雜的組合型電子發(fā)生器,其中較有代表性的是KLATT在1980年發(fā)布的串/并聯(lián)混合共振峰合成器。在單元挑選拼接合成階段,即20世紀80、90年代,隨著PSOLA方法的提出和計算機能力的發(fā)展,單元挑選和波形拼接技術(shù)逐漸走向成熟。90年代末,劉慶峰博士提出了聽感量化思想,首次將中文語音合成技術(shù)推向了實用化地步。在20世紀末期,還出現(xiàn)了另一種基于HMM的參數(shù)合成技術(shù)。隨著AI技術(shù)的不斷發(fā)展,基于深度學習的語音合成技術(shù)逐漸為人們所熟知,各種神經(jīng)網(wǎng)絡(luò)構(gòu)型均可用于語音合成系統(tǒng)的訓練,深度學習算法能更好地模擬人聲的變化規(guī)律[6]。傳統(tǒng)的拼接合成技術(shù)音質(zhì)高但靈活性差,統(tǒng)計參數(shù)合成技術(shù)數(shù)據(jù)需求小但機械感強,基于深度學習的端到端模型自然度高但訓練成本大,而神經(jīng)聲碼器音質(zhì)逼真但實時性有待提升。
語音合成技術(shù)(Text-to-Speech,TTS) [6]作為人工智能領(lǐng)域的重要分支,通過模擬人類發(fā)聲機制,實現(xiàn)了將書面文本轉(zhuǎn)化為自然語音的突破性進展。該技術(shù)架構(gòu)由前端的語言分析模塊與后端的聲學合成系統(tǒng)構(gòu)成。其中,前端模塊承擔語言學特征建模任務(wù),通過對輸入文本進行詞法分析、韻律預測和多音字消歧等處理,生成包含發(fā)音方式、語調(diào)模式及節(jié)奏特征的語言學規(guī)格書。后端系統(tǒng)則基于深度神經(jīng)網(wǎng)絡(luò)框架,將抽象的語言學表征轉(zhuǎn)化為可感知的聲學參數(shù),最終通過聲碼器合成連續(xù)的語音波形[7]。這種雙模塊協(xié)同機制使得TTS系統(tǒng)能夠精準地控制發(fā)音細節(jié),其技術(shù)本質(zhì)可視為構(gòu)建一個具備語言理解能力的虛擬聲帶。
2 系統(tǒng)設(shè)計
本文字轉(zhuǎn)語音系統(tǒng)采用MVP(Model-View-Presenter) 架構(gòu),構(gòu)建了表現(xiàn)層、邏輯層、數(shù)據(jù)層三層解耦的體系。通過分離視圖、邏輯和模型,提升了代碼的可維護性和可測試性,并支持模塊化開發(fā)與多平臺適配。如圖1所示,表現(xiàn)層基于Android原生UI組件,包含Activity、Fragment等視圖模塊,僅負責交互事件的接收與結(jié)果的渲染,通過回調(diào)接口與邏輯層同步狀態(tài),并在生命周期啟動時注入Presenter實例以建立雙向通信。
文字轉(zhuǎn)語音軟件的功能主要分為用戶登錄、文字轉(zhuǎn)語音、音頻編輯、作品導出分享以及數(shù)據(jù)埋點五大模塊,其整體功能模塊設(shè)計如圖2所示。
3 系統(tǒng)實現(xiàn)
1) 用戶登錄模塊分為手機或郵箱驗證碼登錄和微信授權(quán)登錄兩種方式。手機或郵箱登錄的驗證碼發(fā)送與驗證均采用OKHTTP通信交互技術(shù)與服務(wù)器進行交互,成功時保存用戶數(shù)據(jù),失敗時則彈窗提醒。微信授權(quán)登錄則參考了微信開發(fā)者平臺的開發(fā)手冊,通過引入微信授權(quán)登錄的第三方SDK到App中,以實現(xiàn)微信授權(quán)登錄功能,如圖3所示。
2) 文字轉(zhuǎn)語音模塊分為單主播配音和多主播配音,兩者的核心功能均為實現(xiàn)文字轉(zhuǎn)語音(TTS) 。TTS的實現(xiàn)流程如下:①鑒權(quán),使客戶端與服務(wù)端建立WebSocket連接,以獲取訪問令牌Token;②設(shè)置合成文本內(nèi)容、語速、語調(diào)、音量、主播類型等參數(shù)進行語音合成;③通過數(shù)據(jù)回調(diào)監(jiān)聽,接收合成數(shù)據(jù)并保存為音頻文件;④結(jié)束監(jiān)聽并釋放對象資源。
3) 音頻編輯模塊分為音頻格式轉(zhuǎn)換、音頻混音和音頻處理。如圖5所示,音頻格式轉(zhuǎn)換主要通過引入FFmpeg和Lame音視頻媒體庫,進行PCM音頻格式和MP3音頻格式的互相轉(zhuǎn)換。FFmpeg基于分層設(shè)計實現(xiàn)音視頻處理,包含解封裝、編解碼和濾鏡等核心模塊,支持跨平臺的高性能媒體流處理。Lame則通過心理聲學模型優(yōu)化MP3編碼,剔除人耳不敏感的音頻數(shù)據(jù),以實現(xiàn)高效壓縮。音頻混音功能主要采用線性疊加平均的算法,將兩個音頻混合在一起。音頻處理則包括調(diào)節(jié)音頻音量、延長或延遲音頻播放時間、控制背景音樂循環(huán)播放、選擇背景音樂的任意起始點播放,以及控制在配音文本有聲時背景音樂音量變小等功能。
4) 作品導出和分享模塊分為導出作品和分享作品兩部分。如圖6所示,導出作品采用Lame類格式轉(zhuǎn)換結(jié)合OutputWrite文件寫對象的方式,將PCM文件轉(zhuǎn)換成MP3文件并保存到指定路徑下。作品的分享則通過創(chuàng)建一個Intent意圖,設(shè)置意圖為發(fā)送,并指定分享路徑為微信或朋友圈,通過URI文件設(shè)置分享內(nèi)容,獲取文件發(fā)送權(quán)限,最后開啟意圖,即可實現(xiàn)分享功能。
5) 數(shù)據(jù)埋點模塊主要分為數(shù)據(jù)采集、數(shù)據(jù)上傳和數(shù)據(jù)分析。如圖7所示,系統(tǒng)使用了bindService和LinkedBlockingQueue隊列來完成對各個應用特定位置的數(shù)據(jù)獲取。當bindService綁定服務(wù)成功后,會在onServiceConnected函數(shù)中通過AIDL技術(shù)遠程調(diào)用服務(wù)端中具體實現(xiàn)的函數(shù),進而得到具體的數(shù)據(jù)。當用戶觸發(fā)埋點事件時,系統(tǒng)會將此次事件的具體數(shù)據(jù)以JSON格式上傳到指定的服務(wù)器域名位置,服務(wù)器端便可根據(jù)這些數(shù)據(jù)進行數(shù)據(jù)分析。
4 總結(jié)
本研究實現(xiàn)了一個基于阿里云智能語音合成的文字轉(zhuǎn)語音Android軟件。該軟件能將文本轉(zhuǎn)換成自然流暢的語音,并具備音頻編輯、數(shù)據(jù)埋點等功能。系統(tǒng)采用MVP架構(gòu),分為用戶登錄、文字轉(zhuǎn)語音、音頻編輯、作品導出分享及數(shù)據(jù)埋點五大模塊。其中,文字轉(zhuǎn)語音模塊支持單主播和多主播配音,而音頻編輯模塊則提供了格式轉(zhuǎn)換、混音及處理等功能。所設(shè)計的系統(tǒng)符合5G移動通信與人工智能技術(shù)的融合發(fā)展趨勢,是智能語音合成系統(tǒng)的一次創(chuàng)新應用。同時,系統(tǒng)也存在不足之處:語音合成的速度對網(wǎng)絡(luò)的要求較高,當網(wǎng)絡(luò)信號很差時,界面會一直處于語音合成狀態(tài),且沒有增加超時處理機制。后續(xù)將對此進行改進,以提高用戶的操作流暢性與體驗。
參考文獻:
[1] LI X,ZHANG Y C,YAN Y Q,et al.5G-Enabled Edge Intelligence for Real-Time Speech Synthesis Systems[J].IEEE Transactions on Mobile Computing,2022,21(6):2104-2118.
[2] HINTON G.Dynamic Neural Networks for Prosody Modeling in Text-to-Speech Systems[J].Neural Computation,2020,32(9):1789-1821.
[3] AMODEI D.Federated Learning Framework for Privacy-Preserving User Behavior Analysis[J].ACM Transactions on Intelligent Systems,2022,13(4):1-28.
[4] LI X,WANG X,TU M,et al.Cross-lingual Transfer Learning in Neural Text-to-Speech Synthesis[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2023,31:1532-1545.
[5] LI Z,HUANG P,WANG C,et al.Emotion-Aware Speech Synthesis Using Multi-Scale Feature Fusion[C]//2022 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Singapore:IEEE,2022:6782-6786.
[6] ZHU J,WANG C,ZHANG Z,et al.IoT-Oriented Adaptive Speech Interaction System Design[J].IEEE Internet of Things Journal,2021,8(14):11245-11258.
[7] TAN X,LI N,HE L,et al.A Survey on Neural Speech Synthesis[J].ACM Computing Surveys,2023,55(9):1-38.
【通聯(lián)編輯:謝媛媛】