董 明
(作者單位:中國華藝廣播公司電視中心)
語音模擬仿聲應用系統的研究與論證
董 明
(作者單位:中國華藝廣播公司電視中心)
本文主要介紹了語音模擬仿聲應用系統的總體技術方案、系統組成、關鍵技術、主要性能指標及技術可行性分析等,為業內人士提供一定的參考。
語音模擬仿聲應用系統;語音轉換工具;研究與論證
當前,語音識別技術已經發展成為了涉及聲學、語言學、數字信號處理、統計模式、概率論和信息論、發生機理和聽覺機理、人工智能等多學科技術的一項綜合性技術,基于語音識別技術研發的語音模擬仿聲應用系統在很多場景下獲得了成功的應用。語音模擬仿聲應用系統主要功能包括:一是能對輸入的音頻文件或現場錄音進行語音識別;二是能檢測目標人員語音的各類數據,對目標人員語音進行數學建模;三是能把普通人朗讀文稿或現場錄音轉換成目標人員的語音,并可以自動保存為多格式的音頻文件,以供使用。
語音模擬仿聲應用系統主要是以智能語音技術為基礎,通過對目標人員音庫進行收集與制作、目標人員發音模擬、語音合成轉換等功能,實現從普通人語音到目標人員語音的轉換。
1.1系統組成
語音模擬仿聲應用系統由目標人發音模擬庫和語音轉換工具兩部分組成。目標人發音模擬庫是通過模擬發音人朗讀輸入的文本,然后采用STRAIGHT分析合成器提取朗讀語音中的頻譜與基頻參數,通過工具進行訓練后形成模擬發音人到目標發音人之間的轉換參數和模型,從而建立目標發音人模型庫。語音轉換工具是利用訓練階段得到的模擬發音人到目標發音人的聲學參數轉換函數對頻譜和基頻參數進行轉換;轉換后的聲學參數送入STRAIGHT合成器重構得到具有目標發音人身份特點的語音波形。
1.2分系統技術方案
1.2.1目標人發音模擬庫
該子系統主要通過構建源-目標發音人頻譜轉換關系,實現模擬發音人到目標發音人之間的音色轉換,從而構建目標發音人的模擬庫。該子系統方案技術原理可以分為訓練與模仿兩個階段。
訓練過程:由模擬發音人朗讀和目標發音人語音數據庫中文本一致的語音數據,訓練由模擬發音人到目標發音人的聲學參數轉換函數。
模仿過程:首先,由模擬發音人朗讀輸入的文本;然后,采用STRAIGHT分析合成器提取朗讀語音中的頻譜與基頻參數;利用訓練階段得到的模擬發音人到目標發音人的聲學參數轉換函數對頻譜和基頻參數進行轉換;轉換后的聲學參數送入STRAIGHT合成器重構得到具有目標發音人身份特點的語音波形。
1.2.2語音轉換工具
語音轉換工具主要是基于深度神經網絡技術,構建源-目標發音人頻譜轉換關系,提升發音人音色轉換效果。基于RBM/BAM結構的深度神經網絡模型可直接使用高維譜包絡進行建模,并具有較強的階間相關性描述能力,對數據稀疏性有一定容忍能力,不容易出現過多訓練現象,因此相對傳統GMM單高斯模型有更好的參數描述能力。
1.3關鍵技術
1.3.1目標發音人語音資源自動制作方法
語音信號檢測與目標發音人的語音分割:從收集的原始音頻文件中自動檢測語音信號,剔除噪聲、樂聲等非語音信號;實現語音中的話者分割,得到特定目標發音人的語音數據。
自動語音標注技術:實現語音文本到音素序列的轉換和音素邊界的自動切分;實現無監督或半監督情況下的語音數據中短語邊界、重讀、邊界調等韻律特征的自動標注。
1.3.2模擬仿聲轉換方案
模擬發音人的挑選與培訓方法:利用話者識別技術挑選與目標發音人音色接近的模擬發音人;基于語音評測技術指導其進一步學習目標發音人的發音特點。
高質量的聲音轉換技術:在對模擬發音人的朗讀語音進行調整時,能夠盡可能地接近目標發音人音色特征,同時保證語音質量少受損失。
語音身份偽裝中,在目標發音人可用語音數據超過2小時時,偽裝語音與目標發音人語音相似度MOS(Mean Opinion Score)超過3.5分,自然度MOS超過4.0分。
支持語種包括中文普通話、可夾雜部分英語、法語、德語(占總體比例為1%~5%)等。
對于模擬仿聲來說,目標人的語氣、節奏等方面都比較容易,但音色最難模仿。基于音色映射模型的聲音轉換技術,主要通過獲取目標人的一定量語音,然后由和目標人員音色、口音差異不大的特定操作人員錄制相同內容的語料,再通過自動化工具針對兩部分數據進行訓練,建立目標人和模仿人的音色映射模型,之后即可通過軟件實時低將該特定操作人員說的任何話轉換為和目標人風格相似的語音。如果模仿人和被模仿人音色本身比較相近時,則有可能做到以假亂真的效果。
語音模擬仿聲應用系統以語音為研究對象,與聲學、語音學、語言學、信息理論、模式識別理論及神經生物學等學科都有非常密切的關系。語音模擬仿聲技術正逐步成為計算機信息處理系統中的關鍵技術,語音技術的應用已經成為一個具有競爭性的新興高技術產業。