郭淑妮

摘 要 本文對蒙古語單元拼接語音合成方法進行了探討,并基于深度學習探究了蒙古語的相關語音合成,采用了硬拼接和軟拼接相結合的方法。
關鍵詞 深度學習;蒙古語;單元拼接;語音合成
引言
通過對蒙古語中的語音韻律的參數進行統計分析,總結出其中的韻律變化規則。使用時域基因同步疊加算法和頻域基因同步疊加算法相結合,對合成語音進行韻律調整,從而提高蒙古語合成語音的自然度,在拼接算法上采用的是硬拼接和軟拼接相結合的方法,從而達到更好的語音合成效果。
1 語音合成方法
按照現代擁有的技術手段,語音合成方法主要分為參數合成法和波形拼接合成法。參數合成法也是一種比較復雜的分析合成法,它是基于音節和音素為合成單位,對合成單元進行相應的語音分析,并提取出相應的特征參數,經過編碼后形成相應的語音庫。使用該方法進行語音合成時,是根據需要合成語音的信息從語音庫中提出相應的合成參數,它是對人的發音過程進行直接的模擬。
波形拼接合成法是基于基因同步疊加算法而實現,它的合成單位包括語句、短語和音節等單位,不同于傳統的將不同的語音單元進行簡單的拼接,這種方法需要使用大量的語言庫,在語音庫中選擇出最合適的語音單元進行拼接,這期間會涉及許多復雜的技術,一般包括統計學技術和神經網絡技術,在最后拼接時采用的是PSOLA算法,修改合成語音的韻律特征,經過相應的解碼之后進行語音輸出,這種技術也是目前語音合成的主流技術[1]。
2 基于時域基因同步和頻域基因同步疊加算法相結合進行韻律調整
2.1 時域基因同步和頻域基因同步疊加算法介紹
TD-PSOLA算法是PSOLA中較為簡單并且計算效率最高的一個版本。通過把相應的分析信號在時間軸上進行移位,就能夠得到這種算法。在這個過程中省去了對短時信號的頻域變換,對某些短時分析信號只是進行簡單的刪除或者重復,通過對分析信號間同步標記的距離進行改變,來改變其基頻,在實時系統中得到廣泛的應用[2]。
關于FD-PSOLA算法,其最終合成信號是通過對分析信號進行頻域變換和反變換后得到的。通過使用傅里葉變換求出相應的短時分析信號的短時譜以及譜包絡,在匹配合成基頻時需要對兩個譜進行相應的修改。
2.2 基于TD-PSOLA和FD-PSOLA算法結合的韻律調整
把時長修改因子作為常數,根據時長因子對短時信號數量進行增加刪除就可以。選擇適當的修改因子不會造成太大的噪聲,對于大于等于2的修改因子,其會造成清音的短時相關,這樣聽起來會有噪聲的感覺。在實際應用過程中,可以采用將時軸的重復部分進行部分倒置的方法來解決,如果要使用較大的修改因子則可以結合FD-PSOLA算法來實現噪聲的避免。
對基頻進行調整是與時長的調整相互交叉的,通過對語音基音同步標記時間的間距進行改變,從而實現對基頻的調整。一般情況下時長和基頻的修改因子是沒有關系的,對短時分析信號就要進行相應的復制或者刪除。在實際情況中,時長和基頻的修改都是在一步之內同時完成的,如果時長因子的倒數比較大,在進行濁摩擦音的音高增強并減慢其語速時,會產生很小的噪音。對于振幅的調整,語音波形的幅度對應于相應的音強,改變音強只需要進行加權波形數據就行,對于一些重音有變化的音節,有時也需要改變其幅度包絡。
3 蒙古語語音合成系統的實現
隨著深度學習方法的發展,基于神經網絡的語言模型在語音識別系統中已經得到相應的應用。針對蒙古語語音識別基線系統,本文作了以下研究。
3.1 相關實驗數據準備
傳統蒙古文書寫時如果不考慮字符的發音及內碼,只是注重外形,很容易在輸入時造成拼寫錯誤。蒙古語屬于黏著語,詞匯的構造形式是由詞干加后綴拼接組成,并且在一個詞干后邊可以拼接不同的后綴,這樣會形成大量意義不相同的詞。本文對發音詞典和文本語料庫構建時進行了詞干后綴分割操作,切詞前后發音詞典部分對照表如表1所示。
3.2 蒙古語語音識別基線系統建立
本文基于Kaldi語音識別開發平臺建立了蒙古語語音識別基線系統。首先對于提取的包含噪音干擾的語音特征進行倒譜均值方差歸一化,使得特征向量的概率密度函數與無噪聲環境中計算得到的PDF更加接近,進而降低訓練集和測試集之間的差異性。使用線性判別分析與最大似然線性變換結合,將歸一后的上下文的高維特征進行區分性投影,以此降低特征向量維數,保留具有分辨率的特征成分,并讓其處于對角線上,滿足對聲學模型影響最小的情況下構建對角矩陣。
4 結束語
通過對蒙古語語音識別基線系統進行簡單的分析,對基于深度學習蒙古語語音合成技術的研究提供一定的借鑒。
參考文獻
[1] 王勇和.基于深度學習的蒙古語語音識別聲學模型研究[D].呼和浩特:內蒙古大學,2018.
[2] 包春梅.基于動詞詞干詞綴的蒙古語語音合成系統的研究[D].呼和浩特:內蒙古大學,2009.
*[項目編號]內蒙古民族大學科學研究項目。編號:NMDYB1768。中國民族語言文字信息技術國家民委-教育部重點實驗室開放課題。
編號:KFJJ201608。