一種基于深度神經網絡的漢語語音合成韻律結構預測模型

2019-11-30 10:21:25吳樹興張秀琴

科技資訊 2019年27期

吳樹興　張秀琴

摘? 要：近年來，隨著語音信號處理技術的發展，合成語音在很多場景下已經能夠滿足實際的基本要求，但在自然度上方面，還需要進一步提高和改進。在漢語語音合成中，韻律結構的預測對于自然度的影響非常大，如何精確預測韻律結構，成為語音合成技術中需要解決的重要問題。該文結合注意力機制將深度神經網絡雙向RNN模型用于漢語韻律詞的預測，得到的預測結果表明，具有注意力機制的雙向RNN模型在進行韻律詞的預測方面能夠獲得比較準確的效果。

關鍵詞：韻律詞? 雙向RNN? 注意力機制? 深度神經網絡

中圖分類號：TP391 ? ?文獻標識碼：A 文章編號：1672-3791（2019）09（c）-0023-02

很多學者采用HMM模型，神經網絡等技術對韻律結構進行預測，取得了不錯的效果，但仍然得不到令人滿意的效果。韻律詞的預測可以說是韻律結構預測是基礎，該文將采用深度神經網絡，結合注意力模型對韻律結構中的韻律詞預測進行嘗試。

1? 漢語韻律結構

在漢語語言中，為了表達語義和情感，在連續的語流中，音節的發出不是連續的而是一組一組發出的，我們把這樣的一組音節稱為節奏群。同一節奏群中的音節之間緊密連接，其整體語調曲線也較連貫，不同節奏群之間會稍有停頓。節奏群里的最后一個音節與前邊的音節不同，常以特殊邊界形式表示，隨后的節奏群開始的基頻要重置，以上這種語音片段分分合合的結構被稱作韻律結構。韻律結構是韻律特征主要部分，對生成語音的自然度和可懂度有著重要的影響，只有在連續的語流中，每個音節對應的韻律參數與當前的上下文語境協調一致時，才能得到自然度、清晰度和可懂度較高的語音結果。韻律結構主要是指韻律層級信息，包括不同的層級邊界信息及不同韻律層級的詞或短語的構成等信息[1]。一般來說，漢語中的韻律層級結構可分為：韻律詞、韻律短語以及語調短語這3個層次。

2? 詞向量及語言模型

在自然語言處理中，需要將詞表示成模型可處理的表示方法，比較流行的兩種表示方法是One-Hot表示和詞向量表示。詞向量表示可以在任意兩個詞之間建立關聯，這種向量表示方法使相關或者相似的詞，在向量空間上距離更為接近。向量的距離可使用歐氏距離來衡量，也可以用余弦夾角來衡量。詞向量可以表征詞語深層的語義信息，同時它是一種低維實數向量，詞向量是伴隨著對神經網絡語言模型的研究而提出的，2013年一款將詞表征為實數值向量的工具Word2vec[4]被開發出來。由Word2vec訓練出的詞向量可以用來做許多自然語言處理相關的工作，比如詞性分析、聚類、分詞等。詞向量的維度一般在100維以下，就可以很好地表示詞與詞之間關聯了，因此，避免了高維度輸入特征帶來的模型訓練和學習的負擔。另外，詞向量具有較好的可移植性，能夠在自然語言處理范圍中作為輸入特征處理多種任務，對于神經網絡來說通用性較好。

3? 基于深度神經網絡的韻律結構預測模型

韻律詞的預測是韻律結構預測是基礎。只有準確地預測出韻律詞，再預測其他韻律結構，才能在語音合成中合成自然度高的語音。深度神經網絡中的循環神經網絡（RNN）對于處理seq2seq的序列預測問題有著較好的效果，這里引入RNN對韻律詞進行預測。

我們采用雙向RNN編碼器，并使用注意力機制[3]，與RNN解碼器構成韻律詞預測模型，如圖1所示。圖1中的解碼器的序列輸出與編碼器的序列輸入數目相同，輸出序列的取值只有{0，1}二值序列，如果為0則表示前詞和后詞一起構成同一個韻律詞，如果為1則表示前詞和后詞各自構成韻律詞，也就是標志著前一個韻律詞的結束邊界和后一個韻律詞的起始邊界。形成標注數據時，將分詞Xt所對應的標簽0或1與輸出Yt進行損失函數的計算，然后訓練權值。注意力采用全局方式，權值分配按照距離和相似度來進行計算。

4? 實驗結果及分析

該語音合成使用的標注語料是由清華大學人機交互與媒體集成研究所完成（簡稱TH-CoSS），共5406句，其中5000句為訓練語句，文件為TH_CoSS.txt，其余406句為測試集。進行韻律結構的預測主要分為如下4個步驟。

第一步，進行分詞，采用全網新聞數據（SogouCA），大小為2.1G，對文件中存在問題的數據進行處理，得到干凈的全文本數據，使用中文分詞開源工具jiaba運行jieba_seg.py文件進行分詞，得到的分詞文本語料與己經分好詞的標注語料（TH_CoSS.txt）合并，作為詞向量訓練的輸入數據。

第二步，使用工具word2vec進行詞向量訓練，在訓練詞向量時選擇，我們訓練出來的詞向量最終是要用于訓練網絡模型的，也就是說用于訓練網絡模型的標注語料中的詞需要在詞向量表中被找到。

第三步，使用訓練語料查找詞向量，同時使用C編制的小程序按照分詞結果將韻律詞標識為0/1，形成訓練數據。

第四步，將訓練數據輸入神經網絡模型，進行訓練，然后使用測試集進行統計。獲得的預測結果表1所示。

從表1中可以看出：（1）隨著詞向量維度的增加，相應的模型訓練時間也增加了。（2）隨著詞向量維度的增加，韻律詞預測錯誤率有所下降，在20維達到最小之后隨著詞向量維數增加，錯誤率不會進一步降低反而有少許升高。因此，適當地增大詞向量維數可以提高模型的預測能力，但是當維數過大時，韻律詞錯誤率不會有改善反而增加了模型訓練時間。

5? 結語

該文采用深度神經網絡雙向RNN模型并結合注意力機制對漢語語音的韻律詞進行了預測，結果顯示采用深度神經網絡模型對韻律詞進行預測是比較有效的，進一步提高預測精確度仍然是今后的努力方向。

參考文獻

[1] 賀琳，初敏，呂士楠，等，漢語合成語料庫的韻律層級標注研究[A].第五屆全國語音學學術會議論文集[C].2003：323-326.

[2] Mikolov T，Yih W T，Zweig G.Linguistic Regularities in Continuous Space Word Representations[A].In HLT-NAACX，Association for Computational Lingaistics[C].2013.

[3] Vaswani，Ashish，et al.Attention is all you need.Advances in Neural Information Processing Systems[Z].2017.

科技資訊2019年27期

科技資訊的其它文章: 淺談創新型人力資源管理專業人才培養模式; 利用本土地理文化資源開展探究性主題活動; DxR臨床思維軟件使用分析; 園本教研對幼兒園新入職教師專業發展的促進作用; 互聯網金融為中小企業融資帶來的機遇; 傳統媒體與新媒體融合的困境及解決方法