田澤佳,門 豪,卓奕煒,劉 宇
(1.武漢郵電科學研究院,湖北武漢 430074;2.南京烽火天地通信科技有限公司,江蘇 南京 210019)
語音合成在人工智能領域有著十分廣泛的應用場景。隨著對神經網絡技術的深入研究,基于深度學習的語音合成極大程度上改進了傳統語音合成技術,降低了行業門檻。文獻[1-2]最早使用基于常規注意力機制的序列到序列方法進行語音合成的探索。文獻[3]提出全新的語音合成模型Tacotron,其基于常規注意力機制實現了首個端到端的語音合成模型。針對語音合成長句子存在的漏讀、重讀問題,有很多改進的方法,如文獻[4]引入一個卷積窗的約束,對注意力機制本身進行改進,將全局注意力機制轉換為帶卷積窗的注意力。文獻[5]模型使用了自注意力的方法,能夠在更少參數的情況下快速對齊語音幀。
該文針對長句子語音合成中存在的漏讀、重讀等問題,提出前向注意力機制,該機制能夠充分考慮文本序列中前后時刻的關系,利用前一時刻語音幀的注意力得分平滑當前時刻的注意力得分,消除注意力計算過程中的異常點,提高長句子合成的質量,比基線模型具有更快的收斂速度,提高了語音合成的效率。
該文提出的前向注意力機制主要對常規注意力[6]中注意力得分的計算過程進行改進,其核心思想是利用前一時刻生成的正常得分來平滑當前時刻的注意力得分。
通常,注意力機制的基本結構為編解碼器[7],其結構由遞歸神經網絡組成[8],在計算流程上,將輸入的文本序列x=(x1,x2,···,xt,···,xT)轉化為語音序列y=(y1,y2,···,yt)輸出,這里xt為第t幀特征向量;……