999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于WaveNet的端到端語音合成方法

2019-08-01 01:48:57邱澤宇屈丹張連海
計算機應用 2019年5期
關鍵詞:文本方法模型

邱澤宇 屈丹 張連海

摘 要:針對端到端語音合成系統中GriffinLim算法恢復相位信息合成語音保真度較低、人工處理痕跡明顯的問題,提出了一種基于WaveNet網絡架構的端到端語音合成方法。以序列映射Seq2Seq結構為基礎,首先將輸入文本轉化為onehot向量,然后引入注意力機制獲取梅爾聲譜圖,最后利用WaveNet后端處理網絡重構語音信號的相位信息,從而將梅爾頻譜特征逆變換為時域波形樣本。實驗的測試語料為LJSpeech1.0和THchs30,針對英語、漢語兩個語種進行了實驗,實驗結果表明平均意見得分(MOS)分別為3.31、3.02,在合成自然度方面優于采用GriffinLim算法的端到端語音合成系統以及參數式語音合成系統。

關鍵詞:語音合成;端到端;Seq2Seq;GriffinLim算法;WaveNet

中圖分類號:TN912.33

文獻標志碼:A

Abstract: GriffinLim algorithm is widely used in endtoend speech synthesis with phase estimation, which always produces obviously artificial speech with low fidelity. Aiming at this problem, a system for endtoend speech synthesis based on WaveNet network architecture was proposed. Based on Seq2Seq (SequencetoSequence) structure, firstly the input text was converted into a onehot vector, then, the attention mechanism was introduced to obtain a Mel spectrogram, finally WaveNet network was used to reconstruct phase information to generate timedomain waveform samples from the Mel spectrogram features. Aiming at English and Chinese, the proposed method achieves a Mean Opinion Score (MOS) of 3.31 on LJSpeech1.0 corpus and 3.02 on THchs30 corpus, which outperforms the endtoend systems based on GriffinLim algorithm and parametric systems in terms of naturalness.

0 引言

語音合成(Speech Synthesis),又稱文語轉換(Text To Speech, TTS)技術是指計算機通過分析將任意文本轉化為流暢語音的技術。語音合成作為實現人機語音交互系統的核心技術之一[1],是語音處理技術中一個重要的方向,其應用價值越來越受到重視。

語音合成領域的主導技術隨著時代的發展不斷更迭。基于波形拼接的語音合成方法,是一項把預先錄制的語音波形片段拼接在一起的技術,是目前語音合成領域常用方法之一[2-5]。受到語料庫內容的限制,這種方法對拼接算法的優化、存儲配置的調整等方面有較大的要求,對于語料庫之外的其他說話人、其他文本內容起不到任何作用。

隨著基于統計參數的語音合成方法日益成熟,這種方法被逐漸應用到語音合成中[6]。基于統計參數的語音合成方法的基本思想是,通過對輸入的訓練語音進行參數分解,然后對聲學參數建模,并構建參數化訓練模型,生成訓練模型庫,最后在模型庫的指導下,預測待合成文本的語音參數,將參數輸入聲碼器合成目標語音,這種方法解決了拼接式合成方法中邊界人工痕跡很多的問題。然而由這些方法構造的系統需要大量的專業領域知識,因而設計困難,并且所需模塊通常是單獨訓練,產生自每個模塊的錯誤會有疊加效應,生成的語音與人類語音相比,經常模糊不清并且不自然。

隨著人工智能技術的快速發展,語音合成領域有了新的技術支持。深度學習可以將內部模塊統一到一個模型中,并直接連接輸入和輸出,減少了基于特定領域知識的密集工程參數模型,這種技術被稱為“端到端”學習。設計一個能在已標注的(文本、語音)配對數據集上訓練的端到端的語音合成系統,會帶來諸多優勢: 第一,這樣的系統可以基于各種屬性進行多樣化的調節,比如不同說話人、不同語言,或者像語義這樣的高層特征;第二,與存在錯誤疊加效應的多階段模型相比,單一模型更魯棒。

近年來端到端的語音合成系統引起了廣泛的研究,WaveNet[7]是一個強大的語音生成模型,它在TTS中表現良好,但樣本級自回歸的特性導致其速度較慢,需要一個復雜的前端文本分析系統,因此不是端到端語音合成系統。Deep Voice[8]將傳統TTS系統流水線中的每一個模塊分別用神經網絡架構代替,然而它的每個模塊都是單獨訓練的,要把系統改成端到端的方式比較困難。Char2Wav[9]是一個獨立開發的可以在字符數據上訓練的端到端模型,但是它需要傳統的聲碼器參數作為中間特征表達,不能直接預測輸出頻譜特征。Tacotron[10]是一個從字符序列生成幅度譜的Seq2Seq(SequencetoSequence)架構,它僅用輸入數據訓練出一個單一的神經網絡,用于替代語言學和聲學特征的生成模塊,使用GriffinLim算法[11]估計相位,施加短時傅里葉變換合成語音,從而簡化了傳統語音合成的流水線,然而GriffinLim算法會產生特有的人工痕跡并且合成的語音保真度較低,因此需要替換成神經網絡架構。

本文針對目前端到端系統中GriffinLim算法還原語音信號自然度較低的問題,提出了一種基于WaveNet網絡架構的端到端語音合成方法,采用基于注意力機制的Seq2Seq架構作為特征預測網絡,將輸入文本轉化為梅爾聲譜圖,結合WaveNet架構實現了多語種的語音合成。

4 結語

本文主要介紹的端到端語音合成系統,首先用基于注意力機制的Seq2Seq模型訓練一個特征預測網絡,然后獲取待合成語音的梅爾聲譜圖,利用WaveNet架構恢復損失的相位信息來實現語音合成。在實驗中,采用WaveNet架構的系統性能優于采用GriffinLim算法作為波形轉換器的系統。實驗中,隨著訓練步數的增加,系統的性能提高,迭代至200k次后趨于穩定。調整字符的表征方式,可以實現不同語言的合成。由于中文特征表達以及韻律結構較為復雜,所以合成自然度不如英文語音。

本次實驗中采用的Seq2Seq架構主要為RNN的組合。在后續的研究中會探討其他網絡組合對合成質量的影響,對WaveNet網絡結構進行修訂以提升收斂速度也是一個值得研究的課題。

參考文獻 (References)

[1] FUNG P, SCHULTZ T. Multilingual spoken language processing [J]. IEEE Signal Processing Magazine, 2008, 25(3):89-97.

[2] HUNT A J, BLACK A W. Unit selection in a concatenative speech synthesis system using a large speech database[C]// Proceedings of the 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1996: 373-376.

[3] CAMPBELL N, BLACK A W. Prosody and the selection of source units for concatenative synthesis [M]// Progress in Speech Synthesis. New York: Springer, 1997: 279-292.

[4] ZE H, SENIOR A, SCHUSTER M. Statistical parametric speech synthesis using deep neural networks [C]// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013:7962-7966.

[5] TOKUDA K, NANKAKU Y, TODA T, et al. Speech synthesis based on hidden Markov models[J]. Proceedings of the IEEE, 2013, 101(5): 1234-1252.

[6] ZEN H, TOKUDA K, BLACK A W. Statistical parametric speech synthesis [J]. Speech Communication, 2009, 51(11):1039-1064.

[7] OORD A V D, DIELEMAN, ZEN H, et al. WaveNet: a generative model for raw audio[J/OL]. arXiv Preprint, 2016, 2016: arXiv:1609.03499 (2016-09-12) [2016-09-19]. https://arxiv.org/abs/1609.03499.

[8] ARIK S O, CHRZANOWSKI M, COATES A, et al. Deep Voice: realtime neural texttospeech [J/OL]. arXiv Preprint, 2017, 2017: arXiv:1702.07825 (2017-02-25) [2017-03-07]. https://arxiv.org/abs/1702.07825.

[9] SOTELO J, MEHRI S, KUMAR K, et al. Char2Wav: endtoend speech synthesis [EB/OL].[2018-06-20]. http://mila.umontreal.ca/wpcontent/uploads/2017/02/endendspeech.pdf.

[10] WANG Y, SKERRYRYAN R, STANTON D, et al. Tacotron: towards endtoend speech synthesis [J/OL]. arXiv Preprint, 2017, 2017: arXiv:1703.10135 (2017-03-29) [2017-04-06]. https://arxiv.org/abs/1703.10135.

[11] GRIFFIN D, LIM J S. Signal estimation from modified shorttime Fourier transform [J]. IEEE Transactions on Acoustics Speech and Signal Processing, 1984, 32(2):236-243.

[12] CHOROWSKI J K, BAHDANAU D, SERDYUK D, et al. Attentionbased models for speech recognition [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 577-585.

[13] BAHDANAU D, CHOROWSKI J, SERDYUK D, et al. Endtoend attentionbased large vocabulary speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 4945-4949.

[14] CHAN W, JAITLY N, LE Q, et al. Listen, attend and spell: a neural network for large vocabulary conversational speech recognition [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016:4960-4964.

[15] VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:3156-3164.

[16] VINYALS O, KAISER L, KOO T, et al. Grammar as a foreign language[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2773-2781.

[17] LEE J, CHO K, HOFMANN T. Fully characterlevel neural machine translation without explicit segmentation[J/OL]. arXiv Preprint, 2017, 2017: arXiv:1610.03017 (2016-10-10) [2017-05-13]. https://arxiv.org/abs/1610.03017.

[18] SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks [J/OL]. arXiv Preprint, 2015, 2015: arXiv:1505.00387 (2015-03-03) [2015-11-03]. https://arxiv.org/abs/1505.00387.

[19] ERRO D, SAINZ I, NAVAS E, et al. Harmonics plus noise model based vocoder for statistical parametric speech synthesis [J]. IEEE Journal of Selected Topics in Signal Processing, 2014, 8(2):184-194.

[20] AOKI N. Development of a rulebased speech synthesis system for the Japanese language using a MELP vocoder [C]// Proceedings of the 2000 10th European Signal Processing Conference. Piscataway, NJ: IEEE, 2000: 1-4.

[21] GUNDUZHAN E, MOMTAHAN K. Linear prediction based packet loss concealment algorithm for PCM coded speech [J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(8): 778-785.

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产尹人香蕉综合在线电影| 天天摸夜夜操| 在线观看热码亚洲av每日更新| 制服丝袜一区| 精品精品国产高清A毛片| 四虎成人在线视频| 91www在线观看| 国产剧情一区二区| 国产成人精品在线1区| 国产极品美女在线观看| 五月天综合婷婷| 99精品福利视频| 亚洲无码日韩一区| 三上悠亚在线精品二区| 久久夜色撩人精品国产| 亚洲美女一级毛片| 亚洲综合狠狠| 国产微拍精品| 国产99视频免费精品是看6| 国产伦精品一区二区三区视频优播| 欧美成人国产| 亚洲色婷婷一区二区| 香蕉精品在线| 99久久精彩视频| 91网在线| 中文字幕久久精品波多野结| 亚洲高清无在码在线无弹窗| 久久视精品| 米奇精品一区二区三区| 特级做a爰片毛片免费69| 亚洲福利视频一区二区| 老司机aⅴ在线精品导航| 色妞永久免费视频| 国产综合欧美| 无码一区二区波多野结衣播放搜索| 免费一级全黄少妇性色生活片| 国产美女主播一级成人毛片| 欧美精品1区2区| 伊在人亞洲香蕉精品區| 国产精品任我爽爆在线播放6080| 免费黄色国产视频| 国产亚洲精品91| 欧美午夜在线视频| 老色鬼欧美精品| 亚洲人成影院在线观看| 亚洲欧洲国产成人综合不卡| 伊人AV天堂| 青青青国产视频手机| 国产精品网曝门免费视频| 亚洲精品va| 亚洲中文字幕无码爆乳| 中文字幕无码中文字幕有码在线 | 国产精品亚欧美一区二区| 中文字幕久久波多野结衣| 国产无套粉嫩白浆| 国产成人免费观看在线视频| 国产成人高精品免费视频| a在线亚洲男人的天堂试看| 欧美日韩久久综合| 天天综合网亚洲网站| 亚洲视频免费在线看| 男女猛烈无遮挡午夜视频| 青青网在线国产| 婷婷综合缴情亚洲五月伊| a级毛片在线免费观看| 99久久精品国产麻豆婷婷| 国产白浆在线| 又爽又黄又无遮挡网站| 国产精品一线天| 久久天天躁狠狠躁夜夜躁| 欧美日本在线播放| 99视频在线精品免费观看6| 久久精品中文字幕免费| 亚洲色成人www在线观看| 国产欧美精品专区一区二区| 毛片一区二区在线看| 国产美女精品在线| 国产乱子伦无码精品小说| 久久永久精品免费视频| 国产一区二区三区在线观看免费| 亚洲第一色视频| 亚洲三级成人|