







摘" 要: 以Web of Science中近20年收錄的1 846篇語(yǔ)音合成領(lǐng)域文獻(xiàn)為研究對(duì)象,采用文獻(xiàn)計(jì)量分析方法,利用CiteSpace可視化分析工具繪制知識(shí)網(wǎng)絡(luò)圖譜,系統(tǒng)回顧該領(lǐng)域的研究概況及研究熱點(diǎn),理清研究發(fā)展脈絡(luò)。研究發(fā)現(xiàn),語(yǔ)音合成的理論研究已經(jīng)相對(duì)成熟,神經(jīng)網(wǎng)絡(luò)成為語(yǔ)音合成領(lǐng)域里使用的新興技術(shù)。另外,在該領(lǐng)域中日本、中國(guó)、英國(guó)及美國(guó)的科研機(jī)構(gòu)具有較強(qiáng)的科研能力。通過(guò)上述工作,希望為我國(guó)語(yǔ)音合成領(lǐng)域的研究提供進(jìn)一步的參考和幫助。
關(guān)鍵詞: 語(yǔ)音合成; 文獻(xiàn)計(jì)量分析; CiteSpace; 知識(shí)網(wǎng)絡(luò)圖譜; 研究現(xiàn)狀; 發(fā)展脈絡(luò)
中圖分類(lèi)號(hào): TN912.3?34" " " " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " " "文章編號(hào): 1004?373X(2019)21?0116?04
Abstract: The literatures of 1846 speech synthesis fields collected in the Web of Science in the last 20 years are taken as the research object. The bibliometric analysis method is used. The CiteSpace visual analysis tool is used to draw the knowledge network atlas. The research and research hotspots in the field are systemastically reviewed and the research development context is sorted out. It is found in the study that the theoretical research of speech synthesis has been relatively mature, and the neural network becomes a research hotspot in the speech synthesis field in recent years. In addition, scientific research institutions in the United States, Japan, China, and the United Kingdom have strong scientific research capabilities in this field. Through, It is hoped that the above work can provide further reference and help for the study in the field of Chinese speech synthesis.
Keywords: speech synthesis; bibliometric analysis; CiteSpace; knowledge network atlas; research status; development context
0" 引" 言
語(yǔ)音合成技術(shù)作為人機(jī)語(yǔ)音交互的核心技術(shù),被越來(lái)越多的研究者給予關(guān)注和重視。語(yǔ)音合成技術(shù)的發(fā)展已有幾十年的歷史,取得了很多優(yōu)秀的研究成果。雖然國(guó)內(nèi)很多專(zhuān)家從不同的視角對(duì)語(yǔ)音合成進(jìn)行了總結(jié)和綜述,但還沒(méi)有從知識(shí)圖譜的角度對(duì)語(yǔ)音合成領(lǐng)域進(jìn)行總結(jié)分析。鑒于此,本文利用CiteSpace工具對(duì)通過(guò)Web of Science平臺(tái)收集到的關(guān)于語(yǔ)音合成的核心文獻(xiàn)進(jìn)行計(jì)量分析并繪制知識(shí)圖譜,從宏觀角度闡述以下兩個(gè)問(wèn)題:國(guó)內(nèi)外近20年來(lái)在語(yǔ)音合成領(lǐng)域的研究概況以及主要研究熱點(diǎn)。
1" 數(shù)據(jù)來(lái)源和研究方法的說(shuō)明
1.1" 數(shù)據(jù)來(lái)源
本文研究的文獻(xiàn)來(lái)源于信息檢索平臺(tái)Web of Science的核心數(shù)據(jù)庫(kù),數(shù)據(jù)采用以下的方式收集:
1) 標(biāo)題詞檢索方法:TI=“speech synthesis”O(jiān)R“text to speech”O(jiān)R“voice synthesis”O(jiān)R“concept to speech”O(jiān)R“intention to speech”O(jiān)R“text to voice”;
2) 時(shí)間跨度:1999—2018年;
3) 文獻(xiàn)類(lèi)型:期刊(ARTICLE)和會(huì)議論文(PROCEEDINGS PAPER)。共得到1 846篇關(guān)于語(yǔ)音合成領(lǐng)域的核心文獻(xiàn)并下載每個(gè)文獻(xiàn)的28條記錄信息,包括標(biāo)題、作者、摘要、關(guān)鍵詞、參考文獻(xiàn)等。
1.2" 研究方法的說(shuō)明
本文主要采用計(jì)量分析和圖譜分析方法,通過(guò)它們揭示相關(guān)領(lǐng)域的知識(shí)來(lái)源和發(fā)展規(guī)律,并把知識(shí)結(jié)構(gòu)關(guān)系和演化規(guī)律用圖形的方式呈現(xiàn)出來(lái)。可視化工具CiteSpace就是可以用于追蹤研究領(lǐng)域熱點(diǎn)和發(fā)展趨勢(shì)的文獻(xiàn)計(jì)量分析工具。本文通過(guò)CiteSpace對(duì)1 846篇文獻(xiàn)進(jìn)行研究機(jī)構(gòu)的合作網(wǎng)絡(luò)分析、研究熱點(diǎn)的演化分析以及高共被引文獻(xiàn)的統(tǒng)計(jì)分析。
2" 研究概況
2.1" 主要研究機(jī)構(gòu)分析
通過(guò)對(duì)語(yǔ)音合成領(lǐng)域的文獻(xiàn)發(fā)表量的研究機(jī)構(gòu)進(jìn)行基本情況統(tǒng)計(jì)后發(fā)現(xiàn)發(fā)文量超過(guò)9篇以上的機(jī)構(gòu)有18所。表1列出的是文獻(xiàn)量排名前10的研究機(jī)構(gòu)。圖1是研究機(jī)構(gòu)直接的合作網(wǎng)絡(luò)關(guān)系圖,其中連線代表兩個(gè)研究機(jī)構(gòu)之間有合作關(guān)系;文字大小代表發(fā)文量的多少,文字越大發(fā)文量越多,文字越小發(fā)文量越少。
通過(guò)表1得知,Top10榜單里的研究機(jī)構(gòu)共來(lái)自5個(gè)國(guó)家,分別是日本3所,中國(guó)3所,英國(guó)2所,捷克和美國(guó)各1所。通過(guò)對(duì)國(guó)家發(fā)文量的統(tǒng)計(jì),發(fā)現(xiàn)日本在語(yǔ)音合成領(lǐng)域里發(fā)表的文獻(xiàn)量居世界首位,中國(guó)和美國(guó)的發(fā)文量分別排在第二位和第三位。
2.2" 主要作者分析
根據(jù)基本統(tǒng)計(jì)分析,研究文獻(xiàn)共涉及到的作者中,發(fā)文量超過(guò)10篇的作者有58位,發(fā)文量超過(guò)20篇的作者有16位。發(fā)文量排名前10的作者如表2所示。
通過(guò)表2的首次發(fā)文年份的分布來(lái)看,高產(chǎn)作者的首次發(fā)文年份最早是從2003年開(kāi)始的。發(fā)文量最多的作者是Yamagishi J,表3列出的高被引文獻(xiàn)里該作者的文獻(xiàn)有3篇,該3篇文獻(xiàn)都與隱馬爾科夫模型有關(guān),并結(jié)合他的其他文獻(xiàn)分析發(fā)現(xiàn),該作者的研究重點(diǎn)主要集中在基于隱馬爾科夫模型的語(yǔ)音合成,而從他近幾年的文獻(xiàn)分析發(fā)現(xiàn)他現(xiàn)在的研究重點(diǎn)轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)的研究,該作者在2018年與Wang X等人合著的一篇文獻(xiàn)主要研究了深度神經(jīng)網(wǎng)絡(luò)在統(tǒng)計(jì)參數(shù)語(yǔ)音合成中的性能[1],特別是深層網(wǎng)絡(luò)能否更好地產(chǎn)生不同聲學(xué)特征的問(wèn)題。排在第二位的是作者Tokuda K,該作者在2018年發(fā)表的文獻(xiàn)[2]里提出了一種基于梅爾倒譜的量化噪聲整形方法,提高了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音波形合成系統(tǒng)的合成語(yǔ)音質(zhì)量。作者Kobayashi T發(fā)文量排在第三位,文獻(xiàn)[3]是他近幾年與Nose T等人合作的一篇文獻(xiàn),該文獻(xiàn)里提出了一種用于語(yǔ)音合成和韻律平衡的緊湊記錄腳本的句子選擇技術(shù),與傳統(tǒng)的句子選擇技術(shù)相比,該技術(shù)所生成的語(yǔ)音參數(shù)更接近自然語(yǔ)音的語(yǔ)音參數(shù)。
2.3" 高被引文獻(xiàn)分析
高被引文獻(xiàn)是一個(gè)研究領(lǐng)域的重要知識(shí)來(lái)源,反映某一學(xué)科的研究水平、發(fā)展方向,是探究熱點(diǎn)主題、研究演化的重要依據(jù)[4]。表3列出的是被引頻次較多的10篇文獻(xiàn),被引頻次主要來(lái)自于本論文研究的數(shù)據(jù)。
作者Zen H等人發(fā)表的文獻(xiàn)《Statistical parametric speech synthesis》的被引次數(shù)最多[5],該文綜述了統(tǒng)計(jì)參數(shù)語(yǔ)音合成中常用的技術(shù),對(duì)統(tǒng)計(jì)參數(shù)語(yǔ)音合成技術(shù)和傳統(tǒng)的單元選擇合成技術(shù)進(jìn)行比較,總結(jié)了統(tǒng)計(jì)參數(shù)語(yǔ)音合成的優(yōu)點(diǎn)和缺點(diǎn)并對(duì)未來(lái)工作進(jìn)行展望。作者Yamagishi J等人發(fā)表的文獻(xiàn)[6]排在第二位,本文提出新的適應(yīng)算法約束結(jié)構(gòu)最大線性回歸,該方法在語(yǔ)音合成中獲得了更好、更穩(wěn)定的說(shuō)話(huà)人自適應(yīng),具有很強(qiáng)的實(shí)用性和有效性。文獻(xiàn)[7?8]是表3里2013年發(fā)表的兩篇文獻(xiàn),文獻(xiàn)[7]討論了基于隱馬爾科夫模型的語(yǔ)音合成技術(shù)在改變說(shuō)話(huà)者身份、情感和說(shuō)話(huà)風(fēng)格方面的靈活性;文獻(xiàn)[8]提出基于深度神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)參數(shù)語(yǔ)音合成方法,使用深度神經(jīng)網(wǎng)絡(luò)來(lái)解決傳統(tǒng)統(tǒng)計(jì)參數(shù)語(yǔ)音合成方法的一些局限性。
通過(guò)表3的關(guān)注點(diǎn)來(lái)看,基于隱馬爾科夫模型的語(yǔ)音合成技術(shù)是語(yǔ)音合成領(lǐng)域的重點(diǎn)語(yǔ)音合成技術(shù),說(shuō)話(huà)人自適應(yīng)技術(shù)成為語(yǔ)音合成領(lǐng)域較為重要的研究技術(shù),而深度神經(jīng)網(wǎng)絡(luò)是近幾年語(yǔ)音合成領(lǐng)域里使用的新興技術(shù)。
3" 研究熱點(diǎn)
關(guān)鍵詞是文獻(xiàn)主題內(nèi)容的高度提煉,對(duì)關(guān)鍵詞出現(xiàn)的變化進(jìn)行分析可以了解各時(shí)期的研究熱點(diǎn)[9]。表4列出的是頻次較多、中心性較高、激增值較大的按首次激增年份排序的關(guān)鍵詞。
1) 頻次(Freq)指標(biāo)計(jì)量分析
通過(guò)圖2,頻次較多的關(guān)鍵詞“hidden markov model”“text to speech”“unit selection”的首次研究年份集中在1999—2002年,這些研究為語(yǔ)音合成技術(shù)的發(fā)展奠定了基礎(chǔ)。到2005年,關(guān)鍵詞“hmm?based speech synthesis”出現(xiàn),隱馬爾科夫模型被用到語(yǔ)音合成研究里面,基于隱馬爾科夫模型的語(yǔ)音合成技術(shù)從該時(shí)期開(kāi)始研究。到2006年,語(yǔ)音轉(zhuǎn)換技術(shù)應(yīng)用到語(yǔ)音合成領(lǐng)域里,進(jìn)一步促進(jìn)了語(yǔ)音合成技術(shù)的發(fā)展。
2) 中心性(Centrality)指標(biāo)計(jì)量分析
通過(guò)表4的關(guān)鍵詞的中心性結(jié)合圖2發(fā)現(xiàn),“system”“hidden markov model”“text to speech”等關(guān)鍵詞的中心性相比其他關(guān)鍵詞的中心性較高,首次出現(xiàn)的年份較早,該結(jié)果表示系統(tǒng)、隱馬爾科夫模型和文本到語(yǔ)音的研究在語(yǔ)音合成領(lǐng)域里研究的時(shí)間較長(zhǎng),是較為重要的研究方向。關(guān)鍵詞“speaker adaptation”“concatenative speech synthesis”“unit selection”的中心性都大于0.02,說(shuō)話(huà)人自適應(yīng)是語(yǔ)音合成技術(shù)的核心研究部分,級(jí)聯(lián)語(yǔ)音合成受單元選擇中使用的單元的庫(kù)存支配達(dá)到高度自然的合成語(yǔ)音質(zhì)量,單元選擇是語(yǔ)音合成領(lǐng)域一個(gè)較為重要的研究熱點(diǎn),文獻(xiàn)[10]提出的基于隱馬爾科夫模型的語(yǔ)音合成方法就用到單元選擇。
3) 激增(Burst)指標(biāo)計(jì)量分析
激增指數(shù)的關(guān)注點(diǎn)是單個(gè)主題的自身發(fā)展變化過(guò)程,可以展示熱點(diǎn)主題的凸顯性。通過(guò)表4關(guān)鍵詞的激增值和開(kāi)始激增年份發(fā)現(xiàn),1999—2005年主要的研究主題是圍繞規(guī)則、文本到語(yǔ)音和語(yǔ)音處理等,該時(shí)期的大部分研究工作都在基礎(chǔ)的核心部分研究;2006—2014年,研究主題的關(guān)注點(diǎn)在語(yǔ)音合成技術(shù)的模型,基于隱馬爾科夫模型的語(yǔ)音合成技術(shù)成為重點(diǎn),語(yǔ)音轉(zhuǎn)換和說(shuō)話(huà)人自適應(yīng)技術(shù)受到了前所未有的重視;2014—2018年,神經(jīng)網(wǎng)絡(luò)成為語(yǔ)音合成領(lǐng)域重要的研究方向,深度學(xué)習(xí)在語(yǔ)音合成領(lǐng)域的應(yīng)用進(jìn)一步促進(jìn)該領(lǐng)域的快速發(fā)展。
通過(guò)前文的分析和研究發(fā)現(xiàn),數(shù)據(jù)可視分析研究的發(fā)展分為三個(gè)階段:1999—2005年,初步發(fā)展時(shí)期; 2006—2014年,快速發(fā)展時(shí)期;2015年—至今,深入發(fā)展時(shí)期,如表5所示。
4" 結(jié)" 語(yǔ)
國(guó)際語(yǔ)音合成領(lǐng)域的研究文獻(xiàn)質(zhì)量不斷在穩(wěn)步提升,日本、中國(guó)和英國(guó)的一些研究機(jī)構(gòu)在國(guó)際上發(fā)文量多,與其他研究機(jī)構(gòu)合作關(guān)系較密切。基于隱馬爾科夫模型的語(yǔ)音合成是該領(lǐng)域的研究重點(diǎn),而近幾年語(yǔ)音合成領(lǐng)域開(kāi)始使用神經(jīng)網(wǎng)絡(luò)技術(shù),解決傳統(tǒng)語(yǔ)音合成方法遇到的問(wèn)題。目前,語(yǔ)音合成領(lǐng)域的研究越來(lái)越多,分支越來(lái)越細(xì),在未來(lái)的發(fā)展上,語(yǔ)音合成領(lǐng)域的研究將不斷深入,會(huì)有越來(lái)越多不同領(lǐng)域的技術(shù)應(yīng)用到語(yǔ)音合成領(lǐng)域。
參考文獻(xiàn)
[1] WANG X, TAKAKI S, YAMAGISHI J. Investigating very deep highway networks for parametric speech synthesis [C]// ISCA Speech Synthesis Workshop. [S. l.]: ISCA, 2016: 166?171.
[2] YOSHIMURA T, HASHIMOTO K, OURA K, et al. Mel?cepstrum?based quantization noise shaping applied to neural?network?based speech waveform synthesis [J]. IEEE/ACM transactions on audio speech amp; language processing, 2018(99): 1.
[3] NOSE T, ARAO Y, KOBAYASHI T, et al. Sentence selection based on extended entropy using phonetic and prosodic contexts for statistical parametric speech synthesis [J]. IEEE/ACM transactions on audio speech amp; language processing, 2017, 25(5): 1107?1116.
[4] 楊良斌,周新麗,劉益佳,等.近10年來(lái)國(guó)際網(wǎng)絡(luò)安全領(lǐng)域研究現(xiàn)狀與趨勢(shì)的可視化分析[J].情報(bào)雜志,2017,36(1):92?100.
YANG Liangbin, ZHOU Xinli, LIU Yijia, et al. The specialty visualization study of current trends and issues of international network security fields in recent 10 years [J]. Journal of intelligence, 2017, 36(1): 92?100.
[5] ZEN H, TOKUDA K, BLACK A W. Statistical parametric speech synthesis [J]. Speech communication, 2009, 51(11): 1039?1064.
[6] YAMAGISHI J, KOBAYASHI T, NAKANO Y, et al. Analysis of speaker adaptation algorithms for HMM?based speech synthesis and a constrained SMAPLR adaptation algorithm [J]. IEEE transactions on audio speech amp; language processing, 2009, 17(1): 66?83.
[7] TOKUDA K, NANKAKU Y, TODA T, et al. Speech synthesis based on hidden Markov models [J]. Proceedings of the IEEE, 2013, 101(5): 1234?1252.
[8] ZEN H, SENIOR A, SCHUSTER M. Statistical parametric speech synthesis using deep neural networks [C]// IEEE International Conference on Acoustics, Speech and Signal Proce?ssing. [S. l.]: IEEE, 2013: 7962?7966.
[9] 莊少霜.近二十年國(guó)外認(rèn)知語(yǔ)言學(xué)領(lǐng)域研究的可視化分析:基于CiteSpaceⅡ的計(jì)量分析[J].哈爾濱學(xué)院學(xué)報(bào),2016,37(8):97?101.
ZHUANG Shaoshuang. Emerging trends in cognitive linguistics (1996—2015) —a quantitative analysis by CiteSpaceⅡ[J]. Journal of Harbin University, 2016, 37(8): 97?101.
[10] XIA X J, LING Z H, JIANG Y, et al. Hmm?based unit selection speech synthesis using log likelihood ratios derived from perceptual data [J]. Speech communication, 2014, 63?64(3): 27?37.