VOCALOID3的歌聲合成技術(shù)應用研究

2017-10-28 04:56:32黃巧斌

小說月刊 2017年23期

關(guān)鍵詞：研究

黃巧斌

（武漢大學文學院湖北武漢 430072）

歌聲合成技術(shù)是指通過語音合成技術(shù)相關(guān)技術(shù)讓計算機合成出模擬人聲的歌聲。優(yōu)點在于便于創(chuàng)作和修改，能獲得較為完美的歌聲。這是一個非常有前景的方向。比如，相應的虛擬歌手可以創(chuàng)造巨大收益，它們與真實歌手無異，也可以出唱片、開演唱會。目前最有名的是初音未來，她是基于Vocaloid軟件作為音源的虛擬歌手，每天都有成千上萬的粉絲為其創(chuàng)作。此外，歌聲合成也突破了人類生理限制，音域廣、歌唱速度的可調(diào)節(jié)性也是它獨特的優(yōu)勢之一。因此，這方面的研究非常有價值。

1 研究現(xiàn)狀

目前，學界關(guān)于研究歌聲合成的研究處于起步階段，主要集中在原理研究階段。比如Vocaloid的開發(fā)者劍持秀紀先生在《Vocaloid-Commercial singing synthesizer based on sample concatenation》一文中劍持秀紀談及了Vocaloid的開發(fā)，生存現(xiàn)狀，插件的兼容性以及和其他合成技術(shù)的對比。楊心祎的《歌聲合成技術(shù)與應用研究》（2015）結(jié)合Vocaloid3分別對歌聲合成技術(shù)在音樂創(chuàng)作中的應用及其技術(shù)原理的研究。周樹森的《基于語料庫的歌聲合成方法》（2008）、李錦瓏在《基于參數(shù)修改的中文歌聲合成算法的研究》（2011）等討論了歌聲合成技術(shù)的算法，主要包括波形拼接和統(tǒng)計模型方法等。李錦瓏，楊鴻武，梁青青，裴東，劉慧娟先生的《歌詞到歌曲轉(zhuǎn)換系統(tǒng)的實現(xiàn)》（2010），此文重點研究了如何以旋律控制模型結(jié)合語音合成技術(shù)，實現(xiàn)從中文歌詞到歌曲的合成。

綜上，目前歌聲合成技術(shù)的研究一定程度上都局限于理論探討，很少有從實際操作中對操作者的體驗進行總結(jié)的研究。因此，本文基于VOCALOID3原理與實際操作中的問題提出相應建議。

2 Vocaloid3歌聲合成原理

本文選取的研究對象為Yamaha開發(fā)的電子音樂制作語音合成軟件VOCALOID3。VOCALOID的原型由劍持秀紀（Kenmochi Hideki）率領(lǐng)西班牙大學的研究小組開發(fā)。主要通過音調(diào)和歌詞的輸入，目的是將兩者整合輸出為合成為原為人類聲音的歌聲。2004年1月15日發(fā)布第一版，目前最新版本是VOCALOID4，但是由于漢化版難以獲取，而且這幾個新功能與本研究關(guān)系不是很大，所以，本文選擇了VOCALOID3作為研究對象。

2.1 歌聲合成器

Vocaloid3主要基于西班牙龐培法布拉大學的Music Technology Group（MTG）在歌聲合成方面的研究成果，他們提出了基于表演采樣的歌聲合成方法。這一方法并不直接對歌聲波形進行拼接，而是基于源一濾波器模型提出了EpR（Excitation plus Resoiiances）聲音模型，使用該模型對歌聲進行參數(shù)化。

合成歌聲時，分為兩步，第一步為根據(jù)輸入樂譜生成表演軌跡，表演軌跡包含了聲音空間中所有的值，第二步為根據(jù)表演軌跡進行搜索匹配和修改轉(zhuǎn)換。

2.2 音源庫原理

音源庫（Singer Library）作為系統(tǒng)架構(gòu)的重要組成部分，任何通過Vocaloid許可的音源庫或數(shù)據(jù)庫中的聲音片段都采樣自真實的人聲素材。該音源數(shù)據(jù)庫必須包含相對應目標語言中所有音素以及所有可能的因素組合，包括雙連音（又稱雙音素，為相連的兩個不同的音素的組合）和長元音（sustained vowels，即持續(xù)時間相對較長的元音）；必要時，還需要包括成分超過兩個音素的多音組合（polyphones，大于或等于三個音素的組合）。

Vocaloid系統(tǒng)的原理是通過改變這些采樣素材片段的音高，從而使它們能符合旋律的走向。為了獲得更自然的聲音，即縮短原始素材與目標的音高差，每個片段需要在音源庫中儲存三個到四個不同的音高范圍的素材。而且準確度不一定高。例如，由于日文本身的特點就是音素的含量較少，這就造成把雙音素記錄到英語音源庫的難度比日語音源庫要大得多。雖然早前日本版本的Vocaloid發(fā)行商聲稱可以唱出英文，但從理論性和技術(shù)性的角度來說這是較難實現(xiàn)的，因此，日版音源庫調(diào)試英語歌曲時，使用的都是和式英語發(fā)音，還原度并不高。

波形拼接這一原理產(chǎn)生的歌聲質(zhì)量較高，但這一方法建立聲音空間的過程非常復雜，需要完全人工介入，工作量龐大，每種語言也需要重新建立大量規(guī)則。導致Vocaloid軟件的實際操作也非常繁瑣，要想得到理想的音頻，后期需要大量的人工的參數(shù)調(diào)節(jié)。另一方面由于需要存儲的參數(shù)非常多，占存儲空間也比較大。

3 操作過程的不足

3.1 處理過程繁瑣

Vocaloid3雖然是目前市場普及最廣的歌聲合成軟件，能夠合成較為理想的音頻文件，但是實際操作過程非常繁瑣。而且自身的功能也不是特別完善，比如不能直接進行歌詞的一次性輸入。

歌曲的部分剪輯也存在問題，如果midi文件中存在很多空白段，并不能進行快速的刪減，如果要在Vocaloid3中進行編輯，只能選擇將后面的音段前移，選擇過程也只能進行部分選擇，操作過于繁瑣，所以，在歌曲編輯完以后用別的音頻軟件進行空白音段的剪輯反而更方便。

3.2 漢語拼音與國際音標之間的轉(zhuǎn)換存在缺陷

實際調(diào)試的過程中，雖然可以進行拼音的拆分，但是由于很多漢語音節(jié)并不能直接用合適的國際音標表示，國際音標的匹配過程也較為復雜。

3.3 調(diào)試功能不夠完善

此外，它自身功能不能滿足歌曲的調(diào)試，網(wǎng)絡上有很多調(diào)試愛好者制作了很多插件，以滿足調(diào)試需求。將所選區(qū)域音符延長至相連的Connect Notes連接音符、起到低聲說話效果的Whisper、EG DYN 動態(tài) 控制、ZigZagDYN 動態(tài) 控制、Insert Rest縮距插入、Timing Randomize 隨機、Adjust Gain DYN 增益、Vibrato Type Conversion顫音類型轉(zhuǎn)換等。但是，安裝和處理這些插件也是一件比較繁瑣的事情。最好的方法是在進行軟件升級的過程中擇優(yōu)整合一些比較好的插件，完善軟件自身功能。

3.4 字過于正

語音合成的音樂中，所有的字都唱得非常清晰，缺少字句之間的自然銜接，導致整首歌有一種咬字過重的感覺。這一點也導致給字句之間自然過渡的聽覺時間減少了，導致歌曲的流暢度大打折扣，這一點單靠調(diào)試很難解決。

4 建議

4.1 加入漢語聲調(diào)調(diào)節(jié)的操作

該軟件并沒有將漢語的聲調(diào)納入處理過程。漢語聲調(diào)作為區(qū)別意義的重要部分，并沒有在歌曲處理中得到體現(xiàn)。雖然對于歌詞意義的表達無太大影響，但是影響了歌曲意境、情感，以及流暢度的表達。

楊仕芳在《歌唱語音形態(tài)研究——以漢語歌唱中的“聲調(diào)”為例》中提出由于聲調(diào)它是屬于相對音高，而音樂旋律它是屬于絕對音高，在歌唱中即要注重旋律的絕對音高，又要把握好聲調(diào)的相對音高，還要關(guān)注音節(jié)之間聲調(diào)音高的對比特性，只有三者配合融洽才能根據(jù)音樂的旋律形態(tài)準確地具有不同調(diào)值音高的音節(jié)，使音節(jié)之間達到自然地連接。中國傳統(tǒng)聲樂演唱中的“以字行腔”的手法，在一定程度上就是要根據(jù)語音的聲調(diào)來進行即興的旋律裝飾和潤腔，從而形成風格獨特的歌唱語音形態(tài)。

漢語屬于單音節(jié)語，即一字一音，因而聲調(diào)的音高存在使具有很強的表意功能，也容易產(chǎn)生抑揚頓挫的美感效果。如果將這一因素考慮至歌聲合成當中，便可以讓歌聲的過渡得更加自然。這里的聲調(diào)并不局限于傳統(tǒng)的調(diào)值，而是一個相對值。針對前面所說的“字過于正”，我們可以將聲調(diào)考慮其中，讓聲調(diào)隨著音高變化，有利于緩和歌曲的生硬感。

比如維吾爾族民歌《掀起你的蓋頭來》中，語音重音應著重強調(diào)“掀”的動作、掀的對象“蓋頭”，還有掀后所看到的形象一“眉毛”、“眼睛”、“臉兒”。這些詞語和音節(jié)在演唱時聲調(diào)音高應向高頻靠近外，更重要的是聲調(diào)的“音長”要拉長，聲音要飽滿，同時音量也要加大。其中“掀”這個音節(jié)主要是拉長聲調(diào)的“音長”；“蓋頭”這個詞語主要是強調(diào)“蓋”這個音節(jié)聲調(diào)的“去聲”發(fā)聲特征，同時延長聲調(diào)的“音長”并加大“音量”，音節(jié)“頭”則在聲調(diào)的發(fā)聲上作“輕聲”處理；“眉毛”、“眼睛”、“臉兒”這幾個詞語的的聲調(diào)重音化主要體現(xiàn)在對詞語第一個音節(jié)聲調(diào)“陽平”的“上陽性”作著重強調(diào)，主要是延長聲調(diào)的“音長”，第一個音節(jié)作“輕聲”處理。不過，每一首歌聲調(diào)變化的位置都不一樣，為了簡化軟件操作，可以增加一個標記插件，在文本處理前進行簡單的標記，就可以讓后期的操作更加簡單。

4.2 結(jié)合隱馬爾可夫模型的歌聲合成模型

軟件原有的處理方法 Music Technology Group（MTG）建立聲音空間的過程非常復雜，而Vocaloid的語種涵蓋較為廣泛，為了更好更快的處理語言文本，合成出自然的歌聲，我們可以結(jié)合隱馬爾可夫模型，簡化繁瑣的語言模型。通過基于EpR（Excitation plus Resoiiances）聲音模型統(tǒng)計文字的發(fā)音概率，建立隱性表現(xiàn)概率矩陣B，再統(tǒng)計字詞之間的轉(zhuǎn)換概率。就可以得到較為精確的歌聲基頻。比如：將樂譜中包含的基頻信息引入到歌聲基頻的生成算法中，避免了因數(shù)據(jù)稀疏而造成的合成音高在時間和頻譜結(jié)構(gòu)上出現(xiàn)偏差的問題，可以合成出與樂譜相一致的具有精準音高的基頻。

4.3 文本分析過程中增加歌詞與音符匹配處理環(huán)節(jié)

Vocaloid的文本分析過程中最大的問題就是文本與曲譜沒有建立有效的聯(lián)系，導入歌詞的過程也無音樂邏輯，現(xiàn)有的歌詞錄入法只是機械的將拼音一次性放入曲譜中，這種方法對于復雜的歌曲而言不具備可行性。因此，系統(tǒng)需要提前對歌詞進行分析。在歌詞錄入的前期對文本進行語音的頻譜、音節(jié)時長、語音特征等方面的分析，為歌詞與曲譜的結(jié)合提供那個數(shù)據(jù)基礎，再在最后面的合成過程中加入歌詞與樂譜的匹配度分析，提高歌詞與樂譜的粘合度。

4.4 基于二次創(chuàng)作的改進

Vocaloid的用戶群主要以二次創(chuàng)作人群為主，即對已生成的歌曲進行再加工再創(chuàng)造。“真正讓Vocaloid以及基于其制作的音樂廣為傳播的不是音樂本身，而是來自于基于這些音樂的二次擴展創(chuàng)作。”只有在處理好原有歌曲數(shù)據(jù)的前提下，才能為二次創(chuàng)作提供更好的基礎。

從以上分析可知，用Vocaloid創(chuàng)作歌曲的主要問題集中在歌詞輸入和參數(shù)調(diào)節(jié)，其主要原因是音源庫缺乏對歌詞與音樂的匹配處理，以及擬人化參數(shù)處理。解決這兩方面的問題可以從原有歌曲的分析處理方面入手。即增加原歌曲預處理步驟。在歌曲制作之前增加一個導入原有歌聲的步驟，讓系統(tǒng)對歌曲進行預處理，并獲得相關(guān)參數(shù)以后，增加音頻文件轉(zhuǎn)midi和VSQ文件的處理，可以增大歌曲成曲的質(zhì)量，二次創(chuàng)作也會更加容易。如果預處理后只留取相關(guān)參數(shù)，對原有運行空間的影響并不大。

［1］剣持秀紀，大下隼人.VOCALOID-Commercial singing synthesizer based on sample concatenation［J］.IPSJ SIG Technical Report，2008（2）：P10-23.

［2］李錦瓏，楊鴻武，梁青青.歌詞到歌曲轉(zhuǎn)換系統(tǒng)的實現(xiàn)［J］.計算機工程與應用，2010（16）：124-126.

［3］周樹森.基于語料庫的歌聲合成方法［D］.碩士.哈爾濱工業(yè)大學，2008.

［4］李錦瓏.基于參數(shù)修改的中文歌聲合成算法的研究［D］.碩士.西北師范大學，2011.

［5］楊心祎.歌聲合成技術(shù)與應用探究［D］.碩士.南京：南京藝術(shù)學院，2015.

［6］楊仕芳.歌唱語音形態(tài)研究——以漢語歌唱中的“聲調(diào)”為例［D］.碩士.重慶：西南大學，2013.