999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

運用核聚類和偏最小二乘回歸的歌唱聲音轉換

2016-07-01 00:51:13方鵬李賢汪增福
智能系統學報 2016年1期

方鵬,李賢,汪增福

(1.中國科學技術大學 信息科學技術學院,安徽 合肥 230027; 2.中國科學院 合肥智能機械研究所,安徽 合肥 230031; 3.語音及語言信息處理國家工程實驗室,安徽 合肥 230027)

運用核聚類和偏最小二乘回歸的歌唱聲音轉換

方鵬1,2,3,李賢1,3,汪增福1,2,3

(1.中國科學技術大學 信息科學技術學院,安徽 合肥 230027; 2.中國科學院 合肥智能機械研究所,安徽 合肥 230031; 3.語音及語言信息處理國家工程實驗室,安徽 合肥 230027)

摘要:語音轉換是計算機聽覺領域的熱點問題之一,將歌聲運用于語音轉換是一種新的研究方向,同時拓寬了語音轉換的應用范圍。經典的高斯混合模型的方法在少量訓練數據時會出現過擬合的現象,而且在轉換時并未有效利用音樂信息。為此提出一種歌唱聲音轉換方法以實現少量訓練數據時的音色轉換,并且利用歌曲的基頻信息提高轉換歌聲的聲音質量。該方法使用核聚類和偏最小二乘回歸進行訓練得到轉換函數,采用梅爾對數頻譜近似(MLSA)濾波器對源歌唱聲音的波形直接進行濾波來獲得轉換后的歌唱聲音,以此提高轉換歌聲的聲音質量。實驗結果表明,在少量訓練數據時,該方法在相似度和音質方面都有更好的效果,說明在少量訓練數據時該方法優于傳統的高斯混合模型的方法。

關鍵詞:計算機視覺;語音轉換;歌唱聲音;核聚類;偏最小二乘回歸;高斯混合模型;MLSA

中文引用格式:方鵬,李賢,汪增福.運用核聚類和偏最小二乘回歸的歌唱聲音轉換[J]. 智能系統學報, 2016, 11(1): 55-60.

英文引用格式:FANG Peng, LI Xian, WANG Zengfu. Conversion of singing voice based on kernel clustering and partial least squares regression[J]. CAAI Transactions on Intelligent Systems, 2016, 11(1): 55-60.

語音轉換是一項非常熱門的技術,在近20年間開始涌現,它可以通過修飾一個源說話者的聲音,在不改變語義信息的情況下,使其聲音聽起來像是另一個特定的人所說的。由于每個人生理特征的限制,使得我們在發音的時候不能自由的轉換音色,只能在某種程度上輕微地改變自己的音色,但是當說話者想要使其聲音變成另一個人的音色時存在很大的難度。然而語音轉換技術可以突破這一限制,實現任意人之間的音色轉換。在語音轉換方面,科研工作者已經做了大量的工作,因此很多人開始尋找新的研究方向,將歌唱聲音運用到語音轉換中將會成為一門熱門課題,而且這也是和音樂相關技術運用的一種創新[1]。本文針對歌唱聲音提出了一種轉換的方法,以實現不同歌唱者音色之間的轉換。

到目前為止,已經有了很多種語音轉換的方法,其中一個非常經典的方法就是碼本匹配[2],它通過對源聲音特征的碼本中心進行線性加權來實現轉換??墒怯捎诖a本中心的數量限制,這樣轉換得到的聲音特征被限制在一定范圍內,使得轉換后的聲音特征缺少多樣性。針對這一問題,很多人都提出了解決方法,其中基于高斯混合模型(GMM)的統計方法[3-4]是最為經典的方法,也是目前最前沿的方法。此方法通過使用GMM來對聲音特征進行統計建模,并使用多個局部回歸函數的線性組合來作為轉換函數。不過這種方法存在2個問題:幀間的不連續和過平滑,這是由于在這個模型中未對幀間的關聯性進行建模,從而導致在轉換時出現幀與幀之間的不連續;另外由于統計模型經常會忽略頻譜的細節信息,細節信息的缺失就自然導致了過平滑的出現。為了解決高斯混合模型中出現的2個問題,Toda[5]提出了頻譜參數軌跡的最大似然估計法。一方面,通過增加幀間的動態變量來描述幀間的相關性,動態變量的引入成功地解決了幀間不連續的問題;另一方面通過構建頻譜包絡的全局變量來緩和過平滑問題。

盡管基于GMM方法的幀間不連續以及過平滑問題在某種程度上被解決了,但是此轉換方法依然存在過擬合的問題。過擬合的出現是由于系統過于復雜而訓練數據不足所導致的,在基于GMM的方法中過擬合是在計算協方差矩陣時被引入的。為了在訓練數據過少時避免過擬合問題,可以采用對角陣來計算協方差矩陣??墒菍顷嚨氖褂糜质沟幂斎胧噶康母骶S之間相互獨立,從而導致了語音質量的下降。為了克服對角陣導致的變量獨立性和過擬合問題,E.Helander提出了使用偏最小二乘回歸(PLS)[6]來計算轉換函數的方法,這一方法在少量訓練數據的時將會得到比基于GMM方法具有更高的精確性。

這兩年隨著神經網絡的迅速崛起,也有一些人開始使用神經網絡相關方法來做語音轉換[7-9]。盡管這些方法都取得了比較好的成果,但是與Toda的方法相比并未有顯著的提升,而且都較為復雜,效率偏低。在歌唱聲音轉換的實際應用中,由于歌唱聲音的數據相比普通語音數據會少很多(有時候只有一首歌),在很多情況下不能獲得大量的歌唱聲音數據,因此針對歌唱聲音轉換的實際應用,本文采用偏最小二乘法來計算轉換函數。另一方面為了提高數據統計的精度,采用核模糊聚類來對歌唱聲音特征進行聚類,以此來獲得高精度的聚類結果。

當語音的頻譜被轉換完成之后,下一步要進行的是對語音進行合成。傳統的合成方法是使用一個聲碼器對轉換后的頻譜和基頻進行合成,以此來合成轉換后的聲音??墒窍鄬τ谄胀ǖ恼Z音來說,歌唱聲音的音質是一個更為重要的指標,因此需要采用一些新的方法來提高歌唱聲音的聲音質量。為了減小合成的誤差,提高歌唱聲音的音質,本文使用差分頻譜的方法進行歌唱合成[10],但不同于文獻[10] 中的方法,我們不使用差分頻譜來進行訓練,因為這樣可能會帶來誤差,本文將直接使用源聲音頻譜特征進行訓練。

1歌唱聲音轉換框架

圖1給出了本文歌唱聲音轉換的框架圖。我們采用SPTK以及STRAIGHT[11]作為語音信號處理工具。由于歌唱聲音的音色體現在頻譜包絡上,故在歌唱聲音轉換中采用頻譜包絡作為聲音特征進行訓練以及轉換。

歌唱聲音轉換通常分為兩部分:訓練和轉換。在訓練階段,首先采用核模糊k-均值聚類算法[12-13]對輸入的源聲音特征進行聚類,得到的聚類結果為一個隸屬度矩陣。對隸屬度矩陣和目標歌唱聲音特征向量使用偏最小二乘回歸算法經行訓練,從而得到轉換函數。在轉換階段,對于輸入源歌唱聲音特征,計算其隸屬度矩陣,將隸屬度矩陣代入求得的轉換函數中,從而計算出目標歌唱聲音特征。

圖1 歌唱聲音轉換框架Fig.1 Singing voice conversion framework

2核模糊k-均值聚類

核模糊k-均值算法通過將輸入空間的數據非線性映射到高維空間中,使得輸入數據的可分辨性增大,模式類之間的差異更明顯,增大了輸入數據的可分概率,經過驗證核模糊聚類擁有更準確的聚類結果。

對于輸入的歌唱聲音特征xn,n=1,2,…,N,假設已被映射到高維的特征空間Φ(xn),n=1,2,…,N,在該空間中Euclidean距離則表示為

(1)

在高維空間中,輸入數據的點積形式表示為

(2)

式中:K(x,y)表示核函數,核函數有多項式核函數、高斯核函數、sigmoid核函數等,在此我們采用高斯核函數:

(3)

因此有

(4)

聚類的準則是最小化目標函數從而得到聚類結果,目標函數如下:

(5)

(6)

在高維空間中新的聚類中心為

(7)

則有

(8)

(9)

更新隸屬度:

(10)

(11)

式中:第n個列向量表示第n幀歌唱聲音特征相對于C類的隸屬度,即kn=[μ1nμ2n…μCn]Τ。對于求得的隸屬度矩陣將要使用偏最小二乘法進行訓練,可是偏最小二乘法要求訓練的對象是零均值的矩陣,那么對于隸屬度矩陣要進行零均值處理。

對K的每一行求均值,矩陣的每一行都減去該行的均值,這些行的均值保存在列向量ν中。對于每一列也進行相同的操作,但是不保存每一列的均值。

3偏最小二乘回歸(PLS)

PLS(partial least squares regression)是一種結合了主成分分析和多元線性回歸的技術,它非常適用于高維的數據,并且能夠解決數據本身帶來的共線性問題[14]。PLS有一個假設,源矢量xn是由一個維度更低的矢量表示,并且這個矢量也可以生成目標矢量yn。這個假設在歌唱聲音轉換中可以理解為:輸入的源歌唱聲音特征和輸出的目標歌唱聲音特征可以由一個和說話者無關的歌唱聲音特征所表示。這個原理可以表示如下:

(12)

(13)

(14)

式中:β表示回歸矩陣,是根據Q和P這兩個矩陣求得的, en表示回歸殘差。

通過對訓練數據的訓練則可以得到回歸矩陣β,對于任一輸入歌唱聲音特征,進行了核模糊k-均值聚類后都可以通過β矩陣求得目標歌唱聲音特征。

4實驗

4.1客觀實驗

對于客觀實驗的結果,我們使用轉換后的Mcep(Mel-cepstral)系數與目標的Mcep系數的誤差來描述,具體計算公式如下所示:

(15)

在這個實驗中我們對比的是基于GMM模型的方法,本文方法簡稱為KCPLS。對于GMM的方法我們選擇32個GMM,在KCPLS的方法中我們采用了具有400類的核聚類,核函數的σ參數值設為0.1??陀^實驗結果如表1所示。

表1 頻譜平均誤差

如上表所示,基于KCPLS的方法相對于傳統的GMM 方法能獲得更準確的轉換頻譜,從而使得誤差更小,轉換的音色更相像。

4.2主觀實驗

主觀實驗主要包括轉換的相似度的主觀實驗和轉換合成后的歌唱聲音質量的主觀實驗。由于傳統方法在聲音合成上存在較大的誤差,誤差主要來自基頻的提取、頻譜的建模以及激勵的合成,尤其是在聲音質量上可能會帶來更大的誤差。歌唱轉換并不同于普通的語音轉換,普通的語音轉換要求在轉換頻譜包絡的同時也要轉換基頻,但是在歌唱聲音的轉換中卻不需要,也不應該轉換基頻,這是由于每首歌都有其特定音高,而音高在某種程度上和基頻有著特定的關系,因此不建議轉換基頻?;l在提取以及用于合成聲音時,會引起誤差的存在,利用歌唱聲音不需要轉換基頻的特性,用一種新的合成方法來提高歌唱聲音的質量,即使用轉換后的Mcep系數與源Mcep系數的差值構建一個梅爾對數頻譜(Mel log spectrum approximation)濾波器[15],并且使用這個濾波器直接對源歌唱聲音信號進行濾波,從而得到質量更高的歌唱聲音。

主觀實驗要求實驗人員聽力等方面正常,無聽力相關方面的疾病,且對音樂有一定的鑒賞能力。測試數據為10句中文歌唱聲音,我們采用平均意見分(mean opinion score)為我們的統計指標,實驗人員對歌曲進行打分,分數為1~5分,1分最差,5分最好。所有打分結束后,對每種方法的分數進行統計,求均值及95%的置信區間。所得結果如圖2所示。

圖2 相似度和聲音質量的平均意見分及95%置信區間Fig.2 MOS(95% CIs) for similarity and quality

從圖2的主觀實驗可以看出,在主觀的相似度實驗方面,基于核模糊k-均值聚類和偏最小二乘法的實驗結果在聽覺上獲得了更高的相似度,MOS得分高了1.8分。在聲音質量的主觀實驗上,基于頻譜差值構建MLSA濾波器的方法能夠合成質量更高的歌唱聲音,MOS得分高出了1分。

4.3實驗結果分析

客觀實驗和主觀實驗表明,相對于傳統的基于高斯混合模型的轉換方法,基于核聚類和偏最小二乘法對歌唱聲音的轉換能夠取得更高的準確度,實驗也證明了基于頻譜差值構建MLSA濾波器的方法,在提高合成的歌唱聲音質量上有明顯的優勢。此外,相對于普通的語音來說,歌唱聲音對聲音的要求更高,而且某種程度上歌唱聲音質量可能也會影響聽者對于轉換相似度的分辨。

基于核模糊k-均值聚類和偏最小二乘回歸的方法,通過使用核模糊k-均值聚類的方式引入了概率隸屬度矩陣,使得非線性轉換在某種程度上以線性轉換的形式實現,提高聲音轉換的準確性。在整個算法的介紹中明顯看出算法相比于傳統的GMM模型復雜度低,以線性的形式實現非線性的形式。高斯混合模型的方法中,由于協方差矩陣的使用,在訓練數據不足的情況下,會出現過擬合的現象,嚴重影響聲音的相似度和聲音的質量,而偏最小二乘法卻沒有這個缺點,客觀實驗的結果很大程度上說明了這個問題。

5結束語

本文提出了一種基于核模糊k-均值聚類和偏最小二乘的歌唱聲音轉換方法。該方法避免了傳統基于高斯混合模型方法的過擬合問題。同時,基于差值的MLSA濾波器,大大提高了合成的歌唱聲音質量。實驗采用中文歌唱聲音進行轉換,結果表明,新方法在相似度以及聲音質量上都要優于傳統的基于高斯混合模型的方法。盡管該方法目前取得了不錯的效果,但未來還會對該方法進行完善,下一步工作是研究如何用完整的頻譜包絡代替梅爾倒譜系數進行歌唱聲音轉換,期望未來能夠取得更好的結果。

參考文獻:

[1]VILLAVICENCIO F, BONADA J. Applying voice conversion to concatenative singing-voice synthesis[C]//Proceedings of Interspeech. Chiba, Japan, 2010: 2162-2165.

[2]ABE M, NAKAMURA S, SHIKANO K, et al. Voice conversion through vector quantization[J]. Journal of the acoustical society japan (E), 1990, 11(2): 71-76.

[3]KAIN A, MACON M W. Spectral voice conversion for text-to-speech synthesis[C]//Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing. Seattle, WA, USA, 1998, 1: 285-288.

[4]STYLIANOU Y, CAPPE, O, MOULINES E. Continuous probabilistic transform for voice conversion[J]. IEEE transactions on speech and audio processing, 1998, 6(2): 131-142.

[5]TODA T, BLACK A W, TOKUDA K. Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory[J]. IEEE transactions on audio, speech, and language processing, 2007, 15(8): 2222-2235.

[6]HELANDER E, VIRTANEN T, NURMINEN J, et al. Voice conversion using partial least squares regression[J]. IEEE transactions on audio, speech, and language processing, 2010, 18(5): 912-921.

[7]LIU Lijuan, CHEN Linghui, LING Zhenhua, et al. Using bidirectional associative memories for joint spectral envelope modeling in voice conversion[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy, 2014: 7884-7888.

[8]CHEN Linghui, LING Zhenhua, LIU Lijuan, et al. Voice conversion using deep neural networks with layer-wise generative training[J]. IEEE/ACM Transactions on audio, speech, and language processing, 2014, 22(12): 1859-1872.

[9]DESAI S, BLACK A W, YEGNANARAYANA B, et al. Spectral mapping using artificial neural networks for voice conversion[J]. IEEE transactions on audio, speech, and language processing, 2010, 18(5): 954-964.

[10]KOBAYASHI K, TODA T, NEUBIG G, et al. Statistical singing voice conversion with direct waveform modification based on the spectrum differential[C]//Proceedings of Interspeech. Singapore, 2014.

[11]KAWAHARA H, MORISE M, TAKAHASHI T, et al. Tandem-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP. Las Vegas, NV, USA, 2008: 3933-3936.

[12]WU Zhongdong, XIE Weixin, YU Jianping. Fuzzy C-means clustering algorithm based on kernel method[C]//Proceedings of the 5thInternational Conference on Computational Intelligence and Multimedia Applications. ICCIMA. Xi’an, China, 2003: 49-54.

[13]GRAVES D, PEDRYCZ W. Kernel-based fuzzy clustering and fuzzy clustering: a comparative experimental study[J]. Fuzzy Sets Systems, 2010, 161(4): 522-543.

[14]DE JONG S. SIMPLS: An alternative approach to partial least squares regression[J]. Chemometrics and intelligent laboratory systems, 1993, 18(3): 251-263.

[15] IMAI S, SUMITA K, FURUICHI C. Mel log spectrum approximation (MLSA) filter for speech synthesis[J]. Electronics and communications in Japan (Part I: Communications), 1983, 66(2): 10-18.

Conversion of singing voice based on kernel clustering and partial least squares regression

FANG Peng1,2,3, LI Xian1,3, WANG Zengfu1,2,3

(1. Department of Automation, University of Science and Technology of China, Hefei 230027, China; 2. Institute of Intelligent Machines, Chinese Academy of Sciences, Hefei 230031, China; 3. National Engineering Laboratory of Speech and Language Information Processing, Hefei 230027, China)

Abstract:Voice conversion is a popular topic in the field of computer hearing, and the application of singing voices to voice conversion is a relatively new research direction, which widens the application scope of voice conversion. When a training dataset is small, the conventional Gaussian mixture model (GMM) method may cause overfitting and insufficient utilization of music information. In this study, we propose a method for converting the voice timbre of a source singer into that of a target singer and employ fundamental frequency to improve the converted singing voice quality. We use kernel clustering and partial least squares regression to train the dataset, thereby obtaining the conversion function. To improve the converted singing voice quality, we applied the Mel log spectrum approximation (MLSA) filter, which synthesizes the converted singing voice by filtering the source singing waveform. Based on our experiment results, the proposed method demonstrates better voice similarity and quality, and therefore is a better choice than the GMM-based method when the training dataset is small.

Keywords:computer vision; voice conversion; singing voice; kernel clustering; partial least squares regression; Gaussian mixture model; Mel log spectrum approximation

DOI:10.11992/tis.201506022

收稿日期:2015-06-11. 網絡出版日期:2015-12-29.

基金項目:國家自然科學基金資助項目(61472393,613031350).

通信作者:汪增福.E-mail:zfwang@ustc.edu.cn.

中圖分類號:TN912;TP37

文獻標志碼:A

文章編號:1673-4785(2016)01-0055-06

作者簡介:

方鵬,男,1990年生,碩士研究生,主要研究方向為歌唱聲音轉換。

李賢,男,1988年生,博士研究生,主要研究方向為情感語音、語音轉換、歌唱合成等。

汪增福,男,1960年生,教授、博士生導師,現任《模式識別與人工智能》編委、International Journal of Information Acquisition 副主編。獲ACM Multimedia 2009 最佳論文獎。主要研究方向為計算機視覺、計算機聽覺、人機交互和智能機器人等,發表學術論文180余篇。

網絡出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20151229.0837.010.html

主站蜘蛛池模板: 国产日本一线在线观看免费| 亚洲国产91人成在线| 又爽又大又黄a级毛片在线视频 | 天天躁狠狠躁| av无码久久精品| 永久成人无码激情视频免费| 国产欧美日韩另类精彩视频| 欧美一级特黄aaaaaa在线看片| 99视频精品全国免费品| 国产一区二区三区夜色| 夜夜操狠狠操| 国产真实二区一区在线亚洲| 丰满人妻被猛烈进入无码| 日韩a级毛片| 一本无码在线观看| 狠狠亚洲婷婷综合色香| 欧美国产综合色视频| 日本道中文字幕久久一区| 日本五区在线不卡精品| 夜夜爽免费视频| av大片在线无码免费| 亚洲 欧美 中文 AⅤ在线视频| 亚洲欧洲综合| 91成人在线免费视频| 国产99免费视频| 精品一区二区无码av| 亚洲欧美日韩动漫| 亚洲综合天堂网| 国产在线无码av完整版在线观看| 成人免费网站在线观看| 日韩精品毛片人妻AV不卡| 极品国产在线| 国产内射一区亚洲| 在线看片免费人成视久网下载 | 国产精品无码AV中文| 国模沟沟一区二区三区| 国产一区二区三区在线观看视频| 91久久精品日日躁夜夜躁欧美| 国产主播福利在线观看| 91区国产福利在线观看午夜| 久久综合伊人 六十路| 国产视频入口| 国产不卡一级毛片视频| 国产高颜值露脸在线观看| 风韵丰满熟妇啪啪区老熟熟女| 亚洲乱伦视频| 国产欧美中文字幕| 欧美午夜在线播放| 欧美成人一区午夜福利在线| 免费在线成人网| 国产成人精品一区二区三在线观看| 国产剧情国内精品原创| 欧美在线三级| 中国精品久久| 欧美一区二区啪啪| 一区二区偷拍美女撒尿视频| 2020国产精品视频| 多人乱p欧美在线观看| 国产精品永久不卡免费视频| 波多野结衣久久高清免费| 国产乱子伦手机在线| 色偷偷一区| jizz在线免费播放| 天堂网亚洲系列亚洲系列| 久久大香香蕉国产免费网站| 精品欧美一区二区三区久久久| 国产凹凸一区在线观看视频| 亚洲色大成网站www国产| 97成人在线观看| 国产在线视频导航| 久久99精品国产麻豆宅宅| 午夜福利无码一区二区| 亚洲日韩Av中文字幕无码| 亚洲国产亚洲综合在线尤物| 露脸真实国语乱在线观看| 日本一本正道综合久久dvd | 国产精品999在线| 日本草草视频在线观看| 国产精品尤物在线| 国产午夜不卡| 亚洲国产AV无码综合原创| 一区二区在线视频免费观看|