基于Style-CycleGAN-VC的非平行語料下的語音轉(zhuǎn)換

2021-09-15 11:20:18高俊峰陳俊國

計(jì)算機(jī)應(yīng)用與軟件 2021年9期

高俊峰陳俊國

(山東科技大學(xué)能源與礦業(yè)工程學(xué)院力學(xué)系山東青島 266590)

0 引言

語音轉(zhuǎn)換是一種在保留語義信息的同時(shí)修改語音特征的技術(shù)。此技術(shù)可用于各種任務(wù)，如語音輔助[1]、語音增強(qiáng)[2]和身份轉(zhuǎn)換[3]等。

語音轉(zhuǎn)換可以表述為估計(jì)從源語音到目標(biāo)語音的映射函數(shù)的回歸問題,在此之前提出的較為成功的方法有：基于高斯混合模型(GMM)的統(tǒng)計(jì)方法[4-5]；基于神經(jīng)網(wǎng)絡(luò)(NN)的方法，如受限玻爾茲曼機(jī)(RBM)[6]、前饋神經(jīng)網(wǎng)絡(luò)(FNN)[7]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[8]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]；基于范例的方法，如非負(fù)矩陣分解(NMF)[10-11]等。

以上VC方法通常使用源語音和目標(biāo)語音進(jìn)行時(shí)間對(duì)齊的平行數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，如果完全對(duì)齊的平行數(shù)據(jù)可獲取，則獲取映射函數(shù)的難度會(huì)大大降低。但在實(shí)際應(yīng)用方案中，很難收集到平行數(shù)據(jù)，即使獲取到了足夠的數(shù)據(jù)也需要執(zhí)行自動(dòng)時(shí)間對(duì)齊，因?yàn)槠叫袛?shù)據(jù)中的錯(cuò)位可能導(dǎo)致轉(zhuǎn)換語音質(zhì)量下降，因此有一定的失敗概率，所以這些方案需預(yù)篩選和數(shù)據(jù)校正。

由于訓(xùn)練條件的缺陷，非平行語料下的VC研究難度大且起步晚。當(dāng)前，一些非平行VC研究使用了自動(dòng)語音識(shí)別(ASR)模塊或額外的說話者之間的部分平行語料數(shù)據(jù)。盡管它們對(duì)訓(xùn)練有幫助，但準(zhǔn)備附加模塊會(huì)增加其他成本，從而限制其應(yīng)用。為了提高普適性和精簡性，近期一些研究使用了概率神經(jīng)網(wǎng)絡(luò)(例如自適應(yīng)受限玻爾茲曼機(jī)(ARBM)[12]和變分自動(dòng)編碼器(VAE)[13])，這些模型沒有多余的數(shù)據(jù)、模塊和時(shí)間對(duì)齊過程。它們的局限性在于需要顯式地近似數(shù)據(jù)分布(通常使用高斯分布)，而這往往會(huì)導(dǎo)致通過統(tǒng)計(jì)平均造成的過度平滑。為了克服數(shù)據(jù)分布問題，最近的研究結(jié)合了GAN[14]，它可以學(xué)習(xí)接近目標(biāo)的生成分布而無須顯式逼近，從而避免了由統(tǒng)計(jì)平均引起的過度平滑。但這些模型難以學(xué)習(xí)語音的時(shí)序性特征。

為進(jìn)一步提高語音轉(zhuǎn)換效果，Kaneko等[15]提出了CycleGAN-VC模型，此模型將循環(huán)一致性生成式對(duì)抗網(wǎng)絡(luò)(CycleGAN)[16]應(yīng)用到語音轉(zhuǎn)換中，使用了門控CNN來配置CycleGAN，并使用身份映射損失[17]進(jìn)行訓(xùn)練，這使得網(wǎng)絡(luò)可以更好地保留語音信息的同時(shí)捕獲順序和層次結(jié)構(gòu)。CycleGAN-VC的局限是只能用于兩個(gè)訓(xùn)練樣本之間的語音轉(zhuǎn)換，為解決多說話人的語音轉(zhuǎn)換問題，日本的NTT實(shí)驗(yàn)室又提出了StarGAN-VC[18]，但仍舊只能解決訓(xùn)練的幾個(gè)特定說話人間的語音轉(zhuǎn)換。

盡管CycleGAN-VC已經(jīng)在非平行數(shù)據(jù)下取得不錯(cuò)的成果，并且之后又提出了修改生成器和判別器結(jié)構(gòu)的CycleGAN-VC2[19]，但其實(shí)際語音轉(zhuǎn)換效果仍有較大進(jìn)步空間。

另外，NVIDIA最近提出的StyleGAN[20]被用來生成高分辨率真實(shí)的圖片，其核心在于對(duì)生成過程的分層精細(xì)控制以及對(duì)特征的解纏研究。其生成樣本的本質(zhì)是對(duì)不同訓(xùn)練樣本的特征進(jìn)行融合。

本文提出一種基于Style-CycleGAN-VC的非平行語料下的語音轉(zhuǎn)換新方法。其主要思想是將StyleGAN精細(xì)的生成器結(jié)構(gòu)融合到CycleGAN-VC的生成器網(wǎng)絡(luò)中，添加輔助的特征提取神經(jīng)網(wǎng)絡(luò)提取頻譜特征用于特征融合，并通過構(gòu)造超參數(shù)來控制特征提取網(wǎng)絡(luò)對(duì)轉(zhuǎn)換網(wǎng)絡(luò)架構(gòu)的影響。實(shí)驗(yàn)表明，新模型提高了語音轉(zhuǎn)換效果且實(shí)現(xiàn)了任意說話人間的語音轉(zhuǎn)換。

另外，Style-CycleGAN-VC與Info-GAN[21-22]有較大不同。Info-GAN通過帶有互信息的損失函數(shù)，使其更傾向于生成數(shù)據(jù)的抽象特征與輸入隱碼之間聯(lián)系的可解釋性，而本文模型則更傾向于生成數(shù)據(jù)的真實(shí)性及不可分辨性。

1 生成式對(duì)抗網(wǎng)絡(luò)模型

生成式對(duì)抗網(wǎng)絡(luò)以一種非監(jiān)督學(xué)習(xí)的方式，通過讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互博弈的方法進(jìn)行學(xué)習(xí)。生成對(duì)抗網(wǎng)絡(luò)由一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò)組成，生成網(wǎng)絡(luò)從潛在空間中隨機(jī)采樣作為輸入，其輸出結(jié)果需要盡量模仿訓(xùn)練集中的真實(shí)樣本。判別網(wǎng)絡(luò)的輸入為真實(shí)樣本或生成網(wǎng)絡(luò)的輸出，其目的是將生成網(wǎng)絡(luò)的輸出從真實(shí)樣本中盡可能地分辨出來，而生成網(wǎng)絡(luò)則盡可能地欺騙判別網(wǎng)絡(luò)，兩個(gè)網(wǎng)絡(luò)相互對(duì)抗，不斷調(diào)整參數(shù)。生成對(duì)抗網(wǎng)絡(luò)常用于生成以假亂真的圖片。

1.1 CycleGAN模型

CycleGAN由兩個(gè)生成網(wǎng)絡(luò)和兩個(gè)判別網(wǎng)絡(luò)組成，生成網(wǎng)絡(luò)A是輸入A類風(fēng)格的圖片輸出B類風(fēng)格的圖片，生成網(wǎng)絡(luò)B是輸入B類風(fēng)格的圖片輸出A類風(fēng)格的圖片。生成網(wǎng)絡(luò)中編碼部分的網(wǎng)絡(luò)結(jié)構(gòu)采用Convolution-Norm-ReLU作為基礎(chǔ)結(jié)構(gòu)，解碼部分的網(wǎng)絡(luò)結(jié)構(gòu)由Transpose Convolution-Norm-ReLU組成，判別網(wǎng)絡(luò)由Convolution-Norm-Leaky_ReLU作為基礎(chǔ)結(jié)構(gòu)。其整體結(jié)構(gòu)圖如圖1所示，其中：X為源數(shù)據(jù)域；Y為目標(biāo)數(shù)據(jù)域；x為X中的數(shù)據(jù)；y為Y中的數(shù)據(jù)；G為從X到Y(jié)的映射函數(shù)；F為從Y到X的映射函數(shù)；y2為x通過G映射后生成的數(shù)據(jù)；x1為y2通過F映射后生成的數(shù)據(jù)；Dx為判別x2真假的判別器；x2為y通過F映射后生成的數(shù)據(jù)；y1為x2通過G映射后生成的數(shù)據(jù)；Dy為判別y2真假的判別器。

圖1 CycleGAN整體結(jié)構(gòu)

1.2 StyleGAN模型

StyleGAN為生成對(duì)抗網(wǎng)絡(luò)提出了另一種生成器結(jié)構(gòu)。此結(jié)構(gòu)可以在無監(jiān)督學(xué)習(xí)下分離高級(jí)屬性(例如在人臉上訓(xùn)練時(shí)的姿勢和身份)和生成圖像(例如，雀斑、頭發(fā))中的隨機(jī)變化，并能夠直觀地、按照特定尺度地控制生成。其詳細(xì)結(jié)構(gòu)如圖2所示。

圖2 StyleGAN詳細(xì)結(jié)構(gòu)

輸入圖像的整體特征和細(xì)微特征間存在耦合，而耦合就導(dǎo)致了圖像可控性差，無法對(duì)單個(gè)特征進(jìn)行調(diào)節(jié)。從結(jié)構(gòu)圖可以看出，StyleGAN提出了一種無監(jiān)督但又可控性強(qiáng)的方案，對(duì)不同層次的卷積層進(jìn)行操作，從而最終實(shí)現(xiàn)特征解耦和生成特征的可解釋性和可控性。

2 Style-CycleGAN-VC模型

無論是目前雙向轉(zhuǎn)換效果較好的CycleGAN-VC和CycleGAN-VC2,還是對(duì)多說話人進(jìn)行語音轉(zhuǎn)換的StarGAN-VC，對(duì)其生成器進(jìn)行分析，其訓(xùn)練過程本質(zhì)上是對(duì)語音特征的記憶存儲(chǔ)以及融合過程。而StarGAN-VC之所以效果不如CycleGAN-VC，是因?yàn)槠涫褂昧讼蛄縼肀硎静煌恼f話人，從而使生成器調(diào)用大量網(wǎng)絡(luò)層參數(shù)中的不同部分(不考慮特征耦合)進(jìn)行生成。但CycleGAN的生成器參數(shù)與其相差不多，而且一個(gè)生成器只用于存儲(chǔ)記錄一個(gè)說話人的語音特征，所以在語音特征總體和細(xì)節(jié)上都會(huì)更好，從而使得轉(zhuǎn)化效果更好。

對(duì)此，本文提出一種Style-CycleGAN-VC對(duì)生成器整體結(jié)構(gòu)添加輔助特征提取網(wǎng)絡(luò)，將之前的特征記憶存儲(chǔ)缺陷轉(zhuǎn)化為特征提取過程，并借鑒StyleGAN對(duì)生成圖片分辨率不同層次的精細(xì)控制結(jié)構(gòu)，將其融合到生成器的主結(jié)構(gòu)中，重構(gòu)損失函數(shù)，最終實(shí)現(xiàn)語音轉(zhuǎn)換效果的提高和任意說話人下的任意語音轉(zhuǎn)換。

2.1 模型架構(gòu)

1) 總架構(gòu)。假設(shè)源數(shù)據(jù)x∈X，目標(biāo)數(shù)據(jù)y∈Y，模型的目標(biāo)是在不使用平行數(shù)據(jù)的情況下，學(xué)習(xí)它們之間的映射GX→Y。整個(gè)系統(tǒng)分為正向和逆向兩部分，二者連接構(gòu)成循環(huán)網(wǎng)絡(luò)。兩部分分別由一個(gè)生成器和一個(gè)判別器構(gòu)成，其中生成器由兩部分組成，分別是特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)。選取前向部分進(jìn)行說明，數(shù)據(jù)X通過GY→X嘗試生成滿足Y分布的數(shù)據(jù)F_Y，判別器Dy通過與真實(shí)的目標(biāo)數(shù)據(jù)進(jìn)行對(duì)比，判斷出F_Y是假的目標(biāo)數(shù)據(jù)，從而驅(qū)使生成器生成更真實(shí)的數(shù)據(jù)，同時(shí)驅(qū)使判別器更好地識(shí)別數(shù)據(jù)真假。同時(shí)，為了使生成器生成的數(shù)據(jù)是在語音特征上不是在語音信息上與目標(biāo)數(shù)據(jù)接近，一個(gè)約束是使用循環(huán)網(wǎng)絡(luò)的另一部分，將F_Y作為輸入，通過GY→X生成X’,通過逼近X與X’，來實(shí)現(xiàn)語義信息的保留，另一個(gè)約束是將Y作為輸入，使用GX→Y生成I_Y，通過逼近Y與I_Y，進(jìn)一步保證語音信息的保留。網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)鋱D如圖3所示。

圖3 Style-CycleGAN-VC全局架構(gòu)

2) 生成器和判別器架構(gòu)。生成器主要由兩部分構(gòu)成，分別為特征融合和特征提取網(wǎng)絡(luò)，特征融合又分為編碼、轉(zhuǎn)換、解碼三部分。

(1) 特征提取網(wǎng)絡(luò)與判別器。特征提取網(wǎng)絡(luò)可以看作是對(duì)需要轉(zhuǎn)化的目標(biāo)數(shù)據(jù)的特征提取，與判別器架構(gòu)類似，判別器結(jié)構(gòu)和參數(shù)如圖4和表1所示。由于判別器只通過將頻譜的特征映射到低維空間判斷數(shù)據(jù)真假，所以可以看作判別器提取到了數(shù)據(jù)的非信息特征，特征提取網(wǎng)絡(luò)與之不同之處在于去除了Sigmoid層，而且使用的全連接層的輸出維度更高。二者的其他實(shí)現(xiàn)采用二維卷積層、實(shí)例歸一化層、門控CNN層。其中門控CNN不僅實(shí)現(xiàn)了語言建模[23]和語音建模[24]的最新技術(shù)，而且實(shí)現(xiàn)了對(duì)順序數(shù)據(jù)進(jìn)行并行化。在門控CNN中，GLU是數(shù)據(jù)驅(qū)動(dòng)的激活函數(shù)，公式如下：

表1 判別器參數(shù)表

圖4 判別器結(jié)構(gòu)

Hl+1=(Hl×Wl+bl)?σ(Hl×Vl+cl)

(1)

式中：Wl和Vl表示不同的卷積核；bl和cl是偏置參數(shù)；σ是S形函數(shù)；?是元素乘積。根據(jù)最新的研究表明，采用門控CNN可以替代RNN并選擇性地根據(jù)先前的層狀態(tài)傳播信息。

(2) 特征融合網(wǎng)絡(luò)。特征融合網(wǎng)絡(luò)分為三部分，編碼器部分是對(duì)數(shù)據(jù)進(jìn)行下采樣，將頻譜信息映射到低維空間后，使用6個(gè)殘差塊網(wǎng)絡(luò)進(jìn)行特征轉(zhuǎn)換。使用一維卷積層、實(shí)例化歸一層、門控CNN來實(shí)現(xiàn)。轉(zhuǎn)換部分由6個(gè)殘差塊實(shí)現(xiàn)，其表達(dá)式如下：

Xk=Hk(Xk-1)+Xk-1

(2)

式中:Hl表示兩組一維卷積，自適應(yīng)實(shí)例歸一化(AdaIN)，門控CNN，其中，自適應(yīng)實(shí)例歸一化操作定義為：

(3)

式中：μ(xi)為均值；σ(xi)為方差；每個(gè)特征映射xi分別標(biāo)準(zhǔn)化后，使用放射變化的可學(xué)習(xí)參數(shù)ys,i和yb,i分別進(jìn)行縮放和偏置操作。

本文使用一個(gè)超參數(shù)λγ_β控制輔助的特征提取網(wǎng)絡(luò)對(duì)主網(wǎng)絡(luò)的影響，公式如下：

ysn,i=(1+γ×λγ_β)×(ys,i×(1-λγ_β))

(4)

ybn,i=(1+β×λγ_β)×(yb,i×(1-λγ_β))

(5)

式中：γ和β是分別通過仿射變換An得到的參數(shù)。

所以，最終的AdaIN操作為：

(6)

特征融合網(wǎng)絡(luò)的參數(shù)設(shè)置如表2所示。

表2 生成器參數(shù)表

將上述兩個(gè)網(wǎng)絡(luò)整合，最終得到的生成器總結(jié)構(gòu)如圖5所示，其中“S×5”表示此處為5個(gè)與模塊S相同的模塊。

圖5 生成器結(jié)構(gòu)

2.2 損失函數(shù)

(1) 對(duì)抗性損失。對(duì)抗性損失是為了使生成器生成的數(shù)據(jù)難以被分辨真假，生成器GX→Y通過最小化損失生成Dy無法分辨真假的數(shù)據(jù)，Dy通過最大化損失不被GY→X所欺騙。用公式可以表示為：

Ladv(GX→Y,Dy)=Ey～PData(y)[‖Dy(y2)‖]+

Ey～PData(y)[‖1-Dy(GX→Y(x,y))‖2]

(7)

式中：y～Pdata(y)表示y來自于真實(shí)數(shù)據(jù)分布Pdata(y)，x與之類似；E表示對(duì)所有數(shù)取均值。

(2) 循環(huán)一致性損失。僅使用對(duì)抗性損失并不能保證生成的數(shù)據(jù)保留語音的語音信息，而循環(huán)一致性損失通過最小化循環(huán)生成的數(shù)據(jù)與源數(shù)據(jù)的L1范數(shù)，幫助保存語音信息。用公式可以表示為：

Lcyc(GX→Y,GX→Y)=Ex～PData(x)[‖GY→X(GX→Y(x,y))-x1‖]+

Ey～PData(y)[‖GX→Y(GY→X(y,x),y)-y1‖]

(8)

(3) 身份映射損失。在單向過程中，使用身份映射損失，將目標(biāo)數(shù)據(jù)作為輸入，并將輸出與目標(biāo)數(shù)據(jù)進(jìn)行逼近，驅(qū)使生成器保證語音信息的保留。用公式表示如下：

Lid(GX→Y,GX→Y)=Ex～PData(x)[‖GY→X(x,x)-x1‖]+

Ey～PData(y)[‖GX→Y(y,y)-y1‖]

(9)

(4) 總損失。使用超參數(shù)λcyc、λid作為系數(shù)，將前文中的三項(xiàng)損失加權(quán)相加，得到總損失，公式如下：

Lfull(GX→Y,GX→Y)=Ladv(GX→Y,Dy)+

Lαdv(GY→X,Dx)+λcycLcyc(GX→Y,GX→Y)+

λidLid(GX→Y,GX→Y)

(10)

2.3 模型超參數(shù)與訓(xùn)練細(xì)節(jié)

在預(yù)處理過程中，使用WORLD模型，把音頻文件分解為對(duì)數(shù)基頻參數(shù)(logF0)、頻譜參數(shù)(SP)、非周期性參數(shù)(AP)，并隨機(jī)選取128幀固定長度的段，設(shè)置初始λcyc為10，λid為5，λγ_β=10-5,λγ_β的值隨著迭代次數(shù)的增加線性增加，并設(shè)置在10 000次迭代后，λid為0,且設(shè)置λγ_β=0.9時(shí)保持不變。同時(shí)，使用Adam優(yōu)化器[25]訓(xùn)練網(wǎng)絡(luò)，動(dòng)量項(xiàng)設(shè)為0.5，生成器的學(xué)習(xí)率為0.000 2，判別器學(xué)習(xí)率為0.000 1，當(dāng)?shù)螖?shù)超過100 000次后，學(xué)習(xí)率線性降低。同時(shí)使用Xavier[26]初始化參數(shù)，使每一層輸出的方差盡量相等。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)條件

實(shí)驗(yàn)使用Voice Conversion Challenge 2016 中基于DAPS(數(shù)據(jù)和制作演講)數(shù)據(jù)集的開放數(shù)據(jù)集。實(shí)驗(yàn)時(shí)，每段錄音被下采樣到16 kHz、16 bit。

為加速實(shí)驗(yàn)，實(shí)驗(yàn)在兩個(gè)平臺(tái)下分別運(yùn)行，分別是本地的TensorFlow版和AIstudio云平臺(tái)的Paddlefluid版，由于Paddlefluid版本的代碼是在AIstudio上運(yùn)行，平臺(tái)限制導(dǎo)致數(shù)據(jù)預(yù)處理部分與語音合成部分放在了本地運(yùn)行，與神經(jīng)網(wǎng)絡(luò)相分離。

梅爾倒譜(Mel-cepstral)失真[27]是評(píng)估合成的MCEP質(zhì)量的常用方法，但是最近的三項(xiàng)研究[13,28-29]表明此方式存在一定局限性。因?yàn)镸EL-CD內(nèi)部呈現(xiàn)高斯分布, 導(dǎo)致其傾向于過平滑。因此，本文采用MOS測試和ABX測試評(píng)估轉(zhuǎn)換后的語音質(zhì)量。

作為對(duì)比實(shí)驗(yàn)，將本文方法分別與基于GMM、StarGAN-VC、CycleGAN-VC的方法進(jìn)行比較，選取4組說話人進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并進(jìn)行評(píng)估。盡管Style-CycleGAN-VC可以實(shí)現(xiàn)任意樣本下的語音轉(zhuǎn)換，但為了控制變量從而與其他模型進(jìn)行等價(jià)對(duì)比，本文實(shí)驗(yàn)過程中仍舊對(duì)Style-CycleGAN-VC模型進(jìn)行了4次重新訓(xùn)練。另外，在復(fù)現(xiàn)過程中發(fā)現(xiàn)CycleGAN-VC生成損失中使用的對(duì)數(shù)函數(shù)訓(xùn)練不夠穩(wěn)定，使用L2范數(shù)對(duì)其進(jìn)行替代,并使用相同的參數(shù)初始化。

對(duì)于任意樣本的語音轉(zhuǎn)換，本文使用了未經(jīng)網(wǎng)絡(luò)擬合的TM1和TF2說話人的樣本進(jìn)行轉(zhuǎn)換實(shí)驗(yàn)來測試，并將評(píng)估結(jié)果分別與GMM、ARBM、StarGAN-VC、CycleGAN-VC進(jìn)行對(duì)比。

3.2 實(shí)驗(yàn)語音合成框架

實(shí)驗(yàn)使用WORLD模型得到對(duì)數(shù)基頻參數(shù)(logF0)、頻譜參數(shù)(SP)、非周期性參數(shù)(AP)。轉(zhuǎn)換完成后對(duì)神經(jīng)網(wǎng)絡(luò)得到的SP、使用單高斯模型轉(zhuǎn)換的logF0，以及不做改變的AP進(jìn)行語音合成。最后，對(duì)得到的合成語音進(jìn)行質(zhì)量和相似度評(píng)估。

整個(gè)語音合成過程如圖6所示。

圖6 語音轉(zhuǎn)換總體框架

3.3 評(píng)估結(jié)果

不同模型間的對(duì)比實(shí)驗(yàn)共分為四組，分別是SF1->TF2、SM1->TM2、SF1->TM2、SM1->TF2，使用MOS對(duì)GMM、StarGAN-VC、CycleGAN-VC、Style-CycleGAN-VC四種模型的實(shí)驗(yàn)結(jié)果的語音質(zhì)量進(jìn)行評(píng)估，結(jié)果如圖7所示。

圖7 不同模型語音轉(zhuǎn)換質(zhì)量對(duì)比結(jié)果

可見，在語音轉(zhuǎn)換質(zhì)量方面，相較于CycleGAN-VC、StarGAN-VC和GMM，Style-CycleGAN-VC無論是在性別間還是性別內(nèi)的轉(zhuǎn)換效果均有所提高。另外，二者都在女轉(zhuǎn)男的測試中得分高于男轉(zhuǎn)女。

用ABX測試法對(duì)Style-CycleGAN-VC的四組語音轉(zhuǎn)換結(jié)果相似度進(jìn)行評(píng)估，結(jié)果如圖8所示。

圖8 Style-CycleGAN-VC語音相似度分析結(jié)果

在語音相似度方面，性別間轉(zhuǎn)換由于基頻的原因，實(shí)驗(yàn)結(jié)果與預(yù)測的相同，全部更接近轉(zhuǎn)換目標(biāo)，而性別內(nèi)轉(zhuǎn)換，由于不同說話人之間的音色差別有些較大有些較小導(dǎo)致對(duì)不同數(shù)據(jù)的實(shí)驗(yàn)結(jié)果相差較大，但從實(shí)驗(yàn)結(jié)果也可以看出轉(zhuǎn)換更偏向于目標(biāo)。

對(duì)任意樣本下的實(shí)驗(yàn)分為兩組，測試結(jié)果如表3所示。

表3 任意樣本語音轉(zhuǎn)換質(zhì)量及相似度得分表

Style-CycleGAN-VC的語音轉(zhuǎn)換質(zhì)量高于ABRM，與CycleGAN-VC、StarGAN-VC相差較小，而語音相似度方面得分有所降低。但考慮到Style-CycleGAN-VC未經(jīng)過轉(zhuǎn)換語音訓(xùn)練而直接進(jìn)行轉(zhuǎn)換，所以實(shí)驗(yàn)結(jié)果可以接受。

任取CycleGAN-VC和Style-CycleGAN-VC一組語音數(shù)據(jù)轉(zhuǎn)化為相應(yīng)波形圖如圖9所示。

圖9 SF1->TF2轉(zhuǎn)換結(jié)果波形圖

CycleGAN-VC轉(zhuǎn)化語音的波形圖幅值在特定位置超過1，而由此產(chǎn)生的噪音會(huì)嚴(yán)重影響語音質(zhì)量，相比之下，Style-CycleGAN-V生成的語音則更為平滑，因此轉(zhuǎn)換過程產(chǎn)生的噪聲明顯降低，語音質(zhì)量明顯提高。

經(jīng)實(shí)驗(yàn)表明，Style-CycleGAN-VC實(shí)現(xiàn)了非平行語料下任意樣本間的語音轉(zhuǎn)換，且與ABRM、StarGAN-VC、CycleGAN-VC等主流模型相比，新模型對(duì)特定說話人的任意樣本的語音轉(zhuǎn)換效果有所提高，對(duì)任意說話人的任意樣本的語音轉(zhuǎn)換效果與CycleGAN-VC模型相近。

4 結(jié) 語

本文提出一種用于非平行語料下實(shí)現(xiàn)任意說話人的任意樣本間語音轉(zhuǎn)換的方法Style-CycleGAN-VC。由于基于深度學(xué)習(xí)的方法很難實(shí)現(xiàn)端對(duì)端的語音轉(zhuǎn)換，而是使用了對(duì)數(shù)據(jù)進(jìn)行預(yù)處理使用頻譜做轉(zhuǎn)換的方式，這導(dǎo)致后期進(jìn)行語音合成時(shí)，需要使用單高斯模型轉(zhuǎn)換法對(duì)基頻進(jìn)行轉(zhuǎn)換。目前階段由于頻譜轉(zhuǎn)換的質(zhì)量問題，這種方法的局限性不會(huì)表現(xiàn)明顯，但隨著網(wǎng)絡(luò)架構(gòu)的進(jìn)一步細(xì)化或頻譜轉(zhuǎn)換質(zhì)量的進(jìn)一步提高，這種方案就會(huì)成為整體語音轉(zhuǎn)換系統(tǒng)的短板從而降低語音轉(zhuǎn)換的質(zhì)量。而這也是前文中提到的男女之間轉(zhuǎn)換質(zhì)量存在明顯差異的原因。

另外，從本文提出的網(wǎng)絡(luò)生成器架構(gòu)來看，由于輔助特征提取網(wǎng)絡(luò)從生成器主網(wǎng)絡(luò)中分離，從而使原本需要將特征保存在生成器網(wǎng)絡(luò)中的特征轉(zhuǎn)化為特征提取過程，由此得到一個(gè)語音轉(zhuǎn)換的通用模型，這使得可以像任意圖片間的風(fēng)格遷移一樣，實(shí)現(xiàn)任意樣本下的語音轉(zhuǎn)換，而無須通過分別訓(xùn)練擬合不同樣本數(shù)據(jù)得到不同的模型分別做語音轉(zhuǎn)換。不足之處在于通用模型的語音相似度和語音轉(zhuǎn)換質(zhì)量還有待提高。希望未來技術(shù)進(jìn)一步發(fā)展實(shí)現(xiàn)無限逼近真實(shí)語音效果的語音轉(zhuǎn)換。