基于VITS的高性能歌聲轉(zhuǎn)換模型

2025-08-18 00:00:00周柯汝金偉

現(xiàn)代信息科技 2025年12期

摘要：歌聲轉(zhuǎn)換是將源歌唱者的聲音轉(zhuǎn)換為目標(biāo)歌唱者的聲音，但保留原有的內(nèi)容和旋律。隨著科技的發(fā)展，各種網(wǎng)絡(luò)結(jié)構(gòu)和模型相繼提出，歌聲轉(zhuǎn)換的算法也變得多樣化，但難免都會出現(xiàn)轉(zhuǎn)換音頻質(zhì)量差、失真率高、音域缺失等問題。文章提出以高保真流為基礎(chǔ)的多解耦特征約束的UVC（Ultra Singing Voice Conversion）模型，該模型以VIT模型為基礎(chǔ)，通過結(jié)合ContentVec 編碼器和NSF-HIFI-GAN聲碼器，改進(jìn)模型的輸入和輸出，極大地提高了轉(zhuǎn)換音頻的質(zhì)量和流暢性，并具有較強(qiáng)的魯棒性。"，"Introduction":""，"Columns":"計(jì)算機(jī)技術(shù)"，"Volume":""，"Content":"

中圖分類號：TP391.4 文獻(xiàn)標(biāo)識碼：A 文章編號：2096-4706（2025）12-0129-06

High-performance Singing Voice Conversion Model Based on VITS

ZHOUKeru，JIN Wei （SchoolofMedicalTechnologyandInformationEngineering，ZhejiangChineseMedicalUniversity，Hangzhou31oo3，China）

Abstract： Singing voice conversion is the processof transforming the voice of the source singer into that of the target singer whileretaining thoriginalcontentand melody.With the developmentof technology，various networkarchitectures and models have beenputforwardoneafteranother，and thealgorithms forsingingvoiceconversionhavealsobecomediversified. However，problemssuchaspoorqualityofteconvertedaudio，highdistortionrates，andlackofvocalrangeareboudtocur. This paperproposes UVC（Ultra Singing Voice Conversion）model with multi-decoupled feature constraints basedon highfidelityfow.This modelisbuiltonthebasisof theVITmodel.BycombiningtheContentVecencoderandtheNSF-HFI-GAN vocoder，itimproves theinputandoutputof the model，greatlyenhancingthequalityandfuencyoftheconvertedaudioand possessing strong robustness.

Keywords： singing voice conversion; VITS; ContentVec encoder; NSF-HIFI-GAN vocoder

0 引言

音樂一直是人類生活中不可或缺的一部分，歌聲轉(zhuǎn)換是指將源歌曲的聲音轉(zhuǎn)換成另一位歌唱者的聲音的技術(shù)，旨在將源說話者聲音的各個(gè)方面進(jìn)行轉(zhuǎn)換，如基頻、頻譜包絡(luò)和韻律特征，使其與目標(biāo)說話者的特征相匹配。隨著AI的發(fā)展，歌聲轉(zhuǎn)換在眾多行業(yè)有了廣泛的應(yīng)用。在過去的幾十年里，科學(xué)家們提出了很多方法來提高合成歌曲的質(zhì)量（提高音色、降低失真率等），盡管已有很大的進(jìn)步，但SVC（SingingVoiceConversion）仍存在挑戰(zhàn)性，原因如下：一是音樂有多樣的表現(xiàn)風(fēng)格，不同的歌曲有不同的音域、響度。二是大部分SVC模型轉(zhuǎn)換后的歌曲容易失真。三是人對音樂感知能力較強(qiáng)，且通常會對有音高誤差的歌聲敏感。所以，一直有科學(xué)家在致力于開發(fā)快速且高質(zhì)量的歌聲轉(zhuǎn)換模型。基于深度神經(jīng)網(wǎng)絡(luò)（DNN）[1]的歌聲轉(zhuǎn)換模型需要通過大量的訓(xùn)練數(shù)據(jù)學(xué)習(xí)源歌手和目標(biāo)歌手之間的特征映射關(guān)系，才能得到較好的轉(zhuǎn)換結(jié)果，但總存在轉(zhuǎn)換不自然，聲音失真等問題；后來，RNN^[2] 及其變體，被應(yīng)用于歌聲轉(zhuǎn)換中，能夠更好地處理歌聲的時(shí)序信息，卻需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練，同時(shí)需要大量的計(jì)算資源，模型訓(xùn)練速度慢。

為了解決上述問題，本研究決定使用更適合歌聲轉(zhuǎn)換的生成對抗網(wǎng)絡(luò)（GAN）[3]來進(jìn)行模型構(gòu)建。本文提出了一個(gè)以高保真流為基礎(chǔ)的多解耦特征約束的（UVC）模型，通過集成ContentVec[4等編碼器，達(dá)到在不嚴(yán)重丟失內(nèi)容的情況下實(shí)現(xiàn)說話人解耦，并加入NSF-HIFI-GAN聲碼器[5]，該方法能夠以高性能、高魯棒性的方式，將任意源演唱內(nèi)容生成對應(yīng)目標(biāo)演唱者的演唱聲音，且確保轉(zhuǎn)換后音頻的質(zhì)量。UVC模型以VITS（Variational Inference with AdversarialLearningforEnd-to-EndText-to-Speech）模型[為基礎(chǔ)，VITS結(jié)構(gòu)擅長語言這種具有時(shí)間序列特性的信號，有利于生成高質(zhì)量、自然、流暢的語言，同時(shí)，它可以自動學(xué)習(xí)語言特征表達(dá)，提高生成聲音的自然度和流暢度。然后在器框架上增加f0嵌入、軟內(nèi)容編碼器，并運(yùn)用NSF-HIFI-GAN聲碼器，更好地去除了不必要說話人的信息以及防止聲音中斷，將Mel頻譜[7]轉(zhuǎn)換為高質(zhì)量的WAV波形，使得模型實(shí)現(xiàn)歌聲轉(zhuǎn)換并且表現(xiàn)性能優(yōu)越。

具體貢獻(xiàn)總結(jié)如下：

1）提出用VITS模型來進(jìn)行音色特征提取，保證UVC模型在擁有較快訓(xùn)練速度的同時(shí)，保持高質(zhì)量的音色轉(zhuǎn)換。

2）使用ContentVec編碼器，改進(jìn)原VITS模型的輸入，將語言特征向量直接輸入VITS模型，避免了文本中間表示的轉(zhuǎn)換，提高輸入語音波形質(zhì)量和模型訓(xùn)練效果，進(jìn)而幫助得到高質(zhì)量的歌聲轉(zhuǎn)換。

3）提出使用NSF-HIFI-GAN聲碼器，將Mel頻譜轉(zhuǎn)換成音頻，它解決了輸出聲音中斷的問題，讓輸出更加流暢，提升轉(zhuǎn)換后音頻的質(zhì)量。

1模型構(gòu)建

UVC模型是基于VITS的語音轉(zhuǎn)換模型，模型結(jié)構(gòu)如圖1所示。UVC首先對源音頻進(jìn)行聲學(xué)特征和文本特征提取，其中提取的聲學(xué)特征包括FO、Loudness、Mel頻譜。然后，將編碼后的內(nèi)容輸入HubertSoftEncoder中[8]，它通過對離散單元的分布進(jìn)行建模，以保留更多的內(nèi)容信息并提高理解，進(jìn)行線性映射。其次，將所得到的聲學(xué)特征和文本特征進(jìn)行連接融合，輸入FLOW，產(chǎn)生音頻合成的必要信息。最后，通過NSF-HIFI-GAN聲碼器，將Mel頻譜表示轉(zhuǎn)換為可以作為聲音播放的波形，達(dá)到歌聲轉(zhuǎn)換的效果。

圖1 UVC模型結(jié)構(gòu)

1.1 VITS模型

VITS模型，是一個(gè)結(jié)合了VAE、GAN、FLOW三種生成模型的端到端的TTS（Text-To-Speech）語音合成模型[10]，此模型可以直接合成音頻，真正實(shí)現(xiàn)端到端的語音合成。

相對其他的端到端的語音合成模型，該模型是一個(gè)VAE模型。它包含先驗(yàn)編碼器（Encoder），也就是圖2的文本編碼器，此編碼器由多層與FastSpeech[11]相同的 Transformer Encoder[2]組成，它用來獲取文本先驗(yàn)分布的表征（均值與方差），優(yōu)化VAE的變分條件下界。后驗(yàn)編碼器（PosteriorEncoder）是由Convld+WN網(wǎng)絡(luò)[5]+Convld[13]組成。通過將短時(shí)傅里葉變換的頻譜作為語音數(shù)據(jù)輸入的特征，得到后驗(yàn)分布后通過與Glow-TTS[14]相同的FLOW使得信號的表達(dá)能力增強(qiáng)，然后通過MAS（MonotonicAlignmentSearch）[5與先驗(yàn)分布得到的結(jié)果進(jìn)行強(qiáng)制對齊就可以得知文本的持續(xù)時(shí)間，于是在SDP（Stochastic DurationPredictor）模型中，便可以具有對文本的時(shí)長進(jìn)行預(yù)測的能力。同時(shí)后驗(yàn)分布也會經(jīng)過HIFI-GAN的聲碼器進(jìn)行解碼，并加入HIFI-GAN的多周期判別器用于對抗Generator的訓(xùn)練。

圖2VITS網(wǎng)絡(luò)結(jié)構(gòu)

1.2 ContentVec編碼器

本方法的其中一個(gè)重要?jiǎng)?chuàng)新點(diǎn)就是添加了ContentVec編碼器，它在Hubert中納入解纏機(jī)制，以規(guī)范屏蔽預(yù)測標(biāo)簽和學(xué)習(xí)表征，從而達(dá)到在不嚴(yán)重丟失內(nèi)容情況下實(shí)現(xiàn)說話人解耦。ContentVec框架建立在Hubert的掩碼預(yù)測框架之上，將輸入聲學(xué)特征轉(zhuǎn)換為高質(zhì)量的語音波形，并且防止音頻中斷，進(jìn)一步提高生成歌曲的質(zhì)量。它包含三個(gè)解耦模塊：Disentanglement in Teacher、Disentanglement inStudent、SpeakerCondition。

1.2.1 Disentanglement in Teacher

首先，使用有能力的無監(jiān)督語音轉(zhuǎn)換系統(tǒng)將訓(xùn)練集中的所有語音X轉(zhuǎn)換為單個(gè)說話人。其次，轉(zhuǎn)換后的語句通過一個(gè)預(yù)訓(xùn)練的無監(jiān)督語音表示網(wǎng)絡(luò)（Hubert）生成一組語音表示，這些語音表示應(yīng)該包含很少的說話人信息。最后，利用K-means聚類[15]將語音表征量化為離散的教師標(biāo)簽。

1.2.2 Disentanglement in Student

具體來說，每段話語在被掩蔽之前被傳遞到兩個(gè)隨機(jī)變換中，這兩個(gè)變換只改變說話人的信息。話語經(jīng)過變換之后得到和，然后，將這對語句通過語音表示網(wǎng)絡(luò)生成表示和，并引入對比損失來懲罰和之間的不相似性。

1.2.3 Speaker Condition

雖然教師解耦可以去除教師標(biāo)簽中大部分的說話人信息，但仍會保留一定的說話人信息。因此，為了合理地預(yù)測教師標(biāo)簽，學(xué)生表征被迫攜帶與教師相同數(shù)量的說話人信息。為了打破學(xué)生和教師關(guān)于說話人信息之間的這種蘊(yùn)含關(guān)系，該模塊將說話人嵌入反饋給預(yù)測器。說話人嵌入是由一個(gè)說話人嵌入網(wǎng)絡(luò)產(chǎn)生的，在本研究的案例中，一個(gè)預(yù)訓(xùn)練的GE2E[，它將語音作為輸入，并輸出一個(gè)總結(jié)語音中說話人信息的向量。因此，通過將預(yù)測器限定在說話人嵌入上，該模塊可以提供掩碼預(yù)測任務(wù)所需要的任何說話人信息，從而使學(xué)生不必自己攜帶說話人信息。

1.3 NSF-HIFI-GAN

本研究使用NSF-HIFI-GAN聲碼器，進(jìn)一步提高輸出音頻的質(zhì)量。HIFI-GAN由生成器和判別器兩部分組成，其中的判別器包括多周期判別器（Multi-PeriodDiscriminator，MPD）以及多尺度判別器（Multi-Scale Discriminator，MSD）[5]。

1.3.1 生成器

生成器是一個(gè)全卷積神經(jīng)網(wǎng)絡(luò)，它使用Mel譜圖作為輸入，并通過轉(zhuǎn)置卷積對其進(jìn)行上采樣，直到輸出序列的長度與原始波形的時(shí)間分辨率相匹配。每一個(gè)轉(zhuǎn)置卷積后面都跟一個(gè)多感受野融合模塊，該模塊可以并行觀察不同長度的圖案。具體來說，MRF模塊[5]返回多個(gè)殘差塊的輸出之和。對每個(gè)殘差塊選擇不同的核大小和擴(kuò)張率，形成不同的感受野模式。本研究在生成器中留下了一些可調(diào)參數(shù)；MRF模塊的隱藏維數(shù)、轉(zhuǎn)置卷積的核尺寸、核尺寸和伸縮率可以通過調(diào)節(jié)來匹配自已的需求，在合成效率和樣本質(zhì)量之間進(jìn)行權(quán)衡。

1.3.2 多周期判別器

多周期判別器（MPD）是多個(gè)子鑒別器的混合體，每個(gè)子鑒別器只接受輸入音頻的等間隔樣本；空間以周期 p 給出。子判別器的設(shè)計(jì)是通過查看輸入音頻的不同部分來捕獲彼此不同的隱式結(jié)構(gòu)。本研究將周期設(shè)置為[2、3、5、7、11]，以盡量避免重疊。首先將長度為 T 的1D原始音頻重塑為高度為 T/p 和寬度為p 的2D數(shù)據(jù)，然后對重塑后的數(shù)據(jù)進(jìn)行2D卷積。在MPD的每個(gè)卷積層中，將寬度軸上的核尺寸限制為1，以獨(dú)立地處理周期樣本。每個(gè)子鑒別器是一個(gè)帶有泄漏校正線性單元激活的跨步卷積層堆棧。隨后，將權(quán)重歸一化應(yīng)用于MPD。通過將輸入音頻整形為2D數(shù)據(jù)，而不是采樣音頻的周期性信號，MPD的梯度可以傳遞到輸入音頻的所有時(shí)間步。

1.3.3 多尺度判別器

由于MPD中的每個(gè)子判別器只接受不相交的樣本，所以加入多尺度判別器（MSD）對音頻序列進(jìn)行連續(xù)評價(jià)。MSD的結(jié)構(gòu)借鑒了MelGAN[1的結(jié)構(gòu)。MSD是在不同輸入尺度上操作的三個(gè)子判別器的混合體：原始音頻、 ×2 平均池化音頻和 ×4 平均池化音頻。MSD中的每個(gè)子判別器都是一個(gè)帶有泄漏ReLU激活的跨步和分組卷積層的堆棧。通過減小步長和增加層數(shù)來增加判別器的大小。除了第一個(gè)子判別器對原始音頻進(jìn)行操作外，還應(yīng)用了權(quán)重歸一化。取而代之的是譜歸一化，并在其報(bào)告時(shí)穩(wěn)定訓(xùn)練。

1.3.4 NSF模型

NSF（NeuralSource-Filter）既不使用基于流程的方法，也不使用知識提取。相反，NSF模型使用了三個(gè)易于實(shí)現(xiàn)的模塊：產(chǎn)生基于正弦的激勵(lì)信號的源模塊，將激勵(lì)轉(zhuǎn)化為輸出波形的濾波模塊，以及處理源和濾波模塊輸入特征的條件模塊。這樣的NSF可以使用合并的譜幅度距離進(jìn)行有效的訓(xùn)練。這使得其產(chǎn)生的音頻更加優(yōu)質(zhì)。

1.4 多損結(jié)構(gòu)

在模型訓(xùn)練中，本研究將變分自動編碼器（VAE）和生成對抗網(wǎng)絡(luò)（GAN）方法集成訓(xùn)練過程中，將損失函數(shù)設(shè)置由5種損失函數(shù)融合得到：Loss_all=Loss_mel+Loss_kl+Loss_fm+Loss_gen+Loss_lf0。

Lossmel：用于衡量生成的Mel頻譜（Melspectrogram）與目標(biāo)Mel頻譜之間的L1損失。它可以幫助生成器網(wǎng)絡(luò)更好的學(xué)習(xí)和生成符合目標(biāo)音頻特征的Mel頻譜。

Loss_kl：k1為KL散度（Kullback-Leiblerdivergence），它是一個(gè)衡量兩個(gè)概率分布之間的差異的指標(biāo)，可以幫助生成器網(wǎng)絡(luò)更好的學(xué)習(xí)并優(yōu)化概率分布函數(shù)。

Loss_fm：用來表示真實(shí)音頻信號和生成音頻信號在特征空間上的相似度。它可以增強(qiáng)生成器的訓(xùn)練，使生成的內(nèi)容更符合真實(shí)數(shù)據(jù)的特征。

Lossgen：則是計(jì)算生成器的總體的損失函數(shù)，用來監(jiān)控和調(diào)整各個(gè)損失項(xiàng)對生成器性能的影響。

LosslfO：用來產(chǎn)生生成的聲音頻率（FO）和實(shí)際聲音頻率之間的均方誤差（MSE），有利于提高生成器的性能。

2 數(shù)據(jù)與實(shí)驗(yàn)

2.1 自制數(shù)據(jù)集

為了得到對應(yīng)的高質(zhì)量歌聲轉(zhuǎn)換模型，本研究選擇使用自己制作的數(shù)據(jù)集進(jìn)行訓(xùn)練。首先，使用基于深度神經(jīng)網(wǎng)絡(luò)的樂器分離軟件UVR5進(jìn)行人聲提取，并去除人聲中的強(qiáng)弱回聲、和聲，然后使用Audio-Slicer音頻自動切片工具進(jìn)行音頻切割和靜音檢測，得到一系列 10～15s 的目標(biāo)歌手的高質(zhì)量干聲音頻（只有目標(biāo)歌手人聲的音頻）數(shù)據(jù)集，平均每位歌手^2h ，如表1所示。將制作得到的五個(gè)數(shù)據(jù)集（三個(gè)女聲二個(gè)男聲）分別封裝，并進(jìn)行重采樣，重采樣可以降低采樣率的語言數(shù)據(jù)轉(zhuǎn)換成高采樣率的數(shù)據(jù)，進(jìn)一步準(zhǔn)確的捕捉語言信號的細(xì)節(jié)和差異，幫助提高模型的準(zhǔn)確度和魯棒性，最后將處理得到的數(shù)據(jù)集采取7：3的形式劃分為訓(xùn)練集和驗(yàn)證集。

表1具體數(shù)據(jù)量

2.2 實(shí)驗(yàn)環(huán)境

UVC模型的代碼是Python編寫的，開發(fā)環(huán)境為Windows服務(wù)器，配置16KBGPU顯卡，內(nèi)存16GB，在64位Windows10系統(tǒng)上運(yùn)行，CPU為13thGenIntel Corei9-13900HX 2.20GHz ，所有深度學(xué)習(xí)模型均使用TensorFlow框架開發(fā)。為了保持一致性，本研究將所有音頻文件轉(zhuǎn)換為WAV格式。經(jīng)過多次實(shí)驗(yàn)，最終決定設(shè)置參數(shù)leaming_rate =0.0001 、batch_size ：=6 、epochs =10000 、 sps=1×10^-9 ，得到較好的訓(xùn)練結(jié)果。

2.3 模型訓(xùn)練

為了進(jìn)一步提高語音質(zhì)量，本研究率先訓(xùn)練出一個(gè)質(zhì)量優(yōu)秀的基礎(chǔ)模型（其中包含男聲女聲高低音）。如圖3所示，本研究預(yù)先收集了超三小時(shí)的高質(zhì)量且包含各種音段的人物音頻perfect_voice，所謂基礎(chǔ)模型，就是先對perfect_voice進(jìn)行訓(xùn)練，之后再在此基礎(chǔ)上進(jìn)行目標(biāo)人物較少的高質(zhì)量數(shù)據(jù)集的訓(xùn)練，并且控制訓(xùn)練步數(shù)，防止所習(xí)得的音域缺失。然后對UVC采取分布式訓(xùn)練，提高訓(xùn)練速度和效率，在加載數(shù)據(jù)集的時(shí)候便對數(shù)據(jù)進(jìn)行預(yù)處理，從而得到條件信息、基頻信息、聲譜圖信息等。本研究采用AdamW優(yōu)化器[18]，它是結(jié)合了Adagrad[]和RMSprop[2的優(yōu)化算法，它能在訓(xùn)練的過程中自動調(diào)整學(xué)習(xí)率，從而提高收斂速度。同時(shí)還分別對生成器和判斷器創(chuàng)建了學(xué)習(xí)率調(diào)整器，幫助模型更好的收斂。模型訓(xùn)練過程如圖4所示。

圖3整體模型流程圖

圖4模型訓(xùn)練過程圖

3 結(jié)果與分析

3.1 評測標(biāo)準(zhǔn)

選擇使用NISQA模型進(jìn)行主觀語音指標(biāo)，選擇STOI、PESQ作為客觀語音指標(biāo)來檢測轉(zhuǎn)換得到的語音質(zhì)量。

3.1.1 MOS評分

MOS評分是語音質(zhì)量的主觀評價(jià)方法，表2是國際電信聯(lián)盟秘書長絕對等級評分。

表2國際電信聯(lián)盟（ITU）的絕對等級評分（ACR）

3.1.2 NISQA模型

該模型采用端到端的方式進(jìn)行訓(xùn)練，并通過Self-Attention機(jī)制實(shí)現(xiàn)時(shí)間依賴建模和時(shí)間池化。除了整體的語音質(zhì)量，該模型還預(yù)測了Noisiness（噪聲性）、Coloration（音色渲染）、Discontinuous（不連續(xù)性）和Loudness（響度）四個(gè)語音質(zhì)量維度，進(jìn)一步進(jìn)行語音質(zhì)量判斷。

3.1.3 STOI評價(jià)

短時(shí)客觀可懂度（Short-TimeObjectiveIntelligibility，STOI）是衡量語音可懂度的重要指標(biāo)，取值范圍為 0～1 ，其中數(shù)值超過0.6代表良好狀態(tài)，超過0.75即為較優(yōu)音頻。

3.1.4 PESQ評價(jià)

感知語音質(zhì)量評價(jià)（PerceptualEvaluationofSpeechQuality，PESQ）是評價(jià)語音質(zhì)量最常用的指標(biāo)之一，取值范圍為 -0.5～4.5 ，PESQ值越高則表明被測試的語音具有越好的聽覺語音質(zhì)量。

表3女生歌聲轉(zhuǎn)換結(jié)果

3.2 測試結(jié)果

使用專門進(jìn)行音頻測試的NISQA模型，對推理得到的音頻和So-Vits-SVC模型（SVC）推理得到的音頻，進(jìn)行質(zhì)量檢測，結(jié)果如表3和表4所示。發(fā)現(xiàn)在各個(gè)方面，UVC模型推理得到的音頻質(zhì)量不管是男聲還是女生都優(yōu)于So-Vits-SVC模型。

3.3 結(jié)果分析

相對于SVC模型，UVC使用了ContentVec編碼器，在語音波形輸入到VITS網(wǎng)絡(luò)結(jié)構(gòu)模型時(shí)，通過改進(jìn)其解耦方式，提高了Noi_pred、Col_pred、Loud_pred、STOI指標(biāo)。在語音輸出時(shí)，本研究使用NSF-HIFI-GAN聲碼器，提高輸出語音的連續(xù)性，也提高了Dis_pred和PESQ指標(biāo)。從各個(gè)指標(biāo)上對比發(fā)現(xiàn)，UVC轉(zhuǎn)換出的歌聲質(zhì)量比較出色。

4結(jié)論

本研究提出的以高保真流為基礎(chǔ)的多解耦特征約束的UVC模型，通過結(jié)合ContentVec編碼器和NSF-HIFI-GAN聲碼器，使轉(zhuǎn)換后的歌聲在噪聲性、音色渲染、連續(xù)性、響度、STOI、PESQ等各方面都有較優(yōu)秀的指標(biāo)，音頻質(zhì)量得到極大的提高。在未來，屬于歌聲轉(zhuǎn)換的模型會越來越成熟。

參考文獻(xiàn)：

[1] NISHIMURA M，HASHIMOTO K，OURA K，et al.

SingingVoiceSynthesisBasedonDeepNeuralNetworks[C]//

Interspeech.SanFrancisco：ISCA，2016：2478-2482.

[2]KALCHBRENNERN，ELSENE，SIMONYANK，et

al.Efficient NeuralAudio Synthesis[J/OL].arXiv：1802.08435[cs.

SD].（2018-02-23） .https：//arxiv.org/abs/1802.08435.

[3]GOODFELLOWI，POUGET-ABADIEJ，MIRZA

M，etal.GenerativeAdversarialNets[C]//28th International

Conference on Neural Information Processing Systems.Montreal：

NIPS，2014，2：2672-2680.

[4]QIANKZ，ZHANGY，GAOHT，et al.ContentVec：

An Improved Self-supervised Speech Representation by

DisentanglingSpeakers[J/OL].arXiv：2204.09224[cs.SD].（2022-

04-20）.https：//arxiv.org/abs/2204.09224.

[5]KONGJ，KIMJ，BAEJ，etal.HiFi-GAN：Generative

Adversarial Networksfor EfficientandHighFidelity Speech

Synthesis[J/OL].arXiv：2010.05646 [cs.SD]. （2020-10-12）.

https：//arxiv.org/abs/2010.05646.

[6]KIMJ，KONG J，SONJ，etal.Conditional

VARIATIONAL AutoencoderwithADVERSARIALLearningfor

End-To-End Text-To-Speech[J/OL].arXiv：2106.06103 [cs.SD]. （2021-06-11） .https：//arxiv.org/abs/2106.06103.

[7]JIAY，ZHANGY，WEISSRJ，etal.Transfer

Learningfrom SpeakerVerification to Multispeaker Text-To

Speech Synthesis[J/OL].arXiv：1806.04558[cs.CL].（2018-06-12）.

https：//arxiv.org/abs/1806.04558.

[8]HSUW-N，BOLTEB，TSAIY-HH，etal.HuBERT：

Self-supervised SpeechRepresentationLearningbyMaskedPrediction

ofHidden Units[J]IEEE/ACM Transactions on Audio，Speech，and

Language Processing，2021，29：3451-3460.

[9] KINGMA D P，WELLING M.Auto-Encoding VariationalBayes[J/OL].arXiv：1312.6114[stat.ML].（2013-12-20）. https：//arxiv.org/abs/1312.6114.

[10]CHENMJ，TANX，RENY，etal.MultiSpeech： Multi-speaker Text to Speech with Transformer [J/OL]. arXiv：2006.04664[eess.AS].（2020-06-08）.https：//arxiv.org/ abs/2006.04664.

[11]BERNARD M.Phonemizer [EB/OL].[2024-06-26]. https：//github.com/bootphon/phonemizer.

[12]VEAUXC，YAMAGISHIJ，MACDONALDK. CSTRVCTKCorpus：EnglishMulti-speakerCorpusforCSTR Voice Cloning Toolkit[EB/OL]. （2017-04-04）[2024-07-11]. https：//datashare.ed.ac.uk/handle/10283/2651.

[13] SONG H，CHEN SY，CHEN Z，et al. Exploring WavLMon Speech Enhancement[C]//2022IEEE Spoken Language TechnologyWorkshop （SLT）.Doha：IEEE，2023： 451-457.

[14]BINKOWSKI M，DONAHUEJ，DIELEMANS，et

al.High Fidelity SpeechSynthesiswithAdversarialNetworks[J/

OL].arXiv：1909.11646[cs.SD]. （2019-09-25）.https：//arxiv.org/

abs/1909.11646.

[15]WANGXY，BAIYP.TheGlobal MinmaxK-means"Algorithm[J].SpringerPlus，2016，5（1）：1665.

[16]WANL，WANGQ，PAPIRA，etal.Generalized Endto-EndLossforSpeakerVerification[C]//2018IEEEInternational Conference on Acoustics， Speech and Signal Processing （ICASSP）. Calgary：IEEE，2018：4879-4883.

[17]YANGG，YANGS，LIUK，etal.Multi-band Melgan：FasterWaveform GenerationforHigh-quality Text-ToSpeech[C]//2021 IEEE Spoken Language Technology Workshop （SLT）.Shenzhen：IEEE，2021：492-498.

[18]KINGMADP，BAJ.Adam：AMethodforStochastic Optimization[J/OL].arXiv：1412.6980[cs.LG].（2014-12-22）. https：//arxiv.org/abs/1412.6980.

[19] TRAORE C，PAUWELS E. Sequential Convergence of AdaGrad Algorithm for Smooth Convex Optimization [J]. OperationsResearchLetters，2021，49（4）：452-458. [20] LI W W，LIUL，ZHANG JX. AdaRW Training OptimizationAlgorithmforDeepLearningModel ofMarine TargetDetection Based on SAR[J].International Journal of Remote Sensing，2021，43（1）：120-131.

作者簡介：周柯汝（2004一），女，漢族，浙江紹興人，本科在讀，研究方向：計(jì)算機(jī)科學(xué)與技術(shù)；通信作者：金偉（1989一），男，漢族，浙江寧波人，講師，博士，研究方向：人工智能。