999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內(nèi)容特征KNN回歸的零樣本口音轉(zhuǎn)換模型

2025-09-29 00:00:00羅宜鑫陳寧薛宇航肖陽陽

中圖分類號:TP391

口音轉(zhuǎn)換(Accent Conversion,AC)是語音轉(zhuǎn)換(VoiceConversion,VC)的一個分支任務(wù),旨在將源說話人帶有源口音的語音轉(zhuǎn)換為具有目標口音的語音,同時保持源說話人的身份信息和語音內(nèi)容不變。該技術(shù)的應(yīng)用場景廣泛,包括個性化語音合成[、電影配音[2],以及語言學(xué)習(xí)[3]等。目前,口音轉(zhuǎn)換面臨的最大的難點在于,如何從源口音中重新構(gòu)建出目標口音的發(fā)音規(guī)則。

根據(jù)訓(xùn)練階段是否需要與源口音語音具有相同內(nèi)容的目標口音語音(即并行數(shù)據(jù)用于發(fā)音建模),現(xiàn)有的AC模型可以分為并行方法與非并行方法兩類。并行AC模型在訓(xùn)練或推理階段需要語音內(nèi)容相同且包含目標口音的并行語音,因此這類方法被視為回歸方法,即通過擬合源語音和自標語音之間的映射函數(shù)來實現(xiàn)口音轉(zhuǎn)換。主流的并行AC模型均基于語音后驗圖(PhoneticPosteriorgram,PPG),通過匹配源口音語音和目標口音語音的PPG特征實現(xiàn)口音轉(zhuǎn)換。文獻[4]基于PPG特征對源口音和目標口音語音進行幀級特征匹配,用于訓(xùn)練概率模型以

文獻標志碼:A

計算源語音和目標語音的梅爾頻率倒譜系數(shù)(MelFrequencyCepstralCoefficient,MFCC)的聯(lián)合概率分布,最后基于目標說話人的全局方差,采用最大似然估計計算轉(zhuǎn)換后頻譜參數(shù)的軌跡。文獻[5-6]采用源口音語音的PPG特征訓(xùn)練一個保持源說話人音色的語音合成器,并在推理過程中輸人目標語音的PPG特征用于改變源說話人的發(fā)音。文獻[7-8]設(shè)計了一個PPG轉(zhuǎn)換模塊,通過源口音語音的PPG特征預(yù)測轉(zhuǎn)換后的自標口音語音的PPG特征,并通過轉(zhuǎn)換后的PPG特征合成梅爾譜(Mel-Spectrogram)以實現(xiàn)口音轉(zhuǎn)換。雖然該方法在一定程度上提高了模型在不同口音下轉(zhuǎn)換性能的泛化性,但依然需要在訓(xùn)練中采用并行數(shù)據(jù)對源口音PPG到目標口音PPG特征的轉(zhuǎn)換進行建模。

然而,在實際應(yīng)用場景中并行數(shù)據(jù)往往難以獲取,并行方法的實際應(yīng)用價值受限。近期,基于非并行數(shù)據(jù)訓(xùn)練的AC模型成為該領(lǐng)域的研究趨勢。但對于非并行方法來說,由于缺少并行語音對正確的發(fā)音規(guī)則進行引導(dǎo),實現(xiàn)源口音到目標口音轉(zhuǎn)換的難度很大。文獻[9]通過訓(xùn)練針對源口音的語音識別(Automatic Speech Recognition,ASR)模型和基于目標口音語音訓(xùn)練的語音合成(Text-to-Speech,TTS)模型實現(xiàn)了ASR-TTS框架下的口音轉(zhuǎn)換。文獻[10-11]在目標口音數(shù)據(jù)集上訓(xùn)練TTS模型,通過遷移學(xué)習(xí)將源口音的語音特征映射到TTS編碼的文本空間中,最終通過TTS解碼合成目標口音語音。文獻[12]將ASR預(yù)測的文本編碼與口音標簽結(jié)合用于控制目標口音發(fā)音,實現(xiàn)了多種口音之間的相互轉(zhuǎn)換。文獻[13-14]利用ASR識別源口音語音音素,并與目標文本音素進行比較,將不同的音素標記為口音音素并進行糾正,最終實現(xiàn)去除口音的語音合成。但本質(zhì)上此類基于文本的口音轉(zhuǎn)換模型的性能取決于ASR或TTS模型的性能,并且標注文本參與訓(xùn)練的成本較高。

需要注意的是,一方面,現(xiàn)有的基于并行或非并行數(shù)據(jù)的AC模型在訓(xùn)練過程中都需要源口音語音參與訓(xùn)練,但由于相同口音下不同說話人的發(fā)音具有一定差異,因此這類模型的性能在訓(xùn)練數(shù)據(jù)分布以外的口音轉(zhuǎn)換任務(wù)上泛化性不佳。另一方面,基于TTS引導(dǎo)的非并行AC模型需要大量文本標注對TTS模型進行訓(xùn)練,并且性能受限于TTS模型本身。為了解決以上問題,本文提出了基于內(nèi)容特征回歸的零樣本口音轉(zhuǎn)換模型。首先,考慮到由大規(guī)模語音數(shù)據(jù)自監(jiān)督訓(xùn)練的WavLM[15]模型的第23層特征含有豐富的音素信息及少量的說話人音色信息,本文模型采用該特征作為內(nèi)容特征,一方面保證了內(nèi)容特征的準確性,另一方面盡可能降低目標口音語音中摻雜的音色信息對源說話人音色合成的影響。其次,通過引入k-鄰近(k-NearestNeighbors,kNN)[16回歸,將源口音語音的WavLM-23特征映射為具有相近音素信息的目標口音語音WavLM-23特征,從而實現(xiàn)源口音到目標口音的轉(zhuǎn)換。最后,為了實現(xiàn)對源說話人音色的保留,引入說話人編碼器并構(gòu)建多說話人聲碼器以實現(xiàn)具有源說話人音色和目標口音的語音合成。實驗結(jié)果表明,該模型在zeroshot場景下取得了比并行和非并行AC模型更好的客觀與主觀評價。

1算法描述

本文提出的模型受到面向VC任務(wù)的KNNVC[17]模型的啟發(fā),并針對AC任務(wù)進行了如下改進:

(1)考慮到文獻[17]所采用的WavLM第6層特征與說話人信息高度相關(guān)[18,為了盡可能避免特征中所包含的說話人特征的影響,本文采用了微調(diào)后的WavLM模型中與內(nèi)容信息高度相關(guān)的第23層特征進行回歸。

(2)為了適應(yīng)AC任務(wù)對保持源說話人音色的要求,本文單獨設(shè)計了說話人編碼器以提取源說話人音色特征。

(3)為了更好地合成包含源說話人音色和目標口音的轉(zhuǎn)換語音,本文在文獻[17]采用HiFi-GAN[19]架構(gòu)的基礎(chǔ)上設(shè)計了多說話人聲碼器。

本文提出的基于內(nèi)容特征kNN回歸的零樣本學(xué)習(xí)(zero-shot)口音轉(zhuǎn)換模型kNN-AC的總體架構(gòu)如圖1所示。它包括內(nèi)容特征提取、基于kNN回歸的特征轉(zhuǎn)換、說話人特征提取和基于多說話人聲碼器的語音合成共4個重要部分。

首先,采用基于WavLM第23層的語音特征編碼提取源口音語音和目標口音語音的內(nèi)容特征;接著,通過kNN回歸算法,對源口音語音每一幀的內(nèi)容特征,在目標口音語音特征中查詢最鄰近的 k 幀特征并計算平均值作為回歸結(jié)果;最后,構(gòu)建多說話人聲碼器,在目標口音內(nèi)容特征中引入由說話人編碼器提取的源說話人音色信息,合成口音轉(zhuǎn)換后的語音。

1.1 內(nèi)容特征提取

文獻[18]表明,由WavLM第23層提取的自監(jiān)督特征在相同音素之間的相似性遠高于不同音素之間的相似性,更適合與音素特征相關(guān)的下游任務(wù),因此本文采用由WavLM第23層提取的特征作為內(nèi)容特征。特別地,為了使特征中包含的音素信息更為準確,本文采用了在ASR任務(wù)上微調(diào)過的WavLM模型權(quán)重。具體微調(diào)方式如下:首先,通過隨機遮掩輸入音頻并預(yù)測被遮掩部分的自監(jiān)督訓(xùn)練方法獲取預(yù)訓(xùn)練權(quán)重。為了提升語音識別的準確性,在已標注數(shù)據(jù)集LibriSpeech2o上利用連接時序分類(ConnectionistTemporalClassification,CTC)損失函數(shù)對預(yù)訓(xùn)練模型進行進一步的微調(diào)。

在kNN-AC模型中,將從源口音語音中提取出的特征序列作為源序列(source sequence)。同時,從多個目標口音語音中提取出特征序列作為目標池(targetpool)。基于WavLM第23層的內(nèi)容特征提取可以表示為式(1):

其中, Usrc 表示一條源口音語音, Untrg 表示第 n 條目標口音語音,即目標池由多條目標口音語音提取的特征組成。

1.2基于kNN回歸的特征轉(zhuǎn)換

文獻[17]的實驗結(jié)果表明,WavLM模型的不同特征層對于相關(guān)性高的音色、韻律等語音屬性表現(xiàn)出了很好的聚類效果。然而,由于口音轉(zhuǎn)換任務(wù)中源口音和目標口音之間的發(fā)音差距較大,而文獻[17]中基于淺層的韻律回歸會保留與源口音一致的發(fā)音方式,無法直接用于AC任務(wù),因此需要基于音素特征回歸并進行語音重構(gòu)。為此,本模型選用由WavLM第23層提取的特征作為內(nèi)容特征,相比于其他層提取的特征,該層特征在包含音素信息的同時,也攜帶少量的發(fā)音信息可用于語音重構(gòu)。

為了實現(xiàn)從源口音到目標口音的轉(zhuǎn)換,我們對源序列中的每個特征向量進行kNN回歸,即對于source sequence Ω={a1,a2,…,am} 中的每一幀特征向量ai(1?i?m) ,分別在 targetpool={b1,b2,…,bn} 中查詢距離其最近的 k 個特征向量 bj(1?j?n) 。這里,本文模型采用余弦相似度衡量兩個特征向量之間的相似性,計算方式見式(2)。

查詢到最鄰近的 k 個特征向量 bj 后,用它們的平均值替換查詢特征向量 ai ,得到目標序列target sequence ={t1,t2,…,tm} 。基于內(nèi)容特征kNN

回歸的口音特征轉(zhuǎn)換的一大優(yōu)勢在于不需要訓(xùn)練任何參數(shù)即可實現(xiàn)源口音語音特征到目標口音語音特征的直接轉(zhuǎn)換。

1.3 說話人特征提取

說話人語音中所包含的音色信息作為一種全局特征,在說話持續(xù)期間保持不變。殘差網(wǎng)絡(luò)(ResidualNetworks,ResNets)2il允許網(wǎng)絡(luò)在不同層次上整合信息,在網(wǎng)絡(luò)深層提取全局特征的同時,保留了網(wǎng)絡(luò)淺層的局部特征對全局特征進行補充,已在大量說話人相關(guān)任務(wù)[22-24]上得以驗證。因此,本文模型采用如圖2所示的由4個殘差模塊(ResidualBlocks,ResBlock構(gòu)成主體的說話人編碼器,從源說話人語音的梅爾譜中提取說話人特征。

圖2說話人編碼器結(jié)構(gòu)

Fig.2Architecture of the speaker encoder

圖2中所示的每個ResBlock在連接前引入了時間維度上的平均池化操作,旨在減少時間變化對說話人特征不變性的影響。最后通過自適應(yīng)池化對時間維度進行收縮降維,并對說話人特征維度進行映射。說話人編碼器通過輸人梅爾譜 (m) 提取出說話人特征 ,其計算過程如式(3)所示,其中: h0 為第1個ResBlock的輸人, hi-1 為當前ResBlock的輸入,

hi 為輸出。

從真實音頻的 ?m 中提取說話人特征 SpeakerEncoder (m) ),從合成語音梅爾譜 中提取說話人特征 SpeakerEncoder ), s 和 的說話人循環(huán)一致性損失記為 Lcyc (式(4))。說話人編碼器后續(xù)將與聲碼器一起進行訓(xùn)練。

1.4基于多說話人聲碼器的語音合成

多說話人聲碼器的架構(gòu)如圖3所示。由于目標序列的每一幀特征是由目標池中的 k 個鄰近特征取平均值得到的,因此源說話人的音色信息隨之轉(zhuǎn)換為targetpool特征攜帶的少量說話人信息。為了在合成語音中保持源說話人音色,本文模型在HiFi-GAN[19]聲碼器架構(gòu)的基礎(chǔ)上引入了自適應(yīng)實例歸一化(Adaptive Instance Normlization,AdaIN)[25]以及相應(yīng)的殘差模塊AdaINResBlock。AdaINResBlock與前述ResBlock的主要區(qū)別在于歸一化方式有所不同。與ResBlock采用的實例歸一化(InstanceNormlization, IN)[26] 相比,AdaIN在內(nèi)容特征的基礎(chǔ)上引入了風(fēng)格特征進行融合,如式(5)所示:

其中, c 表示輸入的語音內(nèi)容特征, μ(c) 和 σ(c) 分別表示內(nèi)容特征的均值和標準差, Lσ(s) 和 Lμ(s) 分別表示基于說話人特征 s 學(xué)習(xí)的線性變換計算的自適應(yīng)增益和偏差。

通過AdaINResBlock在目標序列中引入說話人信息,并直接通過生成器(Generator)進行語音合成,訓(xùn)練過程中采用判別器對聲音質(zhì)量進行優(yōu)化。

對于真實語音 x 和生成語音 ,判別器 D 和生成器 G 之間的對抗訓(xùn)練損失 Ladv(D;G) 和 Ladv(G;D) 可分別表示為式(6)和式(7):

為了穩(wěn)定訓(xùn)練并加速收斂,對于真實語音 對應(yīng)的 ?m 和生成語音 對應(yīng)的 ,進一步采用式(8)和式(9)中的梅爾損失 (Lmel) 和特征匹配損失(LFM) 進行約束。其中特征匹配損失通過計算判別器中真實語音與生成語音每一層的平均絕對誤差來保持真實語音與生成語音間的一致性。

圖3多說話人聲碼器架構(gòu)

Fig.3 Architecture of the multi-speaker vocoder

最終,整個多說話人聲碼器的訓(xùn)練損失可分為生成器損失 (LG) 和判別器損失 (LD) ,分別如式(10)和式(11)所示,其中 λ 表示計算損失所賦予的權(quán)重系數(shù)。

LG=Ladv(G;D)+λfmLFMmelLmel

LD=Ladv(D;G)

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)集

實驗所涉及的數(shù)據(jù)集包括LibriSpeech[20],L2-Arctic[27],Arctic[28]以及IndicTTs[29]。其中Libri-Speech作為目標口音語音數(shù)據(jù)集,用于kNN-AC中說話人編碼器和多說話人聲碼器的訓(xùn)練。Arctic包含具有標準英文口音的語音數(shù)據(jù),而L2-Arctic包含具有與Arctic語音內(nèi)容相同而口音不同的并行語音數(shù)據(jù)。Arctic和L2-Arctic常用于并行AC模型的訓(xùn)練。需要說明的是,首先,為了測試模型對不同口音語音的口音轉(zhuǎn)換效果,選用L2-Arctic中的印度口音和阿拉伯口音語音作為測試對象,并且所有基線模型均采用與kNN-AC相同的數(shù)據(jù)進行性能測試。此外,我們還在IndicTTS數(shù)據(jù)集上對印度口音轉(zhuǎn)換進行了測試,進一步驗證本文模型的泛化性。需要明確的是,kNN-AC的口音轉(zhuǎn)換性能是在零樣本學(xué)習(xí)的條件下測試,即在模型訓(xùn)練階段沒有采用任何源口音語音數(shù)據(jù)。

2.2基線模型與實驗設(shè)置

為了驗證kNN-AC模型的性能,實驗分別選取了基于PPG特征的并行模型PPG-AC8,基于TTS的非并行AC模型ASR-TTS,非并行多口音轉(zhuǎn)換AC模型Multi-AC[2],以及基于內(nèi)容特征回歸的VC模型kNN-VC[7作為基線模型,并將各模型的轉(zhuǎn)換語音與源語音數(shù)據(jù)進行比較。在各個數(shù)據(jù)集上,本文模型的測試數(shù)據(jù)均與所有基線模型的測試數(shù)據(jù)保持一致,各模型設(shè)置分別如下:

(1)PPG-AC8]:采用并行的Arctic和L2-Arctic語音數(shù)據(jù)進行訓(xùn)練,對每個說話人,訓(xùn)練數(shù)據(jù)包括除了最后100條語音的1032條語音。

(2)ASR-TTS:考慮到基于TTS的非并行AC模型均未公開代碼,本文分別利用了基于Whisper[30的ASR模型和基于FastSpeech2[31]的TTS模型復(fù)現(xiàn)文獻[9]的架構(gòu)。測試時通過Whisper識別源口音語音文本并通過FastSpeech2合成目標口音語音。

(3)Multi-AC[12l:可通過口音標簽實現(xiàn)不同口音之間的轉(zhuǎn)換。我們對該模型提供的基于IndicTTS數(shù)據(jù)集實現(xiàn)的印度口音英語轉(zhuǎn)換為標準口音英語語音進行比較測試。

(4)kNN-VC[17]:考慮到kNN-AC是受到kNN-VC模型的原理啟發(fā)并適應(yīng)AC任務(wù)的具體需要而構(gòu)建的,本文也采用了kNN-VC模型在AC任務(wù)上的結(jié)果作為測試對象,實驗設(shè)置與kNN-AC保持一致,即在LibriSpeech上訓(xùn)練目標口音合成,并在L2-Arctic上測試口音轉(zhuǎn)換性能。并且,kNN特征回歸均設(shè)置k=4 以及相同 25min 的目標池進行推理。訓(xùn)練過程中batchsize設(shè)置為8,采用 AdamW[32] 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為 2×10-4 ,衰減率為 10-3

2.3與基線模型的性能比較

本文分別采用客觀評價和主觀評價對AC模型的性能進行比較。

客觀評價包括與語音可懂度有關(guān)的詞錯率(WordErrorRate,WER)和字錯率(CharacterErrorRate,CER),以及說話人相似度識別的平均錯誤率(EqualErrorRate,EER)。客觀指標實驗通過ESPnet[33]提供的ASR模型進行測定,并采用Resemblyzer[34]測定EER。

主觀評價包括語音自然度(MeanOpinion Score,MOS)和口音度(Accentedness)。主觀評價實驗隨機挑選10條語音,提供配對文本并請10名受試者進行打分。打分均采用5分制(1~5),MOS的打分越高表示語音質(zhì)量越好;口音度的打分越低,表示口音轉(zhuǎn)換效果越好。kNN-AC模型的口音轉(zhuǎn)換demo見https://chiaki-luo.github.io/knnac/。

kNN-AC模型與各基線模型的性能對比結(jié)果如表1所示,其中\(zhòng)"↓\"表示數(shù)值越低越好,“↑\"表示數(shù)值越高越好。客觀性能對比結(jié)果表明,首先,在L2Arctic數(shù)據(jù)集上,與源口音語音相比,各種AC模型均可以降低WER/CER指標,表明各模型均可在一定程度上將源口音轉(zhuǎn)換為目標口音。其次,用于VC任務(wù)的kNN-VC模型不能達到任意一種AC模型的口音轉(zhuǎn)換性能。最后,kNN-AC取得了比并行模型PPG-AC和基于TTS的ASR-TTS模型更低的WER/CER,表明kNN-AC取得了更好的口音轉(zhuǎn)換性能。另外,在IndicTTS數(shù)據(jù)集上,kNN-AC轉(zhuǎn)換語音的可懂度也超過了包含Multi-AC在內(nèi)的其他AC模型,但說話人編碼器對音色特征的提取在該數(shù)據(jù)集上的表現(xiàn)略有下降,使得EER略有升高。值得一提的是,與其他AC模型不同,kNN-AC的性能是在訓(xùn)練階段未見源口音語音數(shù)據(jù)的情況下達成的,因此kNN-AC具有更好的泛化性。

表1本文模型與基線模型的性能對比

Table1 Performance comparison between kNN-AC and the baseline model

主觀性能對比結(jié)果表明,首先所有AC模型均在一定程度上影響了語音自然度,但相對而言kNN-AC的影響最小,然而說話人特征的引入使得kNN-AC的聲碼器相對于KNN-VC的聲碼器更難訓(xùn)練,從而降低了語音質(zhì)量。其次,kNN-VC對于口音度幾乎沒有改善,而kNN-AC的改進顯著降低了口音度并取得了比PPG-AC、ASR-TTS以及Multi-AC模型更好的性能表現(xiàn)。

2.4目標語音時長對模型性能的影響

為了測試構(gòu)建targetpool的語音時長對kNN-AC轉(zhuǎn)換語音的可懂度和音色保持度的影響,本實驗對在不同時長下所獲得的WER、CER及EER進行測試,結(jié)果如圖4所示。可以看出:(1)當目標語音時長大于 3min 時,由kNN-AC轉(zhuǎn)換的語音能夠獲得比源口音語音更高的可懂度。(2)隨著目標語音時長增加,轉(zhuǎn)換語音的可懂度明顯上升。可能的原因是,時長的增加使目標池中所包含的音素更多,包含與源語音音素更相似的語音因素的可能性更大,使得語音內(nèi)容回歸的準確性隨之上升,從而有利于提升口音轉(zhuǎn)換性能。(3)與文獻[17]不同,目標語音時長基本不影響EER指標,這說明說話人編碼器可準確提取源說話人信息,同時多說話人聲碼器有效融合了源說話人信息,從而保留了轉(zhuǎn)換語音中源說話人的音色。

圖4用于構(gòu)建targetpool的語音時長對模型性能的影響 Fig.4Influence of the length of speech adopted for the construction of the target pool on the performance of the proposed model

3結(jié)論

為了解決并行AC模型對數(shù)據(jù)采集的依賴,以及非并行AC模型泛化性的問題,本文提出一種zeroshotAC模型。采用WavLM第23層提取內(nèi)容特征以保證內(nèi)容準確性,通過對源口音語音內(nèi)容特征進行kNN回歸實現(xiàn)口音特征向目標口音的轉(zhuǎn)換。最后,構(gòu)建說話人編碼器提取源說話人音色特征并通過多說話人聲碼器實現(xiàn)具有源說話人音色的目標口音語音合成。實驗結(jié)果表明,該模型取得了比并行和非并行AC模型更好的性能。

參考文獻:

[1] TURK O, ARSLAN L M. Subband based voice conversion[C]// Seventh International Conferenceon Spoken Language Processing. Denver, Colorado,USA: ICSLP,2002: 137-140.

[2] OSHIMA Y, TAKAMICHI S, TODA T, et al. Non-native speech synthesis preserving speaker individuality based on partial correction ofprosodicandphonetic characteristics[C]// Proceedings of Interspeech. Dresden, Germany: Interspeech,2015: 299-303.

[3] YANGL F,F(xiàn)U KQ, ZHANGJS, et al. Non-native acousticmodelingformispronunciation verification based onlanguage adversarial representation learning[J]. Neural Networks,2021,142:597-607.

[4] ZHAO G L,SONSAAT S,LEVIS J, et al. Accent conversion using phonetic posteriorgrams[C]//2018 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Calgary,AB,Canada: IEEE,2018: 5314-5318.

[5] ZHAO G L, DING S J, GUTIERREZ-OSUNA R, et al. Foreign accent conversion by synthesizing speech from phonetic posteriorgrams[C]//Proceedings of Interspeech. Graz,Austria: Interspeech, 2019: 2843-2847.

[6] LI W J, TANG B L, YIN X, et al. Improving accent conversion with reference encoder and end-to-end text-tospeech [EB/OL]. (2020-05-19) [2024-10-10]. https://arxiv. org/abs/2005.09271.

[7] QUAMER W,DASA,LEVISJ,etal. Zero-shot foreign accent conversion without a native reference[C]//Proceedings of Interspeech. Incheon, ROK:Interspeech,2022: 4920-4924.

[8] HUANG W C, TODA T. Evaluating methods for groundtruth-free foreign accent conversion[C]/2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference. Taipei, Taiwan, China: APSIPA ASC,2023: 1161-1166.

[9]LIU S X, WANG D S, CAO Y W,et al. End-to-end accent conversion without using native utterances[C]//2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona, Spain: IEEE,2020: 6289- 6293.

[10]ZHOU Y,WU Z Z, ZHANG MY. TTS-guided training for accent conversion without parallel data[J]. IEEE Signal Processing Letters,2023,30: 533-537.

[11]CHEN X, PEI J K, XUE L M, et al. Transfer the linguistic representations from TTS to accent conversion with nonparallel data[C]//2024 IEEE Intermational Conference on Acoustics, Speech and Signal Processing (ICASSP). Coex, Seoul,ROK:IEEE,2024:12501-12505.

[12]JIN M M,SERAI P,WU J L et al. Voice-preserving zero-shot multiple accent conversion[C]//2023IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Rhodes Island, Greece: IEEE,2023: 1-5.

[13]TAN D X, DENG L Q, YEUNG Y T, et al. Editspeech: A text based speech editing system using partial inference and bidirectional fusion[C]// 2021 IEEE Automatic Speech Recognitionand Understanding Workshop (ASRU). Virtual: IEEE,2021: 626-623.

[14]TAN D X, DENG L Q, ZHENG N Z, et al. Correctspeech: A fully automated system for speech correction and accent reduction[C]//202213th International Symposiumon Chinese Spoken Language Processing (ISCSLP). Singapore: IEEE,2022:81-85.

[15]CHEN S Y, WANG C Y,CHEN Z Y,et al. Wavlm: Largescale self-supervised pre-training for full stack speech processing[J]. IEEE Journal of Selected Topics in Signal Processing,2022,16(6): 1505-1518.

[16]FIX E, HODGES JL. Discriminatory analysis, nonparametric discrimination: Consistency properties[J]. International Statistical Institute,1989,57(3): 238-247.

[17]BAAS M, VAN NIEKERK B, KAMPER H. Voice conversion with just nearest neighbors[C]// Proceedings of Interspeech.Dublin, Ireland: Interspeech, 2023: 2053-2057.

[18]DUNBAR E, HAMILAKIS N, DUPOUX E. Self-supervised language learning from raw audio: Lessons from the zero resource speech challenge[J]. IEEE Journal of Selected Topics in Signal Processing,2022,16(6): 1211-1226.

[19]KONG J, KIM J, BAE J. Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis[J]. Advances in Neural Information Processing Systems, 2020,

[20] PANAYOTOV V, CHEN G,POVEY D, et al. Librispeech: An ASR corpus based on public domain audio books[C]//2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). South Brisbane,QLD,Australia:IEEE,2015:5206-5210.

[21] HE K M, ZHANG X Y,REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Juan,PR, USA: IEEE, 2016: 770-778.

[22] LIYA,HANC,MESGARANI N. Styletts-vc:One-shot voice conversion by knowledge transfer from style-based tts models[C]/2022 IEEE Spoken Language Technology Workshop (SLT). Doha, Qatar: IEEE,2023: 920-927.

[23] JAKUBEC M,LIESKOVSKA E, JARINA R. Speaker recognition with resNet and VGG networks[C]//31st International Conference Radioelektronika (RADIOELEKTRONIKA). Brmo, Czech Republic: IEEE, 2021: 1-5.

[24] JAKUBEC M, JARINA R, LIESKOVSKA E, et al. Deep speaker embeddings for Speaker Verification: Review and experimental comparison[J]. Engineering Applications of Artificial Intelligence,2024,127:107232.

[25] HUANG X, BELONGIE S. Arbitrary style transfer in realtime with adaptive instance normalization[C]/Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE,2017: 1510-1519.

[26] DUMOULIN V, SHLENS J, KUDLUR M. A learmed representation for artistic style[C]//International Conference on Learning Representations.Toulon,F(xiàn)rance: ICLR, 2017.

[27]ZHAO G L, SONSAAT S, SILPACHAI A, et al. L2-arctic: A non-native English speech corpus[C]//Proceedings of Interspeech.Hyderabad, India:Interspeech,2018:2783- 2787.

[28] KOMINEK J, BLACK A W. The CMU arctic speech databases[C]//Speech SynthesisWorkshop.Pittsburgh,PA, USA: ISCA,2004: 223-224.

[29] BABY A,THOMAS A L,NISHANTHI N L,et al. Resourcesfor indian languages[C]//Community-Based Building of Language Resources. Brno, Czech Republic: Tribun EU,2016:37-43.

[30] RADFORD A,KIM J W, XU T, et al.Robust speech recognition via large-scale weak supervision[C]//International Conference on Machine Learning. Honolulu, Hawaii, USA: PMLR, 2023: 28492-28518.

[31] RENY,HUCX,TANX,etal.FastSpeech2:Fastand high-quality end-to-end text to speech[C]/Intermational Conference on Learning Representations. Virtual Event, Austria: ICLR, 2021.

[32] LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization[C]/International Conference on Learning

Representations.NewOrleans,LA,USA:ICLR,2019. [33] HAYASHIT,YAMAMOTOR,INOUEK,etal.Espnettts:Unified, reproducible,and integratable open source endto-end text-to-speech toolkit[C]//2020 IEEE International Conference on Acoustics, Speech and Signal Processing

(ICASSP).Barcelona,Spain:IEEE,2020:7654-7658. [34] WANL,WANG Q,PAPIRA, etal.Generalizedend-toend loss for speaker verification[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Calgary,AB,Canada:IEEE,2018: 4879-4883.

Zero-Shot Accent Conversion Model Based on the kNN Regression of Content Features

LUO Yixin', CHENNing1,XUE Yuhangl,XIAO Yangyang2 (1.School of Information Scienceand Engineering,East China UniversityofScienceand Technology,Shanghai 200237, China; 2. China Telecom Wanwei Information Technology Co. Ltd,Lanzhou 73ooo0, China)

Abstract: Accent Conversion (AC) aims to convert speech from the source accent to the target accent while preserving the source speaker's timbre and the speech content at the same time.Existing AC models cannot achieve good generalization capability for AConspeech that does notfolowthe distribution ofthe trainingdata,as limits their applicationsseriously.Tothisend,azero-shotACmodelbasedonthekNNregressionof speech contentfeatures is proposed. On the one hand,the 23rd layer of WavLM is adopted as the content encoder to extract thecontent features fromboth source and target accented speech,and kNN regression is employed toreplace the source accented content featurewith its nearest neighbors in thepoolconstructed bythe target accented content features toachieve accent conversion. On the other hand,to preserve the source speaker's tmbre intheconverted speech,amulti-speaker vocoder is constructed to fuse the obtained target accented content features with the source speaker's timbre feature extracted by thespeaker encoder tosynthesize the speech withthe targetaccent.Inthe proposed model,no sourceaccentedspeech is required at the training stage,so itcanconvert various source accented speech to thetarget accented speech.That is,the proposed model achieves good generalization ability.Experimental results demonstrate that the proposed model achieves beter objective and subjective evaluation results than available parallel or non-parallel AC models.

Key words: accent conversion; kNN regression; zero-shot learning; voice conversion; vocoder

(責(zé)任編輯:張欣)

主站蜘蛛池模板: 亚洲精品自产拍在线观看APP| 97在线公开视频| 国产伦精品一区二区三区视频优播| 黄色成年视频| av午夜福利一片免费看| 午夜精品福利影院| 亚洲系列无码专区偷窥无码| 欧美第一页在线| 欧美另类精品一区二区三区| 日本午夜影院| 国产青青草视频| 精久久久久无码区中文字幕| 日韩欧美中文字幕在线韩免费| 996免费视频国产在线播放| 欧美一区二区三区不卡免费| 伊人久久综在合线亚洲91| 香蕉蕉亚亚洲aav综合| 自拍欧美亚洲| 免费人成在线观看成人片| 色妺妺在线视频喷水| 国产99热| 国产91小视频| 日本免费一级视频| 亚洲国产天堂久久综合226114| 国产亚洲欧美在线人成aaaa| 亚洲国产天堂久久综合226114| 乱色熟女综合一区二区| 视频一区亚洲| 国产视频自拍一区| 亚洲欧洲日韩综合| 国产一区二区三区免费| 一级毛片在线免费视频| 色综合天天娱乐综合网| 国产欧美日韩综合一区在线播放| 国模极品一区二区三区| 91久久偷偷做嫩草影院免费看| 香蕉久久国产超碰青草| 亚洲精品日产AⅤ| 国产成人无码Av在线播放无广告| 特黄日韩免费一区二区三区| 911亚洲精品| 亚洲无码高清一区| 女人av社区男人的天堂| 草草影院国产第一页| 国产成人高清精品免费软件| 热伊人99re久久精品最新地| 国产免费网址| 亚洲国产AV无码综合原创| 亚洲av无码牛牛影视在线二区| 中文字幕在线不卡视频| 亚洲区一区| 久久这里只有精品免费| 91色在线视频| 欧美一区中文字幕| 在线免费不卡视频| 欧美成人A视频| 狠狠躁天天躁夜夜躁婷婷| 国产成人凹凸视频在线| 亚洲精品视频在线观看视频| 欧美性精品| 国产日韩AV高潮在线| 亚洲无码精品在线播放| 亚洲国产中文精品va在线播放| 亚洲av无码久久无遮挡| 另类欧美日韩| 中文一区二区视频| 日韩美毛片| www.亚洲一区二区三区| 亚洲欧洲自拍拍偷午夜色无码| 亚洲一区二区三区香蕉| 精品国产一区二区三区在线观看| 18禁色诱爆乳网站| 精品午夜国产福利观看| 亚洲一区二区三区国产精品| 精品91在线| 激情国产精品一区| 日本免费高清一区| 中文字幕日韩视频欧美一区| 亚洲国产成熟视频在线多多| 亚洲视频无码| 毛片最新网址| 亚洲最大福利视频网|