王嘉文 高定國(guó) 尼瓊 巴果



摘要:藏語(yǔ)康巴方言是一種分布在中國(guó)西南部的少數(shù)民族語(yǔ)言,數(shù)據(jù)量低且具有豐富的聲調(diào)和聲母變化,給語(yǔ)音合成帶來(lái)了很大的挑戰(zhàn)。目前,現(xiàn)有的藏語(yǔ)語(yǔ)音合成模型大多基于傳統(tǒng)的聲碼器或神經(jīng)網(wǎng)絡(luò)架構(gòu),需要大量的標(biāo)注數(shù)據(jù)和復(fù)雜的訓(xùn)練過(guò)程,而且合成效果不理想。文章通過(guò)改進(jìn)VITS模型,使其運(yùn)用于藏語(yǔ)語(yǔ)音合成,在一個(gè)小規(guī)模的藏語(yǔ)康巴方言語(yǔ)料庫(kù)上訓(xùn)練了VITS模型。實(shí)驗(yàn)結(jié)果表明,VITS模型可以很好地應(yīng)用于藏語(yǔ)康巴方言的語(yǔ)音合成,不僅可以保持語(yǔ)音的自然度和清晰度,還可以準(zhǔn)確地反映語(yǔ)音的聲調(diào)和聲母變化。
關(guān)鍵詞: VITS; 藏語(yǔ); 康巴方言; 語(yǔ)音合成
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)04-0008-03