許華杰 張勃



摘 要:音頻數據規模不足是語音識別過程中的一個常見問題,通過較少的訓練數據訓練得到的語音識別模型效果難以得到保證。因此,提出一種基于生成對抗網絡與特征融合的多尺度音頻序列生成方法(multi-scale audio sequence GAN,MAS-GAN),包含多尺度音頻序列生成器和真偽—類別判別器。生成器通過3個上采樣子網絡學習音頻序列不同時域和頻域的特征,再將不同尺度的特征融合成偽音頻序列;判別器通過輔助分類器將生成的偽數據和真實數據區分開,同時指導生成器生成各類別的數據。實驗表明,與目前主流的音頻序列生成方法相比,所提方法的IS和FID分數分別提高了6.78%和3.75%,可以生成更高質量的音頻序列;同時通過在SC09數據集上進行分類實驗來評估生成音頻序列的質量,所提方法的分類準確率比其他方法高2.3%。
關鍵詞:音頻序列生成; 生成對抗網絡; 半監督學習; 特征融合
中圖分類號:TP391.1?? 文獻標志碼:A
文章編號:1001-3695(2023)09-032-2770-05
doi:10.19734/j.issn.1001-3695.2023.01.0018
Multi-scale audio sequence generation method based on
generative adversarial networks and feature fusion
Xu Huajiea,b,c,d, Zhang Boa
(a.College of Computer & Electronic Information, b.Guangxi Key Laboratory of Multimedia Communications & Network Technology, c.Key Laboratory of Parallel, Distributed & Intelligent Computing, d.Guangxi Intelligent Digital Services Research Center of Engineering Technology, Guangxi University, Nanning 530004, China)
Abstract:Insufficient audio data scale is a common problem in the speech recognition process, and it is difficult to guarantee the effect of the speech recognition model trained with less training data. Therefore, this paper proposed a multi-scale audio sequence generation method based on generative confrontation network and feature fusion(MAS-GAN) , which consisted of a multi-scale audio sequence generator and a real/fake-category discriminator. The generator learnt the features of audio sequences in different time and frequency domains through three up-sampling sub-networks, and then fused the features of different scales into pseudo audio sequence. The discriminator distinguished the generated fake data from the real data though the auxiliary classifier, and guided the generator to generate data of various categories. Experiment shows that the IS and FID scores are increased by 6.78% and 3.75% respectively compared with the current mainstream audio sequence generation methods, the proposed method can generate higher quality audio sequences; at the same time, it evaluated the quality of the generated audio sequences by performing classification experiments on the SC09 dataset, the classification accuracy is about 2.3% higher than other methods.
Key words:audio sequence generation; generative adversarial network; semi-supervised learning; feature fusion
0 引言
語音識別是當前計算機聲學領域的熱點研究問題之一,而音頻數據規模不足嚴重制約了該領域的相關研究工作的展開[1]。通過合成音頻數據擴充音頻數據集來提高語音識別的效果,是解決這一問題的有效方案之一[2],在人機交互、智慧醫療、安全生產、災害預警等多各方面具有重要意義。
音頻信號具有很高的時間分辨率,學習音頻信號的方法必須能在高維空間上有效執行,生成對抗網絡(generative adversarial network,GAN)是一種將低維潛在向量映射到高維數據的無監督學習方法[3]。隨著研究的深入,一些半監督的生成對抗網絡也被提出,如ACGAN[4]在生成對抗網絡的基礎上增加了輔助分類器,使GAN獲得了分類功能從而可以生成特定類別的樣本,學習方式由無監督學習變成半監督學習,進而提高生成樣本的質量。近年來,生成對抗網絡已經成功地應用于各種計算機視覺任務,如超分辨率任務、語義分割等,并且已經被證明在圖像生成方面是有效的。而將GAN拓展到音頻領域解決數據規模不足問題也是當前機器學習領域的一個熱點,如Sahu等人[5]使用合成特征向量來提高分類器在情緒任務上的性能;Chatziagapi等人[6]通過GAN合成聲譜圖,達到了平衡數據集的目的,與一系列如時域、頻域變換的傳統數據增強方法相比有較大的性能提升。
目前,使用生成對抗網絡來生成音頻數據一般有兩種做法。一種做法如MelNet[7]等是對音頻的時頻表示(聲譜圖)進行操作,這種做法存在不足:由于生成聲譜圖的分辨率依賴于不同的參數,存在因參數原因導致特征丟失的問題[8];同時,因為感知信息最豐富的聲譜圖是不可逆的,要將聲譜圖轉換為原始音頻序列,必須通過反演模型,而在這一過程中,會丟失大量的音頻信息,導致生成的音頻序列效果較差[9]。另一種做法是直接采用原始序列進行建模,如WaveGAN[10]是一種將生成對抗網絡用于原始波形音頻的經典無監督合成方法,能夠合成較高質量的且具有全局相關性的音頻片段。通過原始音頻序列進行建模,直接從原始音頻序列中提取特征,減少了由于參數原因導致的特征丟失;同時由于沒有從聲譜圖轉換為原始音頻序列的過程,所以丟失的音頻信息更少,但是這種原始序列的音頻生成方法也存在不足:由于音頻信號同時包含時域和頻域的特征,比圖像信號更有可能表現出強周期性,而這種做法通常情況下更關注音頻數據的時域特征,忽視了音頻數據在頻域上的分布情況[11]。
由于采用原始序列進行建模比采用聲譜圖建模的方式減少了音頻特征的丟失,同時WaveGAN是采用原始序列建模的經典無監督學習方法,可以合成較高質量的且具有全局相關性的音頻片段,所以本文方法以WaveGAN為基礎架構。但是WaveGAN存在只關注時域特征而忽略頻域特征的問題。在采樣環節,本文借鑒多尺度上采樣塊的做法,通過不同大小的卷積核提取音頻信號時域和頻域的不同特征,解決Wave-GAN不能兼顧音頻信號時域和頻域特征的問題,提升網絡對于音頻信號的特征提取能力;同時,在音頻序列生成環節,本文借鑒輔助分類器的做法,通過構造輔助任務將無監督學習轉換為半監督學習以提高生成音頻數據的性能,進一步提升生成音頻序列的質量。
1 相關工作
生成對抗網絡(GAN)能直接生成“以假亂真”的與訓練數據非常接近的新數據[12]。ACGAN是GAN的一種拓展,采用輔助分類器(auxiliary classifier)來判斷輸入圖像所屬的類別,它不僅在很大程度上解決了GAN模型崩潰的問題,而且有助于生成高分辨率的圖像[4]。GAN只有隨機噪聲z(noise)作為輸入變量,而ACGAN與GAN不同的是多了一個分類變量;同時GAN只對數據的真偽做判斷,而ACGAN除了對數據的真偽作出判斷,還增加了類別判斷。ACGAN將鑒別器與輔助部分結合,使得改進后的鑒別器不僅可以識別數據的真偽,還可以區分不同的類別,進一步提高了生成的偽樣本的質量。WaveGAN基于深度卷積生成對抗網絡(deep convolution gene-rative adversarial network,DCGAN)改進而來[13]。DCGAN是在GAN的基礎上設計的架構,可以實現高質量的圖像生成,在DCGAN中,生成器使用轉置卷積操作迭代地將低分辨率特征映射到高分辨率的圖像中,但是由于音頻序列本身是一種一維序列數據,并且比圖像信號表現出更強的周期性,所以Wave-GAN通過將DCGAN生成器的二維轉置卷積修改為一維轉置卷積來適應音頻信號的特點。
在多尺度上采樣塊進行采樣,再用融合塊進行堆疊的做法,最早出現在圖像領域,在Google于2014年提出的GoogLeNet[14]中采用,其引入inception模塊對圖像特征進行采集,利用不同大小的卷積核提取不同尺度的特征,最后將所有輸出結果進行融合并拼接為一個深度特征圖,以獲取多樣化的特征。除此之外,研究人員還基于GoogLeNet提出了Xception[15]等改進,進一步提升網絡的性能。在音頻領域,Vasquez等人[7]提出的音頻生成模型MelNet中使用了多尺度的方法,首先生成低分辨率的聲譜圖用于捕捉高層特征,通過反復迭代生成高分辨率的聲譜圖,再通過反演模型將聲譜圖轉換為音頻序列。
ACGAN通過輔助分類器的做法,將GAN從無監督學習轉變成半監督學習,可以學習到更具特異性的特征;WaveGAN基于音頻信號的特點,使用原始音頻序列進行建模,減少了網絡在特征提取過程中損失的音頻信息;多尺度上采樣塊,適應音頻信號的特點,可以獲取多樣化的特征。本文針對WaveGAN網絡存在的問題,結合上述方法,提出了一種基于生成對抗網絡與特征融合的多尺度音頻序列生成方法,提升生成音頻序列的質量。
2 基于生成對抗網絡與特征融合的音頻生成方法MAS-GAN
本文提出的MAS-GAN旨在結合GAN對抗學習的思想,通過博弈訓練生成更多特定標簽的音頻序列數據。如圖1所示,MAS-GAN由多尺度音頻序列生成器MASG(multi-scale audio sequence generator)和真/偽—類別判別器RFCD(real/fake-category discriminator)組成。MASG首先通過嵌入塊將100維噪聲向量與標簽label進行融合,融合后的向量經過多尺度上采樣塊和融合塊擴張到與真實樣本相同的尺寸,合成偽音頻MASG(z,label);判別器RFCD的輸入是帶標簽的真實音頻數據(x,label)和帶標簽的MASG合成的偽音頻數據MASG(z,label),通過特征提取塊提取音頻數據的特征,然后通過分類模塊將真實音頻數據和偽音頻數據區分開來,同時對類別作出判斷。在這個過程中,生成器試圖通過生成趨近于真實數據分布的偽數據來欺騙判別器,判別器則希望更準確地區別真實數據和偽數據。
2.1 多尺度音頻序列生成器
多尺度音頻序列生成器MASG使用原始序列進行建模,如圖2(a)所示。輸入(input)包含一個100維的噪聲向量z和一個類別標簽label;嵌入塊(embedding block)首先將類別標簽label映射到多維空間,使其維度與噪聲向量z的維度相同,然后再將噪聲向量z與類別標簽向量組合起來;多尺度上采樣塊(multi-scale up-sample block)包含三個不同尺度的上采樣子網絡,分別以不同大小的卷積核對嵌入類別標簽之后的噪聲向量進行上采樣,得到不同尺度的上采樣結果;融合塊(fusion block)首先將上采樣塊得到的結果在維度上堆疊起來,最后經過一個same卷積層將維度壓縮到1維,得到偽音頻序列樣本。
由于音頻序列信號在時域上表現為幅值隨時間的變化,在頻域上表現為幅值隨頻率的變化,不同的音頻序列信號在時域上和頻域上差別較大,所以增強網絡對音頻信號時域和頻域的理解對生成更真實的偽樣本有十分重要的作用。通常在特征提取過程中,可以通過增加卷積核尺寸的方式獲得更多的信息量。根據音頻序列的特性,本文提出了一種多尺度上采樣塊作為多尺度音頻序列生成器的核心模塊,多尺度上采樣塊中的三個上采樣子網絡采用不同的網絡長度和卷積核,使得網絡可以表達音頻序列的多尺度信息,提高網絡的學習和表達能力。
表1給出了多尺度上采樣塊中的小尺度、中尺度、大尺度三個不同尺度上采樣子網絡的結構參數。其中d是一個控制網絡寬度的參數,當d的值變大時,網絡寬度增加,訓練網絡的時間成本增加;反之,則提取到的特征會減少,導致生成的偽樣本質量下降。在質量和效率之間權衡,本文中d的大小設置為8。以大尺度上采樣子網絡為例,如圖2(b)和表1所示,首先將嵌入塊輸出的1×100維向量經過一個線性層(linear)擴大到1×512d,再將其維度變換為32d×16,經過卷積核大小為24、步長為4的deConv1層后,輸出16d×64維特征矩陣,然后經過四個同樣參數的deConv層之后,最終輸出維度為1×16 384,除最后一層使用tanh激活函數外,其他層均使用ReLU作為激活函數。
將多尺度上采樣塊三個尺度的輸出作為融合塊(fusion bock)的輸入,首先將多尺度上采樣塊輸出的三個尺度的結果在通道上堆疊起來,得到的矩陣維度為3×16 384,該矩陣經過一個same卷積層將維度壓縮到1維,得到最終生成的偽音頻樣本進行輸出。多尺度音頻序列生成器所涉及的計算過程為
MASG(z,label)=φ(SameConv(SU(F)⊕MU(F)⊕LU(F)))(1)
其中:MASG(z,label)表示多尺度音頻序列生成器生成的偽音頻樣本,φ表示tanh激活函數,SameConv表示same卷積層操作符,SU、MU、LU分別表示多尺度上采樣塊中小尺度、中尺度和大尺度上采樣子網絡操作符,F表示嵌入塊(embedding block)輸出的向量。
2.2 真/偽—類別判別器
受ACGAN的啟發,真/偽—類別判別器RFCD采取了帶輔助分類器的做法,如圖3所示。這樣的做法使得GAN從原本的無監督學習變為半監督學習,判別器負責指導生成器生成逼真數據,又通過類別標簽將不同類別的數據區分開來,指導生成器生成各類別的數據。通過真/偽—類別判別器,可以使得多尺度音頻序列生成器生成的偽音頻樣本MASG(z,label)相比無監督學習生成的樣本更具有特異性。
真/偽—類別判別器的輸入(input)包含音頻樣本及其所對應的類別標簽label,輸入的音頻樣本是真實的音頻樣本(x,label)或者由多尺度音頻序列生成器生成的偽音頻樣本MASG(z,label),特征提取塊(feature extraction block)負責對真/偽音頻樣本進行特征提取,得到真/偽樣本的全局特征向量,進而得到預測結果。預測結果包含分別為真/偽標簽和類別標簽兩部分,目的是將真實音頻數據和偽音頻數據區分開來,同時對類別作出判斷。表2給出了真/偽—類別判別器的相關參數。輸入(input)的一維音頻序列維度為1×16 384維,經過卷積核大小為25,步長為4的Conv1層后,輸出維度為d×4 096維,再經過四個卷積核與步長相同的Conv層之后,輸出維度分別為2d×1024、4d×256、8d×64、16d×16維,這五個Conv層的激活函數均為Leaky_ReLU,將16d×16維的輸出特征向量維度變換為256d×1,然后輸入一個線性層linear,得到32d×1維度的特征向量。由于真/偽—類別判別器包含樣本的真/偽判斷和類別判斷,所以網絡最后的全連接層包含的神經元個數為(1+C),其中C代表數據集中類別的數量(本文中C設置為10),第一個神經元的輸出采用sigmoid作為激活函數,定義為真/預測向量,后面C個神經元的輸出采用softmax作為激活函數,定義為類別標簽預測向量。
2.3 方法實現流程
本文提出的多尺度原始序列音頻生成方法MAS-GAN具體通過MASG與RFCD的博弈訓練實現,其訓練過程可分為兩個步驟:訓練真/偽—類別判別器RFCD和訓練多尺度音頻序列生成器MASG。通過MASG與RFCD之間的博弈,當MASG生成的偽數據的概率分布和真實數據的分布接近時,MASG生成的偽樣本接近真實樣本,博弈訓練結束。
算法1 MAS-GAN model training
輸入:帶標簽的真實音頻樣本D={x,label}。
輸出:多尺度音頻序列生成器MASG。
1 for number of training iterations do
2? for k steps do
3?? sample minibatch of m samples{(z,label)} from noise prior pg(z) and random sampling label from 0 to C;
4?? sample m samples {(x,label)} from D;
5?? calculate the loss of RFCD LRFCD;
6?? update the parameters of RFCD by LRFCD;
7? end for
8? sample minibatch of m samples {(z,label)} from noise prior pg(z) and random sampling label from 0 to C;
9? calculate loss of MASG LMASG;
10update the parameters of MASG by LMASG;
11 end for
算法1主要包括以下兩個步驟:
a)訓練真/偽—類別判別器RFCD,對應于算法1中的第2~7行。首先將真實的音頻樣本(x,label)和多尺度音頻序列生成器生成的偽音頻樣本MASG(z,label)輸入到真/偽—類別判別器,模型中的特征提取塊對輸入的音頻樣本進行特征提取,得到真/偽預測向量和類別標簽向量yc,根據式(2)計算損失函數LRFCD,對真/偽—類別判別器進行優化。
LRFCD=-[Eyc[label*log(yc)]+Ex~Pr[log(RFCD(x))]+Ez~Pf[log(1-RFCD(MASG(z,label)))]](2)
其中:Pr和Pf分別代表真實數據(real data)和偽數據(fake data)的概率分布;RFCD(x)表示x來自訓練數據(real data)的概率;z為輸入到生成器的隨機噪聲;label表示輸入到網絡中的類別標簽;yc表示判別器RFCD輸出的類別標簽預測向量。
b)訓練多尺度音頻序列生成器MASG,對應于算法1中的第8~11行。首先將步驟a)中訓練得到的真偽—類別判別器RFCD的參數固定,然后將隨機生成的帶標簽的噪聲數據(z,label)輸入到MASG中,生成對應的偽音頻樣本數據MASG(z,label),根據式(3)計算損失函數LMASG,對多尺度音頻序列生成器進行優化。
LMASG=-[Eyc[label*log(yc)]+Ez~Pf[log RFCD(MASG(z,label))+13LML]](3)
其中:LML表示多尺度上采樣子網絡損失,如式(4)所示。
LML=13[Ez~Pf[log RFCD(SU(z,label))]+ Ez~Pf[log RFCD(MU(z,label))]+Ez~Pf[log RFCD(LU(z,label))]](4)
其中:SU、MU、LU分別表示多尺度上采樣塊中小尺度、中尺度和大尺度上采樣子網絡得到的數據。
訓練的過程中MASG和RFCD交替訓練,保證每k個batch訓練一次MASG,每一個batch訓練一次RFCD,本文中k設置為2,網絡在通過交替訓練優化后,生成器和判別器之間達到平衡,得到最終的MAS-GAN模型。
3 實驗及其結果分析
通過開展兩方面的實驗測試所提出的MAS-GAN的性能:實驗1使用IS、FID等客觀評價標準將所提出的方法與其他音頻序列生成方法進行性能比較,驗證所提出方法的有效性;實驗2進一步將所提出的方法作為數據增強方法,通過分類任務評估生成音頻序列的質量,與其他方法進行對比。
3.1 實驗數據和參數
實驗采用的數據集為SC09(speech commands zero through nine dataset)語音數據集[11],該數據集包含18 620個音頻樣本,分為10類,分別為不同的人朗讀0~9(zero-nine)共10個數字的音頻,每個音頻樣本的長度為1 s,采樣率均為16 kHz,數據集已劃分好訓練集、驗證集和測試集。借鑒相關文獻[4,10]的經驗,訓練過程都使用Adam優化器,betas設置為0.5和0.9,學習率設置為0.000 5,batch-size設置為64,通過上述策略對MAS-GAN訓練3 000個輪次。實驗在PyTorch框架下實現,實驗環境如下:Windows 10 64位操作系統,8核心AMD Ryzen7 3700X CPU(3.6 GHz),NVIDIA GeForce RTX2070 Super顯卡(GPU),32 GB內存。
3.2 實驗結果及分析
本文所提出的MAS-GAN是基于原始序列直接建模的音頻合成算法,因此實驗部分主要與同類型的WaveGAN作對比,同時為了進一步測試方法的有效性和性能,實驗還加入了近年來主流的基于聲譜圖的生成對抗網絡音頻合成算法MelGAN[16]、VocGAN[17]和MB-MelGAN[18]作對比。
3.2.1 采用標準IS和FID的評價結果及分析
實驗1通過IS(inception score)和FID(Fréchet inception distance)[19]兩種客觀評價標準分別從生成樣本的質量和多樣性兩個角度對MAS-GAN的性能進行評估,IS和FID都是通過Inception v3模型輸出的樣本屬于某個類別的概率來判斷生成樣本的質量,通常被用來衡量GAN生成數據的質量。
2)FID結果比較 FID標準基于IS改進而來,FID計算真實樣本、生成樣本在特征空間中的距離,本文采用FID作為各網絡合成的音頻多樣性評估標準。首先利用Inception網絡來提取特征,然后使用高斯模型對特征空間進行建模,通過求解兩個特征之間的距離作為FID,FID的值越小,代表生成樣本與真實樣本的分布越接近。FID評價結果如表4所示。由表4可知,與WaveGAN、MelGAN、VocGAN和MB-MelGAN相比,所提出的MAS-GAN的性能明顯更好。具體而言,通過FID對幾種音頻序列生成網絡生成的偽音頻序列樣本的多樣性分析,利用本文提出的MAS-GAN合成的音頻樣本與真實樣本在特征空間的距離小于WaveGAN、MelGAN、VocGAN和MB-MelGAN,分別提升了約31.05%、14.55%、5.93%和3.75%,說明本文提出的MAS-GAN在生成的偽音頻序列樣本多樣性上更接近真實樣本。
3)音頻頻譜分析 為了進一步探討所提出的音頻序列增強生成對抗網絡(MAS-GAN)產生效果背后的原因,將多尺度音頻序列生成器的三個尺度上采樣子網絡輸出的序列和最終生成的音頻樣本分別做短時傅里葉變換計算,并根據計算結果繪制聲譜圖,橫坐標代表時間,縱坐標代表頻率,如圖4所示。
由圖5可以看出,大尺度上采樣子網絡主要關注于5~7 kHz的頻率,中尺度上采樣子網絡主要關注于2~3.2 kHz的頻率,小尺度上采樣子網絡主要關注于0.5~1 kHz的頻率;同時,三個不同尺度的子網絡在時域上關注的點也有所區別,三個子網絡的輸出結果融合成最終結果,形成偽音頻樣本。這說明本文提出的三個不同尺度的上采樣子網絡可以適應音頻信號的特點,提取到不同頻段的音頻信號的特征,同時又兼顧到了音頻信號的時域特征。
通過上述實驗與分析可知,本文方法在生成樣本的質量和多樣性上優于其他方法,造成這一結果的原因可能有:a)MAS-GAN采取一維卷積對音頻序列進行處理,比二維卷積的做法更適合處理音頻一維序列;b)多尺度音頻序列生成器中的多尺度上采樣子網絡通過采用大小不同的卷積核,使得網絡不僅能夠學習音頻序列的時域特征,而且能夠學習音頻序列的頻域特征;c)特征融合模塊將不同尺度的音頻信息從時域和頻域上結合起來,使得最終生成的偽音頻樣本相比其他音頻生成方法生成的特征更為豐富。
3.2.2 分類任務結果及分析
為了進一步測試MAS-GAN的性能,本文分別使用WaveGAN、MelGAN、VocGAN、MB-MelGAN和MAS-GAN生成的音頻序列樣本擴充樣本數量有限的訓練集,然后進行分類實驗,通過分類效果評估生成音頻序列的質量。從SC09數據集10類數據的每個類中隨機選取30個樣本作為分類任務的訓練集,然后分別使用WaveGAN、MelGAN、VocGAN、MB-MelGAN和MAS-GAN生成的偽音頻序列樣本對訓練集進行擴充,擴充的數量分別為訓練集的50%、100%和200%,用于對在ImageNet上經過預訓練的ShuffleNet模型進行訓練并進行分類實驗,結果如圖5所示,其中baseline表示未對訓練集進行擴充的分類實驗結果。
由圖5可以看出,使用經過WaveGAN、MelGAN、VocGAN、MB-MelGAN和MAS-GAN擴充的訓練集訓練分類模型,獲得的分類準確率對比baseline都有較為明顯的提升,其中本文提出的MAS-GAN取得了最高的分類準確率,在擴充數據集200%的情況下達到了84.5%,比其他四種方法高出4.1%、2.7%、2.3%和2.4%。導致這一結果的可能原因有兩個方面:首先,真偽—類別判別器中添加對于類別的判斷,指導多尺度音頻序列生成器生成序列,通過半監督學習使得生成器生成的音頻樣本更具特異性;其次,特征融合的引入有助于生成器學習到多尺度的音頻信息,包含的音頻序列信息比其他音頻合成方法更多,使得生成器生成的音頻數據的分布更接近于真實樣本的分布,因此以這些樣本擴充訓練集得出的模型整體分類準確率比其他方法更高。
4 結束語
針對語音識別過程中通常數據集規模不足導致的識別效果差的問題,基于無監督原始序列音頻生成方法,提出一種基于生成對抗網絡和特征融合的多尺度原始序列音頻生成方法。以多尺度音頻序列生成器MAS-GAN為核心,利用三個不同尺度的上采樣子網絡來表達音頻序列時域和頻域上不同尺度的信息;同時在判別器中增加對于音頻類別的判斷,將原始GAN的無監督學習方式轉換為半監督學習,實現了高質量的音頻序列樣本生成。在SC09音頻數據集上的實驗結果表明,本文方法生成的樣本的IS分數(反映樣本質量)和FID分數(反映樣本多樣性)比同類其他主流方法高出6.78%和3.75%,同時通過在SC09數據集上進行分類實驗來評估生成音頻序列的質量,采用所提方法進行數據增強后的分類準確率比同類主流方法高2.3%,驗證了該方法的有效性。本文方法可以合成高質量的偽音頻片段,可以廣泛應用于小樣本音頻分類和語音識別等領域,通過本文方法生成的偽音頻數據擴充數據集,從而達到以少量音頻訓練樣本獲得較高分類或識別準確率的目的。
本文方法采用的多尺度特征融合策略雖然在客觀評價標準和分類結果上優于其他方法,但是僅采取三個尺度的上采樣子網絡來構建生成網絡,并不能完整地反映音頻序列的時域和頻域特征,如何使網絡自適應地對音頻樣本進行建模,是下一步的研究方向。
參考文獻:
[1]Yu Jianbo, Zhou Xingkang. One-dimensional residual convolutional autoencoder based feature learning for gearbox fault diagnosis[J]. IEEE Trans on Industrial Informatics, 2020,16(10): 6347-6358.
[2]Mirheidari B, Blackburn D, OMalley R, et al. Improving cognitive impairment classification by generative neural network-based feature augmentation[C]//Proc of InterSpeech. 2020: 2527-2531.
[3]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proc of International Conference on Neural Information Processing Systems Volume-2. Cambridge, MA: MIT Press, 2014: 2672-2680.
[4]Odena A, Olah C, Shlens J. Conditional image synthesis with auxiliary classifier GANS[C]//Proc of International Conference on Machine Learning. New York: ACM Press, 2017: 2642-2651.
[5]Sahu S, Gupta R, Espy-Wilson C. On enhancing speech emotion re-cognition using generative adversarial networks[EB/OL]. (2018-6-18) . https://arxiv.org/abs/1806.06626.
[6]Chatziagapi A, Paraskevopoulos G, Sgouropoulos D, et al. Data augmentation using GANs for speech emotion recognition[C]//Proc of InterSpeech. 2019: 171-175.
[7]Vasquez S, Lewis M. MelNet: a generative model for audio in the frequency domain[EB/OL]. (2019-06-04) . https://arxiv.org/abs/1906.01083.
[8]Engel J, Agrawal K K, Chen Shuo, et al. GANSynth: adversarial neural audio synthesis[EB/OL]. (2019-02-23) . https://arxiv.org/abs/1902.08710.
[9]尹文兵, 高戈, 曾邦, 等. 基于時頻域生成對抗網絡的語音增強算法[J]. 計算機科學, 2022,49(6): 187-192. (Yin Wenbing, Gao Ge, Zeng Bang, et al. Speech enhancement based on time-frequency domain GAN[J]. Computer Science, 2022,49(6):187-192.)
[10]Donahue C, McAuley J, Puckette M. Adversarial audio synthesis[C]//Proc of International Conference on Learning Representations. 2019.
[11]Shao Siyu, Wang Pu, Yan Ruqiang. Generative adversarial networks for data augmentation in machine fault diagnosis[J]. Computers in Industry, 2019,106: 85-93.
[12]Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 2223-2232.
[13]Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. (2015-11-19) . https://arxiv.org/abs/1511.06434.
[14]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 1-9.
[15]Chollet F. Xception: deep learning with depthwise separable convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1251-1258.
[16]Kumar K, Kumar R, De Boissiere T, et al. MelGAN: generative adversarial networks for conditional waveform synthesis[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. 2019: 14910-14921.
[17]Yang J, Lee J, Kim Y, et al. VocGAN: a high-fidelity real-time vocoder with a hierarchically-nested adversarial network[EB/OL]. (2020-7-30) . https://arxiv.org/abs/2007.15256.
[18]Yang Geng, Yang Shan, Liu Kai, et al. Multi-band MelGAN: faster waveform generation for high-quality text-to-speech[C]//Proc of IEEE Spoken Language Technology Workshop. Piscataway, NJ: IEEE Press, 2021: 492-498.
[19]Kong Zhifeng, Ping Wei, Huang Jiaji, et al. DiffWave: a versatile diffusion model for audio synthesis[EB/OL]. (2020-09-21) . https://arxiv.org/abs/2009.09761.
收稿日期:2023-01-16;修回日期:2023-03-12? 基金項目:國家自然科學基金資助項目(71963001);廣西壯族自治區科技計劃資助項目(2017AB15008);崇左市科技計劃資助項目(FB2018001)
作者簡介:許華杰(1974-),男(通信作者),廣西南寧人,副教授,碩導,博士,主要研究方向為人工智能、聲音信號識別和機器視覺(hjxu2009@163.com);張勃(1998-),男,陜西西安人,碩士研究生,主要研究方向為人工智能和聲音信號處理與分析.