面向性別識別的基于GAN的域自適應模型

2022-07-06 08:09:08呂喬健

華東理工大學學報(自然科學版) 2022年3期

關鍵詞：模型

呂喬健，陳寧

（華東理工大學信息科學與工程學院，上海 200237）

基于語音的性別識別的目的是檢測語音是由男性還是女性發出的[1]。在實際應用中，常將其作為輔助工具嵌入語音識別[2]或說話人識別系統[3]中，以此來提高系統的整體性能。近年來，對多媒體內容的自動分析已成為研究熱點，例如通過對電影中每個角色的個人信息(如性別、年齡和種族)進行統計，來評價電影中不同角色的表現。然而，由于電影中的語音信號通常會被音樂、環境噪聲或者背景對話等掩蓋，使得性別識別任務極具挑戰性[4]，因此如何讓在干凈數據集上訓練的模型適應于多媒體音頻的性別識別成為一個亟需解決的問題。

目前，基于語音的性別識別任務已經得到了很好的研究[5]，其中高斯混合模型在性別識別系統中的應用最為廣泛，這類方法通常基于MFCC系數進行分類，它們使用有限的數據進行訓練可以獲得較好的性能[6]。基于i-vector的方法從屬于不同說話人的語音片段中提取表示每個人身份的身份認證向量，然后通過LDA或者PLDA進行打分[7]。在性別識別任務中，文獻[8]證明了基于i-vector的方法比高斯混合模型具有更好的性能。文獻[9]在進行分割語音流中男女說話片段任務中，實現了一種深層的卷積神經網絡模型，該網絡能夠同時結合特征提取、特征降維以及分類功能[10]。在REPAIR語料庫上，文獻[9]提出的模型比高斯混合模型和i-vector模型實現了更好的性能。但是這些算法在識別多媒體音頻時，會出現識別準確率下降的問題。因為這些算法所用的訓練集大多是在相對安靜或者聲學條件單一的情況下采集的(例如希爾貝殼中文普通話語音數據庫AISHELL-2[11]是在安靜室內環境中錄制的)，盡管這些算法可以在訓練集上達到95%以上的識別準確率，但是在識別多媒體音頻時，識別準確率會嚴重下降，并且由于實際場景數據的缺乏不可能對模型進有監督的訓練。

近期，為了提高電影音頻場景下基于語音的性別識別準確率，文獻[4]和文獻[12]分別提出了新的方法。文獻[4]通過融合電影音頻中不同語言通道（英語、西班牙語和法語）和不同聲道的信息來提高系統識別性能。然而并不是所有多媒體音頻都像電影音頻一樣包含多個聲道或者多種語言的通道信息，大部分音頻也不會被不同國家的配音演員重新配音。在這種情況下，文獻[4]的方法就無效了，并且文獻[4]的方法除了要識別電影原聲語言通道以外，還要識別其他語言的通道，增加了算法的時間復雜度。文獻[12]是用預訓練后的VGGish模型作為特征提取模塊。由于VGGish模型是在Audioset[13]數據集上進行預訓練的，所以它對聲學條件復雜多變的音頻具有較好的特征表現力。文獻[12]還通過遷移學習的方式讓原本用于音頻事件檢測任務的模型適應于性別識別任務中。然而這種方法的局限性在于：如果目標域音頻與Audioset數據集有較大的差異，那么模型即使在遷移學習后對目標域音頻識別效果也不好，甚至可能更差。

為了解決以上問題，本文提出了一個面向性別識別的基于生成對抗網絡 (Generative Adversarial Network, GAN)的域自適應模型。首先，結合深度卷積神經網絡和GhostVLAD層[14]構建了性別識別模型，利用卷積神經網絡對音頻的特征進行提取和降維；然后，利用GhostVLAD層減少音頻中的噪聲以及無關信息的影響；最后，采用基于GAN的域自適應算法，通過無標簽的多媒體音頻對性別識別模型進行域自適應訓練，以進一步提高模型在多媒體音頻上的識別準確率。在對抗訓練過程中，通過引入輔助損失來保持網絡對性別特征的表征能力。實驗結果表明，與基于卷積神經網絡的性別識別模型[9]相比，本文算法的識別準確率有了大幅度的提高。

1 模型描述

本文提出的性別識別模型框圖如圖1所示，由兩個階段組成。在第一階段中（圖1（a）），基于深度卷積網絡和GhostVLAD層搭建了性別識別模型，稱為CNN-GV模型。在第二階段中（圖1（b）），對CNN-GV模型進行基于GAN的域自適應訓練，提高其在多媒體音頻上的識別準確率，稱為CNN-GV-DA模型。其中值得注意的是在第二階段訓練過程中使用無標簽的多媒體音頻進行非監督訓練。

圖1 性別識別模型框圖Fig. 1 Block diagram of gender identification model

1.1 聲學特征

將輸入音頻的采樣率轉換為16 kHz，并隨機截取0.96 s的語音片段進行預加重、分幀、加窗等預處理，其中分幀時幀長為25 ms，幀移為10 ms；然后對預處理后的信號進行傅里葉變換得到幅度譜，并采用梅爾濾波器組對其濾波以實現梅爾尺度的轉換；最后對所有濾波器輸出進行對數運算得到Fbank特征。實驗采用64個濾波器組成的梅爾濾波器組，歸一化后的Fbank特征將作為模型的輸入。

1.2 CNN-GV模型

如圖1(a)所示，CNN-GV模型由卷積層、GhostVLAD層和全連接層組成，其詳細結構如表1所示。與文獻[9]相比，CNN-GV模型在卷積層之后引入了GhostVLAD層。局部聚合描述子向量 (Vector of Locally Aggregated Descriptors, VLAD)是一種圖像特征提取方法，它可用來捕捉從圖像上聚合出的局部描述子的統計信息，并且記錄每個局部描述子與其最近的聚類中心的殘差總和。NetVLAD[15]層的提出解決了VLAD算法不可微的問題，并且把傳統的VLAD結構嵌入到CNN網絡結構。在NetVLAD層的基礎上，為了篩選出高質量的圖像局部描述子，Zhong等[14]提出了GhostVLAD層，它是由NetVLAD層和ghost聚類中心點組成。

表1 CNN-GV模型的結構Table 1 Structure of the CNN-GV model

設輸入的歸一化Fbank特征為x，卷積層將x(96×64×1)映射成為大6×小2×為512的特征，它可被看成12個維度為512的局部描述子，記為fC={(j),n=1,···,N,j=1,···,D}，N=1，2D=，512表示第n個局部描述子。GhostVLAD層設置K個聚類中心點，記為ck。GhostVLAD層將卷積層提取的局部描述子通過式(1)所示的軟分配方式分配到不同的聚類中心ck={ck(j),j=1,···,D} ,D=512[16]。

1.3 域自適應算法

域自適應算法的基本思想是尋找一個可以最小化目標域與源域間差異的表示函數，這樣在源域上訓練的模型就可以用于識別目標域的數據[17]。

1.3.1 基于GAN的域自適應算法 GAN的訓練過程是生成器和鑒別器之間的極大極小博弈過程，其中鑒別器將最小化鑒別真假數據過程中的誤差，而生成器會最大化鑒別器判斷出錯的概率[18]。GAN的這一特性使其成為無監督域自適應的理想選擇。通過與域鑒別器的對抗，生成器將源域和目標域數據在數據空間或者特征空間對齊[19-20]。

在訓練生成器時，為了使生成器最大化域鑒別器判錯概率，使用與訓練域鑒別器時相反的標簽來訓練生成器，GAN的目標函數被分成生成器目標函數和域鑒別器目標函數，生成器目標函數如式(3)所示：

式中: LG表示生成器的損失;XS表示源域數據;XT表示目標域數據;Gd表示域鑒別器。域鑒別器目標函數如式(4)所示:

式中： LD表示域鑒別器損失；Gf表示生成器。

1.3.2 CNN-GV-DA模型CN N-GV-DA模型由生成器Gf(x,θf) 、標簽預測器Gg(fCGD,θg) 以及域鑒別器Gd(fCGD,θd) 組成。其中Qf、Qg、Qd表示訓練參數。生成器由圖1(a)模型中的CNN結構到Softmax層之前的網絡組成；標簽預測器由一個Softmax層組成；域鑒別器由兩個全連接層以及一個Softmax層組成。CNN-GV-DA模型的作用是在缺少目標域性別標簽預測器Gg(fCND,θg) 去識別目標域的數據，使得標簽的情況下，訓練特征提取器Gf(x,θf)以及性別的在第一階段訓練得到的CNN-GV模型可以去識別聲學條件復雜多變的多媒體音頻數據。

在訓練中生成器和域鑒別器被交替訓練。首先用源域數據和目標域數據通過二分類交叉熵(Binary CrossEntropy, BCE) 損失 LD(XS,XT,Gf) 訓練域鑒別器Gd：

采用式(6)所示的生成器損失函數 LG(XS,XT,Gd)和相反標簽來訓練生成器Gf：

為了在域自適應過程中保持生成器對性別特征的表征能力，本文引入并修改了Auxiliary Classifier GAN (AuxGAN)[21]，這樣在域自適應階段，生成器和域鑒別器的目標函數分別如式(7)和(8)所示：

2 實驗結果

實驗中采用的硬件設備為NVIDIA TITAN Xp顯卡（12 GB 顯存）以及Intel Xeon CPU E5-2650 v4處理器。訓練CNN-GV模型以及CNN-GV-DA的生成器、域鑒別器、以及標簽預測器時采用了相同參數的Adam優化器。Adam的參數具體如下：一階矩估計的指數衰減率為0.9，二階矩估計的指數衰減率為0.999，學習率為0.001。Batch-size為128，迭代次數為20 000次。

2.1 數據集

采用Voxceleb1[22]數據集作為源域數據，Audioset和 Movie數據集分別作為目標域數據集。

2.1.1 Voxceleb1 Voxceleb1數據集是由來自1 251位被試的超過100 000條的英語語音樣本構成。由于樣本是從明星紅地毯、名人講臺演講、真人節目訪談、大型體育場解說等視頻場景下采集的，因此數據帶有一定的真實噪聲，如背景人聲、笑聲、回聲、室內噪聲、錄音設備噪聲等，但是背景噪聲相對單一，聲學條件相對簡單。實驗中將Voxceleb1按8∶2的比例劃分為源域訓練集和源域測試集。

2.1.2 Audioset Audioset數據集是Google開源數據集Audioset的一個子集。通過在Audioset中下載標簽為“male speech, a man speaking”和“female speech,a woman speaking”的視頻文件，再利用FFmpeg工具從視頻中提出音頻而得到。該數據集包含18 239個時長為10 s的樣本，其中男性和女性的樣本數分別為5 879和12 360。

由于Audioset中的音頻來自YouTube網站，其樣本所包含的噪聲的種類和強度比Voxceleb1數據集中的樣本更加復雜多變。實驗中按照17∶3的比例將Audioset劃分為目標域訓練集和目標域測試集。

2.1.3 Movie 該數據集中的音頻來自“Kill Bill 1(2003)、Saving Private Ryan (1998)、I Am Legend (2007)、The Bourne Identity (2002)”等4部好萊塢影片，其性別標簽由文獻[12]提供，我們進行了校對。實驗中所有的音頻被切分為2 s的樣本，從而構成了1 891個男性樣本和388個女性樣本。該數據集只作為目標域測試集。

2.2 評估指標

通過計算單個性別上模型的預測正確率，然后計算它們的平均值 (UnWeighted Average, UWA) 作為評價指標，UWA比精度或召回率更適合評估數據分布不平衡的分類問題。

2.3 實驗結果

2.3.1 與基準模型的性能比較實驗中復現了文獻[9]提出的模型，并將其作為基準模型。本文模型的訓練分為兩個階段：第一階段在源域訓練集上對CNNGV進行訓練，第二階段在Audioset目標域訓練集上對CNN-GV進行域自適應訓練獲得CNN-GV-DA。性能對比結果如表2所示，其中CNN-GV-DA(Without GhostVLAD)模型是將GhostVLAD層移除后重新分為兩個階段訓練得到的。

表2 模型性能對比Table 2 Performance comparison of models

實驗結果表明：（1）無論是在源域還是在目標域上，CNN-GV-DA均取得了比基準模型更高的UWA，其中在Audioset目標域測試集上提高了5.13%，在Movie數據集上提高了7.72%；（2）對于基準模型，與源域的結果相比，Audioset目標域測試集和Movie數據集上的UWA分別下降了14.82%和18.13%；而對于CNN-GV-DA模型，下降的幅度分別為11.56%和12.28%，可以看出，本文提出的域自適應算法可有效緩解由于數據集之間分布差異所造成的性能下降。

2.3.2 GhostVLAD層與域自適應的貢獻表2的實驗結果表明：（1）無論是在源域還是在目標域上，CNN-GV-DA的性能均優于CNN-GV-DA (Without GhostVLAD)，這說明GhostVLAD層對模型性能提高有貢獻；（2）在3個數據集上CNN-GV-DA的性能均優于CNN-GV，說明域自適應處理可有效提高模型性能；（3）域自適應對模型性能提高的貢獻大于GhostVLAD的貢獻。

3 結束語

本文提出了一種面向性別識別的域自適應模型。在特征提取階段通過引入GhostVLAD層降低無關信息的干擾；在域自適應階段采用基于GAN的域自適應策略。在3個公開的數據集上的實驗結果表明，本文提出的域自適應模型可有效緩解由于實際數據與訓練集之間的差異性所導致的模型性能下降的問題，并且GhostVLAD層和基于GAN的域自適應策略均能提高模型性能。