楊震,王天朗,郭海燕,王婷婷
(1.南京郵電大學通信與信息工程學院,江蘇 南京 210003;2.南京郵電大學通信與網絡技術國家地方聯合工程研究中心,江蘇 南京 210003)
隨著深度學習的興起,涌現了大量基于深度神經網絡的說話人確認模型,這些模型的說話人特征提取過程主要分為兩部分:前端聲學特征提取與話語級說話人嵌入特征提取。目前,主流的說話人識別模型的前端聲學特征使用梅爾頻率倒譜系數(MFCC,mel-frequency cepstral coefficient)或對數梅爾濾波器組能量(FBank,log-mel filter bank energy)等聲學特征[1]。這些特征都是在短時傅里葉變換的幅度譜的基礎上得到的,因此只利用了語音信號的時頻信息,而忽略了反映樣點間相關性的信號結構信息[2]。然而,前端聲學特征中結構信息的丟失,會導致后續話語級說話人嵌入特征提取網絡獲得的信息不完整,進而制約了說話人確認方法的性能。
針對上述說話人身份特征提取中信號結構信息的缺失問題,文獻[3]通過在一條語音中提取多個片段級說話人嵌入特征,在后端判別模型中將每個說話人嵌入作為一個圖節點,利用圖注意力網絡(GAN,graph attention network)提取特征的結構信息進行判別。文獻[4]將神經網絡提取的幀級別特征作為圖的節點,利用GAN 與圖池化替代原始的統計池化層,提取幀級別特征的結構信息,得到話語級說話人特征。上述這些工作利用的是高維特征間的關聯性等結構信息,并未關注反映原始語音信號樣點間關聯性的結構信息。
同時,為了獲得更多的說話人身份信息,一些研究者提出了特征融合方法。文獻[5]在殘差網絡的基礎上提出了通道注意力模塊(CAM,channel attention module)以及并行注意力(CA,coordinate attention)來融合恒等映射特征與殘差特征,在提取高維特征的同時,保留了低維特征。文獻[6]提出一種多特征融合的說話人確認方法,分別將MFCC特征、頻率域線性預測(FDLP,frequency domain linear prediction)特征以及原始語音信號輸入各分支網絡,在各分支經過池化層之后,通過一個共同的話語級特征提取網絡,之后計算多種輸入特征的交叉熵損失函數的和,將其作為最終的損失函數來更新網絡參數。然而,上述方法主要針對同一個域的特征進行融合,并沒有額外增加信號的結構信息。此外,在其他研究領域,也有通過融合多領域特征進行各種任務的方法。文獻[7]將對數梅爾譜圖和測度向量經過卷積神經網絡后的輸出進行拼接,得到了融合特征,用于后續的干擾語音評估;文獻[8]通過U-Net 提取4 個不同尺度的視覺特征后,將歸一化的特征進行拼接,得到了融合視覺特征。此外,其他融合方法通過各種算法賦予不同特征不同的權重后進行特征疊加[9]。然而,無論是特征的拼接還是疊加,都是線性操作,無法充分利用多領域特征之間的相關性。
為了克服說話人識別中前端特征提取的結構信息缺失問題,本文使用圖信號處理(GSP,graph signal processing)技術[10]提取語音樣點之間的圖結構信息。相比于傳統的數字信號處理方法,GSP可以通過邊和邊權重充分利用信號點之間的關系。同時,理論上已經證明,離散傅里葉變換(DFT,discrete Fourier transform)是圖傅里葉變換(GFT,graph Fourier transform)在有向周期循環圖下的一個特例[10]。此外,已有研究表明,在語音增強以及語音分離等語音信號處理任務中,采用GSP 技術提取語音信號的結構信息,有利于提升語音信號處理任務的性能[11-15]。因此,本文使用GSP 技術,對語音信號在幀內構建圖結構,通過圖傅里葉變換得到語音的圖頻譜,進而通過濾波器組得到圖對數梅爾濾波器組能量(GFBank,graph log-mel filter bank energy)特征,以此來表征語音信號樣點之間的結構信息。在此基礎上,本文對傳統頻域特征與圖頻域特征進行了特征融合。與其他傳統常用的特征拼接或疊加方法不同,本文引入了殘差網絡(ResNet,residual network)[16]和擠壓-激勵網絡(SE,squeeze-and-excitation network)[17]進行特征融合,其中ResNet 將FBank 特征和GFBank特征映射為多通道特征,增強特征的表示能力,并通過殘差連接防止梯度消失,而SE 在ResNet的基礎上提供了注意力機制,根據不同特征通道的重要性賦予不同權重。
本文通過提取圖頻域特征,并與時頻域特征融合,得到跨域信息融合特征,用于基線模型ECAPATDNN(emphasized channel attention,propagation and aggregation in time delay neural network)[18]。本文工作主要包括以下幾個方面。
1) 提出了一種基于GSP 的新型圖頻域特征,能夠提取傳統時頻特征無法包含的信號樣點間的結構信息。
2) 引入了ResNet[16]和SE[17]對提出的圖頻域特征以及傳統時頻域特征進行跨域注意力特征融合,提升了特征提取的效果。
3) 在VoxCeleb1&2[19-20]、SITW(speaker in the wild)[21]和CN-Celeb[22]數據集上的實驗結果表明,本文提出的圖頻率特征以及特征融合網絡在ECAPA-TDNN 模型[18]上的等錯誤率(EER,equal error rate)與最小檢測代價函數(minDCF,minimum detection cost function)均優于使用傳統時頻域特征的基線模型。
在GSP 中,圖信號可以定義為G=(V,E,W),其中,V、E和W分別表示圖信號的頂點集、邊集和邊權重矩陣。對于一幀語音s=[s0,s1,…,sN-1]T∈RN,通過將其每個樣點si視為圖的頂點vi,可以將其從時域映射到圖域,即
此外,GFT 可以將信號從圖域變換到圖頻域,其中的GFT 基可以通過對邊權重矩陣進行特征分解或奇異值分解得到[10]。由于GFT 是對反映語音圖信號結構的邊權重矩陣進行分解得到的,因此由GFT 得到的圖頻域特征一定程度上蘊含了語音信號的結構信息。
SE 模塊[17]通過顯式地構建不同特征通道間的相互關系,自適應地調整通道間的特征響應,從而提升模型的建模能力,共分為擠壓與激勵兩步。擠壓時,對輸入Y∈RH×W×C的前2 個維度進行全局池化,其中C為通道數,則第c個通道的輸入Yc∈RH×W的輸出為zc,表示為
對于激勵操作,其輸出h=[h1,h2,…,hC]∈RC為
其中,σ(·)為sigmoid 激活函數,δ(·)為ReLU 函數,W1和W2為2 個全連接層的權重矩陣,b1和b2為2 個全連接層的偏置,z=[z1,z2,…,zC]T∈RC。h中的元素的取值范圍為0~1,將其作用于最初的輸入,可得SE 模塊的輸出Y*∈RH×W×C,其第c個通道的輸出Yc*∈RH×W為
本文提出了一種跨域注意力特征融合的說話人確認方法,其模型結構如圖1 所示。模型由圖結構特征提取、時頻域特征提取、注意力特征融合、說話人嵌入特征提取以及損失函數五部分組成。其中,灰色為本文創新部分。在圖結構特征提取模塊,本文提出了一種新的基于GSP 的圖頻域特征,即GFBank特征。在注意力特征融合模塊,本文提出了使用ResNet 和SE 模塊進行注意力特征融合的方法。說話人特征嵌入提取模塊使用ECAPA-TDNN 模型[18]。

圖1 模型結構
如圖2 所示,GFBank 特征的提取包括預加重、分幀、構建圖信號、以及濾波器組五部分。其中,灰色為本文創新部分。預加重通過增加語音信號的高頻分量,可以有效補償聲音傳輸過程中高頻分量的損失。鑒于語音信號的時變非平穩性,對語音進行分幀的短時處理,以有效減少語音非平穩性的影響。預加重與分幀過程與傳統FBank 特征提取[1]相同,這里省略。

圖2 GFBank 特征提取過程
語音分幀之后,一段長語音被分成多段有重疊的短語音,此時,語音信號幀內與幀間均存在相關性[13],因此在語音信號的幀內和幀間均可構建圖結構。考慮到說話人嵌入提取的TDNN 通過計算幀間特征的卷積,可以獲得語音信號幀間的相關性。因此,本文僅考慮語音信號幀內的相關性,具體而言,本文考慮語音信號幀內相鄰k個樣點之間的相關性,使用k階移位(k-shift)圖[11]Ψk∈RN×N作為圖鄰接矩陣,構建語音圖信號,其圖拓撲結構如圖3所示,當前節點僅與本節點以及其后的k-1個節點存在直接的邊相連,且具有循環移位特性,圖鄰接矩陣Ψk第i行第j列元素為

圖3 k 階移位圖結構
設預加重和分幀后的語音信號S∈RN×T,其中,N為幀長,T為幀數。根據式(1),通過k-shift 圖將其映射到圖域,得到語音圖信號SG∈RN×T。時域語音信號映射到圖域后,圖節點的值與原語音信號樣點值相同,但增加了節點之間的邊連接。因此,需要對語音圖信號進行圖濾波或變換到圖頻域進一步處理。對于時域的語音信號,可以使用DFT 得到其頻譜;對于圖信號,可以使用GFT 得到其圖頻譜;對于有向圖信號,通過對鄰接矩陣Ψk進行奇異值分解,可以得到其圖傅里葉變換基,即
其中,Σ=[σ0,σ1,…,σN-1]∈RN×N為奇異值矩陣,奇異值σn(n=0,1,…,N-1)∈RN為圖頻率,左奇異矩陣U=[u0,u1,…,uN-1]∈RN×N,un∈RN(n=0,1,…,N-1)為圖頻率σn對應的圖頻率分量,且UT=U-1=VT為圖傅里葉變換基。由于一幀語音信號的點數過多,在圖中難以觀察,因此以包含15 個頂點的3-shift 圖信號為例,其第1 個~第4 個圖頻率分量如圖4 所示,每個圖頻率分量k個頂點(即信號樣點)之間有邊連接,圖頻率越高,表示頂點的值沿著邊的振蕩越快,因此圖頻率特征表示了信號樣點間的結構信息。

圖4 k-shift 圖信號的圖頻率分量
借助圖傅里葉變換基,可以得到語音圖信號SG經GFT 后的圖頻譜為
在FBank 特征提取過程中,利用人耳對低頻信號敏感、高頻信號不敏感的特點,設計了梅爾濾波器組,得到了符合人耳特性的聲學特征。在圖頻率域處理時,為了實現與FBank 特征對齊,同時減小特征參數,使用濾波器組 FB ∈RN×F對圖能量譜進行濾波,即
圖5 給出了VoxCeleb2 數據集中id00012/21 Uxsk56VDQ/00001.wav 語音中提取的 FBank 與GFBank 特征對比。從圖5 可以看出,FBank 特征譜的頻率分布范圍為-15~0 dB,GFBank 特征譜的頻率分布范圍為-15~-5 dB,GFBank 特征譜能量更加集中。

圖5 FBank 與GFBank 特征對比
此外,本文分析了VoxCeleb1&2 數據集中每個語音的FBank 特征與GFBank 特征的最大頻率差的分布,如圖6 所示。從圖6 可以看出,GFBank 特征的最大幅度差主要分布在5~17 dB,FBank 特征的最大幅度差主要分布在10~22 dB。由圖5 與圖6可知,相比FBank 特征,語音信號的GFBank 特征由于考慮了信號樣點間的圖結構,頻譜的能量更加集中,也驗證了圖頻率特征能夠反映信號樣點間的結構信息。因此,傳統時頻域的FBank 特征與圖域的GFBank 特征存在較大差異,這使簡單的線性疊加或者是拼接的特征融合方法都無法充分融合兩者特征,需要一種非線性的自適應的融合方法來動態調整2 種特征的權重分配。

圖6 VoxCeleb1&2 數據集中FBank 與GFBank 最大頻率差的分布
原始的ECAPA-TDNN模型中僅使用了FBank特征,未利用語音信號的結構信息,為此本文加入了圖域特征GFBank。由于FBank 與GFBank 是屬于不同域的2 種特征,關注語音的不同方面,因此不能通過簡單的特征疊加或拼接來融合。無論是特征疊加還是拼接,都是線性操作,無法充分利用多領域特征之間的相關性,并且特征的拼接會改變輸入特征維度,對后續網絡的性能產生影響。
本文提出的注意力特征融合方法主要由ResNet[16]和SE[17]組成。具體而言,由ResNet 組成的卷積層通過不同卷積核和非線性激活函數可以將FBank 特征和GFBank 特征映射為多通道特征,進一步提升特征的表示能力。然后,利用SE 模塊的擠壓操作聚合每個特征通道,計算注意力系數,再經過激勵操作,得到注意力權重分配后的特征,并與原始特征進行殘差連接,以避免產生梯度消失問題。最后,經過一層卷積層將多通道特征聚合為單通道特征,得到最終的跨域融合特征。通過這種方式,不僅實現了注意力融合,同時還保持了輸入特征維度的不變性,避免了由特征維度變化引起的影響。注意力特征融合網絡結構如圖7 所示。

圖7 注意力特征融合網絡結構
對于注意力特征融合網絡,首先,將2 種前端特征XFBank與XGFBank構成雙通道特征,即注意力特征融合網絡的輸入
然后,通過三層的二維卷積神經網絡(2D CNN,two-dimension convolution neural network)將特征通道數擴大到C,以獲取更多的通道信息,再借助SE模塊的注意力機制,自適應調整特征通道的特征響應,最后通過一個2D CNN 聚合多通道特征信息,將特征通道數降為1。此外,在第一層網絡與最后一層網絡之間加入了殘差連接,其過程如下
其中,Conv1 和Conv2 為不同卷積核的2D CNN,SE 為SE 模塊,每層網絡都省略了批標準化(BN,batch normalization)和ReLU 激活函數。注意力特征融合網絡中每層網絡的詳細參數如表1 所示。

表1 注意力融合網絡參數
目前,說話人確認的主流模型包括基于TDNN的ECAPA-TDNN 模型[18]、基于ResNet 的ResNet34模型[23],以及基于Transformer 的模型[24-25]等。主流的說話人識別數據集包括VoxCeleb1&2[19-20]、SITW[21]和CN-Celeb[22]等數據集,其中VoxCeleb數據集的說話人數量最多,是大多數研究者使用的。而本文選取的ECAPA-TDNN 模型在VoxCeleb數據集上的結果優于其他主流模型。因此,本文選擇ECAPA-TDNN 作為基線模型。為了驗證所提出的融合特征的有效性,本文在ECAPA-TDNN 模型上進行實驗,模型結構如圖1 所示。將模型中的單一FBank 特征替換為融合特征,作為網絡的輸入。
本文分別在VoxCeleb1&2、SITW 和CN-Celeb1數據集上進行實驗,以驗證所提方法。實驗使用VoxCeleb2 的開發集作為訓練集,其中包含5 994 個說話人的1 092 009 條語音。此外,模型訓練過程中,使用了MUSAN 數據集[26]、RIR 數據集[27]以及SpecAugment[28]進行數據增強。實驗使用VoxCe-leb1、SITW 以及CN-Celeb1 作為測試集,包括Vox1-E cl.、Vox1-H cl.、SITW-dev、SITW-eval 以及CN-Celeb1-eval??紤]到VoxCeleb 和SITW 包含重疊的說話人,本文在SITW 中去除了重復的說話人語音數據。實驗結果使用等錯誤率和先驗目標概率為0.01的最小檢測代價函數作為評估指標。
實驗語音使用32 ms 窗函數分幀,幀移為12.5 ms,每段語音截取200 幀,得到80 維的F-Bank特征和GFBank 特征。損失函數使用邊緣(margin)為0.2、尺度因子(scale)為30 的AAM-softmax[29]損失。初始學習率設置為0.001,每次epoch 學習率下降3%,數據批大小設置為400。使用Adam 優化器對網絡參數進行優化。
在訓練模型的基礎上,將AAM-softmax 損失函數的邊緣和尺度因子分別設置為0.4 與60,每條語音的持續時間加長到300 幀,對模型參數進行微調。其中,ET-FBank 模型為原始的使用FBank 特征作為輸入的ECAPA-TDNN 模型,ET-AFF-CSx為本文提出的基于跨域注意力的通道數為x的特征融合網絡,融合FBank 和GFBank 后的特征作為輸入的ECAPA-TDNN 模型。
表2~表4 分別列出了本文提出的ET-AFF-CSx模型與基線模型ET-FBank 在VoxCeleb、SITW 和CN-Celeb 數據集上的實驗結果。值得注意的是,基線模型ECAPA-TDNN 使用FBank 特征作為輸入,在表2~表4 中,本文用基線模型ET-FBank 來表示原始的ECAPA-TDNN 模型,以和本文提出的ET-AFF-CSx 模型區分。

表2 不同模型在VoxCeleb1 數據集上的結果對比
如表2所示,本文提出的ET-AFF-CSx模型的EER和minDCF 均低于ET-FBank 模型與ResNet34 模型。其中,ET-AFF-CS128 模型取得了最低的EER 與minDCF,在Vox1-E cl.上的EER 與minDCF 分別為1.121%和0.070,相比基線模型的EER 與minDCF 分別降低了12.53%和17.65%;在Vox1-H cl.上的EER和minDCF分別為2.010%和0.124,與基線模型的EER和minDCF 相比,分別降低了16.63%和16.78%。此外,從表2 還可以發現,隨著注意力特征融合網絡的通道數增加,模型的性能也在不斷提升。
如表3 所示,本文提出的ET-AFF-CSx模型在SITW 數據集上的EER 與minDCF 均優于其余模型。其中,ET-AFF-CS32 模型在SITW-dev 上取得了最低的EER,為1.617%,相比基線模型降低了16.09%;ET-AFF-CS128 模型在 SITW-dev 上的minDCF 為0.098,相比基線模型降低了23.44%;在SITW-eval 上的EER 和minDCF 分別為1.725%和 0.108,相比基線模型分別降低了 15.85%和18.80%。

表3 不同模型在SITW 數據集上的結果對比
如表4 所示,本文模型在CN-Celeb1 數據集上的各項評價指標均優于基線模型,其中ET-AFF-CS64 模型取得了最低的EER,相比基線模型降低了9.87%;ET-AFF-CS32 與ET-AFF-CS128的minDCF 最低,相比基線模型降低了13.20%。

表4 不同模型在CN-Celeb1 數據集上的結果對比
總體而言,本文提出的基于不同通道數的注意力融合特征模型的性能在VoxCeleb、SITW 以及CN-Celeb 這3 個數據集上均優于基線模型,同時,ET-AFF-CS128 模型在大多數數據集上實現了最好的性能。
3.3.1不同特征融合方法對比
為了驗證本文提出的注意力特征融合網絡方法的有效性,實驗比較了特征疊加、特征拼接與本文方法在VoxCeleb1 數據集上的性能,如表5 所示。其中,ET-CAT 為將FBank 和GFBank 沿頻率維拼接作為輸入特征的ECAPA-TDNN 模型;ET-ADD為使用FBank 和GFBank 的線性疊加特征作為輸入特征的ECAPA-TDNN 模型。從表5 可以看出,拼接或線性疊加等融合方法無法充分利用FBank 與GFBank 特征,反而會造成模型性能的下降,而本文提出的注意力特征融合方法通過自適應分配特征權重,充分利用了FBank 與GFBank 特征,實現了模型性能的提升。

表5 不同特征融合方法在VoxCeleb1 數據集上的結果對比
3.3.2與其他模型實驗結果對比
表6 列出了本文方法與當前的主流模型ResNet34[23]、ECAPA-TDNN[18]以及其他新模型ReaNet34-GAT[4]、ResNet34-ft-CBAM[30]、MFCC+FDLP+wav2vec[6]、SAEP[24]、GCSA[25]和MLP-SVNet[31]在VoxCeleb1 數據集上EER 的實驗結果對比。

表6 不同模型在VoxCeleb1 數據集上的EER 對比
如表6 所示,相比其他模型,本文方法的EER在Vox1-O cl.測試集上提升了9.52%~67.35%,在Vox1-E cl.測試集上提升了12.5%~60.98%,在Vox1-H cl.測試集上提升了16.60%~57.68%。
3.3.3消融實驗
本節設計消融實驗,以驗證本文提出的基于圖信號處理的GFBank 特征提取,以及FBank 與GFBank 的注意力特征融合網絡的有效性,實驗結果如表7 所示。其中,FBank 和GFBank 均為單一特征,未使用注意力特征融合網絡。FBank+LFCC為使用FBank 與線性頻率倒譜系數(LFCC,linear frequency cepstral coefficient)的融合特征,FBank +FBank 為使用 FBank 與自身融合的特征,ET-R-CS64 為僅使用ResNet 進行特征融合的模型,ET-SE-CS64 為僅使用SE 進行特征融合的模型(保留圖7 中第一層與最后一層卷積層)。從表7可以看出,單一的GFBank 特征的模型性能略差于單一的FBank 特征,但兩者的融合特征的模型性能優于單一的FBank 特征,這證實了跨域融合FBank 和GFBank 特征能有效地提升說話人確認的性能。因此基于圖信號處理的GFBank 特征為模型提供了信號之間的結構信息,從而實現了模型識別性能的提升。此外,從表7 還可以看出,采用FBank 與LFCC 的融合特征,或FBank 與自身融合的特征,相比于采用單一的FBank 特征,模型的性能更差,這說明采用本文提出的跨域融合特征能夠提升模型的性能并不是因為網絡參數的增加,而是因為GFBank 特征提供了FBank特征以外的信息,這進一步證實了GFBank 特征的有效性。最后,在單獨使用ResNet 或SE 進行特征融合的消融實驗中,ET-R-CS64 性能優于前4 種方法,而ET-SE-CS64 由于缺少殘差連接而導致模型性能下降。通過對比 ET-R-CS64 和ET-AFF-CS64 的結果可以發現,SE 網絡提升了僅使用ResNet 進行融合的方法。因此驗證了本文方法的有效性。

表7 消融實驗
3.3.4特征泛化性實驗
表8 給出了使用ResNet34 作為后端說話人特征提取網絡的EER 結果,其中ResNet34 使用FBank特征,ResNet-AFF-CS64 使用融合特征。如表8 所示,對于ResNet34 模型,本文方法使EER 在Vox1-E cl.上降低了5.69%,在Vox1-H cl.上降低了10.16%。由此可見,本文提出的特征融合方法不僅適用于ECAPA-TDNN 模型,也適用于ResNet34 模型,因此本文方法具有較好的泛用性。

表8 特征泛化性實驗
3.3.5說話人特征表示可視化圖像對比
為了進一步驗證本文方法的有效性,本文從Vox1-O cl.數據集中隨機選取了23 個說話人的2 500 條語音,分別使用ECAPA-TDNN 和本文提出的ET-AFF-CS128 模型提取了說話人特征表示,并采用t 分布隨機鄰居嵌入(t-SNE,t-distributed stochastic neighbor embedding)[32]方法進行了可視化圖像的對比,結果如圖8 所示,其中相同的線框表示同一說話人的特征。

圖8 說話人特征表示的可視化對比
從圖 8 可以看出,與采用基線模型ECAPA-TDNN 提取的說話人特征表示相比,采用ET-AFF-CS128 模型提取的說話人特征表示對于相同說話人特征通常更加集中,有利于說話人確認任務,驗證了本文提出的ET-AFF-CS128 模型的有效性。
本文提出了一種基于圖信號處理的GFBank 特征,為說話人信息提取提供圖結構信息,并使用注意力特征融合網絡融合FBank 與GFBank 特征,得到跨域特征,應用于 ECAPA-TDNN 模型。在VoxCeleb、SITW 和CN-Celeb 數據集上的實驗結果表明,與傳統的單一特征相比,跨域融合特征提升了說話人識別模型的性能。此外,本文還研究了不同的特征融合方式以及不同的特征對最終的說話人識別模型性能的影響,并在ResNet34 模型上進行了特征泛化性實驗。