基于互信息自適應估計的說話人確認方法

2023-02-15 08:40:12季超群李文文陳德運王莉莉楊海陸

電子科技大學學報 2023年1期

陳晨，季超群，李文文，陳德運,2，王莉莉,2，楊海陸,2

(1. 哈爾濱理工大學計算機科學與技術學院哈爾濱 150080；2. 哈爾濱理工大學計算機科學與技術博士后流動站哈爾濱 150080)

生物特征識別是一項根據人類自身的生物特性進行身份鑒別的技術。近年來隨著人工智能、大數據、云計算等技術的飛速發展，生物特征識別技術正越來越廣泛地應用于監控、監視、網絡安全和執法等方面[1]。在眾多生物特征識別技術中，說話人確認[2]技術因兼顧生物特征的生理特性與行為特性，具有更高的安全性，備受研究者的廣泛關注。

隨著深度學習的快速發展，深度神經網絡在很多領域都取得了較好的效果。視覺幾何組?中等(visual geometry group-middle, VGG-M)網絡[3]最初應用于圖像處理領域，由于其在圖像處理領域的優異表現被各界關注，并應用于說話人確認任務的特征提取階段[4]。深層殘差網絡(deep residual networks,ResNet)[5]則可將淺層數據直接傳遞到深層網絡，有利于梯度優化并加快網絡的訓練效率。

在目標函數方面，最初以分類為目標的目標函數最為常見[6]。這類目標函數主要圍繞softmax 損失從兩個角度開展研究，一是通過增加不同類別決策邊界間的距離來提升其區分能力，包括其變形角-softmax(angular softmax, A-softmax)損失[7]、加性間隔softmax(additive margin softmax, AM-softmax)損失[8]、動態加性間隔softmax(dynamic-additive margin softmax)[9]、加性角間隔softmax(additive angular margin softmax, AAM-softmax)損失[10]等；二是通過正則化的形式來增加softmax 損失的區分性，這類方法通常以加權的形式建立起正則化器與softmax 損失的聯系，使用的正則化器一般也是可獨立使用的損失函數，如中心(center)損失[11]、環(ring)損失[12]等。度量學習側重于考慮特征間的類間與類內關系，能夠幫助以分類為目標的目標函數更全面地計算特征間的相關度與區分度，是開放集度量學習問題。因此，以度量學習為目標的目標函數更適合確認任務。常見的以度量學習為目標的目標函數包括二元交叉熵損失[13]、對比(contrastive)損失[14]、三元組(triplet)損失[15]、四元組損失[16]、基于互信息(mutual information, MI)的目標函數[17]等。且隨著采樣技術的研究與發展，僅以度量學習為優化目標的方法也能夠具有理想的性能，與分類結合度量學習的方法具有相仿的效果[18]。

以度量學習為目標的目標函數能夠深度挖掘同類特征和異類特征相關性，使網絡朝著類內相似和類間差異的方向進行更新。度量學習在計算距離時，通常采用傳統的相似度計算方式，如歐氏距離打分、余弦距離打分等。由于其不具備參數，使得在相似度計算方面存在靈活性弱、適應性差等問題。當把這些傳統的相似度計算方式應用于目標函數中時，并不能對特征間復雜的非線性關系進行有效表示。針對這一問題，可以有針對性地開發度量學習方法中的自適應能力，從而使目標函數能夠根據特征的特點進行動態調整，并在此目標的指引下提升網絡對特征表示的區分能力。考慮到自適應性的度量方式能夠根據類內和類間的特征分布進行有針對性的參數更新，使得在該度量方式下選取的特征更具有典型性，更有利于目標函數對于網絡的特征表示。基于此，本文利用互信息來衡量同類特征之間的相似性信息和異類特征之間的差異性信息，并將一種能夠進行自適應學習的度量方法——神經概率線性判別分析(neural PLDA, NPLDA)[19]引入到目標函數的表示中。經過NPLDA 對embedding特征的真實情況進行動態調整后，基于互信息的目標函數能夠更好地指引網絡朝著類內相似化、類間差異化的方向更新。本文將此方法命名為互信息自適應估計(mutual information adaptive estimation,MIAD)，其將最大化互信息作為神經網絡的優化目標。

1 互信息自適應估計

1.1 目標函數表示

本文方法的過程示意圖如圖1 所示。本文利用互信息來衡量同類、異類說話人特征所在分布之間的差異性。并利用NPLDA 模型對特征間的相似性進行自適應表示，從而保證在每輪更新中，根據embedding 特征的分布特性，有針對性地進行特征間的相似性表示。考慮到需要對同類與異類進行表示，本文所提出的目標函數需以度量學習為目標，并通過三元組數據進行表示，此方法的過程示意圖如圖1 所示。定義由神經網絡提取的embedding 特征xa、xp、xn分別為基準(anchor)樣本、正例(positive)樣本、負例(negative)樣本，基準樣本與正例樣本所屬的說話人類別相同，與負例樣本所屬的類別不同。根據上述符號定義，本文所提出的目標函數可以表示為：

圖1 本文所提出方法的過程示意圖

式中，N表示三元組的個數；Si(xa,xn) 表示第i個三元組中xa與xn的相似度；Si(xa,xp)表示第i個三元組中xa與xp的相似度。通過最小化fMIAD，可以使基準xa與正例xp的相似度達到最大、與負例xn的相似度達到最小，從而達到最大化類間相似度、最小化類內相似度的目標。

對于式(1)中的相似度Si(·)，簡單的相似度度量方法(如歐式距離、余弦距離等)無法保證能準確地衡量embedding 特征間的關系，因此需要根據特征的真實情況來對相似度進行動態調整。基于此，本文將具有驗證識別代價能力的NPLDA 引入，并將其用作相似度度量方法。其能夠根據同類漏報率、異類誤報率進行參數的自適應調整。NPLDA 的相似度計算方式與傳統PLDA 的對數似然比打分類似，均能夠表示為：

式中，xi、xj為進行相似度計算的embedding 特征；P、Q為NPLDA 模型的參數，它們的初始值是隨機生成的0～1 之間呈均勻分布的矩陣，能隨著embedding 特征的改變而進行動態調整。

在NPLDA 的訓練過程中，需要對同類漏報率、異類誤報率進行評價。漏報率與誤報率越大，模型損失越大，因此可將最小化它們的加權和當作模型的優化目標。同時，由于漏報與誤報針對的識別任務是確認任務(即目標與非目標的二分類問題)，因此需要對NPLDA 的訓練數據進行劃分，以組成以“對”為單位的樣本組。針對這一問題，本文采用隨機抽樣生成標簽的方式進行樣本組的劃分。基于上述描述，NPLDA 的目標函數可以表示為：

式中，Si為第i個樣本組的相似度；ti為樣本組的標簽，當樣本組中兩個embedding 特征為同類時，ti=1，反之ti=0； ρ為翹曲系數，當 ρ值足夠大時，Ls(β,θ)的近似值能夠逼近原始值，本文將 ρ設置為15。

1.2 三元組選取

在本文所提出的目標函數中，需要采用NPLDA以計算embedding 特征的相似度，而在計算目標函數前，還需通過embedding 特征間的相似度以選取三元組。為了統一目標函數與三元組選取時的相似度度量方法，本文在進行三元組選取時，同樣采用NPLDA 計算embedding 特征間的相似度，以確保不同環節中相似度的一致性。

在三元組選取時，對于每個類別的embedding特征xa，首先均需計算其類內相似度S(xa,xp)與類間相似度S(xa,xn)。然后，再從全部備選特征中，選擇符合要求的三元組。具體而言，若當前三元組中類內相似度大于類間相似度，則該三元組中的樣本為易區分樣本，在篩選時應盡量減少對這類三元組的選擇。為了加快網絡的收斂速度，應選取類內相似度小于類間相似度的三元組，如此便可更直觀地向網絡傳遞誤差信息，加快網絡的收斂速度。同樣地，類內相似度與類間相似度相差不大的三元組對于網絡參數的更新也具有正向的促進作用，為了能夠區分這一情況下的三元組，引入間隔(Margin)變量 α，根據經驗 α值一般設置在0.1～1 之間。引入間隔后的三元組選取規則如下：

待選擇的三元組若不滿足式(7)，則說明當前網絡不能將該三元組進行正確分類，選擇該三元組進入網絡中學習，使網絡在后續的訓練中能夠對其進行正確的分類。在三元組選取時，需要有針對性地選擇訓練數據、構建數據組，此過程需要一定的調參經驗，對于方法的復現存在少許挑戰。

1.3 特征匹配

在說話人確認的測試階段，需從網絡中提取embedding 特征用于后續的特征匹配。定義網絡提取的目標說話人embedding 特征為xtarget= (y1,y2,···,yD)T，測試說話人embedding 特征為xtest=(b1,b2,···,bD)T。本文采用余弦距離打分(CDS)進行相似度計算，CDS 可表示為：

2 實驗結果及分析

2.1 實驗數據庫和評價標準

為了驗證本文方法在真實應用場景中的有效性，實驗采用語音質量參差不齊的大規模說話人識別數據庫VoxCeleb1[4]。數據庫中的音頻均提取自YouTube 視頻網站，這些音頻取自多種復雜環境，包含各類噪音。數據庫的開發集包含1 211 位說話人(690 男，561 女)提供的148 642 段語音音頻。評估集則包含開發集類別以外的40 位說話人，共計4 874 條語音。測試時采用官方測試計劃列表，總測試數為37 720 次，非目標測試與目標測試比為1:1。評價標準采用等錯誤率(equal error rate, EER)與最小檢測代價函數(minimum detection cost function, minDCF)，其中minDCF 的參數采用官方設置。EER 與minDCF 的數值越低，說明性能越好。實驗將從性能、收斂性及特征可視化3 方面，對所提出方法的性能進行定量與定性的多方位對比分析。

2.2 實驗性能對比與分析

本節將對比本文所提方法(MIAD)與其他各類方法的性能，對比的方法包括說話人確認中傳統的統計模型與深度神經網絡模型。其中，統計模型類方法包括高斯混合模型?通用背景模型(Gaussian mixture model-universal background model, GMMUBM)[20]、身份?矢量(identity-vector, I-vector)結合概率線性判別分析(probabilistic linear discriminate analysis, PLDA)，簡寫為I-vector+PLDA[21]。GMMUBM 的前端聲學特征分別采用梅爾倒譜系數(melfrequency cepstral coefficient, MFCC)特征[2,22]、修改冪歸一化倒譜系數(modified power-normalized cepstral coefficients, MPNCC)特征[23]、基于仿射變換與特征轉換(affine transform and feature switching,ATFS)的特征[23]。深度神經網絡模型則包括以VGG-M、ResNet34[5]為網絡結構，并分別以對比損失、三元組損失、AM-softmax 損失為目標函數的6 種說話人識別系統。上述6 種方法均采用CDS 來進行說話人匹配，分別簡寫為VGGM+Contrastive、 VGG-M+Triplet、 VGG-M+AMsoftmax、ResNet34+Contrastive、ResNet34+Triplet、ResNet34+AM-softmax。對于上述6 種使用VGGM 網絡、ResNet34 網絡的方法，還分別提取了embedding 特征，并利用NPLDA 作為后端分類器，分別簡寫為VGG-M+Contrastive+NPLDA、VGG-M+Triplet+NPLDA、 VGG-M+AM-softmax+NPLDA、ResNet34+Contrastive+NPLDA、ResNet34+Triplet+NPLDA、ResNet34+AM-softmax +NPLDA。此外，對比方法還包括：基于CNN 的方法(AutoSpeech)[24]、基于VGG 的網絡[25]、SincNet 網絡[26]、基于VGG-M+MI[17]的方法。

上述方法的參數設置如下：在統計模型方面，MFCC 特征、MPNCC 特征、ATFS 特征的維度分別為13 維、9 維、9 維，且上述3 種特征均采用一階、二階差分。GMM-UBM 的高斯分量個數為1 024 個，i-vector 維度為400 維，PLDA 模型的子空間維度為200 維。在深度神經網絡模型方面，首先對輸入的語音信號預加重、分幀、加窗等預處理操作。預加重系數設置為0.97，加窗的窗長為25 ms，幀移為10 ms，FFT 的點數設置為512 個。經過以上操作后可以獲得一個512×300 維的語譜圖特征。VGG-M 網絡、ResNet34 網絡最后一層全連接層的維度為1 024 維，其對應的embedding 特征亦為1 024 維。在三元組選取時，間隔 α設置為0.3。VGG-M、ResNet34 的優化算法采用隨機梯度下降(stochastic gradient descent, SGD)算法，初始學習率為1 0?3，最終學習率為1 0?4。在MIAD 目標函數中的NPLDA 模型則使用適應性矩估計(adaptive moment estimation, Adam)算法作為優化器。基于以上參數設置，不同方法的實驗性能如表1 所示。

表1 不同方法的性能對比

從表中可以看出以下幾點。

1) VGG-M+MIAD 方法、ResNet34+MIAD 方法的性能明顯優于使用相同網絡的其他方法，EER明顯降低。在相同網絡結構的條件下，MIAD 能夠取得優于其他目標函數的性能。

2) 相比于VGG-M+MI，本文所提方法的EER雖然只有小幅度降低，但相比于其他目標函數的性能提升明顯，EER 最多降低了2.35%。且所提方法的亮點在于能夠有針對性地開發度量學習的自適應能力，能使目標函數根據特征的特點進行動態調整，還能消除三元組選取階段和目標函數相似度度量方法不一致的隱患。

3) ResNet34+MIAD 相比于其他深度神經網絡方法，相對等錯誤率最多降低了28%。本文所提的MIAD 目標函數能夠有效地衡量同類、異類說話人特征所在分布之間的差異性，引入自適應方法能夠更有針對性地對embedding 特征進行表示，有效提升了識別系統的性能。

2.3 收斂性對比與分析

本節將對比具有相同網絡結構的不同目標函數方法的收斂性。網絡結構分別為VGG-M、ResNet34，目標函數則包含AM-softmax 損失、三元組損失、對比損失、MIAD 損失。收斂性曲線采用EER 和minDCF 作為性能評價指標，上述所有方法均使用相同的預訓練模型。4 種方法的收斂性曲線圖如圖2 所示，從圖中可以看出以下幾點。

圖2 收斂性曲線對比圖

1) 隨著迭代次數的增加，全部方法的等錯誤率和minDCF 均有下降趨勢。本文的MIAD 方法在使用兩種網絡結構的情況下，等錯誤率和minDCF 更低。

2) 本文方法VGG-M+MIAD 在經過78 輪迭代后等錯誤率達到最低，數值為6.60%，ResNet34+MIAD 在經過67 輪迭代后等錯誤率達到最低，數值為6.44%，相比于其他使用相同網絡結構的方法性能更好。可以證明本文方法能夠提升說話人識別系統的性能。

3) 本文方法在使用相同網絡的情況下，均擁有更低的minDCF，VGG-M+MIAD 數值為0.62，ResNet34+MIAD 數值為0.60。進一步證明了本文方法具有更好的性能。

2.4 可視化分析

為了更直觀地衡量本文方法的有效性，使用t-SNE[27]方法對不同方法進行可視化表示。對比方法包括i-vector 特征、PLDA 說話人隱變量、VGG-M+Contrastive 的embedding 特征、VGG-M+Triplet 的embedding 特征、VGG-M+AM-softmax的embedding 特征、VGG-M+MIAD 的embedding特征、ResNet34+Contrastive 的embedding 特征、ResNet34+Triplet 的embedding 特征、 ResNet34+AM-softmax 的embedding 特征、ResNet34+MIAD的embedding 特征。從評估集中隨機選擇5 位說話人進行可視化表示，每位說話人包含80 段語音，不同類別的說話人對應不同灰度的點。t-SNE 方法的各項參數設置為：維度30 維，困惑度10。

基于上述實驗設置，不同方法的可視化對比圖如圖3 所示。從圖中可以看出以下兩點。

圖3 不同特征的可視化對比圖

1) 相比于圖3a～3e、3g～3j，圖3f、3j 中的可視化特征聚集得更緊湊。由此可見，本文方法能夠更好地捕獲同類特征的相似性。

2) 在各子圖的矩形框①中，圖3a-3e、3h 中的同類特征均被聚到2 簇中，但圖3f、3j 卻能很好地聚到同一簇中。同樣地，在子圖的矩形框②中，圖3c-3e、3g 中的同類特征均被聚到2 簇中，但圖3f、3j 卻能很好地聚到同一簇中。由此可見，對于那些類內差異性大的特征，本文方法仍然能夠很好地對其同類相似性進行表示。

3 結束語

本文提出了一種基于互信息自適應估計的目標函數，該目標函數能夠根據特征的實際情況進行動態調整，使得互信息估計能夠挖掘到更有價值的同類、異類特征信息。該方法還將具有自適應能力的度量方法NPLDA 應用于特征選取階段，NPLDA能夠根據特征的真實情況有針對性地更新參數，使選取的特征更典型，從而有效提升在此目標函數監督下網絡的表示能力。從性能、收斂性、特征可視化3 個方面的對比分析可以證明，本文方法在說話人確認任務上具有良好表現。在后續的研究工作中，考慮到NPLDA 中的漏報與誤報對應的是目標/非目標的確認任務，因此可以將其目標函數改進為基于互信息的損失，從而為整個網絡的優化帶來正向提升。