項 羽,令曉明,2,郭亞龍
( 1.蘭州交通大學 光電技術與智能控制教育部重點實驗室,蘭州 730070;2.蘭州交通大學 國家綠色鍍膜技術與裝備工程技術研究中心,蘭州 730070)
說話人分割聚類( Speaker Diarization)是語音處理的一個研究方向, 主要是作為一種前端處理技術在語音處理領域使用。 是將一段連續的語音數據按不同說話人分割成片段, 并給每段語音片段標注上說話人的身份信息,以解決“ 誰在什么時候說”的問題[1]。 說話人分割聚類在眾多領域都有著廣泛的應用,如在錄音軟件中,可以通過說話人分割聚類技術將錄音音頻的說話人及其說話時長標注出來, 將其作為特征可以快速從眾多音頻中找到特定音頻;在會議場景中,結合說話人分割聚類技術和語音識別技術可以生成一份包含發言人身份信息的會議記錄,便于參會人員回顧會議內容;作為語音領域的前端處理技術,還可以提升后續語音處理系統的性能,如語音識別系統在說話人發生變化的時間點重置語音識別模型可以提高語音識別的準確率。
最初的說話人分割方法是基于能量的[2],這種方法是假設在兩人對話話語之間存在一個靜默區域, 通過設定能量閾值檢測說話人轉換點, 但是實際場景存在搶話現象導致分割結果并不理想。 目前比較主流的分割方法有2 種,分別是基于距離和基于模型的分割方法。 基于距離的分割方法不需要說話人的先驗信息,但需劃定門限,魯棒性較差。 常用的距離度量有貝葉斯信息準則( Bayesian Information Criterion,BIC)、 歸一化交叉似然比( Normalized Cross Likelihood Ratio,NCLR)、T-Test度量距離等[3]。 常用的說話人聚類方法是層次聚類,進行層次聚類有2 種方法, 分別是自下而上和自上而下的方法[4],其中自下而上的方法魯棒性較差,而自上而下的方法區分性較差, 在分割聚類系統中自下而上的方法得到了更為廣泛的使用。
本文提出基于DS 證據理論多特征融合模型, 提取說話人的嵌入特征用于說話人分割聚類。 該模型相較于傳統單一特征或單一神經網絡, 說話人分割聚類系統性能得以提升。
完整的說話人分割聚類系統由預處理、有效語音檢測、說話人轉換點檢測、說話人聚類和二次分割幾部分組成,其示意圖如圖1 所示。

圖1 說話人分割聚類系統框圖
音頻信號如果直接輸入說話人分割聚類系統,系統的性能會不理想。 因此在此之前需要對音頻信號進行預加重、分幀、加窗等預處理,由此消除發聲器官本身和采集設備采集音頻所帶來的混疊、高次諧波失真、高頻等因素對音頻信號質量的影響。
有效語音檢測的目的是將輸入的音頻信號中的語音與非語音分離,只保留說話人的語音信號用于后續的分割聚類,這里的非語音指的是靜音區域、環境噪音、背景音樂音效等。 有效語音檢測模塊的存在有助于后續模塊專注于處理音頻信號的語音部分,由此而提高系統的性能。
說話人轉換點檢測的目的是檢測出說話人變化的時間點,再根據這個時間點將語音信號分割成片段,使其成為只包含一個說話人的音頻片段。 目前主流的分割方法有2 種,分別是基于距離和基于模型的方法。基于距離的方法是選取大小相同相鄰的2 個滑動窗,計算2 個窗內的特征分布之間的距離作為說話人分割的依據,通過與預先設定的閾值或懲罰因子來進行比較判斷2 個窗內的語音是否來自同一說話人[5]。基于模型的方法是對語音建立起說話人模型,將語音分割成等長的短語音片段,使用建立的說話人模型對這些語音片段進行分類,模型之間的邊界就是說話人的轉換點。 除此之外還有基于深度神經網絡的方法,其基本思想是通過深度神經網絡來確定當前語音幀和說話人轉換點的相對位置,然后在所有語音幀中找到和理想的轉換點最匹配的語音幀作為說話人轉換點。 基于深度神經網絡的方法相較于前2 種方法準確率會更高,但是計算量會更大。
說話人聚類是將分割得到的語音片段按說話人的身份信息進行聚類,類別的數量就是說話人的數量。常用層次聚類的方法進行說話人聚類, 進行層次聚類有自下而上和自上而下2 種方法。 自下而上的方法是將每段語音片段都當作一類,然后計算所有類別之間的相似度,接著合并2 個相似度最高的2 個類別, 合并后重新計算新類之間的相似度, 重復迭代這一過程直到完成聚類輸出結果[6]。自上而下的方法是將所有語音片段當成一個整體類別,然后增加類別并重新分配語音片段,不斷重復迭代直至達到目標類別數。 除了層次聚類之外還可以使用譜聚類等聚類方法進行說話人聚類, 譜聚類是通過距離矩陣和相似矩陣將聚類問題轉化為平面上的帶權無向圖的切分問題,使得切分得到的子圖之間的權重和最小,而每個子圖內的權重和最大。
說話人聚類完成后就得到了說話人分割聚類的初步結果,但是得到的結果可能不夠理想。二次分割就是對片段的邊界及聚類結果進行進一步處理, 得到更佳的聚類結果。二次分割會帶來額外的計算量,而且只能用于離線的說話人分割聚類系統,因此二次分割不是必須的。
DS 證據理論是由Dempster 提出并由Shafer 完善的不確定性推理計算方法[7],是一種廣泛應用于決策融合和信息融合上的多數據融合方法,在多分類器融合、不確定性推理、多準則決策等領域都得到了廣泛的應用。
在DS 證據理論中識別框架是不確定性問題所有可能發生事件的集合[8],用Θ={A1,A2,…,An}來表示,Ai為識別框架Θ 的一個子集。 識別框架內的子集兩兩之間相互排斥,其冪集用2Θ表示,表示的是所有可能的問題組合。
基本概率分布是DS 證據理論對識別框架中的每一種可能發生事件的結果都分配了概率。 基本概率分布配置函數稱為mass 函數,常用m 來表示。對于2Θ中的任何命題A,mass 函數在識別框架的冪集2Θ滿足以下條件
式中:? 為空集,表示不可能發生的命題;m( A)為A 的基本概率分配函數,反映了證據對命題A 的支持程度。
組合規則是DS 證據理論的核心,DS 證據理論的融合基本策略就是將多個獨立證據函數m1,m2,…,mi進行正交運算,用⊕表示組合運算,則
2 個證據體Ai和Bi的合成公式可以表示為
同理,多證據體的情況計算公式為
式中:1/( 1-k) 為歸一化因子;n 為發生事件的個數;k 反映了證據體之間沖突程度的大小,值越大,沖突程度越大,取值范圍為[0,1]。
原始的語音信號中有著大量的冗余信息,空間特征也較為復雜。 如果將原始的語音信號直接送入神經網絡會導致網絡模型承擔額外的計算量,導致網絡訓練的效果并不理想。 因此對原始語音信號進行特征提取選取出具有代表的數據用于表征語音信號能減少包含的冗余信息,減輕網絡的負擔,提高訓練的效果。
本文選取了5 種聲學特征進行組合,相較于單一特征能夠更加全面有效地表征語音信號。 這5 種特征分別是梅爾倒譜系數( Mel-scale Frequency Cepstral Coefficients,MFCC)、 對數梅爾頻譜( Logarithmic Mel Spectrum,Log-Mel)、 色度特征( Chroma)、 光譜對比度特征( Spectral Contrast)和調性網絡特征( Tonnetz)。 分別將MFCC 和Log-Mel 與其他3 種特征的譜圖垂直拼接得到MFCST 特征和LMCST 特征。 2 種組合特征的語譜圖如圖2 所示。

圖2 MFCST 與LMCST 語譜圖
在卷積神經網絡中,隨著網絡層數的加深,提取的像素特征就越準確。但是網絡層數并不是越多越好,過多的網絡層數會帶來訓練過程中前傳信號和梯度信號的消失問題。 殘差網絡( ResNet)的出現解決了這一問題,ResNet 的核心是通過建立前層與后層之間的連接,可以實現訓練過程中梯度的反向傳播,可以訓練出更深的卷積神經網絡。密集卷積網絡( DenseNet)是基于ResNet 思想提出的一種網絡結構,與ResNet 相比是一種更密集的連接方式,將所有層都相互連接起來。 DenseNet 的這種連接方式會使得當前層的輸入來自于前面所有層的輸出,而不是僅僅只有前一層的輸出。這樣的方式充分利用了可用的特征信息,并對特征進行重用,大大減少了訓練模型所需的參數量,同時還減輕了網絡加深梯度消失的問題。
由于在現實環境中存在各種外界因素的干擾,采用單一神經網絡進行模型訓練效果并不理想, 而基于DS證據理論的決策融合算法可以利用數據集訓練不同的分類器進行融合。 本文選取的網絡為DenseNet-121,將從語音數據提取到的2 種組合特征MFCST 和LMCST 分別作為2 個網絡的輸入, 從2 個網絡提取到softmax 層的輸出后,利用DS 證據理論進行融合。 DS-DenseNet 網絡結構如圖3 所示。

圖3 基于DS 證據理論的網絡結構
為了驗證本文提出的基于DS 證據理論多特征融合模型的有效性,從SAM 語料庫[9]中抽取了18 000 個語音片段作為訓練集,模型在AVA 數據集上進行測試。 對聲音片段進行分幀處理,重疊率為87.5%。 利用Python 的librosa 庫 提 取MFCC、Log-Mel、Chroma、Spectral Contrast 和Tonnetz 特征。 為了研究特征維數的影響,組合特征分別使用了24 維、32 維和64 維的MFCC、Log-Mel 與8 維的Chroma、16 維的Tonnetz 和8 維的Spectral Con trast 進行拼接,將拼接組合特征MFCST 和LMCST 輸入到網絡中,用于提取說話人的嵌入特征,提取到說話人的特征序列之后進行層次聚類得到說話人分割聚類的結果。
為了評估系統的性能,采用說話人分割聚類錯誤率( Diarization Error Rate,DER) 作為系統的評價指標,其定義如下
DER=MSR+FASR+Speaker Error,
式中:MSR 為漏警, 表示有效語音部分被誤判為非語音部分的比例;FASR 為虛警,表示非語音的部分被誤判為有效語音部分;Speaker Error 表示說話人分類錯誤,表示原來屬于某個說話人的語音被誤判為另一說話人語音的比例。這3 種錯誤來源于說話人分割聚類的不同步驟,MSR 和FASR 是有效語音檢測模塊產生的錯誤,而Speaker Error 是說話人轉換點檢測和說話人聚類產生的錯誤。
為了將組合特征與單特征進行性能比較,首先使用了24 維的MFCC、Log-Mel 與其他3 種特征的組合,將單MFCC、Log-Mel 與2 種組合特征輸入DenseNet 網絡進行實驗( 表1)。

表1 單特征與組合特征的DER
由表1 可知,組合特征相較于單特征用作網絡的輸入,在相同條件下能夠得到更為準確的結果。為了測試進行DS 理論融合結果及特征維度的影響, 分別將24 維、32 維和64 維的MFCC、Log-Mel 與其他3 種特征進行組合,用于DS-DenseNet 的輸入進行實驗( 表2)。

表2 DS-DenseNet 下不同維度特征的DER
通過與表1 對比, 可以發現進行DS 融合后系統的性能得到了提升,并且在本文選用的3 種特征維度中,32維的特征維度取得了最好的結果。
本文提出基于DS 證據理論多特征融合模型的說話人分割聚類提高了分割聚類系統的性能。 與單一特征相比,2 種組合特征的系統準確率得到了提升,將2 種組合特征使用DS 證據理論進行融合后再作為分割聚類系統的輸入能進一步提升系統的精度。 特征維度也對系統性能有一定影響, 其中在本文選取的3 種特征維度中,32維取得了最高的精度。