基于改進信道補償的I-vector 說話人識別

2021-10-29 12:18:34羅家誠

電子設計工程 2021年20期

關鍵詞：模型

羅家誠

（武漢郵電科學研究院，湖北武漢 430000）

說話人識別是一種生物識別方式，即通過收集到的聲音信號進行說話人的身份識別和確認[1]。語音識別技術的發展路徑眾多，包括說話人識別、自然語言處理、孤立詞識別、模糊語義識別、前端語音處理等技術，說話人識別技術因適用性廣、應用場景多，在語音識別的眾多發展路徑中應用更為廣泛，同時許多相關技術和研討也在進行和發展之中。以驗證方式劃分，說話人識別可以分為文本相關和文本無關兩種，其中文本無關[2]的說話人識別技術[3]受語音信道因素的影響，使得說話人識別算法的識別率不理想，限制了應用場景。文中利用因子分析技術(Factor Analysis，FA)[4]將語音特征參數中的高維超向量映射到低維，并通過信道補償技術，將信道中說話人特征空間與信道空間中的差異進行擬合處理，消除信道因素影響。

身份認證矢量(Identity-vector，I-vector)說話人模型識別過程包含語音信號端點檢測[5]、語音信號特征提取[6]和說話人高斯混合模型(Gaussian Mixture Model，GMM)建立3 部分，經前端端點檢測后的語音信號通過梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient，MFCC)提取說話人語音特征參數，使用最大后驗概率(Maximum A Posteriori，MAP)自適應算法獲得說話人GMM，并建立通用背景模型(Universal Background Model，UBM)[7]。引入信道補償技術[8]可以消除語音信道差異對說話人識別結果的影響，提高識別率。文中提出一種改進的信道補償算法，通過改進線性判別算法(Linear Discriminant Analysis，LDA)[9]對I-vector 向量的特征參數進行降維，并利用類內協方差規整[10](Within Class Covariance Normalization，WCCN)對信道進行補償，提高I-vector 模型系統的識別準確率。

1 I-vector說話人識別技術

1.1 I-vector說話人識別原理

Dehak 和Kenny 發現，使用聯合因子分析技術(Joint Factor Analysis，JFA)處理說話人語音信息的方式在現實應用中存在不合理性，因此對JFA 進行了改進，將在JFA 中分開統計的說話人空間和信道空間進行合并，并通過JFA 技術，將語音模型中特征的高維向量映射成低維向量，得到總體變化因子，其對應的矢量模型為[11]：

其對應的高斯混合模型參數可表示為：

通用背景模型可以作為聲紋矢量的度量模型，利用MAP 算法處理通用背景模型，可以將其變成說話人模型:

同理，UBM 模型參數表示為：

在總體變化空間[12]中，說話人空間和信道空間被映射到同一低維空間，其高斯混合模型的假設如下：

其中各參數的含義如表1 所示。

表1 I-vector模型各參數含義

1.2 I-vector特征提取

說話人語音數據或對應語音片段需要通過MFCC 進行特征提取，得到的特征參數即為對應說話人I-vector 模型特征的參數。利用MFCC 技術處理說話人語音信息前，需要對語音信號進行前端處理，處理完成后的語音信號通過梅爾濾波器組進行參數提取，得到MFCC 特征參數。假設給定一條語音片段如下：

其中，Yi表示一個F維的特征矢量。

通過MFCC 算法提取說話人語音信息特征參數，使用期望最大化(Expectation Maximization，EM)算法進行迭代計算，可以獲得說話人UBM 模型。利用MAP 算法調整獲得的UBM 模型可以得到GMM 模型。

文中使用I-vector 系統模型提取GMM-UBM 模型中的語音參數，通過理論推導[13]可以得到UBM對應各階統計量的估計，對應BAUM-WELCH 統計量為：

經過BAUM-WELCH 對統計量進行估計后，可以使用EM 算法進行迭代計算，得到總體子空間矩陣T，其步驟及結果表示為：

1）初始化

在T中選擇每一組分的初始值，利用BAUMWELCH 方程求得統計量的估計。

2）求E 階段

求得對應語音片段期望：

3）求M 階段

解方程后更新矩陣T：

4）計算完成或繼續迭代

若求得對應目標函數收斂，則計算完成，終止EM 步驟；如果未收斂，則繼續迭代，直至目標函數收斂。

2 信道補償

2.1 LDA+WCCN

通過JFA 技術處理語音特征參數[14]，得到的總體變化子空間中包含說話人空間和信道空間兩個子空間，使用I-vector 模型進行建模和處理后，總體變化子空間中仍然存在信道信息，影響系統識別準確率。

通過對I-vector 模型處理后的語音信息作信道補償處理[15],再進行匹配工作，可以解決信道因子對識別準確率的不利影響，通常使用LDA 和WCCN 技術對語音特征參數進行降維并對對應信道空間進行補償。

LDA[16]利用Fisher 準則，可以加強語音信道空間的類間離散度，由此可以提高不同說話人的區分度，同時減少語音信道空間的類內離散度，聚合同一語音身份的向量空間，提高緊湊性，對應公式如下：

其中，Sb表示信道空間類間離散度矩陣，Sw表示信道空間類內離散度矩陣。

經過LDA 處理后的總體變化子空間無法通過FA 技術獲得對應語音信息的類內類間信息，而使用WCCN 進行信道補償可以補充缺失的類內類間信息。

選取同一數據集中的i個說話人，某個人對應有j句話。使用Wij表示其中第i個人第j條語音的I-vector，則W矩陣表示如下：

其中，wi用來標識第i個說話人的所有語音均值：

用來映射wij的矩陣B為W-1=BTB的cholesky 分解。映射后wij的表示如下：

2.2 改進LDA+WCCN

通過計算I-vector 向量均值可以計算出類內和類間離散度矩陣，其均值準確性會影響映射矩陣對說話人的建模，因此當建立I-vector 模型時，使用的說話人語音數量較少時，計算得到的I-vector 向量均值準確性降低[17]，導致說話人身份的區分度下降。因此，提出了改進LDA 算法，該算法可以對I-vecotr模型進行信道補償，并對特征參數進行降維。對經過I-vector 建模后的語音信息進行排序，消除其中的最大、最小樣本值，取剩余I-vector的平方均值作為每一類說話人的集中向量，對式(15)、(16)做如下變化：

3 實驗

3.1 實驗設置

實驗使用AISHELL 開源語音數據庫，從語音庫中隨機選擇20 人，每人10 條語音，其中3 條語音用于數據訓練，7 條語音用于數據測試。對于每一個語音信息片段，實驗通過MFCC 提取語音中的基本聲紋特征，之后進行語音特征提取，并通過語音活動檢測消除端點誤差。使用訓練數據得到聲紋信息的通用背景模型，將測試數據的聲紋特征與通用背景模型通過I-vector 模型計算后得到初始I-vector，將得到的總體變化子空間因子I-vector 進行信道補償處理，并通過分類器進行打分判決處理，得到系統識別準確率[18-19]。

3.2 實驗結果及分析

文中使用兩組對比實驗，采用識別準確率對實驗結果進行度量，使用MFCC 技術提取測試集及訓練集語音信號的特征參數。實驗一以12 階MFCC 作為基準參數，與其一階、二階差分組成24 維和36 維特征參數，驗證加入差分系數的信道補償對識別準確率的影響，其中GMM 混合數為512；實驗二使用LDA+WCCN 作為基準參數，將I-LDA+WCCN 與其進行比較，測試兩種方式對最終識別準確率的影響，其對應的GMM 混合數為512。

表2 為實驗一的識別結果。從實驗結果可以看出，I-vector 模型使用一階和二階差分MFCC 提取特征參數后，系統識別準確率有提升。通過I-LDA+WCCN 技術處理后，I-vector 模型算法識別率得到提高。對比一階MFCC，引入信道補償算法后系統識別準確率有提高；但在二階MFCC 情況下，算法識別準確率出現下降趨勢，表明引入二階MFCC 后特征參數增加，引起GMM 模型特征參數向量維度增加，同時說話人語音身份信息也因引入二階MFCC出現部分丟失，系統特征參數的區分度降低，對應擾度增加，增加信道補償算法無法彌補二階MFCC引起的干擾，導致識別準確率下降，但是相對于未引入信道補償算法，I-vector 模型的識別準確率均有所提高。

表2 引入信道補償系統識別準確率

如圖1 所示，分析獲得的實驗結果信息可知，特征參數維度的增加在進行信道補償前對算法識別準確率的影響不大，在使用信道補償算法后，模型識別準確率相比未使用信道補償有較大提高。

圖1 信道補償對比圖

實驗二將LDA+WCCN 和I-LDA+WCCN 分別應用于I-vector 向量并通過分類器進行判決，測試其對語音信道間干擾的抑制效果及對特征參數降維的性能。說話人語音數量的樣本數取5～10 段，對每種情況進行5 次測試求取對應識別準確率平均值，如表3和圖2 所示。

表3 信道補償算法識別率比較

圖2 識別率對比

通過表3 可知，說話人語音樣本數量增加時，兩種模式下系統識別準確率均有提高，表明隨著樣本數量增加，其中包含的說話人信息增加，有利于提高系統的區分性；樣本數較少時，I-LDA 方法與LDA 方法相比優勢不大，區分性不明顯，當樣本數增加時，I-LDA 方法可以達到更好的效果，對系統識別準確率提升明顯。

從以上實驗可知，I-vector 模型進行信道補償后識別準確率得到提升，可以更好地進行說話人識別，使用改進I-LDA 算法，可有效提高系統區分度及識別準確率。

綜上所述，使用I-LDA+WCCN 處理I-vector 模型，能夠有效消除信道差異，可以使I-vector 模型能更好地表達說話人語音身份特征，能夠提高系統識別準確率。

4 結束語

通過改進LDA 信道補償技術，對初始I-vector 模型類內和類間信息進行補償，降低了信道空間對說話人識別準確率的影響，提高系統區分度，相比于傳統I-vector 模型具有更好的識別準確率。同時，與LDA+WCCN 基準進行對比，在樣本數多的情況下，改進的方法具有更好的區分性能。