基于GFCC與CFC的低信噪比說話人識別

2021-01-15 09:22:08馮月春陳惠娟

網絡安全技術與應用 2021年1期

◆馮月春陳惠娟

◆馮月春1陳惠娟2

（1.寧夏理工學院寧夏 753000；2.西安工程大學陜西 710048）

在全特征矢量集模型CFC和互信息識別的基礎上，對不同的語音特征參數提取方式及不同特征在不同信噪比下的識別率做了比較，實驗結果表明基于人耳聽覺特性的穩(wěn)健特征提取方式在高信噪比時識別率最高；本文針對低信噪比情況下說話人識別系統的識別率較低的問題，提出了基于多窗譜估計普減法的能熵比法用于語音的前端降噪處理，結果表明通過改進的端點檢測法在低信噪比下明顯提高說話人識別的識別率。

端點檢測；CFC；識別率

說話人模型是說話人識別系統的核心，目前常見的說話人模型包括：隱馬爾科夫模型、高斯混合模型、矢量量化、人工神經網絡等。這些方法的運用只考慮了語音信號的時變分布特征，并沒有考慮語音信號的統計分布特征，同時計算量比較大。上海大學的俞教授提出了全特征矢量集模型CFC[1]，該模型基于互信息理論和語音信號分析，對隨機變量或隨機信號之間所攜帶對方信息進行定量描述，由于該模型同時考慮了語音信號的時變分布特征和統計分布特征，能有效地提高類間耦合度和類內凝聚度，是目前常用的說話人模型匹配方式。該模型對語音參數特征敏感，尤其是低信噪比的情況下。因此，語音特征的提取方式是CFC精度的主要影響因素。本文在全特征矢量集模型CFC和互信息識別的基礎上，對不同的語音特征參數提取方式識別率做了比較，結果表明基于人耳聽覺特性的穩(wěn)健特征提取方法在高信噪比時識別率最高，在低信噪比下識別率較低，本文采用多窗譜估計普減法[2]和能熵比相結合的端點檢測，對語音信號進行預處理，使說話人識別在低信噪比下識別效果明顯改善。

1 互信息匹配識別模型及原理

1.1 說話人全特征矢量模型

全特征矢量集模型CFC的基本思想是通過對一組包含說話人各種語音發(fā)音個性特征的數據進行分析處理，提取相應的代表性特征矢量表示說話人語音模型，其訓練過程如下。

（2）計算各原始特征矢量與CFC中各特征矢量之間的距離，并將原始特征矢量賦予與其距離最小的CFC特征矢量所在子集，即：

（3）對每個CFC特征矢量子集中的原始特征矢量在特征空間計算其均值，并將其作為新的CFC特征矢量，即

1.2 基于互信息評估的說話人識別原理

從理論上分析，由于不可能得到嚴格的語音信號特征矢量的概率分布密度函數以及語音模式的條件概率，語音模式之間的互信息計算只能通過合理的估計進行，即引入了熵的計算。公式如下：

2 語音特征提取實驗對比

2.1 實驗環(huán)境

本文涉及的說話人識別實驗中訓練語音數據均在實驗室環(huán)境下用進行錄制，采樣率11025Hz，量化精度16 位，每個人錄制了7 段12 秒的語音，其中，前4 段用于訓練，后3 段用于識別。為了比較各種特征提取方式的魯棒性，分別在原語音數據中疊加上固定比例的噪聲。實驗所使用8種噪聲類型，信噪比分別為0dB，10dB，20dB，30dB。實驗結果如圖1（a）、（b）所示。橫軸代表不同的信噪比，縱軸代表說話人的識別率；圖中矩形的線條表示為LPCC特征在不同信噪比下的識別率，圓形的線條為MFCC特征在不同信噪比下的識別率，三角形的線條為GFCC特征在不同信噪比下的識別率，星形為組合特征MFCC+GFCC在不同信噪比下識別率[4]。

圖1（a）不同信噪比下說話人識別率

圖1（b）不同信噪比下說話人識別率

2.2 實驗結果與分析

（1）在純凈語音環(huán)境下，MFCC，GFCC和MFCC+GFCC的識別率一致，最高可達到90%，而LPCC的識別率相對較低，在70%左右。

（2）在低信噪比下GFCC特征參數和組合特征MFCC+GFCC的識別率優(yōu)于MFCC和LPCC的識別率，說明GFCC具有一定抗噪性能。

3 改進的語音端點檢測

從實驗結果發(fā)現，普通的端點檢測只對有話段檢測和處理，一般用短時平均能量和短時平均過零率就可以檢測出語音的端點，但實際處理中語音往往處于復雜的噪聲環(huán)境中，判別語音段的起始點和終止點的問題主要歸結為區(qū)別語音和噪聲的問題。因此，采用基于多窗譜估計普減法的能熵比法用于端點檢測，來提高說話人識別的正確性。改進后說話人識別工作原理如圖2所示：

圖2 說話人識別系統

4 實驗結果

實驗結果如圖3（a）、（b）所示。其中，圓形表示普通的端點檢測下特征GFCC的識別率，星形表示改進的端點檢測下特征GFCC的識別率[5]。

從圖3（a）、（b）中可以看出：（1）在8種不同的噪聲環(huán)境下，采用兩種端點檢測法說話人識別的識別率均隨著信噪比的增大越來越大。（2）從圖中可以看到，在低信噪比下對含噪的語音法進行預處理后，對多數噪聲識別率都有所提高。（3）八種噪音下在SNR低于5dB時，我們的抗噪聲說話人識別系統的識別率提高明顯。

圖3（a）不同信噪比下說話人識別率

圖3（b）不同信噪比下說話人識別率

5 結論

在全特征矢量集模型CFC和互信息識別的基礎上，通過實驗驗證，結果表明低信噪比下的識別率較差；然后，針對此問題，提出了基于多窗譜估計普減法的能熵比法用于語音的前端降噪處理，通過改進的端點檢測法算法使說話人識別在不同程度上得到了提高。

[1]俞一彪.基于互信息理論的說話人識別研究[D].上海：上海大學，2004.

[2]武鵬鵬，趙剛，鄒明.基于多窗譜估計的改進普減法[J].現代電子技術，2008（12）：151-152.

[3]杜曉青，于風芹.基于發(fā)聲機理與人耳感知特性的說話人識別[J]，計算機工程，2013，39（11），197-199.

[4]郭武.復雜信道下的說話人識別[D].合肥：中國科學技術大學，2007.

[5]余建潮，張瑞林.基于MFCC和LPCC的說話人識別[J].計算機工程與設計，2009（5）：1189-1191.

寧夏高等學校科學研究項目（編號：NGY2018-166）