一種多特征融合的說話人辨認(rèn)算法

2022-07-02 12:23:13孫佳寧于玲

電腦知識與技術(shù) 2022年15期

孫佳寧于玲

摘要：針對在智能音箱中容易出現(xiàn)誤喚醒情況，即設(shè)備被環(huán)境音錯誤激活的問題，該文提出了一種多特征融合的說話人辨認(rèn)算法。該算法在特征提取部分通過將短時能量、線性預(yù)測倒譜系數(shù)（LPCC）、梅爾頻率倒譜系數(shù)（MFCC）及其一階動態(tài)特征差分系數(shù)進行有機結(jié)合來提高說話人辨認(rèn)算法的識別率。使用自建語音庫進行仿真測試，仿真實驗結(jié)果表明，與采用傳統(tǒng)特征提取的GMM說話人辨認(rèn)相比，采用改進的特征提取方法能顯著提高說話人辨認(rèn)的識別正確率。

關(guān)鍵詞：說話人辨認(rèn);MFCC;LPCC;短時能量

中圖分類號：TP18? ? ? 文獻標(biāo)識碼：A

文章編號：1009-3044（2022）15-0082-03

在實際生活中，智能音箱容易出現(xiàn)誤喚醒的情況，比如電視里提到喚醒詞，或者外面小朋友貪玩喊出喚醒詞，都會導(dǎo)致誤喚醒的發(fā)生。在進行喚醒詞識別前，加入對說話人的辨認(rèn)[1]可以有效減少這種情況的發(fā)生。

說話人辨認(rèn)的性能主要取決于特征提取和模式識別部分。目前常用的特征有梅爾頻率倒譜、感知線性預(yù)測、線性預(yù)測倒譜[2]。采用單一的線性預(yù)測倒譜特征（LPCC）對語音的清音識別來說并不準(zhǔn)確;采用單一的短時能量可以準(zhǔn)確區(qū)分清濁音，但抗噪性很差;采用單一的梅爾頻率倒譜特征（MFCC）抗噪性比較強，但其各維分量對識別性能的貢獻是不同的，如第一維、第二維特征分量會使說話人辨認(rèn)的識別效果更差[3]。

故本文考慮通過多特征融合來提高說話人辨認(rèn)的識別準(zhǔn)確率，進而降低智能音箱的誤喚醒率。本文在特征提取部分，將LPCC、MFCC及其一階動態(tài)特征差分系數(shù)進行有機結(jié)合，并將MFCC中第一維特征分量舍棄并替換為短時能量，獲取說話人特征的更多信息，從而有效提高說話人辨認(rèn)系統(tǒng)的識別性能。與采用單一特征進行說話人辨認(rèn)相比，多特征融合的說話人辨認(rèn)算法抗噪聲性能更強，在環(huán)境適應(yīng)性方面更有優(yōu)勢。

1說話人辨認(rèn)的特征提取

本文所采用的特征包括：線性預(yù)測倒譜系數(shù)（LPCC）、短時能量、梅爾頻率倒譜系數(shù)（MFCC）及其一階動態(tài)特征。其中，線性預(yù)測倒譜系數(shù)（LPCC）可以更好識別合成語音;梅爾頻率倒譜系數(shù)MFCC可以降低噪聲的影響;再加入反映語音瞬時變化的動態(tài)特征，用短時能量來取代MFCC第一維的特征分量，能有效提高系統(tǒng)識別性能。下面分別對這幾種特征的提取進行簡要介紹。

1.1線性預(yù)測倒譜系數(shù)（LPCC）特性

線性預(yù)測倒譜系數(shù)（LPCC）是依據(jù)全極點模型對線性預(yù)測系數(shù)（LPC）[4]進行遞推得到的。目前已經(jīng)有多種線性預(yù)測分析方法，本文選用的是自相關(guān)法中的杜賓算法，先計算出預(yù)測系數(shù)a1～ap，然后將預(yù)測系數(shù)帶入公式進行計算得出LPCC系數(shù)。

當(dāng)線性預(yù)測倒譜系數(shù)n的階數(shù)為1的時候，使用式（1）進行計算。

[clp（1）=a1]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（1）

當(dāng)n的階數(shù)不超過線性預(yù)測系數(shù)p時，使用式（2）中第一個算式進行計算，進而得到語音信號線性預(yù)測倒譜系數(shù)clp（n），當(dāng)n的階數(shù)大于線性預(yù)測系數(shù)p時，則使用式（2）中第二個算式進行計算，進而得到語音信號線性預(yù)測倒譜系數(shù)clp（n）。

[clp（n）=k=1n-1knan-kclp（k）+an（1<n≤p）clp（n）=k=1n-1knan-kclp（k）（n>p）]? ? ? ? ? （2）

線性預(yù)測倒譜系數(shù)LPCC相對別的特征參數(shù)計算方法來說計算運算量并不大，與其他特征進行有機結(jié)合可以有效提高說話人辨認(rèn)的準(zhǔn)確率。

1.2短時能量特性

短時能量在說話人辨認(rèn)中大致有兩種作用：一是用來區(qū)分清濁音;二是用來判斷語音起始段[5]。本文用到短時能量主要是用于區(qū)分清音和濁音。

對于信號{x（n）}，其短時能量En的定義如下：

[En=m=-∞∞[xmwn-m]2=m=-∞∞x2mhn-m=x2n?hn]? ?（3）

其中h（n）=w（n）2， w（n）為漢明窗，公式如下：

[wn=0.54-0.46cos2πnN-1，0≤n≤N-10，其他]? （4）

其中N為漢明窗的長度。

然后對En進行歸一化處理和取對數(shù)處理。

[En^=log（En/max（En）0≤n≤L-1）]? ? ? ? ? ? ? ? ? ? ? ? ? （5）

其中L為幀的數(shù)量，最后將得到的[En^]加入特征向量中。

1.3梅爾倒譜系數(shù)MFCC及其一階差分特性

MFCC是在梅爾標(biāo)度頻率域提取出來的，它是說話人辨認(rèn)中常用的語音特征參數(shù)[6]。其中梅爾標(biāo)度計算公式如下：

[fMel=2595log10（1+f/700）]? ? ? ? ? ? ? ? ? ? ? ? ?（6）

其中f為頻率，單位為Hz。

梅爾倒譜系數(shù)MFCC的提取過程如圖1所示。

第一步：將語音信號進行預(yù)加重后再進行快速傅里葉變換，然后取模的平方進而得到離散功率譜S（n）。

第二步：將S（n）通過N個三角濾波器進行濾波處理，得到N個系數(shù)Pn（n=0，1，…，N-1）。

第三步：計算濾波器組輸出參數(shù)Pn的自然對數(shù)，得到Ln（n=0，1，…，N-1）。

第四步：對Ln進行離散余弦變換：

[Cn=2Nj=0N-1fjcos[πnN（j+0.5）]，n=0，1，...，N-1]? ? ?（7）

得到Cn（n=0，1，…，N-1）。舍去代表直流成分的C0，將C0特征分量替換為式（5）中的短時能量[En^]，之后取[En^]，C1，C2，…，Cn作為新的MFCC參數(shù)。

最后對MFCC進行一階差分處理[7]：

[dm=Cm+1-Cm，m<Kk=1Kk（Cm+k-Cm-k）2k=1Kk2，其他Cm-Cm-1，m≥N-K]? ? ? ? ? ? ? ? ? ? （8）

其中dm表示第m個一階差分，Cm表示第m個倒譜系數(shù)，K表示一階導(dǎo)數(shù)的時間差。

本文首先取12維梅爾倒譜系數(shù)Cn，之后把梅爾倒譜系數(shù)（MFCC）的第一維特征分量替換為一維短時能量[En^]，然后對新得到的12維梅爾倒譜系數(shù)MFCC進行一階差分處理得到dm。將新得到的梅爾倒譜系數(shù)與線性倒譜系數(shù)clp（n）進行線性加權(quán)，得到一組新的特征向量，記為Y。最后將Y與dm進行有機結(jié)合得到最后的特征參數(shù)向量，記為X。

2基于GMM的說話人識別模型

說話人辨認(rèn)就其本質(zhì)來講是對個性特征的識別，在使用前述方法將所需的特征提取出來之后，使用說話人識別模型將所提取的特征送入識別部分進行與文本相關(guān)的說話人辨認(rèn)。目前主要模型有動態(tài)時間規(guī)整[8]、隱馬爾科夫[9]、矢量量化[10]、高斯混合[11]，本文采用的是高斯混合模型。

建立高斯混合GMM模型首先要計算單個高斯分布函數(shù)：

[piX=exp-X-wiT∑i-1X-wi22πN2∑i12]? ? ? ? （9）

其中X為第一章中進行多特征融合后的特征參數(shù)向量，N為多特征融合的特征向量維數(shù)，∑i為協(xié)方差矩陣，wi為均值向量，T為某個說話人的某段語音經(jīng)過預(yù)處理后的分幀數(shù)。

然后將多個單高斯概率密度進行加權(quán)線性組合：

[gXλ=i=1Mμipix，i=1Mμi=1]? ? ? ? ? ? ? ? ? ? （10）

其中，μi為第i個分量的混合權(quán)值。通常情況下高斯混合模型的階數(shù)M越大，計算量和訓(xùn)練樣本越多，誤差率越小;M越小，計算量和訓(xùn)練樣本越少，但誤差率會增大。通過式（10）可得出GMM參數(shù)集[λ]由各均值向量、協(xié)方差矩陣及混合分量的權(quán)值組成[12]：

[λ={wi，i，μi（i=1，2，...M）}]? ? ? ? ? ? ? ? ? ? ? ?（11）

對GMM訓(xùn)練實際上就是對參數(shù)集[λ]進行估計的過程，GMM的似然度可表示為：

[G（Xλ）=i=1TgXiλ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （12）

因為式（12）是參數(shù)[λ]的非線性函數(shù)，很難直接求GMM似然度的最大值。因此，用最大期望算法（EM）反復(fù)重估參數(shù)[λ]，直至模型收斂[13]。

3 仿真及結(jié)果分析

在語音庫部分，本文采用的是自建語音庫。語音錄制分別在以下兩種環(huán)境下進行：（1）錄制環(huán)境無噪聲;（2）室內(nèi)有較少人群，錄制環(huán)境非靜音。第二種環(huán)境模擬了智能音箱在家居環(huán)境中的使用，可以測試出采用多特征融合的說話人辨認(rèn)是否能提高智能音箱的抗噪性。本實驗參與語音錄制的共63人，分別在兩種環(huán)境下朗讀內(nèi)容為“小度小度”的聲控語音6遍。隨機選取在環(huán)境（1）下錄制的語音信號中的4句作為訓(xùn)練語音，稱為訓(xùn)練集一，剩余語句作為測試語音，稱為測試集一。隨機選取在環(huán)境（2）下錄制的語音信號中的4句作為訓(xùn)練語音，稱為訓(xùn)練集二，剩余語句作為測試語音，稱為測試集二。在特征提取部分本文預(yù)加重系數(shù)選取為0.95，分幀部分取256點為一幀，幀移為128點，加窗部分為漢明窗。所有特征提取方法均使用GMM模型進行訓(xùn)練識別，GMM階數(shù)設(shè)置為16階。

3.1不同特征提取方式說話人辨認(rèn)的比較

首先本實驗將傳統(tǒng)方法和本文所使用的多特征融合特征提取方法進行比較。

LPCC[14]、MFCC[15]、MFCC+其一階動態(tài)差分特征[16]，梅爾倒譜系數(shù)MFCC+其一階動態(tài)差分特征+短時能量為傳統(tǒng)特征提取。LPCC+MFCC+其一階動態(tài)差分特征+短時能量為本文提出的改進特征提取方法。所用語音庫為安靜環(huán)境下所錄制的訓(xùn)練集一、測試集一。參數(shù)設(shè)置以及說話人識別結(jié)果如表1所示。

從表1中可以得出結(jié)論，當(dāng)只使用8維LPCC參數(shù)進行說話人辨認(rèn)時識別效果并不好，識別率只有39.68%;當(dāng)只使用12維MFCC參數(shù)進行說話人辨認(rèn)時，比起使用LPCC參數(shù)進行說話人辨認(rèn)時識別效果有顯著提升，由39.68%變?yōu)?2.54%;比起單一的MFCC來說加入一階動態(tài)差分特征的說話人辨認(rèn)識別率有所上升，由82.54%變?yōu)?4.92%;因為對說話人辨認(rèn)來說最有用的信息包含在MFCC分量C2～C16之間，所以本文將C0分量丟棄后加入1維的短時能量，表1表明將C0分量舍棄并加入短時能量后說話人辨認(rèn)識別成功率變?yōu)?7.30%;當(dāng)將25維LPCC、1維短時能量與12維MFCC及其一階動態(tài)差分特征進行結(jié)合時，識別率達(dá)到了98.41%。仿真結(jié)果表明，將短時能量、LPCC、MFCC及其一階動態(tài)特征差分系數(shù)進行有機結(jié)合的方法識別成功率最高。

3.2? LPCC、MFCC階數(shù)對說話人辨認(rèn)的影響

本實驗將MFCC、LPCC進行了線性加權(quán)處理。LPCC參數(shù)選取為25維;MFCC中MFCC參數(shù)選取為12維，短時能量參數(shù)選取為1維，△MFCC參數(shù)選取為12維。所用語音庫為安靜環(huán)境下所錄制的訓(xùn)練集一、測試集一。說話人識別結(jié)果如表2所示。

從表2可以看出，單獨使用LPCC特征參數(shù)進行說話人辨認(rèn)時識別正確率只有38.09%;將0.7LPCC與0.3MFCC進行線性加權(quán)時說話人辨認(rèn)識別正確率為63.49%;將0.6LPCC與0.4MFCC進行線性加權(quán)時說話人辨認(rèn)識別正確率由63.49%變?yōu)榱?3.65%;將0.5LPCC與0.5MFCC進行線性加權(quán)時說話人辨認(rèn)識別正確率為97.62%，比起0.6LPCC+0.4MFCC識別率又有所提高;將0.4LPCC與0.6MFCC進行線性加權(quán)時說話人辨認(rèn)識別正確率達(dá)到了98.41%。仿真結(jié)果表明，經(jīng)過線性加權(quán)運算后構(gòu)成的組合特征參數(shù)涵蓋了語音的聲道及聽覺特性，提高了說話人辨認(rèn)系統(tǒng)的識別率，其中將0.4LPCC與0.6MFCC進行線性加權(quán)時說話人辨認(rèn)識別率最高。

3.3 不同環(huán)境下特征提取方法對識別的影響

本實驗使用三種特征提取方法，對兩種環(huán)境下錄制的語音進行識別。三種特征提取方法為LPCC、MFCC、LPCC+MFCC+其一階動態(tài)差分特征+短時能量。其參數(shù)設(shè)置分別為：8維LPCC、12維MFCC、25維LPCC +12維MFCC +其一階動態(tài)差分特征+1維短時能量。兩種錄制環(huán)境分別為：安靜環(huán)境下錄制的測試集一、錄制環(huán)境非靜音情況下的測試集二。說話人識別結(jié)果如表3所示。

由表3可知，當(dāng)在安靜環(huán)境下時LPCC識別率為39.68%，MFCC識別率為85.54%，LPCC+MFCC+△MFCC+短時能量識別率為98.41%。當(dāng)在錄制環(huán)境非靜音情況下LPCC識別率為23.81%，識別性能受到較大影響;MFCC識別率為71.43%，比起在安靜環(huán)境下識別性能也有所下降;LPCC+MFCC+△MFCC+短時能量識別率為95.24%，識別效果比起單一使用LPCC與MFCC來說依舊更好。仿真結(jié)果表明，無論是在安靜環(huán)境下還是噪聲環(huán)境下，多融合特征提取方法識別性能都要優(yōu)于普通特征提取方法。

4結(jié)語

本文通過將線性預(yù)測倒譜系數(shù)、短時能量、梅爾倒譜系數(shù)及其一階動態(tài)差分特征進行有機結(jié)合，提高了說話人辨認(rèn)算法的識別正確率。仿真結(jié)果表明在進行說話人辨認(rèn)時，本文所提出的多特征融合算法比采用傳統(tǒng)特征提取算法抗噪性更好，識別性能大大提高。

參考文獻：

[1] 歐國振，孫林慧，薛海雙.基于重組超矢量的GMM-SVM說話人辨認(rèn)系統(tǒng)[J].計算機技術(shù)與發(fā)展，2017，27（7）：51-56.

[2] 楊瑞田，周萍，楊青.TEO能量與Mel倒譜混合參數(shù)應(yīng)用于說話人識別[J].計算機仿真，2017，34（8）：215-219，264.

[3] 甄斌，吳璽宏，劉志敏，等.語音識別和說話人識別中各倒譜分量的相對重要性[J].北京大學(xué)學(xué)報（自然科學(xué)版），2001，37（3）：371-378.

[4] 呂治國，范文.基于DSP的身份確認(rèn)雙系統(tǒng)設(shè)計[J].通信電源技術(shù)，2013，30（3）：33-35.

[5] 劉玉珍，田金波.基于語音增強的雙門限語音端點檢測算法[J].測控技術(shù)，2016，35（11）：33-35.

[6] 唐鎧，陸鵬.SOM-LSTM遞歸神經(jīng)網(wǎng)絡(luò)語音端點檢測系統(tǒng)[J].信息通信，2019，32（5）：50-53.

[7] Revathi A，Ravichandran C，Saisiddarth P，et al.Isolated command recognition using MFCC and clustering algorithm[J].SN Computer Science，2020，1（2）：1-7.

[8] Liu J W，Cheng Q S，Zheng Z G，et al.A DTW-based probability model for speaker feature analysis and data mining[J].Pattern Recognition Letters，2002，23（11）：1271-1276.

[9] Liu H，Wang W，Wang C W.A novel research in low altitude acoustic target recognition based on HMM[J].International Journal of Multimedia Data Engineering and Management，2021，12（2）：19-30.

[10] Ouisaadane A，Safi S，F(xiàn)rikuil M.Arabic digits speech recognition and speaker identification in noisy environment using a hybrid model of VQ and GMM[J].TELKOMNIKA （Telecommunication Computing Electronics and Control），2020，18（4）：2193.

[11] Gupta M，Bharti S S，Agarwal S.Gender-based speaker recognition from speech signals using GMM model[J].Modern Physics Letters B，2019，33（35）：1950438.

[12] 姚青俊.歌曲風(fēng)格與歌手音質(zhì)自動分析研究[D].哈爾濱：哈爾濱工業(yè)大學(xué)，2010.

[13] 成新民，沈律，趙力，等.基于修正EM算法的說話人識別的研究[J].電聲技術(shù)，2004，28（12）：51-53.

[14] 于明，袁玉倩，董浩，等.一種基于MFCC和LPCC的文本相關(guān)說話人識別方法[J].計算機應(yīng)用，2006，26（4）：883-885.

[15] 韓旭.噪聲環(huán)境下基于RNN的說話人識別方法研究[D].哈爾濱：哈爾濱理工大學(xué)，2019.

[16] 周玥媛，孔欽.基于GMM-UBM的聲紋識別技術(shù)的特征參數(shù)研究[J].計算機技術(shù)與發(fā)展，2020，30（5）：76-83.

【通聯(lián)編輯：唐一東】

電腦知識與技術(shù)2022年15期

電腦知識與技術(shù)的其它文章: VLAN技術(shù)及相關(guān)應(yīng)用研究; 無線體域網(wǎng)高效可追蹤的匿名認(rèn)證協(xié)議; 云計算技術(shù)在計算機網(wǎng)絡(luò)安全存儲中的應(yīng)用研究; 一種高效的工業(yè)控制系統(tǒng)時間戳壓縮算法; 分層技術(shù)在計算機軟件開發(fā)工程中的應(yīng)用分析; 云計算下多源異構(gòu)大數(shù)據(jù)算法研究