雙模態(tài)融合特征下的說話人識(shí)別

2023-09-13 03:07:28謝婭利龐煒千薛珮蕓趙建星師晨康

計(jì)算機(jī)工程與設(shè)計(jì) 2023年8期

謝婭利，龐煒千，白靜，薛珮蕓，趙建星，師晨康

(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院，山西晉中 030600)

0 引言

說話人識(shí)別是一種根據(jù)說話人的特征來(lái)確定身份的模式識(shí)別技術(shù)。說話人識(shí)別技術(shù)廣泛應(yīng)用于各個(gè)領(lǐng)域[1，2]，因此對(duì)說話人識(shí)別技術(shù)進(jìn)行研究具有重要現(xiàn)實(shí)意義。

特征提取在說話人識(shí)別系統(tǒng)中扮演舉足輕重的角色。Huang JJ等[3]利用人耳的聽覺特性將小波包分解為五級(jí)，提取語(yǔ)音中包含的動(dòng)態(tài)特征進(jìn)行說話人識(shí)別。然而在信噪比較低的情況下，提取的特征參數(shù)會(huì)導(dǎo)致識(shí)別率顯著下降。Yang HY等[4]提出雙閾值函數(shù)去噪的特征方法進(jìn)行說話人識(shí)別，該方法在低信噪比環(huán)境下具有更好的性能。然而該算法較復(fù)雜，訓(xùn)練時(shí)間較長(zhǎng)。周萍等[5]將伽瑪通濾波倒譜系數(shù)和梅爾頻率倒譜系數(shù)融合，并結(jié)合它們的動(dòng)態(tài)特性構(gòu)成混合參數(shù)，用高斯混合模型進(jìn)行分類，實(shí)驗(yàn)結(jié)果表明該參數(shù)具有更好的抗噪性和識(shí)別性。Zhang Yan等[6]從發(fā)音器官中提取發(fā)音動(dòng)作參數(shù)，使用動(dòng)態(tài)時(shí)間規(guī)整進(jìn)行說話人識(shí)別，研究發(fā)現(xiàn)發(fā)音動(dòng)作特征對(duì)噪聲環(huán)境下的說話人識(shí)別率有明顯提高。

通過上述研究發(fā)現(xiàn)，發(fā)音動(dòng)作特征與聲學(xué)特征一樣具有識(shí)別性。目前說話人識(shí)別主要選用單模態(tài)特征，然而僅使用單模態(tài)特征進(jìn)行說話人識(shí)別很難提高其識(shí)別率。于是本文對(duì)傳統(tǒng)發(fā)音動(dòng)作特征進(jìn)行改進(jìn)得到參考點(diǎn)發(fā)音動(dòng)作特征，并將其與聲學(xué)特征進(jìn)行融合，采用基于懲罰項(xiàng)的嵌入式特征選擇去除冗余特征，得到雙模態(tài)融合特征，然后使用TORGO數(shù)據(jù)庫(kù)和自建庫(kù)進(jìn)行實(shí)驗(yàn)，驗(yàn)證本文所提參考點(diǎn)發(fā)音動(dòng)作特征和雙模態(tài)融合特征的有效性。

1 特征提取

1.1 聲學(xué)特征

聲學(xué)特征可分為語(yǔ)言學(xué)特征和超語(yǔ)言學(xué)特征，語(yǔ)言學(xué)特征包括詞匯、句法、語(yǔ)法和語(yǔ)境等，超語(yǔ)言學(xué)特征有音質(zhì)特征、韻律特征和頻譜特征。由于語(yǔ)言學(xué)特征提取和分析比較困難，本文選擇韻律特征和伽瑪通濾波倒譜系數(shù)進(jìn)行說話人識(shí)別。

韻律特征主要體現(xiàn)語(yǔ)音信號(hào)語(yǔ)調(diào)和強(qiáng)度的特點(diǎn)，不同說話人的聲音強(qiáng)度和語(yǔ)調(diào)流暢度是不同的，由于韻律特征對(duì)信道環(huán)境噪聲不敏感，因此被廣泛應(yīng)用于文本無(wú)關(guān)的說話人識(shí)別[7]。常見的韻律特征有振幅、共振峰、基頻、過零率、短時(shí)能量等。

信號(hào)的振幅表示振動(dòng)的強(qiáng)度，幅值越大，信號(hào)的強(qiáng)度越高。共振峰是元音激勵(lì)產(chǎn)生的一組共振頻率，反映了聲道的共振特性。

基頻是濁音中聲帶振動(dòng)的頻率。在發(fā)音過程中，聲門瞬間閉合，聲道受到強(qiáng)烈刺激，此時(shí)振幅急劇增加，導(dǎo)致突變，則該處基頻為兩個(gè)相鄰聲門閉合時(shí)間的倒數(shù)[8]。使用短時(shí)自相關(guān)函數(shù)進(jìn)行基音檢測(cè)，則語(yǔ)音信號(hào)x(m)的基頻為

Rn(k)=∑N-km=nxn(m)xn(m+k)

(1)

語(yǔ)音信號(hào)在一幀內(nèi)越過零電平的次數(shù)為過零率。它能在一定程度上反映信號(hào)的頻譜特性，從而對(duì)語(yǔ)音信號(hào)進(jìn)行粗略估計(jì)，則函數(shù)表示為

Zn=0.5∑N-1m=0|sgn[xn(m)]-sgn[xn(m-1)]|

(2)

語(yǔ)音的短時(shí)能量可以通過它的響度來(lái)衡量。設(shè)各幀語(yǔ)音信號(hào)xn(m)的幀長(zhǎng)為N，則能量公式為

En=∑N-1m=0x2n(m)

(3)

伽瑪通濾波倒譜系數(shù)(Gammatone filter cepstral coef-ficient，GFCC)是根據(jù)人耳的聽覺特性構(gòu)造的語(yǔ)音特征參數(shù)，反映了說話人之間的差異，并且在一定程度上減小了噪聲對(duì)特征提取的影響，具有良好的識(shí)別性能。語(yǔ)音信號(hào)通過快速傅里葉變換后，使用伽瑪通濾波器組進(jìn)行濾波，伽瑪通濾波器組可模擬人耳耳蝸基底膜的分頻特性[9]，其濾波器的帶寬與人耳的臨界頻帶關(guān)系為

ERB(f)=24.7×(4.37f/1000+1)

(4)

對(duì)濾波器的輸出采用對(duì)數(shù)壓縮和離散余弦變換，得到聽覺特征參數(shù)GFCC

GFCC(i)=2π∑Mj=1αjcos[πiM(j-0.5)]，i=1，2，…，N

(5)

其中，α1，α2，…，αj是一組對(duì)數(shù)能量譜，N是GFCC參數(shù)的維數(shù)，M表示濾波器的個(gè)數(shù)。

1.2 參考點(diǎn)發(fā)音動(dòng)作特征提取算法的提出

發(fā)音動(dòng)作參數(shù)由三維電磁發(fā)音儀(3D electromagnetic articulography，EMA)采集，由發(fā)音部位產(chǎn)生的發(fā)音動(dòng)作參數(shù)位移和速度值作為發(fā)音動(dòng)作特征(articulatory movement features，AMF)[10，11]。EMA采集的發(fā)音動(dòng)作參數(shù)都是原始數(shù)值，由于每個(gè)說話人發(fā)音部位的特性容易受到其它發(fā)音部位的相對(duì)位置變化的影響，在說話人識(shí)別系統(tǒng)中直接用初值進(jìn)行分類效果并不太好，因此要對(duì)原始數(shù)據(jù)進(jìn)行處理。于是本文對(duì)傳統(tǒng)發(fā)音動(dòng)作特征進(jìn)行改進(jìn)，提出參考點(diǎn)發(fā)音動(dòng)作特征(reference point articulatory movement features，RPAMF)提取算法，用來(lái)突破單獨(dú)發(fā)音部位提取的發(fā)音動(dòng)作參數(shù)不足、識(shí)別率低的限制。

參考點(diǎn)發(fā)音動(dòng)作特征提取算法的主要思路是由于說話人在發(fā)音時(shí)鼻梁始終與身體保持相對(duì)靜止，因此選擇以鼻梁為參考點(diǎn)，舌部(舌尖、舌中、舌后)、唇部(上唇、下唇)和下頜與參考點(diǎn)相對(duì)位移和相對(duì)速度作為發(fā)音動(dòng)作參數(shù)，RPAMF參數(shù)公式如下

(6)

(7)

1.3 雙模態(tài)融合特征

特征融合可同時(shí)提取多個(gè)特征，以實(shí)現(xiàn)特征互補(bǔ)并減少單個(gè)特征固有缺陷的影響[12]。聲學(xué)特征和發(fā)音動(dòng)作特征能從不同角度反映說話人信息，由于不同特征之間具有互補(bǔ)性，有效的融合能更全面的表征出說話人特性。

本文提出的雙模態(tài)融合特征主要思路如下，首先提取語(yǔ)音的韻律特征如過零率、振幅、基頻、短時(shí)能量以及第1和第2共振峰，并計(jì)算韻律特征和GFCC的統(tǒng)計(jì)參數(shù)；其次選擇舌尖、舌中、舌后，上唇、下唇和下頜各單獨(dú)發(fā)音部位相對(duì)于鼻梁運(yùn)動(dòng)產(chǎn)生的平均位移、位移的方差、平均速度和速度的方差，組成72維RPAMF；然后將韻律特征和GFCC的統(tǒng)計(jì)函數(shù)與72維RPAMF特征融合，采用基于懲罰項(xiàng)的嵌入式特征選擇方法去除不相關(guān)和冗余的特征，組成最終的雙模態(tài)融合特征。

雙模態(tài)融合特征集合表示為

F={Fr，F(xiàn)g，F(xiàn)rp}

(8)

其中，F(xiàn)r表示韻律特征集合，F(xiàn)g表示GFCC特征集合，F(xiàn)rp表示72維RPAMF特征集合。

韻律特征集合表示為

Fr={z，A，P，E，F(xiàn)1，F(xiàn)2}

(9)

其中，z為過零率；A為振幅的統(tǒng)計(jì)參數(shù)構(gòu)成的向量，即

A=(maxA，minA，，maxA′，minA′，′)

(10)

各量依次為振幅的最大值、最小值、平均值，振幅變化率的最大值、最小值、平均值；P由基頻的統(tǒng)計(jì)參數(shù)構(gòu)成，即

P=(maxP，minP，，maxP′，minP′，′)

(11)

各量依次為基頻的最大值、最小值、平均值，基頻變化率的最大值、最小值、平均值；E表示短時(shí)能量及其變換率的統(tǒng)計(jì)值，即

E=(maxE，minE，，maxE′，minE′，′)

(12)

各量依次為能量最大值、最小值、平均值和能量變化率的最大值、最小值、平均值；F1，F(xiàn)2分別表示由第1和第2共振峰的統(tǒng)計(jì)參數(shù)構(gòu)成的向量，即

F1=(1，σ2F1，Δ1，σ2ΔF1)

(13)

F2=(2，σ2F2，Δ2，σ2ΔF2)

(14)

其各量依次為均值、方差及一階差分的均值和方差。

GFCC特征集合表示為

Fg={G1，G2…，Gk}

(15)

Gk= (k，σ2Gk，Δk，σ2ΔGk)

(16)

k取12，其各量依次為均值、方差及一階差分的均值和方差。

72維RPAMF特征集合表示為

Frp={Sx，Sy，Sz，Vx，Vy，Vz}

(17)

其中，Sx，Sy，Sz分別表示由舌尖、舌中、舌后，上唇、下唇和下頜相對(duì)于鼻梁X軸、Y軸、Z軸平均位移和位移的方差構(gòu)成，即

Sx=(x，σ2Sx)

(18)

Sy=(y，σ2Sy)

(19)

Sz=(z，σ2Sz)

(20)

Vx，Vy，Vz分別表示舌尖、舌中、舌后，上唇、下唇、下頜相對(duì)于鼻梁X軸、Y軸、Z軸平均速度和速度的方差構(gòu)成的特征向量，即

Vx=(x，σ2Vx)

(21)

Vy=(y，σ2Vy)

(22)

Vz=(z，σ2Vz)

(23)

為了去除冗余特征，采用基于懲罰項(xiàng)的嵌入式特征選擇方法，引入L1、L2范數(shù)正則化，L1正則項(xiàng)來(lái)選擇特征，L2正則交叉檢驗(yàn)。其目標(biāo)函數(shù)公式如下

minw∑ni=1(yi-wTxi)2+λ1w1+λ2w22

(24)

2 GMM-SVM分類器

對(duì)于同類語(yǔ)音數(shù)據(jù)具有相似性和不同類數(shù)據(jù)具有不同幾何距離的特點(diǎn)，本文采用高斯混合模型-支持向量機(jī)(Gaussian mixture model-support vector machine，GMM-SVM)分類器創(chuàng)建說話人識(shí)別系統(tǒng)，GMM-SVM說話人識(shí)別系統(tǒng)結(jié)合了高斯混合模型(Gaussian mixture model，GMM)和支持向量機(jī)(support vector machine，SVM)的優(yōu)點(diǎn)，與單獨(dú)使用GMM或SVM的說話人識(shí)別系統(tǒng)相比，具有更好的魯棒性和識(shí)別率，語(yǔ)音信號(hào)經(jīng)過GMM模型參數(shù)化表示后的均值超向量可提高SVM模型對(duì)序列的分類能力，并且SVM在數(shù)據(jù)量較小時(shí)也能很好解決分類問題。GMM-SVM算法是通過GMM提取均值超矢量，利用SVM進(jìn)行分類，從而達(dá)到說話人識(shí)別的目的[13]。GMM-SVM的說話人識(shí)別系統(tǒng)如圖1所示。

圖1 基于GMM-SVM的說話人識(shí)別系統(tǒng)

2.1 GMM均值超向量

用KL距離表示不同說話人之間的差異性，其公式如下

D=∫Rnga(x)log(ga(x)gb(x))dx

(25)

其中，ga，gb是經(jīng)過MAP自適應(yīng)技術(shù)而得的，但KL距離不能直接用于SVM模型，需使用log-sum不等式來(lái)獲得KL距離上限，MAP自適應(yīng)時(shí)，保持其方差和權(quán)重不變，只更新GMM模型的均值。假設(shè)滿足方差為對(duì)角矩陣，則公式如下

d=0.5∑Ni=1wi(μai-μbi)∑-1i(μai-μbi)

(26)

其中，μa，μb為MAP自適應(yīng)后的均值超向量。從上述兩式可得，0≤D≤d，均值超向量間的差距越大，兩個(gè)語(yǔ)音段的差異就越大，從而能更好區(qū)分說話人。由于上式具備良好的對(duì)稱性，可以將上式轉(zhuǎn)換為內(nèi)積樣式，讓核函數(shù)滿足SVM模型的KKT約束條件

K(utta，uttb)=∑Ni=1wi(μai)t∑-1iμbi=∑Ni=1(wi∑-0.5iμai)(wi∑-0.5iμbi)

(27)

從而得到基于GMM模型均值超向量的線性核函數(shù)。

2.2 支持向量機(jī)

在SVM模型中，將多分類問題分解為多個(gè)二值分類問題，采用一對(duì)多的方法。一對(duì)多方法要求將每個(gè)類別分別訓(xùn)練成相應(yīng)的分類器，對(duì)于n個(gè)類別，需要分別訓(xùn)練n個(gè)相應(yīng)的分類器。對(duì)于非線性SVM分割超平面表示為

f(x)=∑mi=1αiyiκ(xi，xj)+b

(28)

其中，κ(xi，xj) 就是核函數(shù)，核函數(shù)將原始樣本空間映射到高維空間，找到最優(yōu)分類超平面，從而將非線性分類問題轉(zhuǎn)化為線性分類問題。

3 數(shù)據(jù)庫(kù)

為驗(yàn)證本文所提方法的優(yōu)越性，采用多倫多大學(xué)和語(yǔ)音病理學(xué)系聯(lián)合開發(fā)的TORGO數(shù)據(jù)庫(kù)和實(shí)驗(yàn)室自建庫(kù)進(jìn)行實(shí)驗(yàn)。TORGO數(shù)據(jù)庫(kù)包含約23 h的英語(yǔ)語(yǔ)音數(shù)據(jù)和發(fā)音動(dòng)作數(shù)據(jù)，構(gòu)音障礙的類型是腦癱或肌萎縮性脊髓側(cè)索硬化癥[14]，無(wú)其它身體損傷，能自主發(fā)音。實(shí)驗(yàn)室自建庫(kù)包含健聽學(xué)生和構(gòu)音障礙患者的普通話語(yǔ)音數(shù)據(jù)和發(fā)音動(dòng)作數(shù)據(jù)，健聽學(xué)生為在校大學(xué)生，構(gòu)音障礙患者為聽力障礙，佩戴助聽器有5年以上，并擁有一年以上語(yǔ)言康復(fù)訓(xùn)練經(jīng)歷，無(wú)其它身體損傷，能自主發(fā)音。數(shù)據(jù)庫(kù)基本構(gòu)成情況見表1和表2。

表1 TORGO數(shù)據(jù)庫(kù)概況

表2 自建數(shù)據(jù)庫(kù)概況

在實(shí)際應(yīng)用中，語(yǔ)音內(nèi)容大多與文本無(wú)關(guān)，可供識(shí)別的語(yǔ)音數(shù)據(jù)也往往較少，隨著語(yǔ)音持續(xù)時(shí)間的縮短，準(zhǔn)確率將顯著降低。針對(duì)上述問題，本文隨機(jī)選取每人60個(gè)不同短文本，為了避免數(shù)據(jù)質(zhì)量對(duì)實(shí)驗(yàn)結(jié)果造成不良影響，在開始實(shí)驗(yàn)之前需要對(duì)原始數(shù)據(jù)進(jìn)行多次篩選，用Praat軟件篩選聲學(xué)數(shù)據(jù)，Visartico軟件篩選運(yùn)動(dòng)學(xué)數(shù)據(jù)，經(jīng)過雙重篩選后，每人提取40條語(yǔ)音數(shù)據(jù)，40條發(fā)音動(dòng)作參數(shù)數(shù)據(jù)。

4 實(shí)驗(yàn)結(jié)果與分析

本文用TORGO數(shù)據(jù)庫(kù)和自建庫(kù)進(jìn)行實(shí)驗(yàn)，使用SVM、GMM-SVM對(duì)說話人進(jìn)行識(shí)別，GMM模型選擇混合度為32，采用K-Means實(shí)現(xiàn)模型參數(shù)初始化。核函數(shù)采用徑向基核函數(shù)，根據(jù)粒子群算法優(yōu)化參數(shù)[15]。采用10折交叉驗(yàn)證方法對(duì)說話人進(jìn)行分類實(shí)驗(yàn)。

4.1 AMF和RPAMF的識(shí)別結(jié)果與分析

為測(cè)試所提RPAMF特征對(duì)正常人和構(gòu)音障礙患者不同發(fā)音部位的識(shí)別性能，把構(gòu)音障礙患者設(shè)為對(duì)照組，對(duì)傳統(tǒng)發(fā)音動(dòng)作特征和參考點(diǎn)發(fā)音動(dòng)作特征進(jìn)行對(duì)比實(shí)驗(yàn)，測(cè)試改進(jìn)RPAMF特征的識(shí)別率。然后去除病理因素對(duì)所有人進(jìn)行實(shí)驗(yàn)，驗(yàn)證改進(jìn)RPAMF特征的有效性。測(cè)試結(jié)果見表3和表4。

表3 TORGO數(shù)據(jù)庫(kù)不同發(fā)音部位AMF和RPAMF識(shí)別率/%

表4 自建庫(kù)不同發(fā)音部位AMF和RPAMF識(shí)別率/%

從表3和表4的實(shí)驗(yàn)結(jié)果得出，無(wú)論正常人還是構(gòu)音障礙患者，無(wú)論使用何種分類器，提出的RPAMF的識(shí)別準(zhǔn)確率都比AMF的識(shí)別準(zhǔn)確率高，使用GMM-SVM分類器后優(yōu)化效果更為明顯。將正常人和構(gòu)音障礙患者作為整體實(shí)驗(yàn)對(duì)象進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)論同樣適用。驗(yàn)證了本文所提RPAMF的有效性。

4.2 融合特征的識(shí)別結(jié)果與分析

從上述實(shí)驗(yàn)結(jié)果得出，無(wú)論使用何種數(shù)據(jù)庫(kù)，本文所提的RPAMF的識(shí)別性能都比AMF的識(shí)別性能好，因此將TORGO數(shù)據(jù)庫(kù)和自建庫(kù)作為整體實(shí)驗(yàn)對(duì)象，測(cè)試單模態(tài)特征的分類精度及所提雙模態(tài)融合特征的識(shí)別性能。具體分類識(shí)別結(jié)果見表5。

表5 說話人各類特征識(shí)別率/%

從表5可以看出，無(wú)論使用何種分類器，雙模態(tài)融合特征相比于單模態(tài)特征識(shí)別準(zhǔn)確率都有所提高。使用SVM分類器，雙模態(tài)融合特征識(shí)別準(zhǔn)確率達(dá)到了94.57%，相比于單模態(tài)特征識(shí)別準(zhǔn)確率最少提高了4.21%，提升較為明顯，使用雙模態(tài)融合特征和GMM-SVM分類器的組合達(dá)到的識(shí)別準(zhǔn)確率最高，識(shí)別準(zhǔn)確率達(dá)到了96.72%，體現(xiàn)了本文所提雙模態(tài)融合特征的優(yōu)越性，雙模態(tài)融合特征可以更好地表征說話人之間的差異，同時(shí)選用GMM-SVM分類器，可以取得更好的識(shí)別效果。

5 結(jié)束語(yǔ)

隨著社會(huì)的發(fā)展，說話人識(shí)別越來(lái)越重要。雖然相關(guān)研究成果十分豐富，但單模態(tài)特征并不能很好的表現(xiàn)說話人之間的差異，于是本文將聲學(xué)統(tǒng)計(jì)特征和參考點(diǎn)發(fā)音動(dòng)作特征進(jìn)行融合，采用基于懲罰項(xiàng)的嵌入式特征選擇去除冗余特征，從而構(gòu)成雙模態(tài)融合特征下的說話人識(shí)別系統(tǒng)。在TORGO數(shù)據(jù)庫(kù)和自建庫(kù)上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提RPAMF的優(yōu)越性。同時(shí)，將兩數(shù)據(jù)庫(kù)作為整體實(shí)驗(yàn)對(duì)象，測(cè)試不同特征的分類精度，從而發(fā)現(xiàn)雙模態(tài)融合特征能實(shí)現(xiàn)更高的識(shí)別率。在今后的研究中，需要對(duì)特征融合做進(jìn)一步的理論研究和技術(shù)改進(jìn)，力求達(dá)到更高的識(shí)別率。