一種改進(jìn)SCHMM/ANN的語音識別算法的提出

2018-01-08 05:21:00胡巖松

環(huán)球市場信息導(dǎo)報 2017年44期

◎胡巖松

◎胡巖松

本文所采用的一種SCHMM/ANN模型，通過在ubuntu 14.04環(huán)境下搭建了用于語音識別的Kaldi系統(tǒng)，編寫了兩種模型的訓(xùn)練及識別腳本。利用開源的語音庫THCHS-30對兩種模型進(jìn)行了驗證，得到了無噪聲環(huán)境下兩者的語音識別率。對兩種模型進(jìn)行了抗噪性能的分析，測試語音中加入高斯白噪聲對兩種模型進(jìn)行實驗測試。最后通過實驗數(shù)據(jù)說明了混合模型在噪聲環(huán)境下能夠取得較好的識別效果，并通過實驗證明了改進(jìn)的端點檢測算法在兩種模型的語音識別當(dāng)中都是有效的。

基本算法

隱馬爾可夫模型的表示方法：

3）A= (aij)N×N：狀態(tài)轉(zhuǎn)移概率分布。aij表示當(dāng)前時刻狀態(tài)從si轉(zhuǎn)移到sj的概率。

4）B= (bjk)N×M：觀測值概率分布。bj(k)指的是當(dāng)前時刻模型狀態(tài)為Sj，觀測值的概率。

5）π，初始狀態(tài)概率矩陣。其中：

上面介紹的幾個參數(shù)可以用來描述一個完整的隱馬爾可夫模型，表示為λ=(N,M,A,Bπ)。通常N和M為固定值，HMM模型可簡單表示為：λ= (A,B,π)（2）

子空間高斯混合模型也有高斯混合模型相對應(yīng)的狀態(tài)，但是子空間高斯混合模型并不是直接給出每一個狀態(tài)的參數(shù)，而是通過一個相近的特征向量從全局高斯中映射而來。子空間高斯混合模型可以用全局高斯參數(shù)Mi，wi，和∑i，來描述:

在這里，x是特征向量，j是上下文相產(chǎn)的模型狀態(tài)。語音識別的模型狀態(tài)j是由I個高斯組成的混合高斯。參數(shù)uij，∑ij，wij通過vj，Mi，∑i和wi推導(dǎo)出來（這是一個簡化的描述)。我們使用術(shù)語“子空間”來表明高斯混合模型參數(shù)限制在整個空間的子空間范圍內(nèi)。我們注意到公式(5)的分母是有必要歸一化的。我們也注意到，如果我們不使用指數(shù)函數(shù)，那么輔助函數(shù)中我們構(gòu)建的E-M將不能保證是凸函數(shù)，這將導(dǎo)致我們在優(yōu)化的過程中遇到困難。如果我們要聲明單個權(quán)重wij作為模型的參數(shù)，而不是使用這個公式來得到，模型的規(guī)模將會由我們認(rèn)為不好的權(quán)重所決定。這樣最大似然估計框架將不再是有效的，它將會導(dǎo)致零權(quán)重出現(xiàn)。

仿真實驗及結(jié)果分析

考慮到HMM和ANN各自的優(yōu)缺點，在這里我們考慮將兩者結(jié)合起來應(yīng)用到語音識別中，將兩者取長補(bǔ)短應(yīng)用到語音識別領(lǐng)域。在這里，我們將神經(jīng)網(wǎng)絡(luò)的輸出作為隱馬爾可夫模型的輸入信號，利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的描述能力來區(qū)分各種語音信號的特征，從而提高語音在同音字以及噪聲環(huán)境下的識別率。

本實驗在Kaldi語音識別系統(tǒng)中完成。實驗采用清華大學(xué)開源語音庫THCHS-30作為訓(xùn)練和測試的語音庫，THCHS-30主要包含四個組A,B,C和D。其中A,B和C組主要是語音識別的訓(xùn)練樣本。D組是語音識別的測試樣本，D組又分為四個部分，分別對應(yīng)四組測試結(jié)果。數(shù)據(jù)準(zhǔn)備及數(shù)據(jù)的特征提取的腳本文件過程中我們采用的是MFCC作為語音信號特征提取的參數(shù)。其中的echo函數(shù)用來顯示當(dāng)前語音識別過程的進(jìn)度。其中涉及到很多語音相關(guān)的腳本文件，這些腳本文件都是Kaldi語音識別系統(tǒng)為我們提供的用于語音識別相關(guān)操作的腳本文件。因為實驗需要訓(xùn)練大量的語音數(shù)據(jù)，所以整個實驗的訓(xùn)練和識別過程很漫長。

從語音識別的結(jié)果的數(shù)據(jù)可以看出，在純凈語音環(huán)境下，HMM/DBN混合模型的WER為14.2 070，傳統(tǒng)HMM的語音識別系統(tǒng)的W ER為15.7070。從數(shù)據(jù)可以得出，在純凈的語音環(huán)境中HMM/DBN混合模型的識別效果只是略微優(yōu)于傳統(tǒng)的HMM模型，但兩個模型的WER差異并不大。在這種環(huán)境下進(jìn)行兩種模型的結(jié)合，并不能有效地改善語音的識別率，而且還會增加訓(xùn)練時間，增加了開發(fā)的成本。因為模型的結(jié)合重點是針對在噪聲環(huán)境下語音識別的情況，所以接下來我們繼續(xù)對單一模型和混合模型在噪聲環(huán)境下的語音識別進(jìn)行研究。

表1 加入高斯白噪聲兩種模型的WER

通過Matlab可以實現(xiàn)對測試語音信號加入高斯白噪聲。信噪比分比為5dB,10dB, 15dB, 20dB, 25dB, 30dB和35dB，得到的實驗結(jié)果如表1所示。為了更直觀地比較兩種模型在噪聲環(huán)境下的識別效果，可以看出，在高斯白噪聲環(huán)境下，混合模型的語音識別效果明顯優(yōu)于傳統(tǒng)模型的語音識別效果。實驗結(jié)果表明:基于隱馬爾可夫和人工神經(jīng)網(wǎng)絡(luò)混合的語音識別系統(tǒng)的抗噪性能明顯優(yōu)于傳統(tǒng)隱馬爾可夫模型的語音識別系統(tǒng)。混合模型利用了HMM強(qiáng)大的時序建模能力和ANN強(qiáng)大的描述能力，使得混合模型在一定噪聲環(huán)境下仍然具有較高的語音識別能力。混合模型獨特的抗噪聲性能使這種模型在應(yīng)用到產(chǎn)品的時候更有實際價值。

遼寧石化職業(yè)技術(shù)學(xué)院）