MatLab環境下調用HTK的連續語音識別方法

2014-12-31 00:00:00李理王冬霞

電子世界 2014年20期

【摘要】本文根據HTK（HMM Toolkit）的基本原理，在MatLab環境下通過調用HTK各命令實現小詞匯量連續語音識別。采用HTK工具包搭建語音的隱馬爾可夫模型（HMM），再利用MatLab循環編程開發進行仿真實驗，避免了傳統地逐步運行HTK各個命令的冗余操作，降低了操作復雜度。

【關鍵詞】HTK;語音識別;隱馬爾可夫模型

Abstract：According to the basic principle of HTK（HMM Toolkit），small vocabulary continuous speech was recognized based on HTK by MatLab programming in this thesis.This thesis used HTK to build HMM model and then used MatLab to program it to do speech recognition，thus it avoided the redundancy of operating single HTK command，and the complexity was reduced.as well.

Key words：HTK;Speech Recognition;Hidden Markov Model

一、引言

語言是交流的最自然方式，它為人機交互提供了一種有效的方法。但目前人與機器的交互方式多以鍵盤和鼠標為主，為了讓機器與人能夠更好地進行交互，出現了基于語音識別的系統使人機對話成為可能。語音識別就是讓計算機通過識別和理解把人類的語音信號轉換為相應的命令或者文本的一門技術。

HTK（HMM ToolKit）[1][2]工具包是英國劍橋大學專門開發用于建立和處理隱馬爾可夫模型的實驗工具包，廣泛應用在語音識別領域，在語音合成和字符識別等其他領域也有所應用。本文在MatLab平臺上利用HTK設計和建立了小詞匯量連續語音識別的實驗平臺。

二、HTK的介紹

（一）HTK的基本原理

HTK工具包有四個主要工具包：語音數據準備，HMM訓練工具，識別工具，數據分析工具。

數據準備工具：用Adobe Audition錄音軟件采集語音信號，再完成建立語料庫，語法定義，字典定義，標注數據，提取特征等過程。語法定義是以特定的文法結構對發音詞匯進行限制生成符合發音語法的語句，用命令HParse和HBuild來實現。字典定義可根據實際要求來定義結構，如音素，音節等。本文采用無調音節對連續漢語進行識別[3]。數據標注利用命令HLEd來實現。特征參數利用HCopy來提取。常用的特征參數有線性預測系數（LPC）和梅爾頻率倒譜系數（MFCC）[4]。

HMM訓練工具：HMM訓練在語音識別系統的搭建過程中發揮著重要作用，它的主要目的是訓練得到HMM模型。本文使用命令HCompv估計出初始模型函數以及HERest重估參數，從而完成單無調音節HMM模型的創建和訓練。針對小詞匯量連續語音的音節存在上下文相關的關系，本文創建了三音子HMM模型對模型進行訓練和優化，進而提高了語音識別率。

識別工具：命令HVite用于識別未知語音，該命令的算法是基于維特比算法。

數據分析工具：命令HResults用于識別結果的分析。

（二）音節模型訓練

本文首先建立了基于無調單音節的HMM模型[5]，HMM使用從左到右無跳轉的結構，結構如圖1所示。音節模型包括5個狀態，即1個開始狀態，3個發射狀態和1個結束狀態。

為了與基于單音節的聲學模型訓練方法相比較，本文創建了基于聲韻母的三音子HMM模型。三音子HMM模型也是采用從左到右的結構，音節模型狀態數也是5。三音子模型以單音節作為初始，再進行重估。通過命令HLEd、HHEd、HERest等來實現三音子模型的建立。根據Baum Welch對三音子模型進行訓練時，需要根據經驗設置一個閾值。當模型對應的樣本數大于閾值時，訓練后模型參數根據訓練結果改變模型參數;當模型對應的樣本數小于閾值時，訓練后的模型參數仍為初始的參數。閾值大小的設置會影響語音識別率的高低。

圖1 HMM的拓撲結構

三、HTK的調用

Matlab調用HTK各命令可以通過dos語句或者system語句以及用MatLab語言編寫出HTK各命令運行時所需的參數的得以實現。例如生成HTK可用的語音識別網絡，Matlab語句可以表示為dos（'Hparse %s output＼＼digit.net'，htkParam.grammarFile），其中Hparse為HTK中生成識別網絡的命令，%s代表調用htkParam.grammarFile文件，該文件是事先定義好的語法文件，即漢語無調音節的集總。digit.net為生成的識別網絡，生成后將保存在output文件夾下。

Matlab調用HTK各命令的部分代碼如下：

if printOpt，

fprintf（‘ I.2：無調單音節的列表的生成 %s＼n’，htkParam.phoneMlfFile）;

end

fid = fopen（'output＼mkphones0.led'，'w'）;

fprintf （fid，'EX＼r＼nIS sil sil＼r＼nDE sp＼r＼n'）;

fclose （fid）;

cmd = sprintf（'HLEd -l * -d %s -i output＼＼phones0.mlf output＼＼mkphones0.led

%s'，htkParam.pamFile，htkParam.sylMlfFile）;

dos（cmd）;

fid = fopen （'output＼mkphones1.led'，'w'）;

fprintf （fid，'EX＼r＼nIS sil sil＼r＼n'）;

fclose （fid）;

cmd = sprintf （'HLEd -l * -d %s -i output＼＼phones1.mlf output＼＼mkphones1.led

%s'，htkParam.pamFile，htkParam.sylMlfFile）;

dos （cmd）;

該代碼的含義是首先建立mkphones0.led文件，并寫入內容（腳本的最后一行須編輯為空行）

IS sil sil

DE sp

通過調用HLEd命令生成無調音節列表，保存為phones0.mlf文件。

同樣地，建立mkphones1.led文件，并寫入內容

IS sil sil

通過調用HLEd命令生成無調音節列表，保存為phones1.mlf文件。生成的phones0.mlf和phones1.mlf區別在于后者的每個音節后面添加sp作為短暫的停頓。

通過MatLab編程調用HTK各命令及設置HMM模型參數完成語音的訓練和識別[6]。

四、仿真實驗

測試在安靜的實驗環境下進行，采用CoolEdit Pro錄音軟件，采樣率為16KHz，量化為16bits。測試人員共十人，五男五女，分別來自不同省份，使用略帶各地方言的普通話。測試語音共50句，內容為數字0～9隨機組成的數字串。

實驗1：提取特征參數時分別采用線性預測系數（LPC）和梅爾頻率倒譜系數（MFCC）的語音識別率比較。識別結果如表1所示。

表1 不同特征參數的識別率（%）

特征參數識別率

LPC 82.24

MFCC 85.84

分析表1可知，采用梅爾頻率倒譜系數進行特征參數的提取時語音識別率比采用線性預測系數時的識別率高3.6%。因此，本文特征參數采用梅爾頻率倒譜系數。

實驗2：采用單音節模型建模與三音子模型建模時語音識別率的比較。識別結果如表2所示。Corr為詞的識別正確率，Acc為詞的識別準確率，Correct指句子的識別正確率。

表2 不同模型類型的識別率（%）

模型類型 Corr Acc Correct

單音節模型 78.24 76.49 54.55

三音子模型 86.84 84.84 68.23

分析表2可知，單音節模型的識別率要低于三音子模型，這是因為三音子模型考慮了音節間存在的協同發音的現象，優化了HMM模型參數，因此改善了語音識別率。

實驗3：HMM訓練過程中設置不同閾值時的語音識別率比較。識別結果如表3所示。

表3 不同閾值的識別率（%）

閾值 50 100 150 200 300 500

識別率 83.49 85.84 86.71 86.65 86.84 85.07

分析表3可知，當閾值較低時，訓練樣本數較少的模型也會繼續進行下一步的訓練，然而這些模型的訓練樣本不足以使模型得到足夠的訓練，這時并不能優化模型的參數;當閾值為300時，識別率最高;當閾值繼續增加，部分模型的訓練樣本可以使模型得到充分的訓練，但是因為樣本數低于設定閾值而不能使模型得到優化，因此此時識別率反而會有所下降。

五、結束語

本文利用MatLab語音處理工具箱結合HTK各命令實現了小詞匯量連續語音的識別。在實驗中由于使用HTK各命令做每次循環實驗操作比較復雜，利用MatLab循環編程調用HTK各命令避免了逐步操作的復雜度，有效地減少了操作步驟，降低了工作的冗余度。

參考文獻

[1]Steven.Young，G.Evermann，M.Gales.The HTK Book（for HTK Version 3.4）[M].Cambridge University Engineering Department，2009.

[2]Kuldeep Kumar，R.K.Aggarwal.Hindi Speech Recognition System Using HTK[J].International Journal of Computing and Business Research，2011，2（2）：1-12.

[3]韓紀慶.語音信號處理[M].北京：清華大學出版社，2013.

[4]趙力.語音信號處理[M].北京：機械工業出版社，2010.

[5]L.R.Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proceedings of IEEE，1989，77（2）：257-286.

[6]張戈，嚴歡.基于HTK調用MatLab的語音識別的研究[J].現代計算機（專業版），2010（09）.

作者簡介：李理（1991—），女，湖南婁底人，碩士研究生在讀，主要研究方向：語音信號處理。

電子世界2014年20期

電子世界的其它文章: 提高10kV線路供電可靠性的對策及建議; 電力營銷自動化運維的研究分析; 基于PLC的七段碼顯示數碼管控制; 配網安全管理存在的問題分析及措施; 利用App Inventor選擇模塊實現招聘條件的判斷; 新媒體環境下高職院校校園文化建設的研究與實踐