999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MatLab環境下調用HTK的連續語音識別方法

2014-12-31 00:00:00李理王冬霞
電子世界 2014年20期

【摘要】本文根據HTK(HMM Toolkit)的基本原理,在MatLab環境下通過調用HTK各命令實現小詞匯量連續語音識別。采用HTK工具包搭建語音的隱馬爾可夫模型(HMM),再利用MatLab循環編程開發進行仿真實驗,避免了傳統地逐步運行HTK各個命令的冗余操作,降低了操作復雜度。

【關鍵詞】HTK;語音識別;隱馬爾可夫模型

Abstract:According to the basic principle of HTK(HMM Toolkit),small vocabulary continuous speech was recognized based on HTK by MatLab programming in this thesis.This thesis used HTK to build HMM model and then used MatLab to program it to do speech recognition,thus it avoided the redundancy of operating single HTK command,and the complexity was reduced.as well.

Key words:HTK;Speech Recognition;Hidden Markov Model

一、引言

語言是交流的最自然方式,它為人機交互提供了一種有效的方法。但目前人與機器的交互方式多以鍵盤和鼠標為主,為了讓機器與人能夠更好地進行交互,出現了基于語音識別的系統使人機對話成為可能。語音識別就是讓計算機通過識別和理解把人類的語音信號轉換為相應的命令或者文本的一門技術。

HTK(HMM ToolKit)[1][2]工具包是英國劍橋大學專門開發用于建立和處理隱馬爾可夫模型的實驗工具包,廣泛應用在語音識別領域,在語音合成和字符識別等其他領域也有所應用。本文在MatLab平臺上利用HTK設計和建立了小詞匯量連續語音識別的實驗平臺。

二、HTK的介紹

(一)HTK的基本原理

HTK工具包有四個主要工具包:語音數據準備,HMM訓練工具,識別工具,數據分析工具。

數據準備工具:用Adobe Audition錄音軟件采集語音信號,再完成建立語料庫,語法定義,字典定義,標注數據,提取特征等過程。語法定義是以特定的文法結構對發音詞匯進行限制生成符合發音語法的語句,用命令HParse和HBuild來實現。字典定義可根據實際要求來定義結構,如音素,音節等。本文采用無調音節對連續漢語進行識別[3]。數據標注利用命令HLEd來實現。特征參數利用HCopy來提取。常用的特征參數有線性預測系數(LPC)和梅爾頻率倒譜系數(MFCC)[4]。

HMM訓練工具:HMM訓練在語音識別系統的搭建過程中發揮著重要作用,它的主要目的是訓練得到HMM模型。本文使用命令HCompv估計出初始模型函數以及HERest重估參數,從而完成單無調音節HMM模型的創建和訓練。針對小詞匯量連續語音的音節存在上下文相關的關系,本文創建了三音子HMM模型對模型進行訓練和優化,進而提高了語音識別率。

識別工具:命令HVite用于識別未知語音,該命令的算法是基于維特比算法。

數據分析工具:命令HResults用于識別結果的分析。

(二)音節模型訓練

本文首先建立了基于無調單音節的HMM模型[5],HMM使用從左到右無跳轉的結構,結構如圖1所示。音節模型包括5個狀態,即1個開始狀態,3個發射狀態和1個結束狀態。

為了與基于單音節的聲學模型訓練方法相比較,本文創建了基于聲韻母的三音子HMM模型。三音子HMM模型也是采用從左到右的結構,音節模型狀態數也是5。三音子模型以單音節作為初始,再進行重估。通過命令HLEd、HHEd、HERest等來實現三音子模型的建立。根據Baum Welch對三音子模型進行訓練時,需要根據經驗設置一個閾值。當模型對應的樣本數大于閾值時,訓練后模型參數根據訓練結果改變模型參數;當模型對應的樣本數小于閾值時,訓練后的模型參數仍為初始的參數。閾值大小的設置會影響語音識別率的高低。

圖1 HMM的拓撲結構

三、HTK的調用

Matlab調用HTK各命令可以通過dos語句或者system語句以及用MatLab語言編寫出HTK各命令運行時所需的參數的得以實現。例如生成HTK可用的語音識別網絡,Matlab語句可以表示為dos('Hparse %s output\\digit.net',htkParam.grammarFile),其中Hparse為HTK中生成識別網絡的命令,%s代表調用htkParam.grammarFile文件,該文件是事先定義好的語法文件,即漢語無調音節的集總。digit.net為生成的識別網絡,生成后將保存在output文件夾下。

Matlab調用HTK各命令的部分代碼如下:

if printOpt,

fprintf(‘ I.2:無調單音節的列表的生成 %s\n’,htkParam.phoneMlfFile);

end

fid = fopen('output\mkphones0.led','w');

fprintf (fid,'EX\r\nIS sil sil\r\nDE sp\r\n');

fclose (fid);

cmd = sprintf('HLEd -l * -d %s -i output\\phones0.mlf output\\mkphones0.led

%s',htkParam.pamFile,htkParam.sylMlfFile);

dos(cmd);

fid = fopen ('output\mkphones1.led','w');

fprintf (fid,'EX\r\nIS sil sil\r\n');

fclose (fid);

cmd = sprintf ('HLEd -l * -d %s -i output\\phones1.mlf output\\mkphones1.led

%s',htkParam.pamFile,htkParam.sylMlfFile);

dos (cmd);

該代碼的含義是首先建立mkphones0.led文件,并寫入內容(腳本的最后一行須編輯為空行)

EX

IS sil sil

DE sp

通過調用HLEd命令生成無調音節列表,保存為phones0.mlf文件。

同樣地,建立mkphones1.led文件,并寫入內容

EX

IS sil sil

通過調用HLEd命令生成無調音節列表,保存為phones1.mlf文件。生成的phones0.mlf和phones1.mlf區別在于后者的每個音節后面添加sp作為短暫的停頓。

通過MatLab編程調用HTK各命令及設置HMM模型參數完成語音的訓練和識別[6]。

四、仿真實驗

測試在安靜的實驗環境下進行,采用CoolEdit Pro錄音軟件,采樣率為16KHz,量化為16bits。測試人員共十人,五男五女,分別來自不同省份,使用略帶各地方言的普通話。測試語音共50句,內容為數字0~9隨機組成的數字串。

實驗1:提取特征參數時分別采用線性預測系數(LPC)和梅爾頻率倒譜系數(MFCC)的語音識別率比較。識別結果如表1所示。

表1 不同特征參數的識別率(%)

特征參數 識別率

LPC 82.24

MFCC 85.84

分析表1可知,采用梅爾頻率倒譜系數進行特征參數的提取時語音識別率比采用線性預測系數時的識別率高3.6%。因此,本文特征參數采用梅爾頻率倒譜系數。

實驗2:采用單音節模型建模與三音子模型建模時語音識別率的比較。識別結果如表2所示。Corr為詞的識別正確率,Acc為詞的識別準確率,Correct指句子的識別正確率。

表2 不同模型類型的識別率(%)

模型類型 Corr Acc Correct

單音節模型 78.24 76.49 54.55

三音子模型 86.84 84.84 68.23

分析表2可知,單音節模型的識別率要低于三音子模型,這是因為三音子模型考慮了音節間存在的協同發音的現象,優化了HMM模型參數,因此改善了語音識別率。

實驗3:HMM訓練過程中設置不同閾值時的語音識別率比較。識別結果如表3所示。

表3 不同閾值的識別率(%)

閾值 50 100 150 200 300 500

識別率 83.49 85.84 86.71 86.65 86.84 85.07

分析表3可知,當閾值較低時,訓練樣本數較少的模型也會繼續進行下一步的訓練,然而這些模型的訓練樣本不足以使模型得到足夠的訓練,這時并不能優化模型的參數;當閾值為300時,識別率最高;當閾值繼續增加,部分模型的訓練樣本可以使模型得到充分的訓練,但是因為樣本數低于設定閾值而不能使模型得到優化,因此此時識別率反而會有所下降。

五、結束語

本文利用MatLab語音處理工具箱結合HTK各命令實現了小詞匯量連續語音的識別。在實驗中由于使用HTK各命令做每次循環實驗操作比較復雜,利用MatLab循環編程調用HTK各命令避免了逐步操作的復雜度,有效地減少了操作步驟,降低了工作的冗余度。

參考文獻

[1]Steven.Young,G.Evermann,M.Gales.The HTK Book(for HTK Version 3.4)[M].Cambridge University Engineering Department,2009.

[2]Kuldeep Kumar,R.K.Aggarwal.Hindi Speech Recognition System Using HTK[J].International Journal of Computing and Business Research,2011,2(2):1-12.

[3]韓紀慶.語音信號處理[M].北京:清華大學出版社,2013.

[4]趙力.語音信號處理[M].北京:機械工業出版社,2010.

[5]L.R.Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proceedings of IEEE,1989,77(2):257-286.

[6]張戈,嚴歡.基于HTK調用MatLab的語音識別的研究[J].現代計算機(專業版),2010(09).

作者簡介:李理(1991—),女,湖南婁底人,碩士研究生在讀,主要研究方向:語音信號處理。

主站蜘蛛池模板: 免费高清自慰一区二区三区| 日韩大乳视频中文字幕| 手机永久AV在线播放| 国产美女精品人人做人人爽| 99re免费视频| 一区二区三区四区在线| 国产精品太粉嫩高中在线观看| jijzzizz老师出水喷水喷出| 午夜福利视频一区| 国产精品吹潮在线观看中文| 日韩毛片在线视频| 国产成人精品第一区二区| 视频国产精品丝袜第一页| 国产经典在线观看一区| 久久人搡人人玩人妻精品| 久久综合九色综合97婷婷| 中文字幕在线观| 国产欧美在线观看精品一区污| 在线欧美日韩| 暴力调教一区二区三区| 欧美成人午夜视频免看| 热久久国产| 国产精品va| 福利在线免费视频| 亚洲欧美精品在线| 97青草最新免费精品视频| 国产在线观看高清不卡| 国产亚洲精品资源在线26u| 日韩无码白| 美女国产在线| 国产性猛交XXXX免费看| a级毛片网| 国产手机在线ΑⅤ片无码观看| 国产成年女人特黄特色毛片免| 亚洲中字无码AV电影在线观看| 女人18毛片久久| 亚洲福利片无码最新在线播放| 欧美精品影院| 亚洲性影院| 最新国产在线| 国产欧美视频综合二区| 国产 在线视频无码| 国产一区二区三区在线观看视频| 国产激情无码一区二区三区免费| 国产视频入口| 亚洲第一福利视频导航| 国产96在线 | 国产一区二区三区夜色| 重口调教一区二区视频| 2020亚洲精品无码| 婷婷开心中文字幕| 啦啦啦网站在线观看a毛片| 精品国产Av电影无码久久久| 免费毛片在线| 精品三级在线| 国产精品久久久精品三级| 国产人人干| 91国内视频在线观看| 成年午夜精品久久精品| 国产丰满大乳无码免费播放| 性激烈欧美三级在线播放| 99久久精品国产精品亚洲| 欧美日韩一区二区三区在线视频| 国产精品一区不卡| 中文字幕在线日韩91| 国产免费人成视频网| 午夜国产在线观看| 91日本在线观看亚洲精品| 亚洲av日韩av制服丝袜| 欧美视频在线不卡| 国产一级毛片网站| 国产人成乱码视频免费观看| 亚洲乱码视频| 亚洲综合狠狠| 激情综合图区| 九九九国产| 久久精品人人做人人爽97| 日本午夜影院| 日韩最新中文字幕| 五月丁香伊人啪啪手机免费观看| 国产美女免费| 亚洲性影院|