田雪陽+楊宇++劉子寒+李淵
LI Yuan
(上海電機學院,上海 201306)
(Shanghai Dianji University,Shanghai 201306,China)
摘要:在基于虛擬儀器LabVIEW的環(huán)境中,通過與MATLAB相結合設計一個語音識別登陸系統(tǒng),對電腦聲卡采集到的語音信號進行處理分析,提取聲音的特征參數(shù)Mel倒譜系數(shù)并保存,然后通過矢量量化的模式匹配來進行身份確認。
Abstract: The whole study is based on virtual instrument LabVIEW with the combination of MATLAB. This system processes and analyzes the voice signal collected by computers sound card, then extracts the signals characteristic parameters MFCC and save them in the computer. The parameters are designed through VQ algorithma to identify speaker.
關鍵詞:語音識別;LabVIEW;MATLAB;Mel倒譜系數(shù);矢量量化算法
Key words: speech recognition;LabVIEW;MATLAB;MFCC;VQ algorithm
中圖分類號:TN912.3 文獻標識碼:A 文章編號:1006-4311(2017)21-0203-03
1 語音識別模型
語音識別系統(tǒng)是建立在一定的硬件平臺和操作系統(tǒng)之上的一套應用軟件系統(tǒng)。語音識別一般分兩個步驟,第一步是訓練階段,是建立識別基本單元的聲學模型以及進行文法分析的語言模型等;第二步是語音識別階段,根據(jù)實際情況的要求采用一種語音識別的算法,采用語音分析方法分析出這種識別方法所要求的語音特征參數(shù),按照一定的準則和測度與系統(tǒng)模型進行比較,通過判決得出識別結果。
2 Mel倒譜系數(shù)
語音信號的時域分析通常是將一幀語音信號中的各個時域采樣值直接構成一個參數(shù)矢量,這種分析方法的特點是表示語音信號比較直觀、物理意義明確、實現(xiàn)起來比較簡單、運算量少等。語音信號的頻域分析就是分析語音信號的頻域特性,這種參數(shù)是將一幀語音信號進行某種變化后而產(chǎn)生的參數(shù)矢量。在語音信號的頻域特征參數(shù)中,目前使用最為廣泛的是線性預測倒譜系數(shù)(Linear Predictive Cepstral Coding,LPCC)和Mel頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC),由于MFCC更符合人耳的聽覺特性,因此本文語音識別系統(tǒng)采用的特征參數(shù)是MFCC。下面將著重介紹其相關理論和提取過程。
2.1 MFCC原理
4 系統(tǒng)設計與實現(xiàn)
4.1 語音采集
系統(tǒng)運行以后,點擊“樣本采集存儲”,此語音的特征參數(shù)相當于是保存識別的“鑰匙”,圖2為語音信號采集的程序框圖。
4.2 語音分析
語音信號特征參數(shù)MFCC的提取,是通過使用LabVIEW中對MATLAB腳本節(jié)點調用的方法來實現(xiàn)的。將輸入的語音信號先降噪預處理,再提取其MFCC參數(shù),訓練其VQ碼本,進行語音識別時則計算樣本語音信號的VQ碼本和測試語音信號MFCC之間的歐氏距離,判斷其是否小于設定的閾值。
5 系統(tǒng)測試與結論
系統(tǒng)前面板的測試結果如圖3所示,左邊的為硬件控制面板,本系統(tǒng)與Arduino硬件進行數(shù)據(jù)傳輸,可以將測試結果在Uno板上顯示。設定好采樣時間為10s,采集完樣本語音和測試語音信號后,點擊“語音對比”,語音信號的MFCC參數(shù)在前面板上顯示,語音匹配的LED指示燈亮起,失真測度顯示為3.87(設定的閾值為4.1)。
經(jīng)過測試,當設定采樣時間為5s時,語音識別的成功率為87%,設定采樣時間為10s時,識別的成功率為96%;經(jīng)過多次測試,當錄入的語音文本內(nèi)容不相同時,得到的失真測度相差不大,并且都可以通過識別。同時,使用頭戴式耳機比直接使用電腦聲卡直接采集語音信號的識別率更高。
可見,當樣本語音錄入時間越長,那么提取的特征參數(shù)越精確,并且使用MFCC和VQ算法作為語音信號特征參數(shù)提取的語音登陸系統(tǒng),實現(xiàn)的是以文本內(nèi)容無關的說話人確認。
在錄入語音文本內(nèi)容相同,錄入語音時間相同的情況下,使用頭戴式耳機的失真測度比直接使用電腦麥克風收音的失真測度要低,即室內(nèi)噪聲對識別準確度還是有一定的影響。
6 結束語
本系統(tǒng)采用的是基于提取語音特征參數(shù)Mel倒譜系數(shù)MFCC的基礎上,使用矢量量化VQ的識別算法進行語音特征匹配。通過研究VQ的特性,并且通過對特征參數(shù)、碼本容量的大小和失真測度的選取,完全能夠進行基本的語音識別,并且計算量也很小,識別速度也相對較快,具有一定的實用性。
參考文獻:
[1]趙力.語音信號處理[M].二版.機械工業(yè)出版社,2009.
[2]周鵬.許鋼.馬曉瑜.汪石農(nóng).張明艷.精通LabVIEW信號處理[M].北京:清華大學出版社,2013.
[3]劉平.LabVIEW程序設計基礎[M].北京:清華大學出版社,2012.
[4]欒穎.MATLAB R2013a工程分析與仿真[M].北京:清華大學出版社,2014.