999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

低信噪比環境下的語音識別方法研究

2017-10-26 12:43:49王群曾慶寧謝先明鄭展恒
聲學技術 2017年1期
關鍵詞:信號效果環境

王群,曾慶寧,謝先明,鄭展恒

?

低信噪比環境下的語音識別方法研究

王群,曾慶寧,謝先明,鄭展恒

(桂林電子科技大學信息與通信學院,廣西桂林541004)

單通道語音信號在信噪比較大的環境下經過增強后再識別,能表現出較高的識別率。但是在低信噪比環境下,增強后語音信號的識別率急劇下降。針對此種情況,提出了一種用在識別系統前端的語音增強算法,該增強算法將采集到的帶噪語音信號先使用對數最小均方誤差(Logarithmic Minimum Mean Square Error,LogMMSE)提高其信噪比,然后再利用改進的維納濾波去除噪聲殘留并提升語音可懂度,最后用梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)和隱馬爾科夫模型(Hidden Markov Model,HMM)對增強后的語音信號做特征提取并識別。實驗分析結果表明,該方法能有效地抑制背景噪聲并減少噪聲殘留,顯著提升低信噪比環境下語音識別的準確性。

語音增強;低信噪比;改進維納濾波;對數最小均方誤差算法;語音識別

0 引言

語音識別主要是指能夠讓機器聽懂人所說的話,即在特定或非特定環境下準確識別出語音的內容,并根據識別出的內容去執行相應的操作。語音識別在車載導航、視頻監控、網絡視訊等人機交互領域有著非常廣泛的應用。例如視頻監控往往存在較多盲區,利用語音識別技術可有效識別出視頻盲區內外的危險語音信號,對某些突發情況及時做出反應。在識別系統中,一般是將理想環境下語音訓練出的模型應用于真實的含噪環境中。而在實際環境中,由于背景噪聲的影響,含噪語音的識別率急劇下降,甚至還會出現無法工作的現象。近些年來,理想環境下的語音識別技術發展迅速,單通道語音識別技術在理想環境中已經達到了較高的識別率。而在低信噪比環境下,如何提高語音識別率成為人們關注的焦點。近年來在語音識別抗噪方面很多人做了大量研究,例如譜減算法、維納(Wiener)濾波、最小均方誤差(Minimum Mean Square Error,MMSE)估計等[1]。這些算法雖然能有效地去除噪聲,但都會不同程度地產生失真或引入音樂噪聲,反而使增強后的語音識別率更低。這在低信噪比環境下更為明顯。近年來有人提出最小控制遞歸平均(Improve Minima Controlled Recursive Averaging,IMCRA)改進噪聲估計的對數最小均方誤差(Logarithmic Minimum Mean Square Error,LogMMSE)算法[2]。該算法具有一定的增強效果,但計算量大,且識別效果并不突出。針對此種現象,本文通過在識別系統前端先采用基于對數最小均方誤差算法提高含噪語音信噪比,再使用改進的(Wiener)濾波去除噪聲殘留并提升語音可懂度,從而提高語音識別率。

1 語音增強

1.1 譜減算法

譜減算法[3]的基本原理為假設信號是不相關的加性噪聲,通過快速傅里葉變換(Fast Fourier Transformation,FFT),從含噪語音中減去噪聲短時幅度譜,將計算所得純凈語音的短時幅度譜結合含噪語音的相位,再經過快速傅里葉逆變換(Inverse Fast Fourier Transformation,IFFT),得到需要的純凈語音信號,噪聲的短時幅度譜可以在語音的靜音段或者間隙進行重估和更新。基本框圖如圖1所示。

圖1 譜減法框圖

1.2 對數最小均方誤差(LogMMSE)

1.3 最小控制遞歸平均算法(IMCRA)

第一次平滑由式(8)得到:

第二次平滑如式(9)所示:

最后得到條件概率估計值:

1.4 改進的Wiener濾波

在Wiener濾波中用直接判決法估計先驗信噪比會出現高估和低估的情況[8]。研究表明,在-10 dB以下的區域存在較多的高估,在放大畸變大于6.02 dB的區域存在較多的低估。高估和低估會導致語音信號增強效果不明顯或失真。所以,可以從兩方面對Wiener濾波器進行改進。

首先分兩步來估計先驗信噪比,第一步估計為式(13),在(13)基礎上進行第二部估計:

對于在-10 dB以下的區域,人工引入偏差值修改正增益函數,修正后可表示為

文獻[9]中指出放大畸變大于6.02 dB時,有:

所以有:

對增強后的語音幅度譜放大畸變大于6.02 dB的語音進行限制:

本文采用對數最小均方誤差(LogMMSE)和改進Wiener濾波串聯形式對帶噪語音進行增強處理。先經過LogMMSE提高帶噪語音信噪比,再用改進Wiener濾波去除噪聲殘留,同時還對容易產生畸變失真的區域進行增益補償,最大限度地減小因去噪所造成的信號失真,以此提升識別率。

圖2為LogMMSE和改進Wiener在0 dB、白噪聲環境下級聯方式的對比分析。其中圖2(a)為純凈語音信號;圖2(b)為LogMMSE去噪效果;圖2(c)為改進Wiener去噪效果;圖2(d)為先經過改進Wiener后使用LogMMSE去噪效果;圖2(e)為本文所使用方式的去噪效果。從圖2中可以看出,采用LogMMSE+改進Wiener的級聯方式去噪效果最佳。從圖2(b)、2(c)圖中可以看出LogMMSE相比于改進Wiener在低信噪比有更好的去噪效果,產生毛刺較少。這樣先經過LogMMSE處理后再使用改進Wiener去除噪聲殘留效果更為明顯。若采用前置改進Wiener先對信號做去噪處理,這樣得到的信號噪聲殘留較大,即使最后再使用LogMMSE去噪并不能達到理想去噪效果。所以本文采用LogMMSE后置改進Wiener濾波的級聯方式。

(a) 純凈語音

(b) LogMMSE去噪

(c) 改進Wiener去噪

(d) 改進Wiener+LogMMSE

(e) LogMMSE+改進Wiener

2 語音識別

本文使用的識別系統為基于隱馬爾科夫模型(Hidden Markov Model,HMM)的非特定人語音識別。識別系統提取增強后語音的聲學特征,再通過維特比(Viterbi)算法解碼匹配到最佳狀態序列得到識別結果。該識別系統采用梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)做特征提取,采用隱馬爾科夫(HMM)得到訓練模型。

2.1 梅爾倒譜系數(MFCC)

2.2 隱馬爾科夫(HMM)

圖3 HMM結構

3 仿真實驗以及結果分析

本次實驗結合公共安防課題,解決傳統視頻監控只能看不能聽的問題,利用語音識別技術對部分敏感詞匯進行識別。數據使用M-AUFIO音頻采集器完成,錄制環境為相對安靜的樓頂天臺。噪聲和語音分別在同樣的環境下采集。本實驗由20位同學參與錄制,有13位男生和7位女生。其中隨機抽取10人的語音(400條)作為訓練樣本,另外10人的語音(240條)做測試用。每人分別錄制12個敏感詞匯:火災、爆炸、搶劫、盜竊、中毒、溺水、暈倒、危險、救命、受傷、救護車、消防車。噪聲采集使用三種,分別為白噪聲、F16和volvo噪聲,本文語音和噪聲的實驗設備采樣頻率均為44.1 kHz,采樣精度為32 bit。在實際仿真中經過了降采樣處理,采樣率為16 kHz,幀長為512,幀移是256,窗函數為Hamming窗。特征參數采用12維的梅爾倒譜系數,選用連續混合密度HMM,模型結構如圖3所示,它包含4個狀態,每狀態含有3個高斯概率密度函數。為了驗證本文方法的可行性,選取以下三種方法做對比。分別為:譜減法、改進Wiener濾波、LogMMSE-IMCRA。圖4為在F16噪聲干擾下各算法增強后時域仿真波形,選用的語音內容為“救護車”,信噪比為0 dB。

從圖4可以看出,譜減法增強效果并不理想。LogMMSE-IMCRA較改進Wiener有更明顯的增強效果,但是兩者在時域波形上表現出較多的毛刺和噪聲殘留。本文所使用的增強方法效果明顯,雖然仍會產生部分失真,但在低信噪比的環境下是可以接受的。

(a) 純凈語音

(b) 加噪語音

(c) 譜減增強

(d) 改進Wiener增強

(e) LogMMSE-ICRMA增強

(f) 本文算法增強

圖4 F16噪聲環境下增強后的語音時域仿真圖

Fig.4 The simulation diagrams of the speeches enhanced by different algorithms in F16 noise environment

圖5為增強后的語譜圖,圖5中所列的語譜圖分別對應圖4中的各時域仿真圖。從語譜圖來看,本文算法能更好地去除噪聲,減少語音畸變,信號能量在低頻段明顯,增強后與原始語音基本保持一致。

圖6(a)、6(b)、6(c)分別是在白噪聲、F16和volvo噪聲環境下通過四種算法增強后的識別率。

(a) 純凈語音

(b) 加噪語音

(c) 譜減增強

(d) 改進Wiener增強

(e) LogMMSE-ICRMA增強

(f) 本文算法增強

圖5 F16噪聲環境下增強后語譜圖

Fig.5 The spectrograms of the speeches enhanced by different algorithms in F16 noise environment

(a) White噪聲識別率

(b) F16噪聲識別率

(c) volvo噪聲識別率

從圖6中對比可以看到,譜減法表現出較低的識別率,這是由于譜減法在增強后引入音樂噪聲,使語音產生畸變從而降低識別率。改進Wiener濾波比譜減法的識別率要高,是因為其有更好的噪聲抑制效果。LogMMSE-IMCRA算法通過準確的噪聲估計來增強語音能有效提高識別率,但由于去噪后仍有較多噪聲殘留,識別率表現一般。使用本文算法增強后的識別率明顯提高,尤其在低信噪比環境下效果更為明顯。這是因為本算法不僅對信號的增強去噪效果明顯,還針對語音信號消噪后容易產生畸變失真的區域,對其進行增益補償,最大限度地減少語音失真以提高識別率。

表1列舉了三種噪聲環境在-5dB環境下通過四種算法增強后的平均運行時間,單位是秒(s)。四種算法的運行環境均為在同一設備下運行,實驗仿真平臺為matlab2012(a),所使用的計算機CPU主頻為2.40×106kHz。從表1中可以看出,譜減法和改進Wiener雖然運行時間較短,但去噪效果并不明顯。LogMMSE-IMCRA由于引入了遞歸平均算法做噪聲估計,所以運行時間較長,而本文算法與其他算法相比在減少了運算量的同時也達到了較好的去噪效果。

表1 不同方法在-5 dB環境下語音增強的時間對比(s)

表2列舉了白噪聲、F16和volvo噪聲在-5 dB環境下通過四種算法增強后的識別率。可以看出本文算法在volvo噪聲下相比較其他兩種噪聲表現出更高的識別效果,這是由于基于LogMMSE算法在提升語音可懂度方面相對于傳統增強算法在非平穩噪聲中有更好的表現。而改進的Wiener濾波又能有效降低語音畸變,進一步提升語音可懂度。

表2 不同方法在信噪比為-5 dB環境下語音增強后識別正確率對比(%)

本文通過隨機抽取不同噪聲環境在-5 dB到5 dB的識別情況發現,同一信噪比環境下的不同組,所識別不正確的單詞是不同的。也就是說低信噪比下識別錯誤的單詞是隨機的。通過提取識別錯誤的單詞發現,其時域波形表現為仍有部分噪聲殘留或失真,所以導致識別錯誤,這種情況隨著信噪比的提高而減小。另一種原因可能是有的參與錄制人員說話夾雜方言,在理想環境下可以有效識別,但經過處理后識別效果下降。

4 結 論

針對低信噪比環境下識別率不高的問題。本文先用LogMMSE提高各通道信噪比,再利用改進的Wiener濾波去除噪聲殘留并降低由于增強處理所導致的語音畸變,最后對增強后的信號進行識別。實驗表明本文方法相比較LogMMSE-IMCRA算法不僅取得了更好的識別效果,同時還減少了算法的計算量,而且更適用于低信噪比環境中。

[1] Loizou P C. Speech enhancement: theory and practice[M]. The Chemical Rubber Company Press, 2013: 75-109.

[2] 胡丹, 曾慶寧, 龍超, 等. 連續語音識別前端魯棒性研究[J]. 電視技術, 2015, 39(24): 43-46. HU Dan, ZENG Qingning, LONG Chao, et al. Front-end robust study for continuous speech recognition[J]. Video Engineering, 2015, 39(24): 43-46.

[3] 曹亮, 張天騏, 高洪興, 等. 基于聽覺掩蔽效應的多頻帶譜減語音增強方法[J]. 計算機工程與設計, 2013, 34(1): 235-240. CAO Liang, ZHANG Tianqi, GAO Hongxing, et al. Multi-band spectral subtraction method for speech enhancement based on masking property of human auditory system[J]. Computer Engineering and Design, 2013, 34(1): 235-240.

[4] Jose A Gonzalez, Antonio M Peinado, Ma N, et al. MMSE-Based missing-feature reconstruction with temporal modeling for robust speech recognition[J]. Audio Speech & Language Processing IEEE Transactions on, 2013, 21(3): 624-635.

[5] Cohen I, Berdugo B. Speech enhancement for non-stationary noise environments[J]. Signal Processing, 2009, 81(11): 2403-2418.

[6] 張東方, 蔣建中, 張連海. 一種改進型IMCRA非平穩噪聲估計算法[J]. 計算機工程, 2012, 38(13): 270-272. ZHANG Dongfang, JIANG Jianzhong, ZHANG Lianhai. Improved IMCRA non-stationary noise estimation algorithm[J]. Computer Engineering, 2012, 38(13): 270-272.

[7] 張亮, 龔衛國. 一種改進的(Wiener)濾波語音增強算法[J]. 計算機工程與應用, 2010, 46(26): 129-131. ZHANG Liang, GONG Weiguo. Improve wiener filtering speech enhancement algorithm[J]. Computer Engineering and Applications, 2010, 46(26): 129-131.

[8] Fei C, Loizou P C. Impact of SNR and gain-function over- and under-estimation on speech intelligibility[J]. Speech Communication, 2012, 54(2): 272-281.

[9] 郭利華, 馬建芬. 具有高可懂度的改進的(Wiener)濾波的語音增強算法[J]. 計算機應用與軟件, 2014(11): 155-157. GUO Lihua, MA Jianfen. Animproved wiener filtering speech enhancement algorithm with high intelligibility[J]. Computer Applications and Software, 2014(11): 155-157.

[10] 宋知用. MATLAB在語音信號分析與合成中的應用[M]. 北京: 北京航空航天大學出版社, 2013. SONG Zhiyong. The application of MATLAB in speech signal analysis and synthesis[M]. Beijing: Beihang University Press, 2013.

Research on speech recognition in low SNR environment

WANG Qun, ZENG Qing-ning, XIE Xian-ming, ZHENG Zhan-heng

(School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China)

The accuracy rate of single channel enhanced speech recognition in high SNR environment is acceptable, but not so in low SNR environment. In this case, speech enhancement based on logarithmic minimum mean square error (LogMMSE) algorithm and modified Wiener filter algorithm is presented. Firstly the gathered speech signals' SNR is improved by the LogMMSE algorithm. Then using the improved Wiener filter algorithm removes residual noise and improves the signal quality. Finally the enhanced speech is used for recognition by MFCC and HMM algorithms. Experimental results show that the proposed method can effectively remove the background noise and reduce the residual noise, significantly increase the accuracy of the automatic speech recognition in noisy environment.

speech enhancement; low SNR; modified Wiener filter; LogMMSE algorithm; speech recognition

TN912.34

A

1000-3630(2017)-01-0050-07

10.16300/j.cnki.1000-3630.2017.01.010

2016-07-20;

2016-09-29

國家自然科學基金(61461011)、教育部重點實驗室2016年主任基金(CRKL160107)資助項目。

王群(1990-), 男, 湖北隨州人, 碩士研究生, 研究方向為語音信號增強、語音識別。

鄭展恒, E-mail: glzzh@guet.edu.cn

猜你喜歡
信號效果環境
按摩效果確有理論依據
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
孕期遠離容易致畸的環境
迅速制造慢門虛化效果
環境
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
主站蜘蛛池模板: 久久久久人妻一区精品色奶水| 国产精品三级专区| 美女扒开下面流白浆在线试听 | 秋霞国产在线| 女人毛片a级大学毛片免费| 美女视频黄又黄又免费高清| 免费一级毛片完整版在线看| 日韩欧美色综合| 日韩无码黄色| 国产va欧美va在线观看| 欧美啪啪一区| 国产女人18水真多毛片18精品| 一级毛片在线直接观看| 国产午夜小视频| 中文无码毛片又爽又刺激| 欧美成人午夜影院| 亚洲男人的天堂在线| 亚洲第一精品福利| 欧美国产日本高清不卡| 国产爽妇精品| 精品国产自在现线看久久| 久久午夜夜伦鲁鲁片无码免费| av午夜福利一片免费看| 亚洲最黄视频| 国产精品美女免费视频大全| 亚洲高清日韩heyzo| 欧美.成人.综合在线| 国产人人乐人人爱| 午夜在线不卡| 成人午夜视频免费看欧美| 欧美不卡视频在线观看| 午夜性刺激在线观看免费| 伊人成人在线| 91久久青青草原精品国产| 久久久久国产精品嫩草影院| 91福利在线观看视频| www.精品国产| 精品精品国产高清A毛片| 无码乱人伦一区二区亚洲一| 午夜福利在线观看成人| 亚洲综合极品香蕉久久网| 欧美日韩午夜| 91po国产在线精品免费观看| 99热这里只有精品国产99| 欧美午夜在线播放| 欧美人在线一区二区三区| 国产成人高清亚洲一区久久| 国产毛片基地| 日韩毛片基地| 欧美国产三级| 最新国产网站| 91久久国产综合精品| 久久99国产综合精品1| 亚洲中文在线视频| 欧美日韩理论| 午夜电影在线观看国产1区| 丝袜亚洲综合| 四虎影视国产精品| 亚洲人精品亚洲人成在线| 免费无码AV片在线观看中文| 3344在线观看无码| 国产人前露出系列视频| 国产爽歪歪免费视频在线观看| 国产午夜一级毛片| 人人91人人澡人人妻人人爽| 久久国产乱子| 国产精品美人久久久久久AV| 久久久受www免费人成| 国产成人在线小视频| 欧美一区二区精品久久久| 国产精品页| 狠狠亚洲婷婷综合色香| 日韩欧美国产精品| 亚洲成人高清无码| 国产乱视频网站| 久久国产精品嫖妓| 精品一區二區久久久久久久網站 | 国产精品亚洲一区二区三区在线观看| 成人免费网站久久久| 老色鬼欧美精品| 日本免费一区视频| 精品夜恋影院亚洲欧洲|