許金普,諸葉平
(1.中國農(nóng)業(yè)科學(xué)院 農(nóng)業(yè)信息研究所,北京100081;2.青島農(nóng)業(yè)大學(xué) 動漫與傳媒學(xué)院,山東 青島266109)
當(dāng)前農(nóng)產(chǎn)品價格采集設(shè)備一般基于按鍵式手動操作[1,2],屏幕較小且按鍵繁瑣,容易受到光線強(qiáng)弱、雨雪等惡劣天氣等的限制;另外在需要占用雙手進(jìn)行其它勞作時,此類設(shè)備難以擺脫雙手限制。利用語音識別技術(shù),在傳統(tǒng)的采集設(shè)備上增加基于語音接口的采集界面,可以有效解決上述問題[3,4]。
當(dāng)前基于隱馬爾科夫模型的語音識別系統(tǒng),在相對安靜環(huán)境下的可以達(dá)到較好的識別效果,但在噪聲環(huán)境下識別結(jié)果會急劇下降[5-7]。在特征空間尋找穩(wěn)健的語音特征是常用的抗噪聲方法,倒譜均值歸一化 (CMN)和倒譜方差歸一化 (CVN)是比較經(jīng)典的算法。CMN 通過將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)中特性序列的倒譜均值減去,可以有效消除卷積噪聲帶來的影響,同時對加性噪聲也有一定效果[8]。CVN 是對方差進(jìn)行歸一化,通常和CMN 同時使用,稱為倒譜均值方差歸一化 (CMVN),可以近似消除加性噪聲帶來的影響。當(dāng)噪聲不是很強(qiáng)時,特征規(guī)整方法能有效提高系統(tǒng)的識別率;當(dāng)信噪比較低時,該方法對系統(tǒng)的識別率提高并不明顯。因此有必要在前端預(yù)先進(jìn)行語音增強(qiáng)處理。在信號空間進(jìn)行語音增強(qiáng),也稱去噪,可以消除帶噪語音中大部分的噪聲,提高輸入語音的信噪比,但語音增強(qiáng)會造成頻譜失真和噪聲殘留,直接用于語音識別會造成訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)之間新的失配,因此也需要聯(lián)合CMN 和CVN 進(jìn)行補(bǔ)償。
本文針對農(nóng)產(chǎn)品價格采集環(huán)境的噪聲情況,提出一種聯(lián)合譜減算法和特征補(bǔ)償?shù)目乖肼暦椒ǎ?],首先用譜減算法對帶噪語音信號進(jìn)行去噪處理,提高語音信號的信噪比,然后采用CMVN 方法對去噪帶來的頻譜失真和殘留噪聲進(jìn)行一定的補(bǔ)償,利用兩種方法的結(jié)合可以提高系統(tǒng)的識別性能[10]。本文考慮到不同農(nóng)產(chǎn)品價格采集作業(yè)場景,主要包括大型農(nóng)產(chǎn)品批發(fā)市場、社區(qū)農(nóng)貿(mào)市場、超市等。
譜減法基于一個簡單的原理:假設(shè)噪聲為加性噪聲,通過從帶噪語音譜中減去對噪聲譜的估計(jì),就可以得到純凈的信號譜。在不存在語音信號的期間,可以對噪聲譜進(jìn)行估計(jì)和更新。做出這種假設(shè)的前提是假設(shè)噪聲是平穩(wěn)的,或者是一種慢變的過程,這樣噪聲的頻譜在每次更新之間不會有大的變化[11]。純凈語音信號的估計(jì)為

為了防止減法后出現(xiàn)負(fù)值,采用減去噪聲譜的過估計(jì),同時設(shè)置譜下限,目的是防止計(jì)算結(jié)果小于該值。其公式為

其中,α(α≥1)為過減因子,β(0<β<1)是譜下限參數(shù)。
一般來講,噪聲不會對語音的整個頻譜都產(chǎn)生同等的影響,有些頻率上的影響會比別的頻率嚴(yán)重或減輕,這取決與噪聲的頻譜特性。語音頻譜被劃分為N 個互不重疊的子帶,譜減法在每個子帶獨(dú)立進(jìn)行。第i個子帶的純凈語音信號譜的估計(jì)如下式[12]

式中:ωk=2πk/N(k =0,1,...,N-1)是 離 散 頻 率,|(ωk)|2——噪聲功率譜的估計(jì) (在無語音段估計(jì)和更新),bi和ei——第i個頻帶上的起點(diǎn)和終點(diǎn),αi——第i個子帶的過減因子,δi——子帶減法因子,可根據(jù)子帶獨(dú)立設(shè)置以滿足對不同的噪聲進(jìn)行不同程度的抑制。(ωk)|——在預(yù)處理過程中經(jīng)過平滑的第i個頻帶帶噪語音譜。
減法過程產(chǎn)生的負(fù)值按帶噪信號譜取下限

式中:譜下限參數(shù)β為一常數(shù),子帶過減因子αi是第i 個頻率子帶的SNR 的函數(shù)。
CMN 是簡單但非常有效的抗噪聲算法,主要消除信道的卷積噪聲。信道的噪聲一般是卷積噪聲,這種卷積噪聲對應(yīng)到倒譜域變成簡單的相加[13]。倒譜均值歸一化(CMN)定義為

式中:ot——含噪語音的倒譜,μ——倒譜均值,珔o——?dú)w一化后的倒譜。同時,CMN 方法對加性噪聲也很有效,因?yàn)榧有栽肼暤牡棺V偏差也能被部分減去。由CMN 方法進(jìn)一步擴(kuò)展,對均值和方差兩方面都進(jìn)行特征規(guī)整,即倒譜均值方差歸一化CMVN。其定義為

本實(shí)驗(yàn)采用的數(shù)據(jù)集為自己錄制的142種鮮活農(nóng)產(chǎn)品價格信息短語,其形式為 “名稱+價格”,如, “白菜五毛”,“豬肉十一塊六”,“鮮蝦二十三”,價格短語根據(jù)語法隨機(jī)生成,并考慮了農(nóng)產(chǎn)品價格的語言習(xí)慣和構(gòu)詞方式。數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分,且測試集中的說話人不包含在訓(xùn)練集中。錄音采用近似標(biāo)準(zhǔn)的普通話,訓(xùn)練集選擇北京市的2處農(nóng)貿(mào)市場采集,每處20人,其中男性10人,女性10人,共計(jì)40人,且南方口音和北方口音的人選是隨機(jī)的,忽略口音差別。每人朗讀142 個農(nóng)產(chǎn)品名稱和隨機(jī)生成的50個價格短語,共計(jì)7680 句話。測試集錄制了3男3女每人50句話,共計(jì)300句,采用手機(jī)在相對安靜的環(huán)境下錄制作為純凈語音,然后再加入農(nóng)產(chǎn)品價格采集環(huán)境下的噪聲。本文選擇的測試集說話人分布情況見表1。

表1 測試集說話人分布情況
噪聲環(huán)境為大型農(nóng)產(chǎn)品批發(fā)市場 (wholesale market)、社區(qū)農(nóng)貿(mào)市場、超市 (生鮮果品區(qū));最終得到信噪比分別為-5dB,0dB,5dB,10dB,15dB,20dB,25dB的帶噪語音,每種不同信噪比的測試語音300 句,共計(jì)2100句。語音信號為單聲道,16KHz采樣,16bits。錄音文件用Adobe Audition進(jìn)行人工準(zhǔn)確切分并標(biāo)注。
HMM 模型以上下文相關(guān)的三音子為建模單元,共建立聲學(xué)模型426 個。采用5 狀態(tài)自左向右的無跳轉(zhuǎn)結(jié)構(gòu),其中第一個狀態(tài)和最后一個狀態(tài)為無輸出狀態(tài),中間的3個狀態(tài)為混合高斯概率密度分布表示的輸出。另外增加了靜音模型 “sil”和中間停頓模型 “sp”,二者的中間狀態(tài)進(jìn)行了綁定。提取的特征參數(shù)是39 維的MFCC 特征,包括13維的靜態(tài)特征以及它們的一階差分ΔMFCC 和二階差分系數(shù)ΔΔMFCC。幀長取25.0ms,幀移為10.0ms。譜減法采用了基本譜減算法 (SS)以及多帶譜減算法 (MB),CMVN 選擇每句話為歸一化單元。
本實(shí)驗(yàn)首先建立基線系統(tǒng)并進(jìn)行測試,然后分別單獨(dú)使用CMVN 方法、基本譜減法 (SS)、多帶譜減法 (MB)進(jìn)行測試,最后譜減算法聯(lián)合CMVN 進(jìn)行測試。聯(lián)合方法流程如圖1所示。

圖1 聯(lián)合譜減算法與特征補(bǔ)償?shù)姆椒蚣?/p>
圖2為在大型農(nóng)產(chǎn)品批發(fā)市場環(huán)境下各種譜減算法及其聯(lián)合CMVN 后的詞識別精準(zhǔn)度曲線,表2為對應(yīng)的詳細(xì)數(shù)據(jù)。從圖2可以看出,本文所采用的兩種譜減算法 (SS,MBSS)在總體性能上都比基線系統(tǒng)有了較大程度的提高,特別是在較低信噪比 (0dB-10dB)的情況下識別精準(zhǔn)度提高程度較大,如在SNR=0dB情況下,SS、MB 分別比基線系統(tǒng)提高了14.68%和9.74%,在SNR=5dB時,分別提高了24.66%,17.43%提升優(yōu)勢較為明顯。但在較高信噪比 (大于15dB)優(yōu)勢不如低信噪比時明顯,甚至在用純凈語音進(jìn)行測試時 (圖中30dB 實(shí)際代表錄制的純凈語音clean),甚至出現(xiàn)性能下降的情況,原因是對純凈語音信號進(jìn)行了譜減算法,相減后的語音信號比之前損失了部分語音信息。在信噪比過低情況下 (小于-5dB),各種算法均表現(xiàn)出較差的性能,這也是當(dāng)前語音識別的瓶頸。一般來講,實(shí)際農(nóng)產(chǎn)品信息采集的工作環(huán)境處于極低和較高信噪比都是不現(xiàn)實(shí)的,往往其信噪比在0dB-20dB的范圍,因此在特征提取前端采用去噪算法,可以有效地提升識別率。

圖2 大型批發(fā)市場環(huán)境下的不同算法識別率曲線
當(dāng)各種譜減算法聯(lián)合CMVN 方法后,從圖2可以看出其識別性能得到進(jìn)一步的提升。總體上來看,聯(lián)合后的識別精準(zhǔn)度曲線位于所有曲線的最上端。首先看在低信噪比(0dB-10dB)的情況,聯(lián)合補(bǔ)償后的方法SS+CMVN、MBSS+CMVN 分別比單獨(dú)使用去噪算法前識別率提升程度較大。當(dāng)SNR=0dB時,分別提高了4.87%和8.75%,當(dāng)SNR=5dB時,其提高程度分別2.81%和7.38%。而隨著信噪比的增加,當(dāng)SNR=10dB時,提高程度不再顯著,從圖上可以看出,此時曲線相對比較集中,性能優(yōu)勢不再明顯。同樣的情況也出現(xiàn)在信噪比太低的情況,如-5dB,即時聯(lián)合失真補(bǔ)償后其性能也沒有得到明顯提升。從圖2還可以看出,從0dB到15dB聯(lián)合后的抗噪算法其相對于基線系統(tǒng)的等效增益大約在5dB。

表2 大型農(nóng)產(chǎn)品批發(fā)市場環(huán)境下的識別率/%
本文還在社區(qū)農(nóng)貿(mào)市場噪聲以及超市環(huán)境下的對上述算法進(jìn)行了測試,其識別性能曲線分別如圖3和圖4所示。從圖中可以看出,聯(lián)合CMVN 后的各種譜減算法其性能占據(jù)一定的優(yōu)勢,特別是在低信噪比這種優(yōu)勢更為明顯,均優(yōu)于各種譜減算法單獨(dú)使用時的性能。當(dāng)信噪比較高時,聯(lián)合前與聯(lián)合后的算法性能差別不大。

圖3 社區(qū)農(nóng)貿(mào)市場環(huán)境下不同算法的識別率曲線

圖4 超市環(huán)境下不同算法的識別率曲線
本文針對農(nóng)產(chǎn)品價格采集設(shè)備缺少語音接口的情況,針對農(nóng)產(chǎn)品價格采集的特殊工作環(huán)境,提出一種聯(lián)合譜減算法和特征補(bǔ)償?shù)聂敯粜钥乖肼曀惴?,?lián)合后的算法利用各自的特點(diǎn)互為補(bǔ)充,比現(xiàn)有的通用語音識別魯棒性算法更適合于本業(yè)務(wù)環(huán)境。在農(nóng)產(chǎn)品批發(fā)市場、社區(qū)農(nóng)貿(mào)市場、超市等環(huán)境下的實(shí)驗(yàn)表明,該算法可以有效提高系統(tǒng)的識別率,特別是在較低信噪比(0dB-10dB)情況下非常有效。
[1]ZHAO Chunjiang,SHEN Changjun,XING Zhen,et al.Device and method for collecting agricultural product information[P].China:CN102122430A,2011-07-13 (in Chinese). [趙春江,申長軍,邢振,等.農(nóng)產(chǎn)品信息采集器及采集方法[P].中國:CN102122430A,2011-07-13.]
[2]XING Zhen,ZHENG Wengang,SHEN Changjun,et al.Device for colleceting agricultural product information [P].China:CN202035021U,2011-11-09 (in Chinese). [邢振,鄭文剛,申 長 軍, 等. 農(nóng) 產(chǎn) 品 信 息 采 集 器 [P]. 中 國:CN202035021U,2011-11-09.]
[3]ZHAO JF,ZHU YP.A multi-confidence feature combination rejection method for robust speech recognition [C]//Proceedings International Conference on Transportation,Mechanical,and Electrical Engineering,2011:2556-2559.
[4]ZHAO JF,ZHU YP.Embedded speech recognition based on multiclass support vector machine[J].Key Engineering Materials,2011,467:1905-1910.
[5]NI Chongjia,LIU Wenju,XU Bo.Reseach on large vocabulary continuous speech recognition for mardrin Chinese [J].Journal of Chinese Information Processing,2009,23 (1):112-123 (in Chinese).[倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展 [J].中文信息學(xué)報,2009,23(1):112-123.]
[6]Anusuya MA,Katti SK.Front end analysis of speech recognition:A review [J].International Journal of Speech Technology,2011,14 (2):99-145.
[7]LEI Jianjun,YANG Zhen,LIU Gang,et al.Review of noise robust speech recogniton [J].Application of Computer Research,2009,26 (4):1210-1216 (in Chinese). [雷建軍,楊震,劉剛,等.噪聲魯棒語音識別研究綜述 [J].計(jì)算機(jī)應(yīng)用研究,2009,26 (4):1210-1216.]
[8]Kai T,Suzuki M,Chijiiwa K,et al.Combination of SPLICE and feature normalization for noise robust speech recognition[C]//International workshop on Nonlinear Circuits,Communications and Signal Processing,2012.
[9]Loizou PC,Kim G.Reasons why current speech-enhancement algorithms do not improve speech intelligibility and suggested solutions[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19 (1):47-56.
[10]Nidhyananthan SS,Kumarir RSS,Prakash AA.A review on speech enhancement algorithms and why to combine with environment classification [J].International Journal of Modern Physics C,2014,25 (10).
[11]LEI Jianjun,YANG Zhen,LIU Gang,et al.Research on speech enhancement based on short-time spectrum estimation [J].Computer Engineering and Applications,2008,44 (32):6-9 (in Chinese).[雷建軍,楊震,劉剛,等.基于短時譜估計(jì)的語音增強(qiáng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44 (32):6-9.]
[12]Loizou PC,GAO Yi,XIAO Li,et al.Speech enhancement:Theory and practice[M].Chengdu:University of Electronic Science and Technology Press,2012:94-96 (in Chinese).[Loizou PC,高毅,肖莉,等.語音增強(qiáng):理論與實(shí)踐 [M].成都:電子科技大學(xué)出版社,2012:94-96.]
[13]LI Yinguo,PU Fu’an,ZHENG Fang.Statistical threshholding in robust ASR [J].Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition),2012,24 (2):127-132 (in Chinese).[李銀國,蒲甫安,鄭方.基于統(tǒng)計(jì)閾值的魯棒性語音識別 (英文)[J].重慶郵電大學(xué)學(xué)報 (自然科學(xué)版),2012,24 (2):127-132.]
[14]PU Fu’an.Research on noise robust speech recognition [D].Chongqing:Chongqing University of Posts and Telecommunications,2012 (in Chinese).[蒲甫安.語音識別系統(tǒng)噪聲魯棒性算法研究 [D].重慶:重慶郵電大學(xué),2012.]