基于譜減法和特征補(bǔ)償?shù)霓r(nóng)產(chǎn)品價格語音識別

2015-12-20 06:56:32許金普諸葉平

計(jì)算機(jī)工程與設(shè)計(jì) 2015年9期

許金普，諸葉平

（1.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所，北京100081；2.青島農(nóng)業(yè)大學(xué) 動漫與傳媒學(xué)院，山東青島266109）

0 引言

當(dāng)前農(nóng)產(chǎn)品價格采集設(shè)備一般基于按鍵式手動操作［1，2］，屏幕較小且按鍵繁瑣，容易受到光線強(qiáng)弱、雨雪等惡劣天氣等的限制；另外在需要占用雙手進(jìn)行其它勞作時，此類設(shè)備難以擺脫雙手限制。利用語音識別技術(shù)，在傳統(tǒng)的采集設(shè)備上增加基于語音接口的采集界面，可以有效解決上述問題［3，4］。

當(dāng)前基于隱馬爾科夫模型的語音識別系統(tǒng)，在相對安靜環(huán)境下的可以達(dá)到較好的識別效果，但在噪聲環(huán)境下識別結(jié)果會急劇下降［5－7］。在特征空間尋找穩(wěn)健的語音特征是常用的抗噪聲方法，倒譜均值歸一化（CMN）和倒譜方差歸一化（CVN）是比較經(jīng)典的算法。CMN 通過將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)中特性序列的倒譜均值減去，可以有效消除卷積噪聲帶來的影響，同時對加性噪聲也有一定效果［8］。CVN 是對方差進(jìn)行歸一化，通常和CMN 同時使用，稱為倒譜均值方差歸一化（CMVN），可以近似消除加性噪聲帶來的影響。當(dāng)噪聲不是很強(qiáng)時，特征規(guī)整方法能有效提高系統(tǒng)的識別率；當(dāng)信噪比較低時，該方法對系統(tǒng)的識別率提高并不明顯。因此有必要在前端預(yù)先進(jìn)行語音增強(qiáng)處理。在信號空間進(jìn)行語音增強(qiáng)，也稱去噪，可以消除帶噪語音中大部分的噪聲，提高輸入語音的信噪比，但語音增強(qiáng)會造成頻譜失真和噪聲殘留，直接用于語音識別會造成訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)之間新的失配，因此也需要聯(lián)合CMN 和CVN 進(jìn)行補(bǔ)償。

本文針對農(nóng)產(chǎn)品價格采集環(huán)境的噪聲情況，提出一種聯(lián)合譜減算法和特征補(bǔ)償?shù)目乖肼暦椒ǎ?］，首先用譜減算法對帶噪語音信號進(jìn)行去噪處理，提高語音信號的信噪比，然后采用CMVN 方法對去噪帶來的頻譜失真和殘留噪聲進(jìn)行一定的補(bǔ)償，利用兩種方法的結(jié)合可以提高系統(tǒng)的識別性能［10］。本文考慮到不同農(nóng)產(chǎn)品價格采集作業(yè)場景，主要包括大型農(nóng)產(chǎn)品批發(fā)市場、社區(qū)農(nóng)貿(mào)市場、超市等。

1 算法原理

1.1 基本譜減算法（SS）

譜減法基于一個簡單的原理：假設(shè)噪聲為加性噪聲，通過從帶噪語音譜中減去對噪聲譜的估計(jì)，就可以得到純凈的信號譜。在不存在語音信號的期間，可以對噪聲譜進(jìn)行估計(jì)和更新。做出這種假設(shè)的前提是假設(shè)噪聲是平穩(wěn)的，或者是一種慢變的過程，這樣噪聲的頻譜在每次更新之間不會有大的變化［11］。純凈語音信號的估計(jì)為

為了防止減法后出現(xiàn)負(fù)值，采用減去噪聲譜的過估計(jì)，同時設(shè)置譜下限，目的是防止計(jì)算結(jié)果小于該值。其公式為

其中，α（α≥1）為過減因子，β（0＜β＜1）是譜下限參數(shù)。

1.2 多帶（multi band）譜減算法

一般來講，噪聲不會對語音的整個頻譜都產(chǎn)生同等的影響，有些頻率上的影響會比別的頻率嚴(yán)重或減輕，這取決與噪聲的頻譜特性。語音頻譜被劃分為N 個互不重疊的子帶，譜減法在每個子帶獨(dú)立進(jìn)行。第i個子帶的純凈語音信號譜的估計(jì)如下式［12］

式中：ωk＝2πk／N（k ＝0，1，...，N－1）是離散頻率，｜（ωk）｜2——噪聲功率譜的估計(jì) （在無語音段估計(jì)和更新），bi和ei——第i個頻帶上的起點(diǎn)和終點(diǎn)，αi——第i個子帶的過減因子，δi——子帶減法因子，可根據(jù)子帶獨(dú)立設(shè)置以滿足對不同的噪聲進(jìn)行不同程度的抑制。（ωk）｜——在預(yù)處理過程中經(jīng)過平滑的第i個頻帶帶噪語音譜。

減法過程產(chǎn)生的負(fù)值按帶噪信號譜取下限

式中：譜下限參數(shù)β為一常數(shù)，子帶過減因子αi是第i 個頻率子帶的SNR 的函數(shù)。

1.3 倒譜均值方差歸一化（CMVN）

CMN 是簡單但非常有效的抗噪聲算法，主要消除信道的卷積噪聲。信道的噪聲一般是卷積噪聲，這種卷積噪聲對應(yīng)到倒譜域變成簡單的相加［13］。倒譜均值歸一化（CMN）定義為

式中：ot——含噪語音的倒譜，μ——倒譜均值，珔o——?dú)w一化后的倒譜。同時，CMN 方法對加性噪聲也很有效，因?yàn)榧有栽肼暤牡棺V偏差也能被部分減去。由CMN 方法進(jìn)一步擴(kuò)展，對均值和方差兩方面都進(jìn)行特征規(guī)整，即倒譜均值方差歸一化CMVN。其定義為

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)采用的數(shù)據(jù)集為自己錄制的142種鮮活農(nóng)產(chǎn)品價格信息短語，其形式為 “名稱＋價格”，如， “白菜五毛”，“豬肉十一塊六”，“鮮蝦二十三”，價格短語根據(jù)語法隨機(jī)生成，并考慮了農(nóng)產(chǎn)品價格的語言習(xí)慣和構(gòu)詞方式。數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分，且測試集中的說話人不包含在訓(xùn)練集中。錄音采用近似標(biāo)準(zhǔn)的普通話，訓(xùn)練集選擇北京市的2處農(nóng)貿(mào)市場采集，每處20人，其中男性10人，女性10人，共計(jì)40人，且南方口音和北方口音的人選是隨機(jī)的，忽略口音差別。每人朗讀142 個農(nóng)產(chǎn)品名稱和隨機(jī)生成的50個價格短語，共計(jì)7680 句話。測試集錄制了3男3女每人50句話，共計(jì)300句，采用手機(jī)在相對安靜的環(huán)境下錄制作為純凈語音，然后再加入農(nóng)產(chǎn)品價格采集環(huán)境下的噪聲。本文選擇的測試集說話人分布情況見表1。

表1 測試集說話人分布情況

噪聲環(huán)境為大型農(nóng)產(chǎn)品批發(fā)市場（wholesale market）、社區(qū)農(nóng)貿(mào)市場、超市（生鮮果品區(qū)）；最終得到信噪比分別為－5dB，0dB，5dB，10dB，15dB，20dB，25dB的帶噪語音，每種不同信噪比的測試語音300 句，共計(jì)2100句。語音信號為單聲道，16KHz采樣，16bits。錄音文件用Adobe Audition進(jìn)行人工準(zhǔn)確切分并標(biāo)注。

2.2 參數(shù)配置

HMM 模型以上下文相關(guān)的三音子為建模單元，共建立聲學(xué)模型426 個。采用5 狀態(tài)自左向右的無跳轉(zhuǎn)結(jié)構(gòu)，其中第一個狀態(tài)和最后一個狀態(tài)為無輸出狀態(tài)，中間的3個狀態(tài)為混合高斯概率密度分布表示的輸出。另外增加了靜音模型 “sil”和中間停頓模型 “sp”，二者的中間狀態(tài)進(jìn)行了綁定。提取的特征參數(shù)是39 維的MFCC 特征，包括13維的靜態(tài)特征以及它們的一階差分ΔMFCC 和二階差分系數(shù)ΔΔMFCC。幀長取25.0ms，幀移為10.0ms。譜減法采用了基本譜減算法（SS）以及多帶譜減算法（MB），CMVN 選擇每句話為歸一化單元。

3 結(jié)果分析

本實(shí)驗(yàn)首先建立基線系統(tǒng)并進(jìn)行測試，然后分別單獨(dú)使用CMVN 方法、基本譜減法（SS）、多帶譜減法（MB）進(jìn)行測試，最后譜減算法聯(lián)合CMVN 進(jìn)行測試。聯(lián)合方法流程如圖1所示。

圖1 聯(lián)合譜減算法與特征補(bǔ)償?shù)姆椒蚣?/p>

圖2為在大型農(nóng)產(chǎn)品批發(fā)市場環(huán)境下各種譜減算法及其聯(lián)合CMVN 后的詞識別精準(zhǔn)度曲線，表2為對應(yīng)的詳細(xì)數(shù)據(jù)。從圖2可以看出，本文所采用的兩種譜減算法（SS，MBSS）在總體性能上都比基線系統(tǒng)有了較大程度的提高，特別是在較低信噪比（0dB－10dB）的情況下識別精準(zhǔn)度提高程度較大，如在SNR＝0dB情況下，SS、MB 分別比基線系統(tǒng)提高了14.68%和9.74%，在SNR＝5dB時，分別提高了24.66%，17.43%提升優(yōu)勢較為明顯。但在較高信噪比（大于15dB）優(yōu)勢不如低信噪比時明顯，甚至在用純凈語音進(jìn)行測試時（圖中30dB 實(shí)際代表錄制的純凈語音clean），甚至出現(xiàn)性能下降的情況，原因是對純凈語音信號進(jìn)行了譜減算法，相減后的語音信號比之前損失了部分語音信息。在信噪比過低情況下（小于－5dB），各種算法均表現(xiàn)出較差的性能，這也是當(dāng)前語音識別的瓶頸。一般來講，實(shí)際農(nóng)產(chǎn)品信息采集的工作環(huán)境處于極低和較高信噪比都是不現(xiàn)實(shí)的，往往其信噪比在0dB－20dB的范圍，因此在特征提取前端采用去噪算法，可以有效地提升識別率。

圖2 大型批發(fā)市場環(huán)境下的不同算法識別率曲線

當(dāng)各種譜減算法聯(lián)合CMVN 方法后，從圖2可以看出其識別性能得到進(jìn)一步的提升。總體上來看，聯(lián)合后的識別精準(zhǔn)度曲線位于所有曲線的最上端。首先看在低信噪比（0dB－10dB）的情況，聯(lián)合補(bǔ)償后的方法SS＋CMVN、MBSS＋CMVN 分別比單獨(dú)使用去噪算法前識別率提升程度較大。當(dāng)SNR＝0dB時，分別提高了4.87%和8.75%，當(dāng)SNR＝5dB時，其提高程度分別2.81%和7.38%。而隨著信噪比的增加，當(dāng)SNR＝10dB時，提高程度不再顯著，從圖上可以看出，此時曲線相對比較集中，性能優(yōu)勢不再明顯。同樣的情況也出現(xiàn)在信噪比太低的情況，如－5dB，即時聯(lián)合失真補(bǔ)償后其性能也沒有得到明顯提升。從圖2還可以看出，從0dB到15dB聯(lián)合后的抗噪算法其相對于基線系統(tǒng)的等效增益大約在5dB。

表2 大型農(nóng)產(chǎn)品批發(fā)市場環(huán)境下的識別率／%

本文還在社區(qū)農(nóng)貿(mào)市場噪聲以及超市環(huán)境下的對上述算法進(jìn)行了測試，其識別性能曲線分別如圖3和圖4所示。從圖中可以看出，聯(lián)合CMVN 后的各種譜減算法其性能占據(jù)一定的優(yōu)勢，特別是在低信噪比這種優(yōu)勢更為明顯，均優(yōu)于各種譜減算法單獨(dú)使用時的性能。當(dāng)信噪比較高時，聯(lián)合前與聯(lián)合后的算法性能差別不大。

圖3 社區(qū)農(nóng)貿(mào)市場環(huán)境下不同算法的識別率曲線

圖4 超市環(huán)境下不同算法的識別率曲線

4 結(jié)束語

本文針對農(nóng)產(chǎn)品價格采集設(shè)備缺少語音接口的情況，針對農(nóng)產(chǎn)品價格采集的特殊工作環(huán)境，提出一種聯(lián)合譜減算法和特征補(bǔ)償?shù)聂敯粜钥乖肼曀惴?，?lián)合后的算法利用各自的特點(diǎn)互為補(bǔ)充，比現(xiàn)有的通用語音識別魯棒性算法更適合于本業(yè)務(wù)環(huán)境。在農(nóng)產(chǎn)品批發(fā)市場、社區(qū)農(nóng)貿(mào)市場、超市等環(huán)境下的實(shí)驗(yàn)表明，該算法可以有效提高系統(tǒng)的識別率，特別是在較低信噪比（0dB－10dB）情況下非常有效。

［1］ZHAO Chunjiang，SHEN Changjun，XING Zhen，et al.Device and method for collecting agricultural product information［P］.China：CN102122430A，2011－07－13 （in Chinese）. ［趙春江，申長軍，邢振，等.農(nóng)產(chǎn)品信息采集器及采集方法［P］.中國：CN102122430A，2011－07－13.］

［2］XING Zhen，ZHENG Wengang，SHEN Changjun，et al.Device for colleceting agricultural product information ［P］.China：CN202035021U，2011－11－09 （in Chinese）. ［邢振，鄭文剛，申長軍，等. 農(nóng) 產(chǎn) 品信息采集器［P］. 中國：CN202035021U，2011－11－09.］

［3］ZHAO JF，ZHU YP.A multi－confidence feature combination rejection method for robust speech recognition ［C］／／Proceedings International Conference on Transportation，Mechanical，and Electrical Engineering，2011：2556－2559.

［4］ZHAO JF，ZHU YP.Embedded speech recognition based on multiclass support vector machine［J］.Key Engineering Materials，2011，467：1905－1910.

［5］NI Chongjia，LIU Wenju，XU Bo.Reseach on large vocabulary continuous speech recognition for mardrin Chinese ［J］.Journal of Chinese Information Processing，2009，23 （1）：112－123 （in Chinese）.［倪崇嘉，劉文舉，徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展［J］.中文信息學(xué)報，2009，23（1）：112－123.］

［6］Anusuya MA，Katti SK.Front end analysis of speech recognition：A review ［J］.International Journal of Speech Technology，2011，14 （2）：99－145.

［7］LEI Jianjun，YANG Zhen，LIU Gang，et al.Review of noise robust speech recogniton ［J］.Application of Computer Research，2009，26 （4）：1210－1216 （in Chinese）. ［雷建軍，楊震，劉剛，等.噪聲魯棒語音識別研究綜述［J］.計(jì)算機(jī)應(yīng)用研究，2009，26 （4）：1210－1216.］

［8］Kai T，Suzuki M，Chijiiwa K，et al.Combination of SPLICE and feature normalization for noise robust speech recognition［C］／／International workshop on Nonlinear Circuits，Communications and Signal Processing，2012.

［9］Loizou PC，Kim G.Reasons why current speech－enhancement algorithms do not improve speech intelligibility and suggested solutions［J］.IEEE Transactions on Audio，Speech，and Language Processing，2011，19 （1）：47－56.

［10］Nidhyananthan SS，Kumarir RSS，Prakash AA.A review on speech enhancement algorithms and why to combine with environment classification ［J］.International Journal of Modern Physics C，2014，25 （10）.

［11］LEI Jianjun，YANG Zhen，LIU Gang，et al.Research on speech enhancement based on short－time spectrum estimation ［J］.Computer Engineering and Applications，2008，44 （32）：6－9 （in Chinese）.［雷建軍，楊震，劉剛，等.基于短時譜估計(jì)的語音增強(qiáng)研究［J］.計(jì)算機(jī)工程與應(yīng)用，2008，44 （32）：6－9.］

［12］Loizou PC，GAO Yi，XIAO Li，et al.Speech enhancement：Theory and practice［M］.Chengdu：University of Electronic Science and Technology Press，2012：94－96 （in Chinese）.［Loizou PC，高毅，肖莉，等.語音增強(qiáng)：理論與實(shí)踐［M］.成都：電子科技大學(xué)出版社，2012：94－96.］

［13］LI Yinguo，PU Fu’an，ZHENG Fang.Statistical threshholding in robust ASR ［J］.Journal of Chongqing University of Posts and Telecommunications （Natural Science Edition），2012，24 （2）：127－132 （in Chinese）.［李銀國，蒲甫安，鄭方.基于統(tǒng)計(jì)閾值的魯棒性語音識別（英文）［J］.重慶郵電大學(xué)學(xué)報（自然科學(xué)版），2012，24 （2）：127－132.］

［14］PU Fu’an.Research on noise robust speech recognition ［D］.Chongqing：Chongqing University of Posts and Telecommunications，2012 （in Chinese）.［蒲甫安.語音識別系統(tǒng)噪聲魯棒性算法研究［D］.重慶：重慶郵電大學(xué)，2012.］