摘要:提出了一種流權值的優化方法。這種優化方法是基于似然比最大化準則和Nbest算法。實驗表明,這種新的方法即使在少量優化數據的條件下,也可以得到合適的流權值。而且,在不同的信噪比條件下,利用這種方法優化的多數據流隱馬爾可夫模型,都可以有效、合理地融合音頻和視頻語音,提高語音識別系統的識別率。
關鍵詞:雙模語音識別; 似然比最大化準則; 流權值
中圖分類號:TN912.3文獻標志碼:A
文章編號:1001-3695(2007)11-0100-03
近幾年,語音識別系統被廣泛應用于許多領域。但是在受到聲學噪聲的干擾時,單一依靠音頻語音進行語音識別的單模語音識別系統的識別率會大大降低。由于視頻語音不容易受到聲學語音的干擾,而且還包含有音頻語音所沒有的語音信息。同時利用音/視頻語音的雙模語音識別系統可以提高識別率,特別是在存在聲學噪聲的情況下[1~3]。
為了充分、有效地融合和利用音頻和視頻語音,提出了各種雙模語音融合模型。其中,多數據流隱馬爾可夫模型(multistream hidden Markov model,MSHMM)被證明是比較成功的模型,可以很好地提高雙模語音識別系統的識別率[4~7]。它是分別用音頻語音和視頻語音建立單獨的隱馬爾可夫模型(hidden Markov model,HMM),即音頻語音HMM和視頻語音HMM。把這些并行的HMM通過流權值進行合并,得到一個多數據流HMM。因此,根據不同的聲學噪聲進行適當的流權值優化,是建立多數據流HMM的一個關鍵步驟。
在理論上,流權值是不適于通過最大似然(maximum likelihood,ML)準則優化的,而是通過一類判別準則(discriminative criterion)進行優化[8]。文獻[9]提出了一種似然比最大化準則就是一種判別準則。基于似然比最大化準則的流權值優化方法可以明顯地提高雙模語音識別系統的識別率。但是,采用這種方法優化流權值,需要大量的語音數據[8]。在實際應用中,這往往是很難做到的。本文提出了一種新的流權值優化方法。它在似然比最大化準則的基礎上,結合了Nbest算法,使詞典W中的詞ω和詞典中最容易與它混淆的N個詞之間的似然比達到最大。新的方法僅僅利用少量的語音數據就可以達到優化流權值的目的。通過實際的音/視頻雙模語音識別實驗,對本文提出的新方法進行有效的評估。
3.2對比實驗及結果
本文中的音/視頻雙模語音識別系統采用多數據流HMM結構。首先,分別用音頻語音和視頻語音訓練音頻HMM和視頻HMM;然后,分別用基于似然比最大化優化準則的和本文提出的優化方法優化流權值;最后,利用得到的流權值合并兩個子HMM,得到一個多數據流HMM。對這兩種方法優化的多數據流HMM進行比較。
第一個實驗是在沒有聲學噪聲的環境下,分別用2.1節描述的方法和本文提出的新方法進行多數據流HMM流權值的優化;然后,比較語音識別系統的識別率。實驗采用下列兩組不同的訓練集:訓練集①,用全部說話人的訓練數據進行優化;訓練集②,把全部的優化數據分成10份,每次只取其中的1份作為優化數據。不失一般性,把這10次優化后系統識別率的平均值作為最后的結果。可見,第二組優化數據明顯少于第一組的優化數據。并且,為了便于比較,把音頻單模語音識別系統的識別率作為一個標準。實驗結果如表2所示。
第二個實驗是為了驗證本文提出的新優化方法在各種不同噪聲環境下的魯棒性。實驗采用第二組的優化數據集,即②,并且把原始數據加上不同的高斯噪聲,形成了不同信噪比的新數據。它們的信噪比分別是0、5、10、15、20dB。在不同的信噪比下,由本文提出的流權值優化方法進行優化,對優化后的系統識別率進行比較。同樣地,為了便于比較,把音頻單模語音識別系統的識別率作為一個標準。實驗結果如圖1所示。
由表2可以看出,當用于優化流權值的數據足夠充分時,利用似然比最大化的優化方法和本文提出的優化方法,都可以使語音識別系統的識別率大大提高。在與單模語音識別系統的比較中,這兩種方法分別使識別率相對提高了 12.05%和 10.97%。當用于優化流權值的數據集較小時,使用似然比最大化的優化方法得到的雙模語音識別系統的識別率(82.34%)反而低于單模語音識別系統的識別率(84.62%)。但是,利用本文提出的優化方法,即使只有少量的優化數據,也使得系統的識別率相對提高了 8.26%。由圖1可以看出,即使在不同的噪聲環境下,利用本文提出的流權值優化方法,都可以有效地訓練多數據流HMM,提高系統的識別率。
4結束語
本文提出了一種多數據HMM的流權值優化方法。這種新的方法是基于似然比最大化準則和 Nbest算法。通過實驗證明,在小數據量訓練集的條件下,這種方法是優于僅僅基于似然比最大化準則的優化方法的。并且,在不同的信噪比條件下,利用這種新的優化方法,可以大大提高語音識別系統的識別率。今后,將進一步測試這種新方法在大詞匯量連續語音識別這一類更復雜的任務中的有效性。
參考文獻:
[1]劉鵬,王作英.多模式漢語連續語音識別中視覺特征的提取和應用[J].中文信息學報,2004,18(4):79-84.
[2]謝磊,付中華,蔣冬梅,等.一種穩健的基于Visemic LDA的口形動態特征及聽視覺語音識別[J].電子與信息學報,2005,27(1):64-68.
[3]CHEN T H. Audiovisual speech processing[J]. IEEE Signal Processing Magazine, 2001,18(1):9-21.
[4]NETI C, POTAMIANOS G, LUETTIN J, et al.Audiovisual speech recognition, Final Workshop Report[R].[S.l.]: Center for Language and Speech Processing, 2000.
[5]MIYAJIMA C, TOKUDA K,KITAMURA T. Audiovisual speech recog ̄nition using MCEbased HMMs and modeldependent stream weights[C]//Proc ofICSLP2000.2000:10231026.
[6]NAKAMURA S, ITOH, SHIKANO K. Stream weight optimization of speech and lip image sequence for audiovisual speech recognition[C]//Proc of ICSLP2000. 2000:20-24.
[7]謝磊,蔣冬梅,RAVYSE I,等.雙模型語音識別中的聽視覺合成和模型同步異步性實驗研究[J].西北工業大學學報,2004,22(2):171175.
[8]POTAMIANOS G, GRAF H P.Discriminative training of HMM stream exponents for audiovisual speech recognition[C]//Proc of Int Conf Acoust Speech Signal Process. Seattle:[s.n.],1998:3733-3736.
[9]TAMURA S, IWANO K, FURUI S.A streamweight optimization method for audiovisual speech recognition using multistream HMMs[C]//Proc of ICASSP2004.Montreal:[s.n.],2004:857-860.
[10]劉鵬,王作英.Stream weight training based on MCE for audiovisual LVCSR[J].清華大學學報:英文版,2005,10(2):141144.
[11]CHOW Y L.Maximum mutual information estimation of HMM parameters for continuous speech recognition using the Nbest algorithm[C]//Proc of IEEE Intl Conf Acoust, Speech, Signal Processing.1990:701-704.
[12]ZHANG Xiaozheng, MERSEREAU R M, CLEMENTS M. Bimodal fusion in audiovisual speech recognition[C]//Proc of International Conference on Image Processing.2002:964-967.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”