摘要:構建了一種基于發音特征的音/視頻雙流動態貝葉斯網絡(dynamic Bayesian network,DBN)語音識別模型,定義了各節點的條件概率關系,以及發音特征之間的異步約束關系,最后在音/視頻連接數字語音數據庫上進行了語音識別實驗,并與音頻單流、視頻單流DBN模型比較了在不同信噪比情況下的識別效果。結果表明,在低信噪比情況下,基于發音特征的音/視頻雙流語音識別模型表現出最好的識別性能,而且隨著噪聲的增加,其識別率下降的趨勢比較平緩,表明該模型對噪聲具有很強的魯棒性,更適用于低信噪比環境下的語音識別。
關鍵詞:動態貝葉斯網絡;發音特征;音/視頻;語音識別
中圖分類號:TP391.42 文獻標志碼:A 文章編號:1001-3695(2009)07-2481-03