基于多臺攝像機的視聽雙模語音識別技術
視聽雙模語音識別(AVSR)為視覺唇讀與傳統聲學語音識別的組合系統。影響駕駛安全的一個主要問題是持續增加的車載導航和其它操作系統復雜性。通過提供基于語音控制,以減少分心并替代手動控制,即利用語音識別技術可以為車載系統的運行提供解決方案。在嘈雜的環境中(如汽車駕駛室)應用語音識別技術需要進行方法改進。本文提出一個基于已有視聽語音識別系統的拓展系統,即通過提供語音發出者的正臉或接近正臉獲取多個視圖,通過對4個攝像頭AVICAR汽車影音語音庫使用4數據流的視覺同步隱馬爾可夫模型(SHMM)進行可視語音識別的一系列試驗。重點研究了側面和中央的攝像頭改善視覺語音識別準確性的能力。結合4種視覺形式和1個5數據流SHMM的音頻形式,證明了AVSR方法與單一語音識別方法相比,在AVICAR數據庫的嘈雜環境聲中單詞識別精度提高了56%。
刊名:Computer Speech& Language(英)
刊期:2013年第27期
作者:Rajitha Navarathna
編譯:李曉娜