郭川玉 吳榮茂
(1.深圳航天科創實業有限公司 廣東深圳 518000;2.深圳航天科創智能科技有限公司 廣東深圳 518000)
語音識別系統的設計和運行需要有較多高新技術作為支撐。神經網絡的分類能力較強,能夠有效解決模式分布中復雜的分類問題,在語音識別中發揮著積極作用。神經網絡語音識別活動進行中,難點在于時間規整這一方面。高度重視時間規整的內容,能夠使神經網絡語音識別設計和運行取得良好效果。
語音識別(Automatic Speech Recognition,ASR),是借助于分析和理解轉變語音信號,使其成為相應的命令或者文本的尖端技術。語音識別技術在實際應用過程中,本身屬于一種交叉學科,關系到概率論和信息論、人工智能、信號處理、發聲機理和聽覺機理以及模式識別等方面。在語音識別技術的支持下,有效結合語音合成技術,能夠實現人機語音通信。在建立語音系統的過程中,聽覺能力和講述能力這兩項技術是重要基礎。
神經網絡語音識別技術的有效應用,要具備較多應用功能,主要是實現語音測聽和語音搜索兩個方面。支持語音識別活動的順利實施,主要包含以下幾個方面:
1.語音搜索。這一功能在應用中,用戶能夠輸入多種信息,包含情緒檢測信息、關鍵詞信息以及長時靜音信息。這一功能可以快速篩選出索引文件,還能夠返回給用戶所關注到的語音,使用戶能夠反復聽這些檢索信息。語音在搜索過程中,可以搜索到任意關鍵詞,實現高級搜索、不同時間段搜索,并能夠測聽結果錄音流水號。
2.語音測聽。質檢員能夠測聽語音搜索出的錄音文件。在語音測聽活動進行中,質檢員主要使用錄音播放器,通過對話方式高亮展現出錄音文本內容,使用不同顏色表示出違規類型情況。這可以支持點擊跳轉活動。
3.構建語音語言訓練模式。神經網絡語音識別系統進行中,涉及到多個行業的語音語言訓練模型,可以提高語音支持率。
4.數據挖掘。開展數據統計和分析,積極利用MapReduce并行計算框架及數據挖掘算法,全面整理和歸納好各項結果,尋找其中潛在的運行模式,給決策者提供重要的信息支持,避免決策失誤的情況發生[1]。

根據這一公式開始重復計算,從i=0開始,一直計算到i=n-N-1為止。
時間規整算法在實際應用過程中,能夠有效避免以往算法在神經網絡語音識別中出現的不足,可以減少語音段錯誤真正劃分的情況發生,從而有效增強后端分類器的實際識別率[3]。時間規整算法的具體應用,具有較強的實效性。從規整次序角度出發,時間規整網絡可以把握到語音信號的局部位置,針對各項語音信號加以合理合并,依次完成合并作業。這是針對最小幀間距離語音分析幀進行的。整個過程中,可以在各個音素段中融入語音過渡段,在這一條件下,講話人的發音特點,不會對最后識別情況產生不良影響,從而提升語音識別系統的總體應用效果[4]。
DTW算法(Dynamic Time Warping),是針對兩個長度不同時間序列相似度的方法,能夠應用在模板匹配之中,可以作為數據挖掘和信息檢索的重要支持。在神經網絡語音識別環節,DTW算法是表示數據中較為常見的形式。這是利用時間規整函數W(n),針對測試模板和參考模板的時間對應關系加以描述,從而求解出匹配這兩個模板時最小距離所應對的規整函數,有效支持語音識別活動,保證識別率[5]。
現代語音識別系統在當前生產生活中占據重要地位,給人們的日常生活提供極大便利。時間規整算法在神經網絡語音識別中,能夠發揮前端時間規整和動態時間規整(DTW算法)的優勢和作用,應用效果良好。