周鈞鍇 武志亨 寧湘翼
摘 要:語音識別技術作為信息社會向智能化發展的關鍵技術之一,對人們的生活產生著廣泛的影響,具有重要的研究意義和實用價值。本文概括介紹了語音識別技術和語音識別技術系統的實現原理,并對語音識別技術的發展趨勢做了簡單的闡述。
關鍵詞:語音識別;特征參數提取;隱馬爾可夫模型
0 引言
語音識別作為一門交叉學科,近30年來得到迅速的發展,逐漸由實驗室技術向市場產品轉化,越來越多地應用到人們的生活中。語音識別因為具有方便快捷、易于控制的優勢,會被應用到越來越多的領域中,對人們的生活產生更廣泛的影響。
1 語音識別技術概述
語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別技術是以語音信號為研究對象,涉及信號處理、模式識別、概率論和信息論、人工智能等多個領域。
1.1 語音識別系統分類方式
語音識別技術具有多種分類方式,常見的有根據識別對象分類、是否針對特定發音人和待識別語音的詞匯量大小鳳方式。
根據識別的對象不同,可以分為孤立詞識別,關鍵詞識別和連續語音識別三類。其中,孤立詞識別的任務是識別事先已知的孤立的詞;關鍵詞識別的任務是檢測連續語音中已知的若干關鍵詞的位置,但并不識別全部文字;連續語音識別的任務則是識別任意的連續語音。
根據針對的發音人,可以把語音識別技術分為特定人語音識別和非特定人語音識別。特定人語音識別只能識別一個或幾個人的語音,而非特定人語音識別則可以識別任何人的語音。非特定人語音識別系統更符合實際需要,但實現難度更大。
根據待識別語音的詞匯量大小,可以分為小詞匯量、中等詞匯量和大詞匯量語音識別系統。小詞匯量語音識別系統的識別范圍為幾十個詞,中等詞匯量的語音識別系統的識別范圍為幾百個詞到千個詞,而大詞匯量語音識別系統的識別范圍為幾千到幾萬個詞。
2 語音識別系統實現原理
不同語音識別系統的具體實現細節不同,但基本的技術原理相似。一個基本的語音識別系統主要包括語音識別單元的選取、特征提取技術、模式匹配準則和模型訓練技術四個部分。
2.1 語音識別單元的選取
語音識別單元有單詞句、音節和音素三種。首先需要根據研究的具體任務確定識別的單元:單詞句單元廣泛應用于中小詞匯語音識別系統,但不適合大詞匯系統;音節單元多見于漢語語音識別;音素單元以前多見于英語語音識別的研究中。
2.2 特征參數提取技術
特征參數提取的目的是從語音信號中提取出對語音識別有用的信息,即去除與識別無關的冗余信息,保留與識別有關的信息。目前應用最廣泛的特征參數提取技術為線性預測(LP)分析技術,許多成熟的語音識別系統都采用基于LP技術提取的倒譜參數。Mel參數和基于感知線性預測(PLP)分析提取的感知線性預測倒譜也是常用的特征參數提取方法。
2.3 模型訓練及模式匹配技術
模型訓練是指根據一定的準則,從大量己知模式中獲取表征該模式本質特征的模型參數,語音識別就是通過這些提取的特征參數所建立的。模式匹配是按照一定的準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。常用的模型訓練及模式匹配技術有動態時間規整技術(DTW)、隱馬爾可夫模型(HMM)和人工神經元網絡(ANN)。
動態時間規整技術是基于動態規劃的思想,解決了發音長短不一的模板匹配問題,廣泛應用在孤立詞的語音識別中,但不適合連續語音和大詞匯量識別系統。
隱馬爾可夫模型由相互關聯的兩個隨機過程共描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的鏈,另一個是與鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。
人工神經元網絡的發展為語音識別的實現提供了新的解決方案,人工神經元網絡模擬了人類神經元活動的原理,具有自學、聯想、對比、推理和概括等能力。這些能力都是隱馬爾可夫模型不具備的,但人工神經元網絡不具有隱馬爾可夫模型的動態時間規整性能。所以如果將兩者的優點結合起來,可以提高整個模型的魯棒性。
3 語音識別技術發展趨勢
目前,各種形式的隱馬爾可夫模型和算法日趨成熟,以它為基礎形成了語音識別的整體框架模型,統一了語音識別中聲學層和語音學層的算法結構,以概率的形式將聲學層中得到的信息和語音學層中已有的信息結合在一起。
另外,通過語音命令控制可以使原本需要手工操作的工作用語音來完成。因此,語音命令控制可廣泛用于家電語音遙控、玩具、智能儀器及移動電話等便攜設備中。世界各國也都加快了語音識別應用系統的研究開發,并已有一些實用的語音識別系統投入商業運營。
參考文獻
[1]詹新明,黃南山,楊燦.語音識別技術研究進展[J].現代計算機(專業版),2008(09):43-45+50.
[2]禹琳琳.語音識別技術及應用綜述[J].現代電子技術,2013,36(13):43-45.
[3]馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉學院學報,2006(03):93-97.
[4]段紅梅,汪軍,馬良河,徐冉.隱馬爾可夫模型在語音識別中的應用[J].工科數學,2002(06):16-20.
[5]孫寧,孫勁光,孫宇.基于神經網絡的語音識別技術研究[J].計算機與數字工程,2006(03):58-61.
[6]劉長明,任一峰.語音識別中DTW特征匹配的改進算法研究[J].中北大學學報(自然科學版),2006(01):37-40.
[7]吳煒燁.基于神經網絡語音識別算法的研究[D].中南大學,2009.