江蘇旅游職業(yè)學院
江蘇大學電氣信息工程學院 李雪林
語言是人類進行交往最基礎的一種方式。伴隨AI人工智能的突飛猛進,計算機已經能夠具備與人進行言語溝通的能力,語音識別技術成為實現(xiàn)人機交往的核心技術。自動語音識別技術,本質就是利用計算機將語音信號自動轉換為文本的一項技術。
語音識別是涉及多種類交叉學科的高新技術,應用到發(fā)聲機理和聽覺機理、人工智能、信號處理、模式識別、概率論和信息論等等。其應用領域廣泛,在現(xiàn)代自動化解耦控制系統(tǒng)和第三產業(yè)都應用到語音識別系統(tǒng),在信息化發(fā)展的大潮中,語音識別技術越來越凸顯出重要作用。
語音識別技術的發(fā)展歷史可以追溯到1952年,在美國的貝爾實驗室,戴維斯等科研人員首創(chuàng)了能對10個英文字母發(fā)音的識別系統(tǒng)。英國科學家丹尼斯等人研制了基于計算機運用的語音識別系統(tǒng)。上世紀70年代以后由于電腦的普及,語音識別研究突飛猛進,并取得了在短語、單詞的識別方面實質性的重大突破。到了1980年以后,多詞匯、連續(xù)語句、非指定人連續(xù)語音的識別成為語音識別研究的重點領域。并且,語音識別技術在研究發(fā)展方向上也發(fā)生了重要轉向,由匹配模式研究方向開始轉為統(tǒng)計模型的研究方向。
上世紀末,語音識別系統(tǒng)在研究的宏觀方面并沒有什么實質性進展。不過,基于語音識別技術的而發(fā)明的產品已經開始應用。
語音識別系統(tǒng)技術研究在我國發(fā)展起始于1958年,中國科學院聲學所利用電子管電路制造出能夠識別10個元音的語音識別系統(tǒng)。中國科學院聲學所在1973年正式開始基于計算機技術進行語音識別研究。上世紀改革開放以來,計算機應用技術和應用電子技術在我國不斷發(fā)展,國內許多科研院所都開始了語音技術的研究。我國對語音識別技術高度重視,在1986年把語音識別作為“863”計劃列為研究課題。并且以此為契機,每隔兩年召開一次關于語音識別技術系統(tǒng)方面的專題國際交流會議。由此標志著,我國科研機構關于語音識別技術的研究進入了一個嶄新的發(fā)展階段。
語音識別系統(tǒng)主要組成包括語音信號采樣模塊、語音信號前期處理模塊、語音信號特征參數(shù)提取模塊、語音信號識別核心模塊、語音信號識別后期處理模塊。
模式識別匹配是語音識別的主要過程。首先對人的語音進行分析,提取特點建立針對性的語音模型,通過語音模型建立語音識別所需的模式。利用語音識別的整體模型,在語音識別過程中將得到的語音信號的特征與前期建立的語音模式進行匹配比較,通過預設的搜索策略和匹配策略,可以得出最好的且與輸入的語音信號相匹配的模式。最后,根據(jù)定義,通過一系列查表就可以輕松得出計算機輸出的識別結果。
語音識別的目標決定了語音識別系統(tǒng)的類別,語音識別系統(tǒng)的類別主要分為三大類,孤立詞檢索(isolated word recognition),關鍵詞檢索(keyword spotting)和連續(xù)單詞檢索。
孤立詞檢索的方式是將知道的孤立的單詞檢索識別出來,如“人機”、“智能”等;關鍵詞檢索的目標是連續(xù)語音,但它并不識別所有的文字,只是檢測已知的關鍵詞有沒有出現(xiàn)和在哪里出現(xiàn),例如在一段語句中檢索“電腦”、“應用”這兩個詞;連續(xù)單詞檢索的目標則是檢索任意的連續(xù)的語音,檢索整個句子或一大段話。
目前應用最多的語音識別技術類型主要包括幾種:
5.1 動態(tài)時間規(guī)整算法(DynamicTime Warping,DTW),在一定的時間序列中,目標要比較和檢索的兩段相似性的時間序列,由于隨機性它們的長度不可能完全相等,表現(xiàn)在語音識別領域則是不同人的說的同一段語音但語速不同。并且可能相同的單詞發(fā)音速度也會出現(xiàn)差別,比如有的人會把“A”這個音發(fā)音很短,有的人而把“B”發(fā)音很長。面對這些隨機的復雜情況下,以往的歐幾里得距離方法已經無法有效地算出兩個隨機時間序列之間的距離(即相似性),這時候利用DTW方法可以把時間序列根據(jù)需要進行動態(tài)的延伸或者縮短,這樣就可以對兩個時間序列性之間的相似性進行分析比較計算。
5.2 隱馬爾可夫模型(HMM),通過觀測向量序列可以間接的觀察到HMM的狀態(tài),HMM的狀態(tài)是由觀測向量的概率密度分布決定的,任意一個觀測向量對應著一個特定的概率密度分布所代表的狀態(tài)序列。HMM模式庫是反復訓練樣本形成的。HMM模型參數(shù)是由訓練輸出的吻合概率最大的信號建立,并非已經儲存好的模型參數(shù),在語音識別識別過程中將需要識別的語音序列與HMM模型參數(shù)之間進行分析計算,將相似概率比較后得到的最大值所對應的狀態(tài)序列作為最佳語音識別然后輸出,因此HMM是一種優(yōu)秀可靠的算法。
5.3 矢量量化算法(VectorQuantization),矢量是由標量數(shù)據(jù)組構成的,通過整體量化,在不損失太多信息的前提下大幅度壓縮數(shù)據(jù)。矢量量化應用在孤立詞檢索、短句的語音識別中。方法是將提取的特征參數(shù)或語音信號波形作為標量數(shù)據(jù)組成一個矢量然后進行整體量化。把矢量空間分割成一些小區(qū)域,每個小區(qū)域由一個矢量代表,量化時分到小區(qū)域的矢量就用這個指定矢量代替??蒲腥藛T還發(fā)明了其他降低復雜度的方法,包括無記憶的、有記憶的、模糊的矢量量化方法。
5.4 人工神經網絡(ANN)是一種比較新的語音識別方法。人工神經網絡是由大量處理單元互聯(lián)組成的非線性、自適應信息處理系統(tǒng),ANN的特點是輸入—輸出映射能力和分類能力強大,非常適合在語音識別中應用。通過對人腦思維機制模仿,具有強大的分類決策能力和對不確定信息的描述能力。
5.5 支持向量機(Supportvector machine),結構風險最小原理和VC維理論是其理論基礎,在有限的樣本信息在復雜性和學習能力之間尋優(yōu),從而達到最好的尋優(yōu)能力,有效克服了傳統(tǒng)經驗風險最小化方法的缺點。在非線性及高維模式、小樣本識別領域展現(xiàn)了高超的技能,現(xiàn)已大規(guī)模的應用到模式識別系統(tǒng)領域。
移動互聯(lián)技術的日新月異,人工智能的飛速發(fā)展,基于人機互動的語音識別技術成為人機交互的重要手段之一。語音識別算法模型不斷改進、AI技術不斷的加強,在不久的未來,基于人機互動的語音識別技術將成為人類生活不可或缺的組成部分。