【摘 要】近幾年來,智能化和自動化技術在玩具制造領域中越來越被關注。語音識別技術是近年來十分活躍的研究領域。語音識別系統(tǒng)的實用化研究是語音識別研究的一個主要方向。語音智能識別遙控技術既計算機自動語音識別遙控技術是實現(xiàn)遙控智能化的一項重大突破,在國外近年來發(fā)展十分迅速,其應用也逐步得到推廣。
【關鍵詞】語音識別;傳感器;學習型遙控器
語言是人類進行信息交流的最主要、最常用、最直接的方式。語音智能識別遙控技術既計算機自動語音識別遙控技術是實現(xiàn)遙控智能化的一項重大突破,在國外近年來發(fā)展十分迅速,其應用也逐步得到推廣。但這些技術和應用都是針對英文使用者。語音智能識別遙控系統(tǒng)結合了計算機網(wǎng)絡技術、數(shù)字線性邏輯技術、數(shù)字程控交換技術、數(shù)字語音信號識別技術,推出了適應多種語言智能識別系統(tǒng),并能精確處理來自不同用戶的發(fā)音,連續(xù)字句。使用者語音智能識別遙控來進行操縱的語音智能識別系統(tǒng),由于智能型遙控是使用雙模塊和兩級端點檢測方法以及能有效地提高識別和穩(wěn)健性;從而能更好的利用智能語音識別遙控系統(tǒng)來代替手工或半自動化器件在家電和其他領域中的使用,展現(xiàn)了智能語音識別技術電遙控器應用,展現(xiàn)了智能語音識別技術在新時代廣闊前景。
一、智能語音識別技術
早在計算機發(fā)明之前,自動語音識別的設想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產(chǎn)的\"Radio Rex\"玩具狗可能是最早的語音識別器,當這只狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統(tǒng)是由ATT貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng),它能夠識別10個英文數(shù)字。其識別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學院的Denes已經(jīng)將語法概率加入語音識別中。語音識別技術的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數(shù)學推理,經(jīng)過Labiner等人的研究,卡內基梅隆大學的李開復最終實現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。此后嚴格來說語音識別技術并沒有脫離HMM框架。
盡管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術在目前還無法支持無限領域,無限說話人的聽寫機應用。
二、智能語音識別原理圖
語音識別過程主要包括語音信號的預處理、特征提取、模式匹配幾個部分。預處理包括預濾波、采樣和量化、加窗、端點檢測、預加重等過程。語音信號識別最重要的一環(huán)就是特征參數(shù)提取。提取的特征參數(shù)必須滿足以下的要求:
(1)提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性;
(2)各階參數(shù)之間有良好的獨立性;
(3)特征參數(shù)要計算方便,最好有高效的算法,以保證語音識別的實時實現(xiàn)。
在訓練階段,將特征參數(shù)進行一定的處理后,為每個詞條建立一個模型,保存為模板庫。在識別階段,語音信號經(jīng)過相同的通道得到語音特征參數(shù),生成測試模板,與參考模板進行匹配,將匹配分數(shù)最高的參考模板作為識別結果。同時,還可以在很多先驗知識的幫助下,提高識別的準確率。
語言是人類交流的第一手段。而語言本身也正隨著社會的發(fā)展而不斷地更新變異,人們終其一生都在自覺或不自覺地進行著語言的學習和更新。無疑這種變化將成為計算機語音識別的重大難點。隨心所欲地同計算機交談是人類追求機器智能化的最高境界,這種“智能聽寫機”構成的系統(tǒng)是無限詞匯(無限命令集)的語音識別,其技術難度遠高于“有限命令集”,就目前的研究水平,研制一些有限詞匯(有限命令集)的專聽寫用系統(tǒng)是盡快將語音技術擴大應用范圍、推向市場的快捷途徑。
三、智能語音識別遙控系統(tǒng)技術
語音識別技術的研究與應用已有相當長的時間了,語音識別技術關系到多學科的研究領域,不同領域上的研究成果都對語音識別的發(fā)展做出了貢獻。由于不同的說話人、不同的說話速度、不同的說話內容以及不同的環(huán)境條件等都使機器識別語音產(chǎn)生某種程度不同的困難。這是由語音信號本身的特點所造成的。這些特點包括多變性、動態(tài)性、瞬時性和連續(xù)性等。
(一)一個完整的語音識別系統(tǒng)可大致分為4個部分:
①語音特征提取 其目的是從語音波形中提取出隨時間變化的語音特征序列。
②建立聲學模型 通常將獲取的語音特征通過學習算法產(chǎn)生。
③模板匹配(識別算法) 在識別時將輸入的語音特征同聲學模型進行比較,得到最佳的識別結果。
④語言模型與語言處理 由識別語音命令構成的語法網(wǎng)絡,可以進行語法、語義分析。對小詞表語音識別系統(tǒng),往往不需要語言處理部分。
通常在以計算機為語音識別處理平臺的系統(tǒng)中,一般采用隱含馬可夫(Markov)模型(HMM)進行語音識別,該算法由于允許模板匹配中時間不定長,所以系統(tǒng)的適應性強,且識別階段計算量也不大,但是需要進行大量的前期訓練工作,需要系統(tǒng)具有較高的運算速度和龐大的系統(tǒng)存儲資源。這對于那些需要識別的語音命令不多的特定應用場合,無疑是很不經(jīng)濟的,使用起來也不方便。利用廉價的定點數(shù)字信號處理器(DSP)芯片構成的小詞表實時語音識別模塊便能很好地解決這一矛盾。
(二)功能特點
對比語音識別技術的兩個發(fā)展方向,由于基于不同的運算平臺,因此具有不同的特點。大詞匯量連續(xù)語音識別系統(tǒng)一般都是基于PC機平臺,而語音識別專用芯片的中心運算處理器則只是一片低功耗、低價位的智能芯片,與一臺甚至多臺PC機相比起來,其運算速度,存儲容量都非常有限,因而這些由專用芯片實現(xiàn)的語音識別系統(tǒng)有如下幾個特點:
1、多為中、小詞匯量的語音識別系統(tǒng),即只能夠識別10~100詞條。只有近一兩年來,才有連續(xù)數(shù)碼或連續(xù)字母語音識別專用芯片實現(xiàn)。
2、一般僅限于特定人語音識別的實現(xiàn),即需要讓使用者對所識別的詞條先進行學習或訓練這一類識別功能對語種、方言和詞條沒有限制。有的芯片也能夠實現(xiàn)非特定人語音識別,即預先將所要識別的語句碼本訓練好而裝入芯片,用戶使用時不需要再進行學習而直接應用。但這一類識別功能只適用于規(guī)定的語種和方言,而且所識別的語句只限于預先已訓練好的語句。
3、由此芯片組成一個完整的語音識別系統(tǒng)。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統(tǒng)還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。
4、多為實時系統(tǒng),即當用戶說完待識別的詞條后,系統(tǒng)立即完成識別功能并有所回應,這就對電路的運算速度有較高的要求。
5、除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價錢低等特點。
【參考文獻】
[1]李亞佰,孟貴胥,等.數(shù)字電路與系統(tǒng)[M].北京電子工業(yè)出版社,2008.
[2]易克初,田斌,付強.語音信號處理[M].北京:國防工業(yè)出版社,2010.
[3]姚天任.數(shù)字語音處理[M].武漢:華中科技大學出版社,2007.
[4]趙力.語音信號處理[M].北京:機械工業(yè)出版社,2011.