歐陽(yáng)志紅
摘 要
如同人與人之間的相互對(duì)話那樣,用語(yǔ)音對(duì)設(shè)備、機(jī)械等發(fā)出控制命令和信息,這不僅對(duì)于從事計(jì)算機(jī)的工作者,而且對(duì)于普通的人們,也曾是一個(gè)令人神往的夢(mèng)想。近些年來(lái),由于集成電路技術(shù)、數(shù)字信號(hào)處理技術(shù)和圖形識(shí)別等技術(shù)的不斷取得進(jìn)展,語(yǔ)音識(shí)別技術(shù)也在長(zhǎng)足地向前發(fā)展。如今,以聲音為輸入信號(hào)的自動(dòng)控制系統(tǒng)已在不少場(chǎng)合開(kāi)始得到應(yīng)用。
【關(guān)鍵詞】特點(diǎn) 方法 現(xiàn)狀 應(yīng)用
1 語(yǔ)音識(shí)別的優(yōu)點(diǎn)和方法
直接用語(yǔ)音作為輸入控制信號(hào)方法具有許多優(yōu)點(diǎn):對(duì)人來(lái)說(shuō),作為最自然的輸入控制信號(hào)的手段,不必進(jìn)行特殊的訓(xùn)練;信息的產(chǎn)生速度較快,一般為鍵盤(pán)輸入方法的2~4倍;操作者在用眼和手共同進(jìn)行其它作業(yè)的同時(shí)能輸入信息;操作者能邊走動(dòng)邊輸入信息;能遠(yuǎn)距離用電話輸入;可以省略鍵盤(pán)、發(fā)光字母讀出器等中間輸入設(shè)備;即使在某些緊急的場(chǎng)合,也能在轉(zhuǎn)瞬之間投入使用。
說(shuō)明語(yǔ)音識(shí)別的方法,應(yīng)首先從語(yǔ)音的分析談起。語(yǔ)音大體上包含著兩種信息:即具有一定含義的信息和發(fā)音者固有的信息。前者的識(shí)別處理稱為:“狹義聲音識(shí)別”,而后者的識(shí)別處理則叫作“發(fā)言人辨認(rèn)”。
在聲音頻譜中,能量集中的頻帶稱為共振峰。共振峰頻率隨著發(fā)音者性別及其他條件的不同而變化。分析輸入的語(yǔ)音,找出其特征是語(yǔ)音識(shí)別的第一步。
識(shí)別輸入的語(yǔ)言是語(yǔ)音識(shí)別的下一步。對(duì)此在“單詞識(shí)別”和“單音識(shí)別”兩種方式。前者是在識(shí)別裝置內(nèi)設(shè)有以單詞為單位的模擬型詞匯標(biāo)準(zhǔn),進(jìn)而選出與輸入語(yǔ)音最類似模式的方式。后者的方式是在識(shí)別裝置內(nèi)設(shè)有以此單詞低次的單音、音節(jié)為單位的模擬型標(biāo)準(zhǔn),將輸入的語(yǔ)音按單音的不同進(jìn)行變換,再進(jìn)行單詞的識(shí)別。
單詞(單間)與單詞(單音)之間是否有間隔,這是語(yǔ)音識(shí)別技術(shù)要考慮的一個(gè)重要問(wèn)題。“離散話音”指的是在單詞間有200毫秒左右時(shí)間間隔的輸入方法。還有所謂“連續(xù)會(huì)話”方式,其作為識(shí)別對(duì)象的是多個(gè)單詞連續(xù)一氣講出的語(yǔ)句,相應(yīng)的識(shí)別處理將較復(fù)雜一些。
另外,講話人是否受到限制的問(wèn)題,對(duì)語(yǔ)音識(shí)別裝置來(lái)說(shuō),在技術(shù)上和造價(jià)方面都是必須考慮的。所謂“特別指定說(shuō)話人”識(shí)別,就是將識(shí)別對(duì)象的全部單詞,經(jīng)數(shù)次練習(xí)預(yù)先進(jìn)行話音輸入,使之在裝置中存儲(chǔ)發(fā)音人個(gè)人所特有的單詞模式,使用時(shí)將輸入的語(yǔ)音與比單詞模式進(jìn)行比較而加以識(shí)別的方式。這種方式以比較簡(jiǎn)單的識(shí)別處理就能得到較高的識(shí)別率。還有“可更換發(fā)音人”的識(shí)別方式,它是預(yù)先用多人的語(yǔ)音信號(hào)瞬時(shí)值作成標(biāo)準(zhǔn)模式,這樣在更換了發(fā)音人、口音有所差異的情況下,識(shí)別裝置也能進(jìn)行正確的識(shí)別。
語(yǔ)音識(shí)別的最高發(fā)展階段是識(shí)別人們以普通速度講的會(huì)話語(yǔ)言。眾所周知,一般人的會(huì)話中包含著無(wú)意義用語(yǔ)(口頭語(yǔ)),因此要一字一句地準(zhǔn)確識(shí)別人的普通會(huì)話語(yǔ)言是極難的。作為解決方法,產(chǎn)生了被稱之為“語(yǔ)音理解”的新概念:就是將輸入的語(yǔ)音中所包含的冗余信息(方言、單調(diào)等)進(jìn)行引用,作為理解輸入信息內(nèi)容的近似方法,而不要求一定將輸入語(yǔ)音逐一正確地加以識(shí)別,這是與其它的語(yǔ)音識(shí)別方式根本不同的。采用此種識(shí)別方式的語(yǔ)音識(shí)別裝置作文章理解系統(tǒng),它在聲音打字機(jī)和口語(yǔ)自動(dòng)翻譯等方面可得廣泛的應(yīng)用。
2 語(yǔ)音識(shí)別技術(shù)的現(xiàn)狀
按功能分類,語(yǔ)音識(shí)別裝置有數(shù)據(jù)輸入型、自然口語(yǔ)輸入型和發(fā)音人辨認(rèn)三種。
2.1 數(shù)據(jù)輸入型
語(yǔ)音識(shí)別裝置首先在美國(guó)開(kāi)始實(shí)用并最早出現(xiàn)商用產(chǎn)品的,現(xiàn)在實(shí)用的語(yǔ)音識(shí)別主要采用的還是對(duì)專人的并基于以單詞為單位的離散信息的識(shí)別方式,識(shí)別率達(dá)99%以上,適用于識(shí)別語(yǔ)句較少而且在較肅靜的室內(nèi)場(chǎng)合使用。作為一般用戶為對(duì)象的(例如:旅客問(wèn)詢)系統(tǒng),則要求使用“可更換發(fā)音人”方式的語(yǔ)音識(shí)別裝置。
2.2 自然口語(yǔ)輸入型
對(duì)于自然口語(yǔ)輸入型的語(yǔ)音識(shí)別,美國(guó)國(guó)防部作為ARPA計(jì)劃,進(jìn)行了大量的研究工作。在日本也以電子技術(shù)綜合研究所為中心,作為圖形識(shí)別研究大型計(jì)劃的一環(huán)進(jìn)行了研究。目前已有聲音打字機(jī)那樣的應(yīng)用。
2.3 發(fā)音人辨認(rèn)
“發(fā)音人辨認(rèn)”是語(yǔ)音識(shí)別最完善的方式。由于不同的發(fā)音人在發(fā)同一語(yǔ)音時(shí),可以產(chǎn)生有顯著差別的聲學(xué)圖案,這種差別便體現(xiàn)了個(gè)人的特征。人的聽(tīng)覺(jué)區(qū)別個(gè)人特征的能力是很強(qiáng)的。目前用電子設(shè)備辨認(rèn)發(fā)音人常用的簡(jiǎn)便方法是:檢出語(yǔ)音基頻隨時(shí)間變化的圖形作為辨認(rèn)的依據(jù)。它的應(yīng)用前景是相當(dāng)廣泛的,比如用存儲(chǔ)某人的語(yǔ)音代替簽字(有人稱之為“聲紋”)進(jìn)而利用電話等實(shí)現(xiàn)遠(yuǎn)距離的身分確認(rèn)將成可能。
3 語(yǔ)音識(shí)別在鐵路系統(tǒng)的應(yīng)用
語(yǔ)音識(shí)別裝置按應(yīng)用分類:有控制、指令型,利用電話(包括無(wú)線電話)型,OA(事務(wù)自動(dòng)化)應(yīng)用型和“發(fā)音人辨認(rèn)”型等。
3.1 有控制、指令型
在控制、指令型的應(yīng)用方面,采用“專人”語(yǔ)音識(shí)別裝置可以進(jìn)行選排調(diào)車進(jìn)路、調(diào)車機(jī)車的無(wú)人駕駛、行包自動(dòng)分揀等;采用“可更換發(fā)音人”的語(yǔ)音識(shí)別裝置可以實(shí)現(xiàn)自動(dòng)售票、行包受理和列車緊急停車等。
3.2 利用電話(包括無(wú)線電話)型
在利用電話型的應(yīng)用方面,采用“專人”語(yǔ)音識(shí)別裝置可以進(jìn)行在危險(xiǎn)處所工作的機(jī)械操作(高空作業(yè)等)、火車司機(jī)的模擬訓(xùn)練和列車到發(fā)時(shí)刻通知等;采用“可更換發(fā)音人”的語(yǔ)音識(shí)別裝置可應(yīng)用于指定票(指定乘車日期和車次的車票)發(fā)售情況的問(wèn)詢和預(yù)約及列車運(yùn)行情況問(wèn)詢。
3.3 OA(事務(wù)自動(dòng)化)應(yīng)用型和“發(fā)音人辨認(rèn)”型
在OA型應(yīng)用方面,適用于編制口述程序、語(yǔ)音打字機(jī)、圖書(shū)及文獻(xiàn)的檢索等。
例如在車站上的調(diào)車作業(yè)中,以往是按照作為高度作業(yè)指揮者的調(diào)車員的指示,由扳道員(電氣集中車站是由信號(hào)樓的信號(hào)員)扳道岔來(lái)辦理進(jìn)路的。若將站內(nèi)聯(lián)絡(luò)用的無(wú)線通信設(shè)備附加選路用的語(yǔ)音裝置,則可由調(diào)車員在站內(nèi)任意地點(diǎn)直接指揮進(jìn)行調(diào)車作業(yè)。
再比如利用主意控制的電磁客票預(yù)售自動(dòng)化系統(tǒng),在國(guó)外也已使用。這樣在一些預(yù)定將來(lái)也不設(shè)置“綠色窗口”(售票窗口)的沿線小站上,可通過(guò)聯(lián)機(jī)的形式向旅客發(fā)售指定票。站務(wù)員按旅客的要求,只要用電話以語(yǔ)音輸入的方式向售票中心站申請(qǐng)發(fā)售指定票,當(dāng)?shù)玫接芍行恼景l(fā)出的確有該指定票座席的話音應(yīng)答之后,站務(wù)員即可向旅客發(fā)售指定票。
語(yǔ)音識(shí)別技術(shù)作為一門(mén)成熟的技術(shù),已進(jìn)入實(shí)用化階段,應(yīng)用范圍也越來(lái)越來(lái)廣泛,隨著電子技術(shù)的飛速發(fā)展,它的技術(shù)將越來(lái)越成熟,應(yīng)用領(lǐng)域也將不斷地?cái)U(kuò)大,從而更好的服務(wù)于各行各業(yè)。
參考文獻(xiàn)
[1]高新濤.語(yǔ)音識(shí)別技術(shù)的發(fā)展現(xiàn)狀及應(yīng)用前景[J].甘肅科技縱橫,2007.
[2]馬志欣.語(yǔ)音識(shí)別技術(shù)綜述[J].昌吉學(xué)院學(xué)報(bào),2006.
作者單位
湖南化工職業(yè)技術(shù)學(xué)院 湖南省株洲市 412011endprint