摘 要:數(shù)字漫游技術(shù)已經(jīng)廣泛應(yīng)用城市規(guī)劃中,但目前的數(shù)字漫游方式存在操作單一、語音交互性不足的問題。本文依據(jù)虛擬現(xiàn)實及語音控制技術(shù)理論,結(jié)合城市規(guī)劃的實際需求,對語音導(dǎo)航技術(shù)在數(shù)字漫游技術(shù)中的應(yīng)用進行了設(shè)計與研究。
關(guān)鍵詞:語音虛擬現(xiàn)實 數(shù)字漫游 城市規(guī)劃
中圖分類號:TU984文獻標識碼:A文章編號:1674-098X(2012)04(a)-0251-01
數(shù)字漫游技術(shù)也就是我們常說的虛擬現(xiàn)實技術(shù)。虛擬現(xiàn)實技術(shù)是20世紀90年代發(fā)展起來的一個新的研究領(lǐng)域,它是集計算機圖形學(xué)、人工智能、計算機網(wǎng)絡(luò)、信息處理、機械設(shè)計與制造等技術(shù)綜合發(fā)展的產(chǎn)物,在社會各行各業(yè)中都具有廣泛的應(yīng)用空間。虛擬現(xiàn)實系統(tǒng)設(shè)計的目的在于操作的便捷性,且適合不同專業(yè)、不同層次人員的參與,再加上直觀逼真的反饋信息,在很大程度上滿足盡可能的滿足了使用者的心理訴求。目前,在城市規(guī)劃中就大量的使用了虛擬現(xiàn)實仿真技術(shù)。
1 引言
語音導(dǎo)航是指以語音識別、語音編解碼為代表的智能語音技術(shù)。語音識別是以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,設(shè)計到語言學(xué)、生理學(xué)、心理學(xué)、計算機科學(xué)以及信號處理等學(xué)科。語音識別的目的是為了使機器能夠準確地識別出人的語音及其內(nèi)容,以便控制其他設(shè)備來滿足人類的各種需要,它是發(fā)展人機有聲通信和新一代智能計算機的重要組成部分。語音編解碼是指一個能夠?qū)?shù)字音頻進行壓縮或者解壓縮的程序或者設(shè)備。通常這種壓縮屬于有損數(shù)據(jù)壓縮。常見算法一般分為三類:波形編碼、參數(shù)編碼和混合編碼。
目前,語音導(dǎo)航技術(shù)主要應(yīng)用于汽車、輪船及手機等領(lǐng)域,在城市虛擬漫游系統(tǒng)中的應(yīng)用還沒有相關(guān)研究。傳統(tǒng)的虛擬現(xiàn)實系統(tǒng)在虛擬環(huán)境中進行漫游時都是以手動控制鼠標的方式進行的,這就使得整個漫游的過程有著很強的依賴性。同時,在一個虛擬的城市中進行漫游時,我們想要到達一個具體的目的地時必須按照一定的路線才能到達,這就給我們帶來了繁重的操作。當我們面對龐大的虛擬城市時,就更加需要快速的到達目的地。因此,為了改善目前虛擬現(xiàn)實漫游中的不足,我們依據(jù)虛擬現(xiàn)實及語音導(dǎo)航技術(shù)理論,結(jié)合城市規(guī)劃的實際需求,對語音導(dǎo)航技術(shù)在數(shù)字漫游技術(shù)中的應(yīng)用進行了研究。
2 關(guān)鍵技術(shù)
2.1 語音識別算法
語音導(dǎo)航是在語音識別技術(shù)發(fā)展的基礎(chǔ)上產(chǎn)生的。因此,對于語音導(dǎo)航技術(shù)來說,語音識別的準確性是至關(guān)重要的,然而語音識別的準確性主要取決于所使用的語音識別算法。目前三種主流的語音識別算法分別是動態(tài)時間規(guī)整(DTW)、隱馬爾科夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)。在對幾種常見的語音識別算法進行對比分析后發(fā)現(xiàn),DTW算法簡單有效,容易理解,適用于特定人、孤立詞的語音識別;而HMM模型算法相對復(fù)雜,沒有顯式的計算公式,且需要大量的訓(xùn)練來獲得參考模板,但它很好地描述了語音信號的產(chǎn)生過程,在大詞匯量、非特定人、連續(xù)詞的語音識別中得到了廣泛的運用;單純的ANN在識別率方面并沒有優(yōu)勢,它跟其他的識別算法結(jié)合才能獲得更好的效果,也同樣存在時間規(guī)整的問題。因為在城市虛擬漫游系統(tǒng)中語音所輸入的待識別語音詞匯多是固定的詞組,如建設(shè)銀行、幼兒園等。而且從軟硬件實現(xiàn)的角度來看,采用DTW算法來實現(xiàn)比較實際可行。在本次研究中選擇了一種比較成熟的動態(tài)時間規(guī)整(DTW)算法作為語音識別算法。實驗結(jié)果表明,在特定人、孤立詞的語音識別上,該算法具有識別率更高、耗時更少的優(yōu)點,識別率高于96.3%,達到了既定的語音識別目的,可以很好的服務(wù)于該系統(tǒng)。
2.2 虛擬現(xiàn)實系統(tǒng)設(shè)計
虛擬現(xiàn)實系統(tǒng)的實現(xiàn)關(guān)鍵在于虛擬現(xiàn)實平臺技術(shù)的應(yīng)用。目前很多虛擬現(xiàn)實的平臺在技術(shù)方面都相對比較成熟,但是面對城市規(guī)劃領(lǐng)域的應(yīng)用時,我們需要解決三維圖形的實時生成、觀者視角的寬視野立體顯示、基于GIS的虛擬環(huán)境的實現(xiàn)、虛擬現(xiàn)實系統(tǒng)的交互性等問題。為了解決以上這些具體問題,我們應(yīng)用北京中視典公司的虛擬現(xiàn)實平臺作為對虛擬現(xiàn)實系統(tǒng)的開發(fā)工具。
3 語音導(dǎo)航的城市虛擬現(xiàn)實系統(tǒng)的實現(xiàn)過程
3.1 系統(tǒng)的總體設(shè)計思路
城市虛擬現(xiàn)實系統(tǒng)啟動以后手動啟動語音識別控制,通過語音識別控制可以監(jiān)測到整個操作系統(tǒng)中的全部語音輸入設(shè)備,一旦有語音從語音設(shè)備輸入進來,語音識別系統(tǒng)馬上開始語音識別并形成指令,并對虛擬現(xiàn)實系統(tǒng)的漫游方式形成控制,生成前進、后退、轉(zhuǎn)彎、停止等操作。
3.2 系統(tǒng)的實現(xiàn)的實現(xiàn)過程
該系統(tǒng)的實現(xiàn)主要包括三大部分:一部分是虛擬場景的構(gòu)造,主要包括三維實體模型構(gòu)建與整合優(yōu)化,得到場景數(shù)據(jù)模型,場景數(shù)據(jù)的構(gòu)造主要通過3DMAX2011軟件軟件來實現(xiàn),第二部分是語音輸入及語音識別,只要包括對使用者聲音的采集、識別及形成語音控制指令,第三部分是虛擬漫游的設(shè)計,主要實現(xiàn)場景的三維顯示、相關(guān)多媒體信息的介紹、漫游時的語音及手動交互控制。
3 總結(jié)
在基于數(shù)字漫游的城市規(guī)劃系統(tǒng)中使用語音交互控制技術(shù),可以實現(xiàn)語音導(dǎo)航控制功能,為廣大人群乃至特殊人群服務(wù),如:盲人、語言障礙人士等;語音導(dǎo)航功能的實現(xiàn)還可以減輕系統(tǒng)操作的工作量,使得人們在使用的過程中可以將全部精力放在內(nèi)容上,而不是具體的操作上;這種基于語音導(dǎo)航、語音反饋、語音情境真實再現(xiàn)的虛擬現(xiàn)實系統(tǒng)進一步加強了虛擬環(huán)境的真實性、沉浸感。同時,增強了使用者對城市中某些特定環(huán)境的具體了解。
參考文獻
[1]鄭皓,藍運超,范凌云.淺析虛擬現(xiàn)實技術(shù)及其在城市規(guī)劃中的應(yīng)用[J].武漢大學(xué)學(xué)報,2001(6):110~113.
[2]李宏梅,伍小芹.有關(guān)語音識別技術(shù)的研究.現(xiàn)代電子技術(shù),2010(8):138~140,144.
[3]馬利亞.基于虛擬現(xiàn)實的漫游系統(tǒng)關(guān)鍵技術(shù)的研究.哈爾濱工程大學(xué)碩士學(xué)位論文,2010.3.
[4]陳宏偉,潘俊.虛擬現(xiàn)實技術(shù)在城市規(guī)劃設(shè)計中的應(yīng)用[J].山西建筑,2007(31):367~368.
[5]李蘇旻.虛擬現(xiàn)實技術(shù)在建筑與城市規(guī)劃中的應(yīng)用研究.長沙理工大學(xué)碩士學(xué)位論文,2008.5.
[6]黃文龍.語音識別關(guān)鍵技術(shù)研究及系統(tǒng)實現(xiàn).重慶大學(xué)碩士學(xué)位論文,2010.5.
[7]李秀珍.語音識別算法及應(yīng)用技術(shù)研究.重慶大學(xué)碩士學(xué)位論文文,2010.4.