999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音識別在船用三維羅經(jīng)仿真系統(tǒng)中的應(yīng)用

2018-03-01 02:47:04,,
船海工程 2018年1期
關(guān)鍵詞:指令信號模型

,,

(大連海事大學(xué) 航海動(dòng)態(tài)仿真和控制交通行業(yè)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116026)

陀螺羅經(jīng)是船舶定位和導(dǎo)航系統(tǒng)的重要設(shè)備,由于其價(jià)格昂貴,在教學(xué)培訓(xùn)中采用真機(jī)操作成本較高。航海仿真系統(tǒng)作為航海教育裝備的重要組成部分,在船員培訓(xùn)及日常教學(xué)中的作用日益突出[1]。為此,大連海事大學(xué)基于虛擬現(xiàn)實(shí)技術(shù)開發(fā)了三維SPERRY MK37型陀螺羅經(jīng)仿真系統(tǒng),該系統(tǒng)可模擬實(shí)驗(yàn)室和實(shí)船兩種環(huán)境,實(shí)現(xiàn)了部件識別、拆裝等功能[2]。雖然三維仿真系統(tǒng)具有很好的環(huán)境真實(shí)感,但是由于多種三維場景的加入使得系統(tǒng)的復(fù)雜程度提高,同時(shí)該仿真系統(tǒng)的交互采用傳統(tǒng)的鼠標(biāo)及鍵盤方式,而在教學(xué)培訓(xùn)中,面向用戶多為不熟悉該設(shè)備的人員,在虛擬環(huán)境中通過鼠標(biāo)鍵盤操作漫游到部件位置進(jìn)行交互操作比較困難,這使得本來具有良好沉浸感的羅經(jīng)仿真系統(tǒng)操作起來比較繁瑣,在一定程度上影響了用戶的使用。

近年來語音識別技術(shù)在智能家居的語音控制系統(tǒng)和車載語音識別系統(tǒng)等很多領(lǐng)域獲得應(yīng)用[3- 6]。語音控制是人類最自然的溝通方式,但是在船舶及航海仿真領(lǐng)域卻鮮有耳聞。通過語音交互簡化仿真系統(tǒng)的操作,用戶只需發(fā)出交互指令就可以操控羅經(jīng)仿真系統(tǒng),使該仿真系統(tǒng)的交互變得更加便捷,從而提升用戶體驗(yàn)效果。因此,考慮以現(xiàn)有的三維SPERRY MK37型陀螺羅經(jīng)仿真系統(tǒng)為基礎(chǔ),通過研究語音信號預(yù)處理、特征提取及語音識別解碼的關(guān)鍵技術(shù),設(shè)計(jì)羅經(jīng)仿真系統(tǒng)的語音交互功能。

1 語音識別關(guān)鍵技術(shù)

語音識別本質(zhì)上是一種模式識別系統(tǒng),主要包括特征提取、模式匹配和參考模式庫等3個(gè)基本單元,其核心是構(gòu)造語音特征矢量序列和模型參考字符序列之間的映射關(guān)系。語音識別的主要類型有特定人語音識別、非特定人語音識別、孤立詞語音識別及連續(xù)語音識別。其中,孤立詞識別主要采用動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping, DTW)解決參考模板的特征矢量序列和輸入語音特征矢量序列之間長短不一的匹配問題[7];隱馬爾科夫模型(hidden markov models, HMM)作為孤立詞識別和連續(xù)語音識別中建立聲學(xué)模型的一種技術(shù),具有多年的應(yīng)用歷史,是語音識別中的基礎(chǔ)算法[8];與此同時(shí),在當(dāng)前對大詞匯量連續(xù)語音識別需求環(huán)境下,深度學(xué)習(xí)成為研究熱點(diǎn),以深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)及卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)為代表的研究方法在大詞匯量連續(xù)語音識別中取得了很好的應(yīng)用效果[9- 10]。基于模式匹配的語音識別系統(tǒng)構(gòu)成見圖1。

圖1 語音識別系統(tǒng)構(gòu)成

1.1 語音信號預(yù)處理

語音識別信號預(yù)處理階段主要是對語音信號在時(shí)域中進(jìn)行處理,預(yù)處理主要包括信號預(yù)加重和加窗分幀操作。由于語音信號低頻部分能量大,高頻段信號能量小,輸出噪聲的功率譜密度隨頻率的平方增加,因此信號的低頻信噪比很大,高頻部分信噪比不足,導(dǎo)致傳輸困難。可對語音的高頻部分實(shí)施加重,提高高頻信號的分辨率,從而提升信號的傳輸質(zhì)量。

假設(shè)語音信號在短時(shí)內(nèi)(10~30 ms)是平穩(wěn)的。通過對語音信號實(shí)施加窗操作,窗函數(shù)在語音信號上滑動(dòng),將語音信號分幀,獲得短時(shí)平穩(wěn)信號。目前語音信號處理中主要的窗函數(shù)有矩形窗、漢明(Hamming)窗及漢寧(Hanning)窗,一般漢明窗應(yīng)用較多,本文采用此窗函數(shù)對語音信號進(jìn)行平滑處理,漢明窗函數(shù)如下。

(1)

式中:n為窗口長度[11]。觀察語音信號的時(shí)域波形是直觀的分析方式,圖3所示為羅經(jīng)控制命令短語“master compass”在時(shí)域中的語音波形。

圖2 “Master compass”信號時(shí)域波形

1.2 語音信號的特征提取

在時(shí)域分析中語音信號表現(xiàn)為幅度隨時(shí)間變化的函數(shù),波形為同一時(shí)刻信號效果的疊加,雖然能直觀地觀測到語音信號波形的變化,但直接對時(shí)域信號進(jìn)行處理卻比較困難,需要在頻域上進(jìn)行矢量化操作提取語音信號的特征。特征參數(shù)的選取直接影響語音識別的質(zhì)量,目前常見的特征參數(shù)提取方法有線性預(yù)測倒譜系數(shù)(LPCC)法和梅爾頻率倒譜系數(shù)(MFCC)法。(MFCC)法將語音的產(chǎn)生機(jī)制與人耳的聽覺感知特性相結(jié)合,是語音識別中應(yīng)用廣泛且有效的特征提取方法。本文的特征提取也采用該方法。

由于人耳的聽覺是一個(gè)非線性的系統(tǒng),對聲音的敏感度和聲音音頻不成比例,梅爾頻率在1 000 Hz以下趨于線性分布,1 000 Hz以上趨于對數(shù)分布,且梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,比其他的對數(shù)倒譜的頻帶更接近人類的聽覺系統(tǒng)。因此,MFCC可以解決頻率分布不一致的問題,梅爾頻率與線性頻率的轉(zhuǎn)換關(guān)系為

Mel(f)=2 595lg(1+f/700)

(2)

式中:Mel(f)表示梅爾頻率;f為線性頻率。MFCC參數(shù)計(jì)算主要包括分幀和濾波器分析兩個(gè)階段,其計(jì)算流程如圖4所示。

圖3 MFCC參數(shù)計(jì)算流程

計(jì)算MFCC過程中,在濾波器組分析之前需要將時(shí)域信號轉(zhuǎn)變?yōu)轭l域信號,基于離散傅里葉變換的基礎(chǔ),通過快速傅里葉變換實(shí)現(xiàn)轉(zhuǎn)化。取N為200,采用快速傅里葉變換將羅經(jīng)控制命令短語“Master compass”的時(shí)域信號轉(zhuǎn)化成頻域信號,得到語音信號的頻譜,如圖5所示。

圖4 “Master compass”信號頻譜

經(jīng)過快速傅里葉變換得到的頻域信號,通過Mel濾波器組進(jìn)行濾波轉(zhuǎn)換得到梅爾頻率。在離散余弦變換之前,對所有濾波器輸出做對數(shù)運(yùn)算,然后做離散余弦變換,最終得到MFCC,具體過程如下。

i=1,2,…,L

(3)

式中:s(m)為第m個(gè)濾波器的輸出;L為MFCC的階數(shù),本文采用kaldi語音識別工具對訓(xùn)練音頻數(shù)據(jù)進(jìn)行特征提取,L=13,即MFCC為13維的特征矩陣。圖6所示為“master compass”音頻經(jīng)過特征提取得到的部分MFCC特征矩陣。

圖5 “Master compass” 部分MFCC特征矩陣

1.3 識別解碼

聲學(xué)模型和語言模型是影響識別解碼質(zhì)量的關(guān)鍵,聲學(xué)模型通過大量音頻語料進(jìn)行模型訓(xùn)練得到;基于統(tǒng)計(jì)的語言模型通過海量文本語料根據(jù)統(tǒng)計(jì)規(guī)則訓(xùn)練而成,具有代表性的為N- Gram統(tǒng)計(jì)語言模型。羅經(jīng)仿真系統(tǒng)交互指令為英文短語,語言復(fù)雜程度較小,選取音素為聲學(xué)模型建模單元,采用2- Gram統(tǒng)計(jì)語言模型進(jìn)行語言模型的建模。在解碼識別階段由聲學(xué)模型解碼得到音素,音素在詞典中的隨機(jī)匹配過程得出單詞,再通過統(tǒng)計(jì)語言模型進(jìn)行詞組搜索運(yùn)算,得到概率最大的路徑即為短語指令識別結(jié)果,最終完成解碼識別過程。識別解碼過程如圖6所示。

圖6 語音識別解碼過程

2 語音識別功能的實(shí)現(xiàn)

采用Speech SDK5.1進(jìn)行船用三維羅經(jīng)仿真系統(tǒng)語音交互功能的二次開發(fā)。該資源包應(yīng)用層包含語音識別和語音合成程序。語音識別(SR)由語音識別引擎負(fù)責(zé)管理,語音合成引擎負(fù)責(zé)控制語音合成(TTS)程序,同時(shí)語音應(yīng)用程序接口(SAPI)和設(shè)備驅(qū)動(dòng)接口(DDI)用于語音技術(shù)開發(fā),Speech SDK5.1結(jié)構(gòu)見圖7。

圖7 Speech SDK 5.1結(jié)構(gòu)

2.1 語音交互功能設(shè)計(jì)

語音應(yīng)用程序接口提供兩種語法規(guī)則識別類型:一種是聽寫型(dictation),該類型使用引擎中的海量文本,識別速度慢且識別率較低;另一種為命令控制型(command and control),該類型通過在開發(fā)時(shí)定義識別語法規(guī)則,使識別引擎減小搜索量,從而提高識別效率。通過前文識別解碼的研究得知,如果解碼網(wǎng)絡(luò)過大,搜索概率最大路徑所耗費(fèi)資源較大,從而影響識別解碼的質(zhì)量。考慮到羅經(jīng)設(shè)備的控制命令多為固定短語,且數(shù)量有限,本文采用命令控制型語法規(guī)則,在語法規(guī)則中定義了船用三維羅經(jīng)的待識別指令,縮減解碼的范圍,共39條操作命令(例如“Power on” “Hold on”,“Electronic control box”等)。語音交互功能開發(fā)流程如下:①初始化COM端口;②創(chuàng)建識別引擎及上下文接口;③設(shè)置識別消息及興趣事件(對識別內(nèi)容進(jìn)行反饋,做出相應(yīng)的操作);④創(chuàng)建語法規(guī)則為命令控制型;⑤獲取識別消息進(jìn)行交互處理。三維羅經(jīng)仿真系統(tǒng)語音交互流程如圖8所示。

圖8 三維羅經(jīng)仿真系統(tǒng)語音交互流程

2.2 應(yīng)用效果及結(jié)果分析

在實(shí)驗(yàn)室安靜的環(huán)境中,對船用三維羅經(jīng)仿真系統(tǒng)中的語音交互功能進(jìn)行測試,系統(tǒng)平臺為Windows8.1,音頻采集設(shè)備為Edifier- K800頭戴式麥克風(fēng)。操作者給出羅經(jīng)交互命令,識別結(jié)果顯示在主界面上,如命令識別正確則確認(rèn),語音合成系統(tǒng)復(fù)述正確命令,然后仿真系統(tǒng)進(jìn)行相應(yīng)的操作;反之如果命令識別錯(cuò)誤,則取消,同時(shí)語音合成系統(tǒng)發(fā)音提示再次給出命令,語音交互實(shí)現(xiàn)如圖9所示。

圖9 三維羅經(jīng)仿真系統(tǒng)語音交互操作

在三維羅經(jīng)仿真系統(tǒng)中,對15人進(jìn)行了語音交互測試,每人隨機(jī)給出30個(gè)待識別指令,其部分識別結(jié)果統(tǒng)計(jì)見表1。

由表1可見,該仿真系統(tǒng)語音交互功能具有較高的識別率,基本能滿足三維羅經(jīng)仿真系統(tǒng)交互需求。其中“Power on”指令和“Hold on”指令識別率較低,且在測試中當(dāng)測試人發(fā)出“Power on”指令時(shí),容易被混淆識別為“Hold on”,導(dǎo)致該指令統(tǒng)計(jì)識別率降低。通過分析上述兩指令信號的時(shí)域波形圖與頻域頻譜圖,發(fā)現(xiàn)兩者較為相似,如圖11所示,這是兩個(gè)指令識別率較低的原故。因此,在語法規(guī)則中,添加交互功能相同與“Power on”的交互指令“Switch on”,當(dāng)用戶發(fā)出交互指令“Power on”控制羅經(jīng)系統(tǒng)電源箱開機(jī)容易發(fā)生誤識別時(shí),可以選擇“Switch on”指令進(jìn)行開機(jī)操作來避免與“Hold on”發(fā)生混淆識別,進(jìn)而提高語音交互的準(zhǔn)確度。

表1 語音交互識別率部分統(tǒng)計(jì)結(jié)果

圖10 “Power on”和“Hold on”波形及頻譜

3 結(jié)論

在已有的船用三維羅經(jīng)仿真系統(tǒng)的基礎(chǔ)上,應(yīng)用語音識別技術(shù)實(shí)現(xiàn)仿真系統(tǒng)的語音交互功能。通過測試結(jié)果可以得該仿真系統(tǒng)語音交互功能具有較高的識別率,基本可以滿足用語音控制三維羅經(jīng)仿真系統(tǒng)的要求,使羅經(jīng)仿真系統(tǒng)在具有良好沉浸感的同時(shí)方便用戶操作,提升了用戶的體驗(yàn)效果,對于語音識別技術(shù)應(yīng)用于其他航海仿真系統(tǒng)具有借鑒作用。同時(shí),在三維航海仿真系統(tǒng)中通過將語音識別技術(shù)與虛擬現(xiàn)實(shí)技術(shù)相結(jié)合,對航海仿真系統(tǒng)的智能化發(fā)展具有促進(jìn)意義。在后續(xù)的研究中,信號相似度較高的語音指令容易誤識別的問題亟需解決,同時(shí)需要研究如何在模擬器噪聲環(huán)境下提高語音識別的識別率,擴(kuò)大語音識別在航海模擬器領(lǐng)域的識別范圍,使得語音交互可以準(zhǔn)確無誤的操作其他航海仿真設(shè)備。

[1] 金一丞,尹勇. STCW公約馬尼拉修正案下的航海模擬器發(fā)展戰(zhàn)略[J].中國航海,2012,35(3):5- 10.

[2] 劉晶晶,任鴻翔,尹金崗,等.多平臺的船用陀螺羅經(jīng)交互仿真系統(tǒng)[J].大連海事大學(xué)學(xué)報(bào),2016,42(1):17- 20.

[3] KUMAR P S, SURAJ S, SUBRAMANIAN R V, et al. Voice operated micro air vehicle[J]. International journal of micro air vehicles,2014,6(2):129- 137.

[4] PAI N, CHEN S, CHEN P, et al. Application of HMM- based chinese speech recognition on internet of things for smart home systems[J]. ICIC express letters, part B: applications,2016,7(9):1901- 1909.

[5] 張鳳軍,戴國忠,彭曉蘭.虛擬現(xiàn)實(shí)的人機(jī)交互綜述[J].中國科學(xué):信息科學(xué),2016,46(12):1711- 1736.

[6] 金一丞,尹勇.航海模擬器[M].北京:科學(xué)出版社,2013.

[7] MYERS C S, RABINER L R, ROSENBERG A E. Performance trade- offs in dynamic time warping algorithms for isolated word recognition[J]. IEEE transactions on acoustics speech & signal processing,1979,28(6):623- 635.

[8] ZARROUK E, BEN AYED Y, GARGOURI F. Hybird continuous speech recognition systems by HMM, MLP, and SVM: a comparative study[J]. International journal of speech Technology,2014,17(3):223- 233.

[9] MAAS A L, QI P, XIE Z, et al. Building DNN acoustic models for large vocabulary speech recognition[J]. computer speech & language,2016,41(C):195- 213.

[10] SAINATH T N, MOHAMED A R, KINGSBURY B, et al. Deep convolutional neural networks for LVCSR[C]: IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE,2013:8614- 8618.

[11] 張雪英.數(shù)字語音處理及Matlab仿真[M].北京:電子工業(yè)出版社,2010.

[12] KUMAR Y R, BABU A V, KUMAR K A N, et al. Modified Viterbi decoder for HMM based speech recognition system[C]∥ International Conference on Control, Instrumentation, Communication and Computational Technologies. IEEE,2014:470- 474.

猜你喜歡
指令信號模型
一半模型
聽我指令:大催眠術(shù)
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
ARINC661顯控指令快速驗(yàn)證方法
LED照明產(chǎn)品歐盟ErP指令要求解讀
電子測試(2018年18期)2018-11-14 02:30:34
基于FPGA的多功能信號發(fā)生器的設(shè)計(jì)
電子制作(2018年11期)2018-08-04 03:25:42
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产激情无码一区二区三区免费| 国产精品成人观看视频国产| 亚洲成a人片77777在线播放| 国产在线自乱拍播放| 日本草草视频在线观看| 国产无码网站在线观看| 风韵丰满熟妇啪啪区老熟熟女| 久久亚洲美女精品国产精品| 亚洲无码高清免费视频亚洲| 日韩天堂网| 国产免费羞羞视频| 国产精品网曝门免费视频| 日韩毛片在线播放| 无码专区在线观看| 亚洲人成网站观看在线观看| 国产欧美日韩精品第二区| 国产美女免费| 草逼视频国产| 在线视频精品一区| 亚洲国产91人成在线| 亚洲天堂精品在线| 成人在线天堂| 国产日韩欧美成人| 国产欧美日韩18| 亚洲综合九九| 99爱在线| 五月天婷婷网亚洲综合在线| 国产欧美精品专区一区二区| 亚洲国产欧美目韩成人综合| 美女无遮挡免费网站| 国产网友愉拍精品视频| av在线人妻熟妇| 久久99国产综合精品女同| 在线另类稀缺国产呦| 亚洲精品在线影院| 4虎影视国产在线观看精品| 54pao国产成人免费视频| 欧美日本激情| 综合社区亚洲熟妇p| 亚洲性视频网站| 亚洲午夜久久久精品电影院| 青青草国产精品久久久久| 99热线精品大全在线观看| 午夜视频在线观看免费网站| 2018日日摸夜夜添狠狠躁| 她的性爱视频| 国内精品一区二区在线观看| 亚洲欧美一级一级a| 亚欧成人无码AV在线播放| 毛片视频网址| 欧美一级在线播放| 日本免费高清一区| 久99久热只有精品国产15| 亚洲香蕉伊综合在人在线| 99精品国产自在现线观看| 日本在线视频免费| 亚洲欧美成aⅴ人在线观看| 欧美劲爆第一页| 国产美女无遮挡免费视频| 91成人在线免费视频| 丰满人妻久久中文字幕| 亚洲无卡视频| 亚洲国产中文精品va在线播放| 亚洲AV无码一区二区三区牲色| 一区二区三区精品视频在线观看| 国产成人91精品| 又大又硬又爽免费视频| 乱人伦99久久| 精品国产一区91在线| 丁香婷婷综合激情| 亚洲色图欧美一区| 亚洲综合久久成人AV| 亚洲第一香蕉视频| 色呦呦手机在线精品| 免费看a毛片| 久久综合成人| 精品人妻无码中字系列| 精品欧美日韩国产日漫一区不卡| 国产天天色| 狠狠亚洲婷婷综合色香| 色九九视频| 91美女视频在线观看|