999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM的藏語(yǔ)語(yǔ)音識(shí)別

2020-04-14 04:54:29郭龍銀扎西多吉尚慧杰旦增
電腦知識(shí)與技術(shù) 2020年4期
關(guān)鍵詞:語(yǔ)言模型

郭龍銀 扎西多吉 尚慧杰 旦增

摘要:針對(duì)藏語(yǔ)語(yǔ)音識(shí)別處理的步驟,首先將藏語(yǔ)語(yǔ)料的國(guó)際音標(biāo)轉(zhuǎn)換,其次根據(jù)人耳對(duì)語(yǔ)音的處理方式,使用MFCC進(jìn)行語(yǔ)音特征提取,再構(gòu)建CNN_BiLSTM_CTC聲學(xué)模型,最后利用2-gram語(yǔ)言模型進(jìn)行音標(biāo)與文字的轉(zhuǎn)換。該文最終實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文本,并在音標(biāo)識(shí)別上有較好的準(zhǔn)確率。

關(guān)鍵詞:藏語(yǔ);語(yǔ)音識(shí)別;MFCC;CNN_BiLSTM_CTC;2-gram .

中圖分類(lèi)號(hào):TP183

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)04-0154-02

藏語(yǔ)作為藏族的母語(yǔ),同時(shí)也是中國(guó)重要的少數(shù)民族語(yǔ)言之一,其語(yǔ)音識(shí)別在信息化時(shí)代的如今,在解決語(yǔ)言溝通障礙,實(shí)時(shí)交流上的作用越來(lái)越受人重視。藏語(yǔ)主要分布于中國(guó)西藏自治區(qū)、青海、四川、甘肅、云南等省以及印度、尼泊爾、不丹錫金等國(guó)家地區(qū),是國(guó)內(nèi)外藏族同胞使用的主體語(yǔ)言[1]。目前實(shí)用型成果還未出現(xiàn),本文是在深度學(xué)習(xí)方法上對(duì)其進(jìn)行的研究。

1 MFCC特征提取

梅爾頻率倒譜系數(shù)MFCC)是基于人聽(tīng)覺(jué)的屏蔽效應(yīng)而來(lái)的,模擬人耳對(duì)于語(yǔ)音處理,其重點(diǎn)在于頻域內(nèi)波于波之間的i距離關(guān)系顯得尤為清楚[2]。利用相關(guān)對(duì)數(shù)公式,在MEL頻域內(nèi),將語(yǔ)音頻率劃分為MEL濾波器組,每個(gè)濾波器的中心頻率由于屏蔽效應(yīng)的非線(xiàn)性因素,使得其分布密度由頻率而定,但前一個(gè)和后一個(gè)濾波器與當(dāng)前濾波器有重合部分,以表征屏蔽效應(yīng)。我們利用MEL濾波器組得到MEL頻譜,在對(duì)MEL頻譜:進(jìn)行傅里葉逆變換得到的倒譜系數(shù)就是MEL頻率倒譜系數(shù)(MFCC)。

本項(xiàng)目的語(yǔ)音數(shù)據(jù)的采樣率為16KHz,比特率256kbps,時(shí)長(zhǎng)在6-10秒左右,大小在300kb左右,是句子級(jí)語(yǔ)音數(shù)據(jù),文件質(zhì)量高。對(duì)MFCC特征提取流程圖如圖1所示。

首先將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成數(shù)字矩陣,這是我們利用數(shù)字矩陣畫(huà)出的樣例聲音波形,如圖2所示。

其次我們經(jīng)過(guò)對(duì)MFCC特征提取后,再將所得的部分MEL頻率倒譜系數(shù)畫(huà)出相應(yīng)的熱力圖,如圖3所示。

2 聲學(xué)模型

LSTM模型是目前流行的用來(lái)處理語(yǔ)音識(shí)別的模型之一,它是在RNN模型的基礎(chǔ)上變形而成,用來(lái)解決當(dāng)傳播時(shí)間比,較長(zhǎng)而弓|起的網(wǎng)絡(luò)權(quán)重更新慢和梯度爆炸和消失問(wèn)題[3]。這些問(wèn)題會(huì)使RNN失去長(zhǎng)期信息帶來(lái)的長(zhǎng)距離依賴(lài),這使得他能夠處理像語(yǔ)音處理這類(lèi)與時(shí)間序列高度相關(guān)的問(wèn)題。

LSTM相比RNN的多了輸入門(mén)、遺忘門(mén)、輸出門(mén)以及一個(gè)隱藏狀態(tài),這種隱藏狀態(tài)包含將信息儲(chǔ)存較久且選擇性記憶網(wǎng)絡(luò)誤差回傳參數(shù)的存儲(chǔ)單元[3]。我們本文使用的前向傳播計(jì)算公式如下:

wij表示從神經(jīng)元i到j(luò)的連接權(quán)重,輸入a用表示輸出用b、d表示,主要激活函數(shù)為sigmoid和tanh兩種,下標(biāo)i、w、φ分別表示輸入門(mén)、輸出門(mén)、遺忘門(mén),sct為細(xì)胞隱藏狀態(tài),I為輸入層神經(jīng)元的個(gè)數(shù),H為隱層cell的個(gè)數(shù),C為隱藏狀態(tài)的個(gè)數(shù)。

LSTM的反向傳播算法也是使用梯度下降法迭代更新所有參數(shù),而計(jì)算方式則是基于損失函數(shù)的偏導(dǎo)數(shù),在此便不予以展開(kāi)。而本文使用的BiLSTM就是將LSTM的前向傳播和反向傳播算法相結(jié)合,類(lèi)似BP算法包含前向和反向傳播。

本文的總體模型是CNN_BiLSTM_CTC網(wǎng)絡(luò)模型,模型先由CNN卷積提取特征、池化層縮減模型大小一般該維度的值縮小一半,并提高特征魯棒性,而由于我們的模型層數(shù)較多且較為復(fù)雜,在每一次卷積層和池化層以及隨后的BiLSTM層都要有dropout操作,這可以忽略部分的特征檢測(cè)器,從而丟棄部分輸出以防止過(guò)擬合現(xiàn)象。在網(wǎng)絡(luò)最后生成的輸出序列中會(huì)產(chǎn)生與原先的輸入label序列不能一一對(duì)其,CTC(Connectionist Temporal Classification)則能有效解決此問(wèn)題,它使得模型的輸出能夠消除由于音素特征訓(xùn)練產(chǎn)生的重復(fù)結(jié)果,最終使得輸出序列與輸入序列一一對(duì)應(yīng),完整模型總體較為復(fù)雜,在此僅顯.示部分涉及BiLSTM的結(jié)構(gòu)圖,如圖4所示。

3 語(yǔ)言模型

我們?cè)谟?xùn)練的語(yǔ)料庫(kù)分為(衛(wèi)藏拉薩方言)語(yǔ)音數(shù)據(jù)、對(duì)應(yīng)的藏語(yǔ)文本、對(duì)應(yīng)的國(guó)際音標(biāo)文本。在聲學(xué)模型中輸入輸出的是國(guó)際音標(biāo)序列,通過(guò)2-gram語(yǔ)言模型,,使用隱馬爾科夫鏈尋找音標(biāo)序列對(duì)應(yīng)的文字概率序列。

2-gram語(yǔ)言模型,就是兩個(gè)字為一組,將所有語(yǔ)句從第一個(gè)字開(kāi)始與第二個(gè)字為宜組,然后第二個(gè)字開(kāi)始與第三個(gè)字為一組,再第三個(gè)……逐字進(jìn)行化組,然后建立相關(guān)2-gram詞典,然后每次化組都會(huì)更新詞典生成新組或增加某一組頻率值。

對(duì)于藏語(yǔ)的國(guó)際音標(biāo)我們采用龍從軍等人的藏語(yǔ)國(guó)際音標(biāo)轉(zhuǎn)換方案。從藏文文本到國(guó)際音標(biāo)的轉(zhuǎn)換總體上需要經(jīng)過(guò)三個(gè)大的階段,首先是分詞,其次是音標(biāo)轉(zhuǎn)換,最后是變音變調(diào)[6]。

4 實(shí)驗(yàn)結(jié)果

本文語(yǔ)料數(shù)據(jù)一共40200個(gè)語(yǔ)音語(yǔ)料,以9:1切分語(yǔ)料為訓(xùn)練語(yǔ)料和測(cè)試預(yù)料。訓(xùn)練出的聲學(xué)模型的訓(xùn)練PER值為28.34%,測(cè)試PER值為35.51%。而由于語(yǔ)言模型較差,在轉(zhuǎn)文字的正確率上只有訓(xùn)練數(shù)據(jù)的單字能有70%以上。

5 結(jié)束語(yǔ)

本文最終實(shí)現(xiàn)了從語(yǔ)音到文本的識(shí)別,雖然語(yǔ)料能夠滿(mǎn)足,但由于存在國(guó)際音標(biāo)轉(zhuǎn)換復(fù)雜性,實(shí)踐上有部分的錯(cuò)誤,音標(biāo)轉(zhuǎn)換不夠準(zhǔn)確,且音素轉(zhuǎn)文本的語(yǔ)言模型很簡(jiǎn)單,未能將語(yǔ)言模型進(jìn)行深度學(xué)習(xí)的訓(xùn)練,使得在轉(zhuǎn)文字上錯(cuò)誤了大幅上升。

對(duì)于藏語(yǔ)語(yǔ)音識(shí)別而言,有一套快速而又成熟的國(guó)際音標(biāo)轉(zhuǎn)換方案顯得迫在眉睫,這可以使得更多的人能夠參與藏語(yǔ)語(yǔ)音的識(shí)別且能讓研究者將精力從語(yǔ)料準(zhǔn)備上抽離出來(lái),更好的編寫(xiě)聲學(xué)模型和語(yǔ)言模型。

參考文獻(xiàn):

[1]姚徐,李永宏,單廣“榮,等.藏語(yǔ)孤立詞語(yǔ)音識(shí)別系統(tǒng)研究[J].西北民族大學(xué)學(xué)報(bào):自然科學(xué)版,2009,30(1):29-36+50.

[2]BARUA P,AHMAD K,KHAN A A S,et al.Neural networkbased recognition of speech using MFCC features[C].International Conference on Informatics,Electronics & Vision.IEEE,2014:1-6.

[3]趙淑芳,董小雨.基于改進(jìn)的LSTM深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別研究[J].鄭州大學(xué)學(xué)報(bào):工學(xué)版,2018,39(05):63-67.

[4]余凱,賈磊,陳雨強(qiáng),徐偉.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究發(fā)展,2013,50(9):1799-1804.

[5]史笑興,顧明亮,王太君,等.一種時(shí)間規(guī)整算法在神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別中的應(yīng)用[J].東南大學(xué)學(xué)報(bào),1999,29(5):47-51.

[6]龍從軍,劉匯丹,吳健.藏文國(guó)際音標(biāo)(拉薩音)自動(dòng)轉(zhuǎn)換研究[J].中文信息學(xué)報(bào) 2016,30(5):203-208+214.

[通聯(lián)編輯:代影]

猜你喜歡
語(yǔ)言模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語(yǔ)言描寫(xiě)搖曳多姿
多向度交往對(duì)語(yǔ)言磨蝕的補(bǔ)正之道
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
我有我語(yǔ)言
主站蜘蛛池模板: 国产精品一区二区国产主播| 婷婷午夜影院| 国产无人区一区二区三区| 亚洲毛片一级带毛片基地| 69视频国产| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产精品成人一区二区| 国产免费人成视频网| 国产午夜一级淫片| 在线毛片网站| 亚洲色图欧美一区| 亚洲日韩精品综合在线一区二区| 亚洲精品无码成人片在线观看| 暴力调教一区二区三区| 国产av一码二码三码无码| 国产精品白浆无码流出在线看| 亚洲成人网在线播放| 国产欧美高清| 成人一区专区在线观看| 欧美黄网站免费观看| yy6080理论大片一级久久| 免费无遮挡AV| 色综合久久88| 国产成人精品视频一区视频二区| 日本一区二区三区精品视频| 精品一区二区三区波多野结衣| 高清欧美性猛交XXXX黑人猛交 | 欧美成a人片在线观看| 国产精品制服| 亚洲av片在线免费观看| 日韩黄色在线| 精品无码人妻一区二区| 欧美一级在线| 5555国产在线观看| 国产经典免费播放视频| 亚洲成人一区二区三区| 她的性爱视频| 国产视频久久久久| 91视频青青草| 人人妻人人澡人人爽欧美一区| 91在线播放免费不卡无毒| 伊人天堂网| 高潮毛片免费观看| 国产成人毛片| 国产精品国产三级国产专业不| 刘亦菲一区二区在线观看| 国产网站免费观看| 九色综合视频网| 亚洲乱强伦| AV片亚洲国产男人的天堂| 久久精品亚洲中文字幕乱码| 狠狠做深爱婷婷久久一区| 久久人午夜亚洲精品无码区| 激情成人综合网| 亚洲制服中文字幕一区二区| 日本国产精品一区久久久| 婷婷伊人五月| 国产精品视频白浆免费视频| 九九九久久国产精品| 亚洲无码视频喷水| 五月婷婷中文字幕| 一区二区欧美日韩高清免费| 区国产精品搜索视频| 亚洲中文字幕在线精品一区| av午夜福利一片免费看| 国产精品护士| 国产午夜人做人免费视频中文| 精品91视频| 欧美日韩资源| 狼友视频一区二区三区| 亚洲精品天堂自在久久77| 国产在线自乱拍播放| 91久久国产成人免费观看| 午夜福利网址| 久久婷婷六月| 久99久热只有精品国产15| 九色视频线上播放| 国产成人精品第一区二区| 91视频日本| 超碰aⅴ人人做人人爽欧美| 国产女人综合久久精品视| 中国一级特黄大片在线观看|