基于LSTM的藏語(yǔ)語(yǔ)音識(shí)別

2020-04-14 04:54:29郭龍銀扎西多吉尚慧杰旦增

電腦知識(shí)與技術(shù) 2020年4期

郭龍銀扎西多吉尚慧杰旦增

摘要：針對(duì)藏語(yǔ)語(yǔ)音識(shí)別處理的步驟，首先將藏語(yǔ)語(yǔ)料的國(guó)際音標(biāo)轉(zhuǎn)換，其次根據(jù)人耳對(duì)語(yǔ)音的處理方式，使用MFCC進(jìn)行語(yǔ)音特征提取，再構(gòu)建CNN_BiLSTM_CTC聲學(xué)模型，最后利用2-gram語(yǔ)言模型進(jìn)行音標(biāo)與文字的轉(zhuǎn)換。該文最終實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文本，并在音標(biāo)識(shí)別上有較好的準(zhǔn)確率。

關(guān)鍵詞：藏語(yǔ);語(yǔ)音識(shí)別;MFCC;CNN_BiLSTM_CTC;2-gram .

中圖分類(lèi)號(hào)：TP183

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2020）04-0154-02

藏語(yǔ)作為藏族的母語(yǔ)，同時(shí)也是中國(guó)重要的少數(shù)民族語(yǔ)言之一，其語(yǔ)音識(shí)別在信息化時(shí)代的如今，在解決語(yǔ)言溝通障礙，實(shí)時(shí)交流上的作用越來(lái)越受人重視。藏語(yǔ)主要分布于中國(guó)西藏自治區(qū)、青海、四川、甘肅、云南等省以及印度、尼泊爾、不丹錫金等國(guó)家地區(qū)，是國(guó)內(nèi)外藏族同胞使用的主體語(yǔ)言[1]。目前實(shí)用型成果還未出現(xiàn)，本文是在深度學(xué)習(xí)方法上對(duì)其進(jìn)行的研究。

1 MFCC特征提取

梅爾頻率倒譜系數(shù)MFCC）是基于人聽(tīng)覺(jué)的屏蔽效應(yīng)而來(lái)的，模擬人耳對(duì)于語(yǔ)音處理，其重點(diǎn)在于頻域內(nèi)波于波之間的i距離關(guān)系顯得尤為清楚[2]。利用相關(guān)對(duì)數(shù)公式，在MEL頻域內(nèi)，將語(yǔ)音頻率劃分為MEL濾波器組，每個(gè)濾波器的中心頻率由于屏蔽效應(yīng)的非線(xiàn)性因素，使得其分布密度由頻率而定，但前一個(gè)和后一個(gè)濾波器與當(dāng)前濾波器有重合部分，以表征屏蔽效應(yīng)。我們利用MEL濾波器組得到MEL頻譜，在對(duì)MEL頻譜：進(jìn)行傅里葉逆變換得到的倒譜系數(shù)就是MEL頻率倒譜系數(shù)（MFCC）。

本項(xiàng)目的語(yǔ)音數(shù)據(jù)的采樣率為16KHz，比特率256kbps，時(shí)長(zhǎng)在6-10秒左右，大小在300kb左右，是句子級(jí)語(yǔ)音數(shù)據(jù)，文件質(zhì)量高。對(duì)MFCC特征提取流程圖如圖1所示。

首先將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成數(shù)字矩陣，這是我們利用數(shù)字矩陣畫(huà)出的樣例聲音波形，如圖2所示。

其次我們經(jīng)過(guò)對(duì)MFCC特征提取后，再將所得的部分MEL頻率倒譜系數(shù)畫(huà)出相應(yīng)的熱力圖，如圖3所示。

2 聲學(xué)模型

LSTM模型是目前流行的用來(lái)處理語(yǔ)音識(shí)別的模型之一，它是在RNN模型的基礎(chǔ)上變形而成，用來(lái)解決當(dāng)傳播時(shí)間比，較長(zhǎng)而弓|起的網(wǎng)絡(luò)權(quán)重更新慢和梯度爆炸和消失問(wèn)題[3]。這些問(wèn)題會(huì)使RNN失去長(zhǎng)期信息帶來(lái)的長(zhǎng)距離依賴(lài)，這使得他能夠處理像語(yǔ)音處理這類(lèi)與時(shí)間序列高度相關(guān)的問(wèn)題。

LSTM相比RNN的多了輸入門(mén)、遺忘門(mén)、輸出門(mén)以及一個(gè)隱藏狀態(tài)，這種隱藏狀態(tài)包含將信息儲(chǔ)存較久且選擇性記憶網(wǎng)絡(luò)誤差回傳參數(shù)的存儲(chǔ)單元[3]。我們本文使用的前向傳播計(jì)算公式如下：

wij表示從神經(jīng)元i到j(luò)的連接權(quán)重，輸入a用表示輸出用b、d表示，主要激活函數(shù)為sigmoid和tanh兩種，下標(biāo)i、w、φ分別表示輸入門(mén)、輸出門(mén)、遺忘門(mén)，sct為細(xì)胞隱藏狀態(tài)，I為輸入層神經(jīng)元的個(gè)數(shù)，H為隱層cell的個(gè)數(shù)，C為隱藏狀態(tài)的個(gè)數(shù)。

LSTM的反向傳播算法也是使用梯度下降法迭代更新所有參數(shù)，而計(jì)算方式則是基于損失函數(shù)的偏導(dǎo)數(shù)，在此便不予以展開(kāi)。而本文使用的BiLSTM就是將LSTM的前向傳播和反向傳播算法相結(jié)合，類(lèi)似BP算法包含前向和反向傳播。

本文的總體模型是CNN_BiLSTM_CTC網(wǎng)絡(luò)模型，模型先由CNN卷積提取特征、池化層縮減模型大小一般該維度的值縮小一半，并提高特征魯棒性，而由于我們的模型層數(shù)較多且較為復(fù)雜，在每一次卷積層和池化層以及隨后的BiLSTM層都要有dropout操作，這可以忽略部分的特征檢測(cè)器，從而丟棄部分輸出以防止過(guò)擬合現(xiàn)象。在網(wǎng)絡(luò)最后生成的輸出序列中會(huì)產(chǎn)生與原先的輸入label序列不能一一對(duì)其，CTC（Connectionist Temporal Classification）則能有效解決此問(wèn)題，它使得模型的輸出能夠消除由于音素特征訓(xùn)練產(chǎn)生的重復(fù)結(jié)果，最終使得輸出序列與輸入序列一一對(duì)應(yīng)，完整模型總體較為復(fù)雜，在此僅顯.示部分涉及BiLSTM的結(jié)構(gòu)圖，如圖4所示。

3 語(yǔ)言模型

我們?cè)谟?xùn)練的語(yǔ)料庫(kù)分為（衛(wèi)藏拉薩方言）語(yǔ)音數(shù)據(jù)、對(duì)應(yīng)的藏語(yǔ)文本、對(duì)應(yīng)的國(guó)際音標(biāo)文本。在聲學(xué)模型中輸入輸出的是國(guó)際音標(biāo)序列，通過(guò)2-gram語(yǔ)言模型，，使用隱馬爾科夫鏈尋找音標(biāo)序列對(duì)應(yīng)的文字概率序列。

2-gram語(yǔ)言模型，就是兩個(gè)字為一組，將所有語(yǔ)句從第一個(gè)字開(kāi)始與第二個(gè)字為宜組，然后第二個(gè)字開(kāi)始與第三個(gè)字為一組，再第三個(gè)……逐字進(jìn)行化組，然后建立相關(guān)2-gram詞典，然后每次化組都會(huì)更新詞典生成新組或增加某一組頻率值。

對(duì)于藏語(yǔ)的國(guó)際音標(biāo)我們采用龍從軍等人的藏語(yǔ)國(guó)際音標(biāo)轉(zhuǎn)換方案。從藏文文本到國(guó)際音標(biāo)的轉(zhuǎn)換總體上需要經(jīng)過(guò)三個(gè)大的階段，首先是分詞，其次是音標(biāo)轉(zhuǎn)換，最后是變音變調(diào)[6]。

4 實(shí)驗(yàn)結(jié)果

本文語(yǔ)料數(shù)據(jù)一共40200個(gè)語(yǔ)音語(yǔ)料，以9：1切分語(yǔ)料為訓(xùn)練語(yǔ)料和測(cè)試預(yù)料。訓(xùn)練出的聲學(xué)模型的訓(xùn)練PER值為28.34%，測(cè)試PER值為35.51%。而由于語(yǔ)言模型較差，在轉(zhuǎn)文字的正確率上只有訓(xùn)練數(shù)據(jù)的單字能有70%以上。

5 結(jié)束語(yǔ)

本文最終實(shí)現(xiàn)了從語(yǔ)音到文本的識(shí)別，雖然語(yǔ)料能夠滿(mǎn)足，但由于存在國(guó)際音標(biāo)轉(zhuǎn)換復(fù)雜性，實(shí)踐上有部分的錯(cuò)誤，音標(biāo)轉(zhuǎn)換不夠準(zhǔn)確，且音素轉(zhuǎn)文本的語(yǔ)言模型很簡(jiǎn)單，未能將語(yǔ)言模型進(jìn)行深度學(xué)習(xí)的訓(xùn)練，使得在轉(zhuǎn)文字上錯(cuò)誤了大幅上升。

對(duì)于藏語(yǔ)語(yǔ)音識(shí)別而言，有一套快速而又成熟的國(guó)際音標(biāo)轉(zhuǎn)換方案顯得迫在眉睫，這可以使得更多的人能夠參與藏語(yǔ)語(yǔ)音的識(shí)別且能讓研究者將精力從語(yǔ)料準(zhǔn)備上抽離出來(lái)，更好的編寫(xiě)聲學(xué)模型和語(yǔ)言模型。

參考文獻(xiàn)：

[1]姚徐，李永宏，單廣“榮，等.藏語(yǔ)孤立詞語(yǔ)音識(shí)別系統(tǒng)研究[J].西北民族大學(xué)學(xué)報(bào)：自然科學(xué)版，2009，30（1）：29-36+50.

[2]BARUA P，AHMAD K，KHAN A A S，et al.Neural networkbased recognition of speech using MFCC features[C].International Conference on Informatics，Electronics & Vision.IEEE，2014：1-6.

[3]趙淑芳，董小雨.基于改進(jìn)的LSTM深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別研究[J].鄭州大學(xué)學(xué)報(bào)：工學(xué)版，2018，39（05）：63-67.

[4]余凱，賈磊，陳雨強(qiáng)，徐偉.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究發(fā)展，2013，50（9）：1799-1804.

[5]史笑興，顧明亮，王太君，等.一種時(shí)間規(guī)整算法在神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別中的應(yīng)用[J].東南大學(xué)學(xué)報(bào)，1999，29（5）：47-51.

[6]龍從軍，劉匯丹，吳健.藏文國(guó)際音標(biāo)（拉薩音）自動(dòng)轉(zhuǎn)換研究[J].中文信息學(xué)報(bào) 2016，30（5）：203-208+214.

[通聯(lián)編輯：代影]