999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)Inception-ResNet_v2的低資源少數(shù)民族語(yǔ)音識(shí)別

2022-08-25 09:56:44賈嘉敏潘文林
軟件導(dǎo)刊 2022年8期
關(guān)鍵詞:特征實(shí)驗(yàn)模型

賈嘉敏,潘文林

(云南民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南昆明 650500)

0 引言

語(yǔ)言是人類相互間傳遞信息最原始、便捷的工具,更是文化傳承的重要載體[1]。漢語(yǔ)和少數(shù)民族語(yǔ)言作為中華民族文化的瑰寶,更是一個(gè)民族重要的象征。然而,在當(dāng)今全球化發(fā)展的進(jìn)程中,伴隨著各民族文化的融合,少數(shù)民族語(yǔ)言文化遺產(chǎn)的傳承與保護(hù)迫在眉睫。其中,對(duì)于跨中緬邊境的少數(shù)民族——佤族而言,為維護(hù)邊境穩(wěn)定、增強(qiáng)國(guó)家認(rèn)同,對(duì)其語(yǔ)言的傳承與保護(hù)顯得更加重要[2-3]。相比于語(yǔ)言資源豐富的漢語(yǔ)、壯語(yǔ)等語(yǔ)種,佤語(yǔ)因使用人數(shù)較少,較難收集到大量語(yǔ)料用于語(yǔ)音識(shí)別研究[4]。在當(dāng)前參差不齊的語(yǔ)言環(huán)境下,很多少數(shù)民族語(yǔ)言正面臨消亡的危險(xiǎn)境地。故對(duì)于低資源的少數(shù)民族語(yǔ)言開(kāi)展相應(yīng)的語(yǔ)音識(shí)別研究具有極為重要的文化保護(hù)價(jià)值。通過(guò)積極推動(dòng)少數(shù)民族語(yǔ)言文化研究,能更好地對(duì)其進(jìn)行保護(hù)與傳承,也是響應(yīng)我國(guó)推動(dòng)社會(huì)主義文化大發(fā)展、大繁榮的號(hào)召,推動(dòng)語(yǔ)言及文化的多元發(fā)展。

現(xiàn)階段對(duì)于少數(shù)民族的語(yǔ)音識(shí)別研究主要是從基于語(yǔ)音信號(hào)[5]和語(yǔ)譜圖[6]兩個(gè)角度切入。針對(duì)基于語(yǔ)音信號(hào)的語(yǔ)音識(shí)別研究,李余芳等[7]分別利用特定發(fā)音人和非特定發(fā)音人所錄的語(yǔ)音進(jìn)行隱馬爾可夫模型(Hidden Markov Model,HMM)訓(xùn)練,對(duì)普米語(yǔ)孤立詞進(jìn)行識(shí)別;趙爾平等[8]利用藏語(yǔ)語(yǔ)音學(xué)特征提出改進(jìn)的藏語(yǔ)孤立詞語(yǔ)音識(shí)別方法,識(shí)別精度可達(dá)92.83%;胡文君等[9]利用kaldi 分別訓(xùn)練5種不同的聲學(xué)模型,發(fā)現(xiàn)G-DNN 模型的普米語(yǔ)語(yǔ)音識(shí)別率明顯高于Monophone、Triphone1、Triphone2 及OSGMM 模型;穆凱代姆罕·伊敏江等[10]構(gòu)建CNN-HMM 聲學(xué)模型和遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)語(yǔ)言模型,提升了維吾爾語(yǔ)語(yǔ)音識(shí)別精度;黃曉輝等[11]通過(guò)探究循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)于藏語(yǔ)具有更好的識(shí)別性能,驗(yàn)證了Bi-LSTM-CTC 模型應(yīng)用于藏語(yǔ)語(yǔ)音聲學(xué)建模的可行性。針對(duì)基于語(yǔ)譜圖的語(yǔ)音識(shí)別研究,董華珍[12]引入基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)譜圖模型,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)對(duì)普米語(yǔ)孤立詞語(yǔ)譜圖分類進(jìn)行探究,驗(yàn)證其算法的可行性;侯俊龍等[13]將剪枝的卷積神經(jīng)網(wǎng)絡(luò)AlexNet 模型用于普米語(yǔ)孤立詞識(shí)別,識(shí)別精度高達(dá)98.53%;楊建香[14]基于殘差網(wǎng)絡(luò)的佤語(yǔ)孤立詞語(yǔ)音識(shí)別精度可達(dá)96.3%,且連續(xù)語(yǔ)音語(yǔ)譜圖識(shí)別率為90.2%,驗(yàn)證了其模型具有良好的魯棒性。

上述工作都獲得了相當(dāng)不錯(cuò)的成果,但是其中針對(duì)語(yǔ)譜圖的研究中,數(shù)據(jù)集設(shè)計(jì)存在不足之處,即同一個(gè)說(shuō)話人說(shuō)的詞會(huì)同時(shí)出現(xiàn)在訓(xùn)練集和測(cè)試集中,在模型訓(xùn)練過(guò)程中會(huì)產(chǎn)生過(guò)擬合的可能。因此,在低資源的少數(shù)民族語(yǔ)音識(shí)別中應(yīng)更加合理地設(shè)計(jì)數(shù)據(jù)集劃分,以驗(yàn)證模型的有效性。

同時(shí),近年來(lái)隨著計(jì)算性能的不斷提升以及數(shù)據(jù)量的飛速增長(zhǎng),各種新型神經(jīng)網(wǎng)絡(luò)模型不斷涌現(xiàn),如Inception[15]、Resnet[16]、Transformer[17]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)[18]等模型可從空間維度層面提升網(wǎng)絡(luò)性能,相關(guān)研究都取得了不錯(cuò)的成果。然而,受限于佤語(yǔ)語(yǔ)料采集難度較大及研究基礎(chǔ)薄弱等問(wèn)題,Inception 模型在語(yǔ)音識(shí)別上的應(yīng)用研究未能進(jìn)一步深入。因此,本文嘗試將Inception 模型應(yīng)用于佤語(yǔ)的語(yǔ)音識(shí)別研究中,并在此基礎(chǔ)上結(jié)合擠壓—激勵(lì)模塊(Squeeze-and-Excitation Block,SE-Block)構(gòu)建一種更優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)模型,以驗(yàn)證該模型應(yīng)用于少數(shù)民族語(yǔ)音識(shí)別的可行性。

1 模型介紹

1.1 Inception-ResNet_v2網(wǎng)絡(luò)

Inception-ResNet_v2 模型由Google 團(tuán)隊(duì)于2016 年提出,其是在Inception 模型中引入Resnet 結(jié)構(gòu)而生成的[19]。其中,Inception 結(jié)構(gòu)是通過(guò)嵌入可提取多尺度信息的過(guò)濾器,并聚合來(lái)自不同感受野上的特征,從而實(shí)現(xiàn)性能的增益,同時(shí)采用1x1 卷積核進(jìn)行降維處理以減少計(jì)算量。引入ResNet 結(jié)構(gòu)可減少因?qū)訑?shù)增多而造成的過(guò)擬合及梯度消失現(xiàn)象,從而有效地加速收斂。Inception-ResNet_v2 模型結(jié)構(gòu)如圖1所示。

Fig.1 Inception-ResNet_v2 model structure圖1 Inception-ResNet_v2模型結(jié)構(gòu)

該模型是基于原Inception 模型的進(jìn)一步改進(jìn)。對(duì)于輸入的299*299*3 語(yǔ)譜圖,先執(zhí)行初始操作集Stem 模塊,以獲得更深的網(wǎng)絡(luò)結(jié)構(gòu)。在進(jìn)入Inception-Resnet 模塊時(shí),Inception 模塊內(nèi)的原池化操作被替換為殘差連接,即在Inception 中加入ResNet 思想,并在add 之前使用線性的1x1卷積對(duì)齊維度。Inception-Resnet A、B、C 3 組模塊結(jié)構(gòu)相似,不同的是卷積核大小和尺度個(gè)數(shù),其中Inception-ResNet 結(jié)構(gòu)如圖2 所示。同時(shí)引入專門的Reduction 模塊用于改變特征圖大小,該模塊同樣采用多尺度信息提取的Inception 結(jié)構(gòu),以防止出現(xiàn)bottleneck 問(wèn)題。

Fig.2 Inception-ResNet structure圖2 Inception-ResNet結(jié)構(gòu)

1.2 SE-Block模塊

Squeeze-and-Excitation Block(簡(jiǎn)稱SE-Block)是一種全新的特征重標(biāo)定模塊。通過(guò)學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征通道權(quán)重,然后依照其權(quán)重大小提高對(duì)當(dāng)前任務(wù)有用的特征信息權(quán)重,并抑制對(duì)當(dāng)前任務(wù)作用不大的特征信息權(quán)重,從而加快網(wǎng)絡(luò)訓(xùn)練速度[20]。SE-Block 并不是一個(gè)完整的網(wǎng)絡(luò)結(jié)構(gòu),而是一個(gè)子結(jié)構(gòu),可嵌入到其他主流的分類、檢測(cè)模型中。將其引入到各種網(wǎng)絡(luò)模型中,可提高該網(wǎng)絡(luò)對(duì)特征維度的信息通道選擇能力,從而達(dá)到優(yōu)化網(wǎng)絡(luò)性能的目的。故本文嘗試將SE-Block 插入Inception-ResNet_v2中并進(jìn)行微調(diào),訓(xùn)練出優(yōu)化后的模型。

SE-Block 示意圖如圖3 所示(彩圖掃OSID 碼可見(jiàn),下同)。

Fig.3 SE-Block diagram圖3 SE-Block示意圖

對(duì)于一個(gè)給定的特征圖,SE-Block 將通過(guò)如下步驟進(jìn)行特征重標(biāo)定:

Step2:通過(guò)Squeeze 操作進(jìn)行特征壓縮,將每個(gè)二維平面的特征通道擠壓成一個(gè)實(shí)數(shù),如式(2)所示。每個(gè)實(shí)數(shù)等價(jià)于具有全局的感受野,并且輸出的維度個(gè)數(shù)與輸入的特征通道數(shù)相對(duì)應(yīng)。

Step3:為利用上一步操作中聚集的信息,通過(guò)Excitation操作進(jìn)行自適應(yīng)調(diào)整,如式(3)所示。

通過(guò)FC-ReLU-FC-Sigmoid 的過(guò)程得到一個(gè)維度為1 × 1 ×C的s,其作為特征通道的權(quán)重,以表征特征通道的重要程度。

Step4:最后進(jìn)行Reweight 操作,將對(duì)應(yīng)通道的每個(gè)元素與Excitation 的輸出權(quán)重分別相乘,如式(4)所示,從而實(shí)現(xiàn)了在通道維度上對(duì)原始特征的重標(biāo)定。

SE-Block 的嵌入增加了網(wǎng)絡(luò)中的特征權(quán)重,即增大有效權(quán)重所占比重。

1.3 改進(jìn)的Inception-ResNet_v2網(wǎng)絡(luò)

SE-Block 具有高效性與靈活性,目前已廣泛應(yīng)用于圖像識(shí)別中。為提取到更精細(xì)的語(yǔ)譜圖特征,本文參考文獻(xiàn)[21]中的方法,嘗試將SE-Block 嵌入Inception-ResNet_v2模型中,探究SE-Block 對(duì)加強(qiáng)語(yǔ)譜圖信息提取的能力,并把激活函數(shù)由原本的ReLU 替換為L(zhǎng)eaky ReLU,從而進(jìn)一步提高語(yǔ)音識(shí)別精度。具體方法為在每個(gè)Inception-ResNet 模塊后加入SE-Block 進(jìn)行特征重標(biāo)定,以提升模型對(duì)channel特征的敏感性。

改進(jìn)的Inception-ResNet_v2 網(wǎng)絡(luò)模型總體結(jié)構(gòu)如圖4所示。

Fig.4 Overall structure of the model in this paper圖4 本文模型總體結(jié)構(gòu)

2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

2.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

本文的實(shí)驗(yàn)環(huán)境主要在Python 開(kāi)發(fā)環(huán)境中,使用TensorFlow 深度學(xué)習(xí)框架進(jìn)行搭建,操作系統(tǒng)為Win10.0。

實(shí)驗(yàn)選用佤語(yǔ)作為研究對(duì)象,所用的佤語(yǔ)語(yǔ)料庫(kù)為300 個(gè)孤立詞,由2 男2 女分別重復(fù)讀5 遍生成,共得到6 000 條孤立詞語(yǔ)音。后期分別對(duì)語(yǔ)音語(yǔ)料進(jìn)行歸類整理,生成300類帶標(biāo)簽的佤語(yǔ)孤立詞語(yǔ)音語(yǔ)料庫(kù)。

為實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)的精確識(shí)別,實(shí)驗(yàn)前期首先對(duì)語(yǔ)料庫(kù)中的原始語(yǔ)音信號(hào)進(jìn)行傅里葉變換,生成對(duì)應(yīng)語(yǔ)譜圖(見(jiàn)圖5),然后通過(guò)reshape 將每張語(yǔ)譜圖固定為同樣大小,即生成大小均為299×299×3 的6 000 張佤語(yǔ)孤立詞語(yǔ)譜圖,最終組成本次實(shí)驗(yàn)所需的數(shù)據(jù)集。在圖5 中,如標(biāo)記13_1_2是指由第一個(gè)人讀的第13個(gè)孤立詞的第2遍。

Fig.5 Phonological spectrogram of isolated words in Wa language圖5 佤語(yǔ)孤立詞語(yǔ)音語(yǔ)譜圖

2.2 實(shí)驗(yàn)過(guò)程

少數(shù)民族孤立詞語(yǔ)音識(shí)別訓(xùn)練流程如圖6 所示。首先通過(guò)對(duì)原始語(yǔ)音信號(hào)進(jìn)行數(shù)據(jù)預(yù)處理,得到各條語(yǔ)音對(duì)應(yīng)的語(yǔ)譜圖;然后將數(shù)據(jù)集中的所有數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,再將其輸入到改進(jìn)的Inception-ResNet_v2 模型中進(jìn)行訓(xùn)練,經(jīng)Softmax 輸出分類結(jié)果;通過(guò)觀察驗(yàn)證集精度是否達(dá)預(yù)期精度要求,不斷進(jìn)行調(diào)參優(yōu)化訓(xùn)練,直至超過(guò)預(yù)期精度值;最后在測(cè)試集上進(jìn)行測(cè)試,得到對(duì)應(yīng)的模型識(shí)別結(jié)果。

對(duì)于數(shù)據(jù)集劃分作如下設(shè)計(jì):對(duì)于佤語(yǔ)數(shù)據(jù)集,說(shuō)話者共有4 人,選取其中3 位發(fā)音人的語(yǔ)音數(shù)據(jù)作為訓(xùn)練集和驗(yàn)證集(其中訓(xùn)練集占比90%,驗(yàn)證集占比10%),另外1位發(fā)音人的語(yǔ)音數(shù)據(jù)作為測(cè)試集進(jìn)行實(shí)驗(yàn),得出相應(yīng)的識(shí)別精度作為模型的識(shí)別精度值。

Fig.6 Training process of minority isolated word speech recognition圖6 少數(shù)民族孤立詞語(yǔ)音識(shí)別訓(xùn)練流程

2.3 實(shí)驗(yàn)結(jié)果分析

2.3.1 不同學(xué)習(xí)率訓(xùn)練情況

為了觀察學(xué)習(xí)率對(duì)模型泛化性能的影響,分別對(duì)不同學(xué)習(xí)率進(jìn)行對(duì)比實(shí)驗(yàn)。同樣都訓(xùn)練300 輪,在改進(jìn)的Inception-ResNet_v2 模型中對(duì)佤語(yǔ)孤立詞語(yǔ)音分別進(jìn)行訓(xùn)練,并以驗(yàn)證集精度和損失變化曲線作為衡量指標(biāo)進(jìn)行性能評(píng)估。圖7 為取不同學(xué)習(xí)率α(0.000 5、0.001 5、0.005、0.007 5),在佤語(yǔ)數(shù)據(jù)集上的訓(xùn)練情況。可明顯看出,隨著學(xué)習(xí)率的不斷提高,模型收斂速度與精度都顯著提高。當(dāng)學(xué)習(xí)率達(dá)到0.005 時(shí),模型收斂速度明顯變快,精度也達(dá)到最高。但當(dāng)學(xué)習(xí)率繼續(xù)提高至0.0075 時(shí),模型精度則出現(xiàn)下降,實(shí)驗(yàn)效果變差。

2.3.2 不同動(dòng)量訓(xùn)練情況

在模型訓(xùn)練中,動(dòng)量可加速SDG 在某一方向上的搜索以及減少震蕩現(xiàn)象。當(dāng)前后梯度方向一致時(shí),動(dòng)量梯度下降可加速學(xué)習(xí)。而當(dāng)前后梯度方向不一致時(shí),動(dòng)量梯度下降可抑制震蕩。因此,本次實(shí)驗(yàn)在其他條件不變的情況下,選取學(xué)習(xí)率為0.005,訓(xùn)練300 輪次,對(duì)比不同動(dòng)量下梯度下降法的效果,如圖8所示。

實(shí)驗(yàn)將參數(shù)β設(shè)為0.5、0.9、0.98,分別表示最大速度2倍、10 倍、50 倍于SGD 的算法。通過(guò)對(duì)不同超參數(shù)β的對(duì)比研究,發(fā)現(xiàn)當(dāng)β為0.9 時(shí),在訓(xùn)練期間的震蕩明顯減弱,過(guò)程更加平穩(wěn),故此實(shí)驗(yàn)取動(dòng)量β=0.9。

Fig.7 Training in Wa language dataset with different learning rates圖7 不同學(xué)習(xí)率下佤語(yǔ)數(shù)據(jù)集訓(xùn)練情況

Fig.8 Training of Wa language dataset under different momentum圖8 不同動(dòng)量下佤語(yǔ)數(shù)據(jù)集訓(xùn)練情況

根據(jù)以上對(duì)比實(shí)驗(yàn)與反復(fù)調(diào)試,最終確定模型超參數(shù)如下:學(xué)習(xí)率α為0.005,動(dòng)量β為0.9,批大小為16。通過(guò)上述實(shí)驗(yàn)訓(xùn)練,實(shí)現(xiàn)了改進(jìn)的Inception-ResNet_v2 模型對(duì)佤語(yǔ)孤立詞語(yǔ)音的識(shí)別。

2.3.3 不同模型下語(yǔ)音識(shí)別精度

為驗(yàn)證本文方法的有效性,選擇Inception_v1、Inception_v4、Resnet_50 與Inception_resnet_v2 進(jìn)行對(duì)比實(shí)驗(yàn)。表1 為不同模型在佤語(yǔ)孤立詞語(yǔ)音識(shí)別中的精度比較,由表中數(shù)據(jù)可知,加入SE-Block 后的Inception_Resnet_v2 模型效果得到進(jìn)一步提升,相較于其他主流模型,改進(jìn)的Inception_Resnet_v2模型識(shí)別精度最高,達(dá)到80.02%。

Table 1 Comparison of the accuracy of different models in Wa isolated word speech recognition表1 不同模型在佤語(yǔ)孤立詞語(yǔ)音識(shí)別中的精度比較

3 結(jié)語(yǔ)

本文提出基于改進(jìn)Inception-Resnet_v2 的少數(shù)民族孤立詞語(yǔ)音識(shí)別方法,通過(guò)引入SE-Block 模塊,增強(qiáng)了模型的特征提取能力,在對(duì)非特定人的佤語(yǔ)孤立詞識(shí)別中取得了較好效果。實(shí)驗(yàn)結(jié)果表明,該模型的識(shí)別性能最優(yōu),識(shí)別精度可達(dá)80.02%。證明本文方法可較好地應(yīng)用于低資源少數(shù)民族語(yǔ)音識(shí)別中,為低資源少數(shù)民族語(yǔ)音識(shí)別提供了新思路。在接下來(lái)的工作中,可繼續(xù)擴(kuò)充語(yǔ)料庫(kù)以解決說(shuō)話人數(shù)較少的問(wèn)題,在進(jìn)一步提升模型識(shí)別精度的同時(shí),為探究少數(shù)民族連續(xù)語(yǔ)音識(shí)別打下基礎(chǔ)。

猜你喜歡
特征實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
主站蜘蛛池模板: 国产区在线观看视频| 少妇被粗大的猛烈进出免费视频| 在线欧美日韩国产| 国产视频一区二区在线观看| 91久久夜色精品| 精品无码视频在线观看| 成人在线综合| 9啪在线视频| 亚洲欧洲日韩国产综合在线二区| 亚洲视频二| 狠狠色狠狠色综合久久第一次| 亚洲va在线观看| 精品久久人人爽人人玩人人妻| 国产成人艳妇AA视频在线| 日韩黄色精品| 国产成人免费手机在线观看视频| 国产夜色视频| 男人的天堂久久精品激情| 亚洲午夜久久久精品电影院| 亚洲视频免费在线看| 国产啪在线| 国产成人精品一区二区| 国产精品自在在线午夜| 亚亚洲乱码一二三四区| 国产精品色婷婷在线观看| 色综合中文| 71pao成人国产永久免费视频 | 狠狠色成人综合首页| 亚洲香蕉伊综合在人在线| AV熟女乱| 黄色网在线免费观看| 欧美亚洲第一页| 999国内精品视频免费| 中文字幕在线观| 一区二区偷拍美女撒尿视频| 好吊日免费视频| 国产精品永久不卡免费视频| 精品三级网站| 午夜啪啪网| 国内精品久久人妻无码大片高| 亚洲午夜福利精品无码不卡 | 狠狠色噜噜狠狠狠狠奇米777 | 久久亚洲国产一区二区| 色综合五月| 日本91视频| 97国产一区二区精品久久呦| 大陆精大陆国产国语精品1024| 一本综合久久| 全午夜免费一级毛片| 国产精品一区二区国产主播| 日韩免费毛片视频| 欧美亚洲第一页| 国产成人艳妇AA视频在线| 久久亚洲国产最新网站| 免费一级毛片在线播放傲雪网| 国产在线无码av完整版在线观看| 伊人色综合久久天天| 狠狠色婷婷丁香综合久久韩国| 青青青国产精品国产精品美女| 欧美日韩久久综合| 国产成人精品免费视频大全五级| 亚洲AV无码乱码在线观看代蜜桃| 无码日韩人妻精品久久蜜桃| 天堂亚洲网| 亚洲欧美日韩成人在线| 国产精品999在线| 在线日韩日本国产亚洲| 日韩午夜片| 久久亚洲黄色视频| 国产乱视频网站| 国产亚洲日韩av在线| 美女高潮全身流白浆福利区| 亚洲av中文无码乱人伦在线r| 一级在线毛片| 国产人妖视频一区在线观看| 亚洲中文字幕23页在线| 国内丰满少妇猛烈精品播 | 国产婬乱a一级毛片多女| 亚洲国产天堂久久综合226114| 一级片一区| 日韩在线视频网站| 国产www网站|