999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合一維卷積和長短期記憶網(wǎng)絡(luò)的同片區(qū)方言辨識(shí)

2023-04-29 00:00:00宋朝陽吳畏

摘要:當(dāng)前方言辨識(shí)算法研究大多針對(duì)不同方言片區(qū)的分類,而對(duì)同片區(qū)方言的辨識(shí)研究相對(duì)有限.針對(duì)此問題,本文采集皖北地區(qū)同片區(qū)方言數(shù)據(jù)作為研究對(duì)象,對(duì)現(xiàn)有的端到端語種識(shí)別算法進(jìn)行分析和改進(jìn),提出融合一維卷積和長短期記憶的非順序網(wǎng)絡(luò)分類算法.在長短期記憶網(wǎng)絡(luò)的基礎(chǔ)上,融合一維卷積神經(jīng)網(wǎng)絡(luò),并構(gòu)造成非順序的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以提升算法對(duì)方言信息的建模能力.實(shí)驗(yàn)結(jié)果表明,本文算法在音頻的伽馬通倒譜系數(shù)特征下相比長短期記憶網(wǎng)絡(luò)在15 s、6 s和3 s音頻長度上的辨識(shí)效果相對(duì)提升54.3%、49.5%和38.3%.

關(guān)鍵詞:同片區(qū)方言辨識(shí);頻譜特征;長短期記憶網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào):TP183 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):2095-6991(2023)01-0045-06

Abstract:At present, most of the research on dialect identification algorithms is aimed at the classification of different dialect areas, and the research on dialect identification in the same area is relatively limited. Aiming at this problem, this paper collects dialect data in the same area of northern Anhui as the research object. By analyzing and improving the existing end-to-end language recognition algorithm, a non-sequential network classification algorithm combining one-dimensional convolution and long-term and short-term memory is proposed. On the basis of the long short-term memory network, the one-dimensional convolutional neural network is fused and constructed into a non-sequential neural network structure to improve the algorithm’s ability to model dialect information. The experimental results show that the proposed algorithm has a relative improvement of 54.3 %, 49.5 % and 38.3 % in the identification effect of 15 s, 6s and 3s audio lengths compared with the long-term and short-term memory network under the gamma cepstral coefficient characteristics of audio.

Key words:regional dialect identification; frequency spectrum characteristics; long-term and short-term neural networks; convolutional neural network

當(dāng)代通訊工具在案件偵破過程中扮演著重要角色,其中對(duì)音頻信息的分析可以有效獲取犯罪嫌疑人的籍貫和長期居留地,能夠?yàn)榘讣膫善铺峁氋F線索.漢語方言種類繁多,按照片區(qū)分為七大類別,在同片區(qū)內(nèi)部又具體細(xì)分為不同子片區(qū)方言.皖北地區(qū)方言同屬于官話方言,其外在差異性相對(duì)較小,相比不同方言片區(qū)的分類難度大.

方言辨識(shí)主要針對(duì)音頻,通過提取其蘊(yùn)含的方言信息,再使用適當(dāng)?shù)姆椒ㄟM(jìn)行分類的過程,本質(zhì)上屬于語種識(shí)別.語種識(shí)別最初起源于說話人識(shí)別領(lǐng)域,采用的方法一般是先構(gòu)造全變量因子(Ivector)[1],然后使用神經(jīng)網(wǎng)絡(luò)構(gòu)造識(shí)別模型.近年來語種識(shí)別技術(shù)演變成端到端(End-to-End)系統(tǒng)[2],即直接將音頻特征作為輸入,再選用合適的分類算法對(duì)需要語種的信息進(jìn)行建模和識(shí)別.

方言辨識(shí)端到端模型的研究主要包括音頻特征提取和分類算法設(shè)計(jì)兩個(gè)方面.特征提取層面大多采用基于人耳聽覺模型的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)作為音頻特征.分類算法層面主要包括傳統(tǒng)機(jī)器學(xué)習(xí)算法和神經(jīng)網(wǎng)絡(luò)算法,機(jī)器學(xué)習(xí)算法大多采用支持向量機(jī)(Support Vector Machine, SVM)[3]、高斯混合模型(Gaussian Mixture Model,GMM)[4]以及基于集成學(xué)習(xí)的隨機(jī)森林算法[5];神經(jīng)網(wǎng)絡(luò)算法主要包括深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)[6-7]和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[8-9].

音頻特征提取層面,MFCC特征在含有噪聲或會(huì)話的情境下魯棒性相對(duì)較差,可嘗試使用基于耳蝸機(jī)械模型的伽馬通頻率倒譜系數(shù)(Gammatone Frequency Cepstral Coefficients, GFCC)作為輸入特征.分類算法層面,長短期記憶網(wǎng)絡(luò)前置一維卷積神經(jīng)網(wǎng)絡(luò)可在一定程度上提升模型的建模能力.同時(shí),網(wǎng)絡(luò)結(jié)構(gòu)方面可以設(shè)計(jì)成非順序結(jié)構(gòu),進(jìn)一步提升模型對(duì)音頻特征的建模能力.

1 相關(guān)工作

1.1 音頻特征提取

1.1.1 梅爾頻率倒譜系數(shù)

梅爾頻率倒譜系數(shù)是根據(jù)人耳聽覺特性設(shè)計(jì)的,具體而言,人耳對(duì)不同頻率的聽覺響應(yīng)不同,可由式(1)映射成梅爾頻率尺度.

根據(jù)梅爾頻率可依次構(gòu)建三角濾波器序列,即梅爾濾波器組.整個(gè)濾波器組的輸出為每個(gè)三角濾波器頻率帶寬內(nèi)所有信號(hào)幅度加權(quán).后續(xù)再對(duì)濾波器組輸出做對(duì)數(shù)運(yùn)算,進(jìn)一步做離散余弦變換即得到MFCC.

1.1.2 伽馬通頻率倒譜系數(shù)

伽馬通頻率倒譜系數(shù)基于人的耳蝸機(jī)械模型構(gòu)建,在噪聲以及會(huì)話環(huán)境下語音識(shí)別的魯棒性較強(qiáng).伽馬通濾波也是通過一組濾波器來獲取沖擊響應(yīng),響應(yīng)函數(shù)為:

其中n為階數(shù),b為自等效矩形帶寬,fc為中心頻率,為相位.n一般取4,相位對(duì)耳蝸的影響可以忽略不計(jì).等效矩形帶寬可由式(3)獲取.

根據(jù)等效矩形帶寬,可由式(4)獲取式(2)中的參數(shù)b.

為降低計(jì)算代價(jià),GFCC的獲取往往采用頻域?yàn)V波來近似求解.MFCC和GFCC的提取流程如圖1所示.

1.2 語種分類算法

語種分類算法一般采用傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域的算法及基于長短期記憶網(wǎng)絡(luò)的分類算法.

支持向量機(jī)、高斯混合模型及隨機(jī)森林等傳統(tǒng)機(jī)器學(xué)習(xí)算法,常被用于語種分類.對(duì)于音頻特征,無論是MFCC還是GFCC,在使用傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行分類時(shí),都需要對(duì)特征進(jìn)行展開,就會(huì)存在特征維度較高的問題,因此需要對(duì)展開后的音頻特征進(jìn)行降維.降維方式通常可采用主成分分析法(Principal Component Analysis,PCA).

簡單循環(huán)神經(jīng)網(wǎng)絡(luò)由于梯度消失問題導(dǎo)致無法記憶長期信息.長短期記憶網(wǎng)絡(luò)對(duì)此進(jìn)行了改進(jìn),增加了一種攜帶信息跨越多個(gè)時(shí)間步的方法,即在處理時(shí)間序列的基礎(chǔ)上加入一個(gè)額外數(shù)據(jù)流,其中攜帶跨越時(shí)間步信息.長短期記憶網(wǎng)絡(luò)及其變種是當(dāng)前語音識(shí)別領(lǐng)域常見的網(wǎng)絡(luò)架構(gòu)模式之一,該網(wǎng)絡(luò)架構(gòu)和語音時(shí)間序列處理較為契合,對(duì)于分類問題,一般將特征數(shù)據(jù)流通過長短期記憶網(wǎng)絡(luò),再后置一個(gè)密集層(Dense)進(jìn)行分類輸出.

2 融合一維卷積和長短期記憶網(wǎng)絡(luò)的分類算法

2.1 一維卷積神經(jīng)網(wǎng)絡(luò)(Conv_1D)

一維卷積可以從序列中提取出一個(gè)子序列,以此來識(shí)別序列中存在的局部特征.方言辨識(shí)的差異性往往體現(xiàn)在說話過程中的語調(diào)變化,一維卷積可以準(zhǔn)確地捕獲這種重要的局部特征.本文采用的一維卷積網(wǎng)絡(luò)層次結(jié)構(gòu)如圖2所示.

2.2 前置一維卷積的長短期網(wǎng)絡(luò)架構(gòu)

長短期記憶網(wǎng)絡(luò)可以從音頻原始信息中根據(jù)方言類別提取有用信息,這些信息一般是結(jié)構(gòu)或者紋理特征,受限于原始音頻特征過于繁雜,可以通過前置一維卷積神經(jīng)網(wǎng)絡(luò)的形式先做局部紋理特征提取,然后使用長短期記憶網(wǎng)絡(luò)進(jìn)行分析,即前置一維卷積的長短期網(wǎng)絡(luò)架構(gòu)(Conv_1D+LSTM).

一維卷積網(wǎng)絡(luò)能夠有效提取出輸入特征的局部信息,并通過池化起到降維作用,因此先把音頻特征通過一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行局部特征提取,再將卷積后的特征通過長短期記憶網(wǎng)絡(luò),最后加一層密集層進(jìn)行分類.網(wǎng)絡(luò)架構(gòu)如圖3所示.

2.3 非順序的方言辨識(shí)神經(jīng)網(wǎng)絡(luò)架構(gòu)

非順序神經(jīng)網(wǎng)絡(luò)[10]不局限于單個(gè)輸入或輸出模式,而是使用一種有向無環(huán)圖的架構(gòu)模式,即網(wǎng)絡(luò)可以根據(jù)任務(wù)的需求存在多個(gè)輸入、多個(gè)輸出或者網(wǎng)絡(luò)在層與層之間具有內(nèi)部分支,以滿足輸入特征信息的充分利用或者多輸出任務(wù)的需求一維卷積神經(jīng)網(wǎng)絡(luò)會(huì)丟失一部分原始的音頻信息,導(dǎo)致一些跟方言相關(guān)的深層次信息被丟失.將Conv_1D+LSTM和LSTM網(wǎng)絡(luò)進(jìn)行綜合,就可以充分挖掘音頻的更多信息.

對(duì)于方言辨識(shí),本文提出一種非順序的方言辨識(shí)神經(jīng)網(wǎng)絡(luò)架構(gòu),將Conv_1D+LSTM和LSTM網(wǎng)絡(luò)的輸入進(jìn)行組合,最后進(jìn)行輸出,以此把兩個(gè)網(wǎng)絡(luò)提取出的信息進(jìn)行綜合,以提升網(wǎng)絡(luò)的建模能力.網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.

網(wǎng)絡(luò)首先使用音頻底層特征作為輸入,在中間結(jié)構(gòu)層面,設(shè)置了兩個(gè)分支,即Conv_1D+LSTM和LSTM網(wǎng)絡(luò),然后使用一個(gè)密集層對(duì)新特征進(jìn)行分類,輸出方言的類別.

3 實(shí)驗(yàn)設(shè)計(jì)與分析

3.1 數(shù)據(jù)集和性能評(píng)價(jià)指標(biāo)

綜合皖北地區(qū)位置特性和方言子片區(qū)差異,實(shí)驗(yàn)數(shù)據(jù)集來源于皖北地區(qū)挑選出的蚌埠、阜陽、亳州、淮北、碭山5類代表性方言音頻.每類方言各包括2 800份15秒的音頻數(shù)據(jù),其中2 000份用于訓(xùn)練和測試,剩余800份用于驗(yàn)證.實(shí)驗(yàn)采用NIST針對(duì)LRE評(píng)測的等錯(cuò)誤率(Equal Error Rate,EER)和平均檢測代價(jià)(Average decision cost function, Cavg)作為算法性能的衡量指標(biāo).

3.2 方言辨識(shí)算法

本文的方言辨識(shí)方法包括特征提取和分類算法兩個(gè)子模塊.特征提取部分將分別提取音頻的MFCC和GFCC特征及其一階差分.

分類算法部分,首先使用已有的算法(算法1、2、3)對(duì)所提取的特征進(jìn)行分類,作為基準(zhǔn);然后使用本文提出的改進(jìn)算法(算法4、5)將一維卷積和長短期記憶網(wǎng)絡(luò)融合進(jìn)行分類,評(píng)價(jià)指標(biāo)和基準(zhǔn)算法保持一致.方言辨識(shí)

具體過程如下:

(1)算法1.將MFCC或者GFCC特征展開后進(jìn)行PCA降維,然后使用支持向量機(jī)進(jìn)行分類,使用網(wǎng)格搜索獲取最佳性能;

(2)算法2.將MFCC或者GFCC特征展開后進(jìn)行PCA降維,然后使用隨機(jī)森林算法進(jìn)行分類;

(3)算法3.將MFCC或者GFCC特征作為輸入,使用長短期記憶網(wǎng)絡(luò)進(jìn)行信息建模,然后使用密集層進(jìn)行分類;

(4)算法4.將MFCC或者GFCC特征作為輸入,使用前置一維卷積的長短期記憶網(wǎng)絡(luò)進(jìn)行信息建模,然后使用密集層進(jìn)行分類;

(5)算法5.將MFCC或者GFCC特征作為輸入,將前置一維卷積的長短期記憶網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)作為網(wǎng)絡(luò)的兩個(gè)分支,加入密集層進(jìn)行分類.

3.3 實(shí)驗(yàn)分析

3.3.1 辨識(shí)效果總體分析

基于MFCC特征的各類方法辨識(shí)效果如表1所列.相比傳統(tǒng)機(jī)器學(xué)習(xí)方法和長短期記憶網(wǎng)絡(luò)算法(算法1、2、3),本文方法(算法4、5)的辨識(shí)效果有了較大提升.其中算法5相比算法3在15 s、6 s和3 s音頻長度上的辨識(shí)效果相對(duì)提升了26.1%、19.7%和4.6%.

基于GFCC特征的各類方法辨識(shí)效果如表2所列,相比傳統(tǒng)機(jī)器學(xué)習(xí)算法(算法1、2),長短期記憶網(wǎng)絡(luò)(算法3)在MFCC特征下呈現(xiàn)相對(duì)較優(yōu)效果.本文提出算法(算法4、5)的辨識(shí)效果相比長短期記憶網(wǎng)絡(luò)(算法3)又有了較為明顯的提升.其中算法5相比算法3在15 s、6 s和3 s音頻長度上的辨識(shí)效果相對(duì)提升了54.3%、49.5%和38.3%.

3.3.2 各類方言辨識(shí)比較

鑒于表1和表2的辨識(shí)效果,本文選擇神經(jīng)網(wǎng)絡(luò)架構(gòu)下(算法3、4、5)15秒音頻MFCC特征和GFCC特征的辨識(shí)效果混淆矩陣進(jìn)行分析.各類算法的辨識(shí)效果混淆矩陣如圖5所示.

相同MFCC特征下,算法4和算法5對(duì)各類方言的辨識(shí)效果明顯優(yōu)于算法3;算法4和算法5對(duì)各類方言的辨識(shí)效果大致相當(dāng).對(duì)于MFCC特征,由于算法3辨識(shí)效果一般,綜合了長短期網(wǎng)絡(luò)和前置一維卷積的長短期網(wǎng)絡(luò)建模信息后,非序網(wǎng)絡(luò)相比前置一維卷積的長短期網(wǎng)絡(luò)辨識(shí)效果并未提升.

相同GFCC特征下,算法5在各類方言對(duì)辨識(shí)效果均明顯優(yōu)于算法3,且辨識(shí)效果總體上優(yōu)于算法4.說明非順序網(wǎng)絡(luò)能夠有效地對(duì)長短期網(wǎng)絡(luò)和前置一維卷積的長短期網(wǎng)絡(luò)的信息進(jìn)行融合.

對(duì)比3類算法在MFCC和GFCC特征的辨識(shí)效果,使用GFCC特征的辨識(shí)效果在各類算法上均明顯優(yōu)于MFCC特征的辨識(shí)效果,說明GFCC特征更加適應(yīng)本文算法.

本文選用的皖北方言共5類,共10組方言對(duì):潁上-阜陽、潁上-宿州、潁上-碭山、潁上-蚌埠、阜陽-宿州、阜陽-碭山、阜陽-蚌埠、宿州-碭山、宿州-蚌埠和碭山-蚌埠.使用最小檢測代價(jià)作為算法的性能指標(biāo).本文選擇神經(jīng)網(wǎng)絡(luò)架構(gòu)下(算法3、4、5)15秒音頻MFCC特征和GFCC特征得到的辨識(shí)效果如圖6所示.

根據(jù)圖6可以看出,相同算法(算法5)下,GFCC特征除“潁上-碭山”方言對(duì)之外均優(yōu)于MFCC特征的辨識(shí)效果.說明GFCC特征更加適用于本文算法;在相同GFCC特征下,算法5對(duì)各方言對(duì)的辨識(shí)效果均優(yōu)于算法3且總體上優(yōu)于算法4,說明相比長短期記憶網(wǎng)絡(luò)或者前置一維卷積的長短期記憶網(wǎng)絡(luò),本文提出的非順序網(wǎng)絡(luò)結(jié)構(gòu)加強(qiáng)了易混淆方言的辨識(shí).

4 結(jié)論

針對(duì)同片區(qū)方言辨識(shí)問題,本文提出融合一維卷積和長短期記憶網(wǎng)絡(luò)的辨識(shí)算法,即在長短期記憶網(wǎng)絡(luò)的基礎(chǔ)上,融入一維卷積網(wǎng)絡(luò)獲取音頻特征局部信息.在音頻特征的輸入方面,除了使用MFCC特征之外,還加入了GFCC特征進(jìn)行對(duì)比.實(shí)驗(yàn)結(jié)果表明,以GFCC特征作為輸入的融合前置一維卷積的長短期網(wǎng)絡(luò)的非順序網(wǎng)絡(luò)結(jié)構(gòu)能夠取得最好的辨識(shí)效果.后期工作將考慮音頻特征層面的融合,在現(xiàn)有特征的基礎(chǔ)上,探索出更多有利于方言辨識(shí)的相關(guān)特征,并采用合適的融合方法,進(jìn)一步提升模型的辨識(shí)能力.

參考文獻(xiàn):

[1] KANAGASUNDARAM A,DEAN D,SRIDHARAN S,et al.I-vector based speaker recognition using advanced channel compensation techniques[J].Computer Speech amp; Language,2014,28(1):121-140.

[2] CAI W,CAI Z,XIANG Z,et al.A Novel Learnable Dictionary Encoding Layer for End-to-End Language Identification[C]//2018 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).Calgory:IEEE,2018:565-573.

[3] CUMANI S,LAFACE P .Analysis of Large-Scale SVM Training Algorithms for Language and Speaker Recognition[J].IEEE Transactions on Audio Speech amp; Language Processing,2012,20(5):1585-1596.

[4] KUMAR V R,VYDANA H K,VUPPALA A K .Significance of GMM-UBM based Modelling for Indian Language Identification[J].Procedia Computer Science,2015,54:231-236.

[5] 李卓茜,高鎮(zhèn),王化,等.短語音及易混淆語種識(shí)別改進(jìn)系統(tǒng)[J].中文信息學(xué)報(bào),2019,33(10):135-142.

[6] 崔瑞蓮,宋彥,蔣兵,等.基于深度神經(jīng)網(wǎng)絡(luò)的語種識(shí)別[J].模式識(shí)別與人工智能,2015,28(12):1093-1099.

[7] ALICIA L D,RUBEN Z,TOLEDANO D T,et al.An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition[J].PLoS ONE,2017,12(8):378-389.

[8] RUBENZAZO,ALICIA LOZANO-DIEZ,JAVIER GONZALEZ-DOMINGUEZ.Language identification in short utterances using long short-eerm memory (LSTM) recurrent neural networks[J].PLoS ONE,2017,11(1):289-297.

[9] ADEEBAF,HUSSAIN S.Native language identification in very short utterances using bidirectional long short-term memory network[J].IEEE Access,2019,35:1.

[10] SZEGEDYC, LIU W,JIA Y,et al.Going Deeper with Convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston:IEEE,2015:358-367.

[責(zé)任編輯:李 嵐]

基金項(xiàng)目:2020年度安徽高校自然科學(xué)研究項(xiàng)目(KJ2020A1125)

作者簡介:宋朝陽(1992-),女,河南周口人,講師,碩士,研究方向:言語識(shí)別、文件檢驗(yàn).E-mail:songzy0901@foxmail.com.

主站蜘蛛池模板: 国产成人精品一区二区不卡| 欧美日韩亚洲综合在线观看| 亚洲va视频| 依依成人精品无v国产| 久久天天躁狠狠躁夜夜躁| 久久久受www免费人成| 婷婷综合缴情亚洲五月伊| 人人91人人澡人人妻人人爽| 国产AV毛片| 国产人成乱码视频免费观看| 国产又色又刺激高潮免费看| 国产91全国探花系列在线播放| 久久久久国产精品嫩草影院| 91精品啪在线观看国产| 欧美精品成人| 久久久精品久久久久三级| 国产精品免费电影| 97视频在线精品国自产拍| 国产麻豆精品久久一二三| 波多野结衣视频一区二区| 激情综合五月网| 国产欧美日韩在线在线不卡视频| 日韩人妻少妇一区二区| 国产小视频在线高清播放| 四虎永久免费地址| 国产一区成人| 中国国产高清免费AV片| 国产成人久久综合777777麻豆 | 99精品在线看| 久久久久国产一区二区| 成人国产精品一级毛片天堂| 无码'专区第一页| 欧美成人综合视频| 久久国产精品国产自线拍| 国产精品手机视频一区二区| 亚洲人成影视在线观看| 91人人妻人人做人人爽男同| 亚洲天堂精品在线| 特级精品毛片免费观看| 国产亚洲精品yxsp| 国产一级毛片在线| 色婷婷国产精品视频| 日本伊人色综合网| 国产成人三级在线观看视频| 狠狠色狠狠综合久久| 亚洲精品无码人妻无码| 国产主播一区二区三区| 国产精品无码久久久久AV| 亚洲精品无码不卡在线播放| 黄色不卡视频| 在线看免费无码av天堂的| 国产一级视频在线观看网站| 国产主播喷水| 亚洲精品va| 国产精品第一区在线观看| 亚洲精品午夜天堂网页| 国产青榴视频在线观看网站| 国产毛片不卡| a毛片免费观看| 狼友视频国产精品首页| 欧洲欧美人成免费全部视频| 色综合国产| 四虎成人精品在永久免费| 高潮爽到爆的喷水女主播视频 | 99色亚洲国产精品11p| 亚洲一区国色天香| 国产真实乱了在线播放| 国产av色站网站| 日韩免费毛片| 色成人亚洲| 在线观看无码a∨| 美女被操黄色视频网站| 五月婷婷丁香色| 久草网视频在线| 国国产a国产片免费麻豆| 色综合中文| 国产在线小视频| 日日噜噜夜夜狠狠视频| 91丝袜乱伦| 国产主播一区二区三区| 亚洲无码视频图片| 丁香亚洲综合五月天婷婷|