999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Bi-GRU+BFE模型的短語音說話人識別*

2023-01-06 05:41:26張二華
計算機與數字工程 2022年10期
關鍵詞:特征實驗模型

姜 珊 張二華 張 晗

(南京理工大學計算機科學與工程學院 南京 210094)

1 引言

說話人識別又稱聲紋識別,是一種生物身份認證技術。它具有用戶接受度高、設備成本低、可擴展性好以及便于移植等優點,可廣泛應用于情報偵聽、司法鑒定、語音檢索、銀行業務、證券交易、公安取證、智能聲控鎖等方面[1~2]。在實際應用中,它通常受環境噪聲、語音信道等因素的影響,性能難以提升。目前如何提高魯棒性和抗干擾能力是其研究重點。

早期的聲紋識別方法主要采用模板匹配法,如動態時間規整(Dynamic Time Warping,DTW)、矢量量化(Vector Quantization,VQ)等[1],該方法準確率低,識別效果不理想。20世紀90年代提出的高斯混合模型方法(Gaussian Mixture Model,GMM)[2~3],取得了較好的效果,但對信道環境噪聲較敏感,難以滿足真實場景下的要求。

目前深度學習方法也開始應用于說話人識別中,通常結合i-vector特征[3~4]與深度學習(CNN或DNN),基于LSTM進行建模[5~6]。該深度模型不僅具有高容錯率、抗干擾和靈活的優點,在處理未知數據方面,同樣具有良好的效果。但由于該方法訓練時間較長、所需訓練樣本較多、網絡復雜度與說話人個數呈正比等諸多因素,往往使網絡難以訓練和收斂。此外,目前對短語音的說話人識別涉及較少。

本文研究了基于Bi-GRU+BFE模型的說話人識別方法,該方法在短語音說話人識別實驗中取得了比GMM[3]和常規深度學習方法更高的識別率,其訓練效率也得到一定的提高。

2 深度學習理論

2.1 循環神經網絡

循環神經網絡(Recurrent Neural Network,RNN)[10],是一種考慮數據前后時序關系的神經網絡結構。與傳統網絡相比,其優勢為能夠保持信息的前后依賴關系,有效處理序列化數據。循環神經網絡的結構如圖1。

圖1 循環神經網絡結構圖

圖1左側是RNN的循環結構單元,圖中U表示輸入層到隱藏層的權重矩陣,V表示隱藏層到輸出層的權重矩陣,W是隱藏層與上一層的權重矩陣。圖3右側是RNN循環結構單元按時間序列的展開。RNN的前向傳播算法如式(1)。

其中,ot為t時刻的輸出,Whh、Wxh、Why為權重矩陣,bh、by為偏置項,ht為t時刻的隱狀態,xt為t時刻的輸入數據。RNN共享任意時刻的權重參數,每個時刻的狀態與前后時刻的狀態互相依賴,降低了網絡參數的冗余,能夠處理不同長度的序列數據。

RNN使用反向傳播方法進行訓練,當網絡層次逐漸加深,雅克比矩陣的運算結果一般會呈指數變化,導致其不能很好地處理長距離依賴的問題。梯度消失、梯度爆炸等模型訓練異常現象,是RNN未被廣泛應用于實際的重要原因[11,14]。

2.2 長短期記憶模型

長短期記憶網絡(Long Short Time Memory,LSTM)解決了RNN存在的長期依賴問題[12~13],圖2是LSTM單元結構示意圖,LSTM單元由輸入門it、遺忘門ft和輸出門ot組成。

圖2 LSTM單元結構示意圖

LSTM的前向計算公式如下:

輸入門:

遺忘門:

記憶單元:

輸出門:

當前隱藏層輸出:

式中·號表示對應元素相乘,W表示網絡的權重矩陣,b表示偏移向量,xt表示t時刻的輸入。

LSTM是對RNN的改進,消除了RNN的梯度消失或梯度爆炸問題。LSTM單元的三個門有助于記住任意長時間的值,忘記不重要的值。LSTM的門采用點乘法計算和sigmoid函數實現模擬式存儲。門值表示門的開關程度,將其設置為[0,1]之間,用于表示給予通過的信息占比,即門值為0時,不予通過任何信息;門值為1時,予以通過所有信息。

門值與該門內的輸入數據有關,根據數據自身的重要程度來決定予以通過的信息占比,對輸入數據進行加權過濾,并且通過各時刻參數共享的循環神經網絡對門值進行調整。

2.3 門控循環單元

類似于長短期記憶網絡,合并LSTM中的輸入門與遺忘門構成“更新門”ut,與“重置門”rt組合而成一個相對簡單的網絡結構,即門控循環單元(Gated Recurrent Unit,GRU)[14,17]。GRU結構示意圖如圖3所示。

圖3 GRU單元結構示意圖

GRU的前向傳播計算如下:

更新門:

重置門:

記憶單元:

當前隱藏層輸出:

上述公式中,·號指對應元素相乘,W指網絡的權重矩陣,b指偏置向量,xt指t時刻的輸入。更新門用來控制隱層狀態的更新,即若ut=0,之前的信息都不被寫入,重置門可以控制隱狀態的遺存。

GRU在結構上比LSTM精簡,少一個門結構,訓練過程中所需參數值較少,有利于模型的收斂和效率的提高。

3 基于深度學習的說話人識別

3.1 網絡模型

3.1.1 Bi-GRU結構

語音信號是一種復雜的時變信號,循環神經網絡在處理時序相關數據上表現出強大的優勢,而其中的GRU通過將LSTM中的輸入門和遺忘門合并為一個更新門,在保持其高效識別率的條件下,又加快了訓練效率。音征互載現象表明,當前時刻的語音信號不僅與前一時刻的信號參數相關,也與下一時刻的信號參數有密切的聯系[8]。但GRU只是單向地傳遞了時序信息,僅考慮了前一時刻的信息,未考慮到下一時刻的信息,在處理語音信號上存在缺陷[22]。因此本文選用雙向門控循環神經網絡(Bidirectional-Gated Recurrent Unit,Bi-GRU)[14]作為聲紋識別網絡的主要結構,Bi-GRU結合前后語音信息計算聲紋特征向量,對于語音的把握更加準確和全面,提高了說話人識別的魯棒性[19]。

Bi-GRU的結構如圖4所示。

圖4 Bi-GRU模型結構示意圖

圖4中,w0,w1,w2,…,wn為一段語音信號經過時序特征提取后的n+1個輸入,fw_ht表示t時刻Bi-GRU的正向隱藏層狀態,bw_ht表示t時刻Bi-GRU的反向隱藏層狀態。網絡最后一層通過softmax激活函數得到分類標簽的概率分布。

3.1.2 塊級特征均衡結構

塊級特征均衡(Block-level Feature Equalization,BFE)結構主要由三個網絡層構成,分別為:幀級平均層(Average layer)、全連接層(Dense layer)、L2標準化層(L2_normalization layer)[17,21]。

一段連續語音經端點檢測之后得到有效語音段,將其進行分幀處理,選取若干連續語音幀組成語音塊,通常語音塊包含50個~100個語音幀。說話人識別模型的輸入特征采用語音塊的幀級特征(每個語音塊的聲紋特征參數的維度為塊內幀數×各幀特征維度),輸入標簽是對應語音塊的說話人編號。由于輸入特征為幀級別,而輸入標簽為塊級別,兩者規格不一致,無法進行深度計算。需要將語音塊的幀級特征融合計算得到塊級特征,使其最后一層的計算結果與標簽值的規格對應,實現端到端的訓練方式,如圖5。

圖5 語音塊輸入數據說明圖

因此,幀級平均層(Average layer)可用于將屬于同一語音塊的各幀特征求和取平均,轉化為塊級特征,實現一個語音塊對應一個特征向量。由此,網絡輸出值與輸入標簽值完全對齊,便于損失函數的計算。采用求和取平均的方法來計算塊級特征,是為了避免偶然因素,減小誤差,實驗也證明了該方法的可靠性。

基于相鄰層之間節點的全連接層(Dense layer),可對前一幀級平均層計算得到的特征數據降維去冗余。該層的神經元節點個數通常為前一層神經元節點個數的一半,將計算復雜度縮減二分之一。

L2標準化層(L2_normalization layer)對前一層計算得到的中間特征向量按一定標準進行規范化,使其特征分布更加合理,易于模型的收斂,一定程度上能防止模型的過擬合。由于中間特征向量中一行數據屬于一個語音塊,因此利用L2范數對其按行進行標準化,計算公式如式(11)。

式中,M為輸入網絡中訓練的一批語音塊個數,N為經過前三層網絡結構計算得到的語音塊級特征參數的維度,x為未泛化的中間特征向量,y為經過L2標準化后的特征向量。

上述兩種結構前后拼接組合為Bi-GRU+BFE網絡模型,將模型最后一層的輸出通過softmax激活函數,得到最終預測結果。該模型中具體各層的設計架構如表1。

3.2 模型訓練

由4.1節實驗結果,本文采用64維梅爾頻率倒譜系數(Mel-Frequency Cepstrum Coefficient,MFCC)[7~8]作為輸入到網絡模型中的聲紋特征。

對每塊(多幀)語音提取MFCC特征參數,每幀提取64維,即每個語音塊的特征參數的維度為塊中幀數×64。實驗表明,當每個語音塊時長為1s以內,在短語音上的說話人識別實驗結果比較理想。由于在分幀過程中設定的幀長為25ms,幀移為10ms,1s的語音可以分為99幀。因此,循環神經網絡的輸入時間步長(n_steps)設定為99,即將聲紋特征每前后共99幀數據作為一個塊(batch),則輸入網絡中一個塊的數據維度為99×64。對數據進行批量訓練,設定各批量數據的個數為batch_size。

由上可知,每次批量訓練中共batch_size×n_steps×n_inputs的張量被輸入網絡中,訓練得到的最后兩層數據分別為:維度為batch_size×512的embeddings中間特征值[14,19]和維度為batch_size×N的softmax輸出值。N為說話人總數,說話人標簽以獨熱(one-hot)編碼的形式進行處理,以張量的形式輸入網絡[7]。

說話人識別模型的訓練步驟如圖6。

圖6 說話人識別模型的訓練步驟

實驗采用交叉熵損失函數進行模型訓練,具體將softmax輸出值采用交叉熵損失函數計算偏差Loss,然后通過梯度下降算法,對Loss和每層的權重求偏導,更新參數,訓練模型。

4 實驗過程及結果分析

實驗選取南京理工大學NJUST603語音庫中68個說話人(男女各半)的語音數據,采樣頻率均為16kHz,采樣精度均為16bit。對數據經過端點檢測去除無效語音段,每人保留110s時長的有效語音。根據隨機劃分且不重疊的原則,將數據集按照9∶1∶1的比例分為訓練集、驗證集及測試集。本文采用準確度(ACC)和損失函數(Loss)作為評價標準[7],計算公式分別如式(12)和式(13)。

式中:n表示說話人總數;TPi、FNi分別表示第i個說話人中正確分類的數目和錯誤分類的數目。Y表示類別正確的分類,P(Y|X)表示正確分類的概率,Loss表示在指定分類Y的情況下,概率越大,樣本與目標值越接近,則損失越小[7]。

4.1 特征參數維度對比實驗

選用MFCC作為實驗特征參數,傳統高斯混合模型(GMM)作為訓練模型,從訓練集中選30s語音作為訓練數據,測試集中選10s語音作為測試數據(單個語音樣本時長為1s)。分別選用特征參數維度為24、48和64作為對比實驗,實驗結果如表2。

表2 特征參數維度對比實驗結果

實驗結果表明,64維MFCC特征參數表現最佳,因此,本文4.2、4.3及4.4節實驗中均選用64維MFCC特征作為輸入到模型中的聲紋特征參數,并設置訓練、驗證及測試數據分別為訓練集、驗證集及測試集中的全部數據。

4.2 不使用BFE結構對比實驗

設 置LSTM[12~13]、GRU[14,17]、Bi-LSTM[19]、Bi-GRU[17,19]四種循環神經網絡模型作為對比實驗,結果如表3所示。

表3 不使用BFE結構模型對比實驗結果

由表3對比可知,GRU在說話人識別訓練階段及驗證階段的準確率(ACC)及損失值(Loss)均優于LSTM。雙向傳播算法利用語音特征中的前后時序關系,有效提升了模型性能(表3中Bi-GRU的驗證階段ACC值相對GRU提升了20.35%,Bi-LSTM的驗證階段ACC值相對LSTM提升了24.13%)。同時表明Bi-GRU較為適用于本任務。

4.3 使用BFE結構對比實驗

分別對4.2節中四種循環神經網絡模型使用塊級特征均衡(BFE)結構,進行對比實驗,結果如表4所示。

對比表3中的實驗結果,表4中相應的循環神經網絡模型使用BFE結構之后,在訓練階段的性能略有提升,而在驗證階段,模型識別準確率(ACC)有明顯提高,損失值(Loss)也明顯下降。使用BFE結構后模型性能提升具體表現為:LSTM+BFE模型相對LSTM,訓練階段ACC值提升了17.81%,驗證階段ACC值提升了30.14%;GRU+BFE模型相對GRU,訓練階段ACC值提升了1.09%,驗證階段ACC值提升了21.47%;Bi-LSTM+BFE模型相對Bi-LSTM,驗證階段ACC值提升了18.38%;Bi-GRU+BFE模型相對Bi-GRU,驗證階段ACC值提升了10.97%。其中,本文使用的Bi-GRU+BFE模型在驗證階段,識別準確率已提升至98.82%,損失值降至0.1797。

表4 使用BFE結構模型對比實驗結果

使用塊級特征均衡(BFE)結構主要有兩個原因:一是為了避免特征數據的偶然因素,減小誤差;二是為了使其特征分布更加合理,易于模型的收斂,提高識別準確率。這使得模型的泛化程度得到了進一步的提升,因此在Bi-GRU網絡層之后添加BFE結構有一定優勢。

4.4 短語音測試結果

根據以上實驗結果,對比傳統的GMM概率統計模型[3~4]、在基于深度學習的聲紋識別領域中取得優異成績的殘差卷積神經網絡(ResCNN)模型[16~18]以 及LSTM+BFE、GRU+BFE、Bi-LSTM+BFE、Bi-GRU+BFE四種改進后的循環神經網絡模型,進行短語音說話人識別實驗。本實驗中所用訓練集為時長為90s的有效語音數據,表5展示了以上五種模型訓練收斂后,分別在時長為0.5s、1s、2s、5s的有效短語音上的測試結果。

表5 多種模型在短語音上的測試結果

由表5可知,在測試語音時長極短的情況下,Bi-GRU+BFE模型依然表現最佳,對時長為0.5s的測試語音仍能達到90.66%的識別率,相較其他模型有明顯提升。圖7顯示了表5中各模型在短語音上的測試準確率及對比趨勢。

圖7 Bi-GRU+BFE與其他模型對短語音測試準確率對比圖

5 結語

對比幾種深度學習網絡模型在說話人識別任務上的應用,Bi-GRU+BFE網絡模型表現出較好的性能。在對訓練模型進行測試過程中,達到了98.82%的準確率和0.1797的損失值,分別為所有參與對比模型的最高準確率及最低損失值。此外,應用傳統高斯混合模型、幾種深度學習模型及Bi-GRU+BFE模型,針對長度較短的語音(0.5s、1s、2s、5s)進行聲紋識別測試。實驗結果顯示,Bi-GRU+BFE模型在短語音說話人識別中表現最佳,均達到了90%以上的高準確率,尤其對于長度為0.5s的語音,識別率相對其他模型有明顯提升。本文在傳統聲紋識別的基礎上,研究了新的說話人識別方法,該方法有效提高了短語音的識別率,為聲紋識別的實際應用提供了新的思路。本方法對說話人語音的質量要求較高,當測試集與訓練集的差距較大時,如兩者的信道不同或測試語音含有較多噪聲,識別準確率會有所下降。因此,如何提高說話人識別中跨信道語音及含噪語音的識別率,仍需繼續研究。

猜你喜歡
特征實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 亚洲制服中文字幕一区二区 | 啪啪啪亚洲无码| 东京热一区二区三区无码视频| 国产va免费精品观看| 国产91在线|日本| 日韩高清一区 | 日本人妻丰满熟妇区| 亚洲乱码在线播放| 久久www视频| 91 九色视频丝袜| 亚洲第一天堂无码专区| 亚洲欧美成人网| 国产成人AV男人的天堂| 99re经典视频在线| 欧美日韩中文国产va另类| 日本精品αv中文字幕| 亚洲综合久久一本伊一区| 亚洲精品无码不卡在线播放| 最近最新中文字幕在线第一页| 91黄视频在线观看| 中文无码精品a∨在线观看| 国产十八禁在线观看免费| 国产精品jizz在线观看软件| 播五月综合| 午夜a级毛片| 无码综合天天久久综合网| 老熟妇喷水一区二区三区| 欧美午夜视频在线| 亚洲AⅤ无码国产精品| 亚洲欧美另类日本| 国产成人永久免费视频| 这里只有精品在线播放| 国产精品.com| 国产在线观看精品| 91网在线| 凹凸国产分类在线观看| 免费国产黄线在线观看| 人人91人人澡人人妻人人爽| 无码专区国产精品第一页| 久久久精品久久久久三级| 精品无码国产自产野外拍在线| 国内99精品激情视频精品| 日本高清在线看免费观看| 日本精品αv中文字幕| 久久久成年黄色视频| 免费国产高清视频| 手机看片1024久久精品你懂的| 欧美综合在线观看| 91在线精品麻豆欧美在线| 99re热精品视频国产免费| 国产剧情一区二区| 九色在线视频导航91| 少妇高潮惨叫久久久久久| 亚洲欧美日本国产专区一区| 国产小视频免费观看| 国产精品美女网站| 久久综合一个色综合网| 99在线免费播放| 亚洲国产第一区二区香蕉| 亚洲黄色片免费看| 国产精品精品视频| 亚洲不卡无码av中文字幕| 综合色在线| 国产成人av一区二区三区| 一本大道香蕉高清久久| 中文字幕不卡免费高清视频| 日韩精品一区二区三区视频免费看| 黄色免费在线网址| 日韩无码一二三区| 国产精品手机视频| 日韩精品一区二区三区中文无码| 欧美日韩激情在线| 国产91全国探花系列在线播放| 日本高清成本人视频一区| 91麻豆国产精品91久久久| 精品超清无码视频在线观看| 无码区日韩专区免费系列| 亚洲欧美自拍中文| 色婷婷在线影院| 国产又色又爽又黄| 免费无码AV片在线观看国产| 伊人天堂网|