基于ResNet-LSTM的聲紋識別方法①

2021-06-28 06:28:10梁宏濤劉國柱

計算機系統(tǒng)應用 2021年6期

劉勇,梁宏濤,劉國柱,胡強

(青島科技大學信息科學技術學院,青島 266061)

聲紋識別是生物識別技術的一種,是計算機技術與聲學、生命科學綜合研究的產物之一.與傳統(tǒng)的身份識別技術相比,以聲紋識別、指紋識別為代表的生物識別技術具有防遺忘、防盜等特點,并且在實際應用過程中更加方便、可靠.生物識別技術的相關研究早已進行,但受限于軟硬件技術并不發(fā)達,生物識別技術一直難以達到實際應用的標準.但隨著人工智能等計算機技術的高速發(fā)展,生物識別技術取得了長足的進步,并已廣泛應用于金融、公共安全、軍隊國防等領域.其中聲紋識別技術由于其聲紋特征采集較為方便,在遠程認證過程中具備獨特優(yōu)勢,并且相對于人臉識別、指紋識別等識別方法,其對隱私的侵犯性更低更容易使用戶接受,正受到越來越多的關注.

聲紋識別是指根據(jù)說話人聲音中獨特的聲學特征自動辨別說話人身份的一種身份認證方法.從應用場景分析可以將其分為,說話人確認與說話人辨認兩類,其中說話人確認是一對一的判斷關系,即判斷某段語音是否為指定人所發(fā)出;而說話人辨認是一對多的選擇關系,即判斷某段語音是若干說話人中哪一個所發(fā)出的.從技術角度考慮通常可以將其分為文本相關的聲紋識別方法與文本無關的聲紋識別方法兩類.文本相關的聲紋識別方法在訓練、注冊與識別階段均需根據(jù)指定的文本內容進行發(fā)聲,該方法通常可以得到較好的識別效果但是需要用戶嚴格按照規(guī)定文本進行發(fā)聲,靈活性較差.文本無關的聲紋識別方法沒有對文本的依賴,在應用過程中更加靈活方便,但是其建模較為困難,識別的準確率尚待進一步提升[1].

聲紋識別一般由數(shù)據(jù)預處理、聲學特征提取、模型構建、模型訓練、說話人注冊以及打分決策等部分組成,流程上則可以將其分為模型訓練、說話人注冊以及說話人識別3 個階段,如圖1所示[2].

圖1 聲紋識別流程圖

近年來,隨著人工智能技術以及計算機軟硬件理論的快速發(fā)展,深度學習理論被廣泛應用于聲紋識別領域,聲紋識別的性能得到進一步提高.如:2014年,Variani 等提出了利用全連接神經網絡構建深度聲紋特征提取網絡的聲紋方法[3];2015年,Heigold 等提出了基于單層LSTM 且文本相關的聲紋識別方法[4];2017年,Nagrani 等提出了基于VGGNet 的聲紋識別方法[5];2018年,Chung 等提出了基于深度殘差網絡以及對比損失的聲紋識別方法[6].通過對上述研究進行分析可以發(fā)現(xiàn),近年來提出的聲紋識別方法大多存在著空間特征與時序特征只取其一,忽略了語音片段同時包含空間特征與時序特征的問題;例如,文獻[4]僅考慮了語音片段的時序特征而忽略了空間特征,而文獻[5,6]則僅考慮了空間特征而忽略了時序特征.本文在文獻[4]與文獻[6]的基礎上提出了基于ResNet-LSTM 且與文本無關的聲紋識別方法,該方法采用ResNet和LSTM作為深度語音特征的提取網絡,ResNet 部分和LSTM部分分別用于提取聲紋中的空間特征和時序特征,結合了ResNet與LSTM 的優(yōu)點,最終的實驗結果顯示,本文提出的聲紋識別方法相對d-vector與VGGNet 性能上均有不同程度的提升.

1 深度神經網絡

1.1 卷積神經網絡

卷積神經網絡的概念起源于20世紀60年代,首次提出了感受野的概念,學者對貓的視覺皮層細胞研究發(fā)現(xiàn),每一個視覺神經元只會處理一小塊區(qū)域的視覺圖像,即感受野.20世紀80年代,日本科學家提出了神經認知機的概念,該結構包含了S-cells和C-cells 相當于卷積層和池化層,被認為是當代卷積神經網絡的原型.1998年,LeCun 首次提出了可以多層訓練的網絡結構——LeNet5,并將BP 算法應用至該網絡結構的訓練過程中,形成了當代卷積神經網絡的雛形[7].雖然LeNet5 的提出是里程碑式的創(chuàng)新,但是受限于計算機硬件計算能力的落后以及非常高的訓練成本,卷積神經網絡一直難以媲美傳統(tǒng)的統(tǒng)計學習方法,并一直處于學術界的邊緣.直至2012年Hinton 等提出了全新的AlexNet 網絡結構,其在AlexNet 中引入了全新的深層結構以及Dropout 方法,將ImageNet 圖像識別大賽的錯誤率降至15%,顛覆了圖像識別領域[8].隨后的幾年中卷積神經網絡在圖像識別領域中得到了廣泛的研究與應用,各種優(yōu)秀的卷積神經網絡結構相繼被提出,如:Inception-V4[9]、VGG[10]、ResNet[11]、Dense-Net[12]等.

1.2 循環(huán)神經網絡

循環(huán)神經網絡是一類主要用于處理時間序列的神經網絡結構,其在語音識別、股票預測、軌跡預測等領域皆有所應用.其主要特點在于神經元在某個時間點的輸出可以再次作為神經元的輸入,這種串聯(lián)結構非常適合處理時間序列問題,可以相對保持序列數(shù)據(jù)中上下文的依賴關系.針對循環(huán)神經網絡的研究最早可追溯至上世紀90年代,在長達20年的發(fā)展歷史中誕生了多種循環(huán)神經網絡結構.如:1997年,Hochreiter等提出了長短期記憶循環(huán)神經網絡(LSTM),其在原始RNN 的基礎上做了改進,改善了長距離的上下文依賴問題[13];2000年,Gers 等提出了帶有遺忘門的長短期記憶循環(huán)神經網絡[14];2005年,Graves 等提出了雙向長短期記憶循環(huán)神經網絡[15];2014年,Cho 等提出了GRU 循環(huán)神經網絡等[16].

2 基于ResNet-LSTM 的聲紋識別方法

2.1 ResNet

自2012年AlexNet 卷積神經網絡提出以來深度卷積神經網絡已經成功應用于圖像識別、語音識等多個領域,研究人員認識到通過增加網絡深度可以有效地提高卷積神經網絡的性能,但是隨著網絡深度的不斷增加,卻出現(xiàn)了難以解決的梯度消失和梯度爆炸問題,導致深度卷積神經網絡在訓練階段難以得到收斂.并且研究人員還發(fā)現(xiàn)隨著網絡深度的不斷增加,網絡的退化問題愈加嚴重,導致分類性能愈來愈差.對此,He 等在Highway 網絡的基礎上提出了基于殘差結構的卷積神經網絡——殘差網絡(ResNet),相對于Highway網絡深度殘差網絡不僅緩解了深度卷積神經網絡訓練過程中梯度消失和梯度爆炸的問題并且大大提升了網絡的性能,在性能和訓練速度上均獲得了較大了提升,成為了近年來極具影響力的一種深度卷積神經網絡結構[17].

深度殘差網絡一般由多個殘差塊構成,其中標準殘差塊如圖2所示通常由卷積層(Conv)、批量歸一化層(BN)以及非線性激活層(ReLU)堆疊而成.在普通的神經網絡訓練過程中,目標是學習得到最優(yōu)映射函數(shù)H(x),而在殘差網絡中將輸入x直接短接至網絡的輸出(跳躍連接),此時網絡將不再直接學習最優(yōu)映射函數(shù)H(x)而是轉而學習其殘差F(x)=H(x)?x.

圖2 殘差塊結構圖

2.2 LSTM

自上世紀循環(huán)神經網絡提出以來在深度學習領域得到了廣泛的應用,循環(huán)神經網絡的設計初衷是為了學習時間序列問題中的長期依賴性,實踐也證明循環(huán)神經網絡在處理該問題上有著很好的表現(xiàn),但同時也有大量實驗表明標準的循環(huán)神經網絡因其迭代性將導致訓練過程中出現(xiàn)梯度消失以及梯度爆炸問題.為了解決此問題,Hochreiter 等提出了長短期記憶循環(huán)神經網絡(LSTM)[13],LSTM也因此成為了實際應用中較為廣泛的循環(huán)神經網絡模型之一.

對比于標準循環(huán)神經網絡簡單的隱藏單元,LSTM引入了門的概念并具有更復雜的隱藏單元結構,其中隱藏單元一般由輸入門i、遺忘門f以及輸出門o構成,如圖3所示.LSTM 對信息的存儲和更新由門控部分實現(xiàn),門控可以視作一個包含了Sigmoid 激活函數(shù)和點乘運算的全連接層.門控操作可以公式化為:

圖3 LSTM 單元結構圖

其中,σ (x)=1/(1+exp(?x))為Sigmoid 激活函數(shù),深度學習領域常見非線性激活函數(shù)之一.LSTM 中Sigmoid激活函數(shù)用于描述信息的通過比例,當門的輸出為0 時,表示沒有數(shù)據(jù)通過,當輸出為1 時表示數(shù)據(jù)全部通過[18].

2.3 ResNet-LSTM 深度特征提取網絡

已知深度殘差網絡相對于傳統(tǒng)的深度卷積神經網絡在緩解了網絡訓練過程中梯度爆炸以及梯度消失問題的同時提高了網絡的特征提取能力,因此在本文中采用了深度殘差網絡作為聲紋空間特征的提取網絡.本文采用的實驗數(shù)據(jù)均為時長1 s 的短語音片段,雖然極短的語音片段通常難以包含具有語義上的上下文內在關系,但時長1 s 的語音片段經過本文的Fbank 特征提取操作后將會獲得具有99 幀的Fbank 特征,其本質上依然是一個時間序列.因此本文在提取聲紋深度空間特征的同時進一步利用LSTM 循環(huán)神經網絡進行幀級別的時序特征的提取,最終獲得了同時具備空間和時序特征的深度聲紋特征.

本文的深度特征網絡結構上分為兩部分,分別為ResNet 殘差網絡部分以及LSTM 長短期記憶循環(huán)神經網絡部分.其中ResNet 殘差網絡部分由兩個卷積層以及6 個標準殘差塊構成,LSTM 長短期記憶循環(huán)神經網絡部分由兩個LSTM 層構成,詳細網絡結構如表1所示.

表1 ResNet-LSTM 網絡結構圖

2.4 等錯誤率

等錯誤率(Equal Error Rate,EER)是常見的模型評價指標之一,常用于聲紋識別、指紋識別、人臉識別等領域,與錯誤拒絕率以及錯誤接受率密切相關.對于二分類問題,可以將其實際分類與預測分類的組合劃分為表2.

表2 實際分類與預測分類的組合劃分

錯誤接受率(False Acceptance Rate,FAR)指本不該接受的樣本中接受的比例,公式為:

錯誤拒絕率(False Rejection Rate,FRR)指本不該拒絕的樣本中拒絕的比例,公式為:

等錯誤率為判斷閾值為某一值時,錯誤接受率與錯誤拒絕率相等時的值,此時錯誤接受率、錯誤拒絕率、等錯誤率三者相等.

3 實驗與分析

3.1 數(shù)據(jù)選擇與處理

本文采用AISHELL-1 開源數(shù)據(jù)集作為本次實驗的訓練與測試數(shù)據(jù),該數(shù)據(jù)集包含了來自中國各地具有不同口音的400 位說話人,其中訓練集340 人、驗證集40 人、測試集20 人,總時長達到了178 小時.由于ResNet-LSTM 網絡中全連接層對數(shù)據(jù)輸入形狀有嚴格要求以及為了避免靜音片段對網絡識別能力的影響,本文對原始數(shù)據(jù)進行了靜音抑制與等長切分的預處理操作.在未經處理的原始語音數(shù)據(jù)中存在較多的靜音片段,若不加處理對聲紋識別系統(tǒng)將會造成嚴重的干擾,影響系統(tǒng)的識別能力,因此在本文中首先對原始數(shù)據(jù)進行靜音抑制操作,緊接著為了保證輸入數(shù)據(jù)的大小一致對靜音抑制后的語音數(shù)據(jù)進行長度1 s 的等長切分,在后續(xù)的模型訓練以及模型測試過程中都將針對1 s 時長的語音片段進行.數(shù)據(jù)預處理過后緊接著是聲紋特征提取操作,本文提取了64 維的Fbank 特征并計算其一階差分(delta_Fbank)和二階差分(delta_delta_Fbank),按照Fbank、delta_Fbank、delta_delta_Fbank 的順序對其進行堆疊,形成一個類似于彩色圖片的三通道矩陣,最終獲得的輸入數(shù)據(jù)形狀為6 4×99×3.

3.2 實驗設置

本文采用了具有NVIDIA GTX1080Ti 高性能顯卡的專業(yè)服務器,并搭建了包括TensorFlow-GPU 1.15.0、Keras 2.3.1、CUDA 10.0.130、cuDNN 7.6.5 的開發(fā)環(huán)境.實驗中,在訓練階段采用交叉熵損失作為代價函數(shù),以及動量為0.99、初始學習率為0.005、衰減率為0.0001的隨機梯度下降,訓練的總迭代次數(shù)(epochs)為40,batch_size為32.在說話人注冊階段,每個人隨機選取了5 個語音片段并取其均值作為說話人注冊向量.在測試階段,計算待識別語音的深度說話人嵌入與注冊向量之間的余弦相似度作為相似性評分,評分越高則判斷兩段語音的聲紋越相似.

3.3 實驗結果與分析

本文以D-vector、VGG為本文的基線方法,并針對本文提出的網絡結構進行了消融實驗,以驗證殘差網絡與LSTM 循環(huán)神經網絡結合的網絡結構的積極作用.本文在實驗中采用等錯誤率(EER)作為本次實驗的評價指標,并利用DET 曲線可視化比較各模型性能的差異,詳細對比了模型間的等錯誤率(表3所示)以及DET 曲線(圖4所示).

圖4 DET 曲線

表3 測試集等錯誤率

由表3以及圖4可以得到在聲紋識別問題中,本文提出的基于ResNet-LSTM 的聲紋識別方法明顯優(yōu)于基線方法中的聲紋識別方法,等錯誤率降低至1.196%,相對于對比實驗中的各種聲紋識別方法下降了0.67～3.6%.

4 結語

本文提出了一種基于ResNet-LSTM 的聲紋識別方法,該方法首先采用深度殘差網絡進行聲紋空間特征的提取操作,其次利用LSTM 循環(huán)神經網絡進行時序特征的提取,結合了卷積神經網絡與循環(huán)神經網絡的優(yōu)點.本文通過實驗證明了該方法的有效性,與基線方法中的聲紋識別方法相比,本文提出的聲紋識別方法大大降低了聲紋識別的等錯誤率,提高了聲紋識別的準確率.后續(xù)將進一步研究特征融合、模型融合等方法,進一步提高聲紋識別方法的識別性能.