999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

說話人特征約束的多任務卷積網絡語音增強

2021-02-28 06:20:22張林濮邵玉斌杜慶治
小型微型計算機系統 2021年10期
關鍵詞:模型

龍 華,張林濮,邵玉斌,杜慶治

(昆明理工大學 信息工程與自動化學院,昆明 650500)

1 引 言

語音增強(Speech Enhancement,SE)是聲學研究中的一項重要任務和課題,它的目的是在給出帶噪語音的條件下,盡可能從中恢復不帶噪的干凈語音.語音增強的方法種類繁多,傳統的單聲道語音增強算法主要分為時域和頻域方法.時域方法如基于參數和濾波的方法,主要利用濾波器估計發聲器官的聲道參數和激勵參數[1].頻域方法主要基于短時譜估計,如:譜減法[2],維納濾波法[3],最小均方誤差法[4]等.

近年來,深度學習成為語音領域的研究熱點.深度神經網絡(DNN)被廣泛應用于語音識別,語音合成,說話人識別等領域.因為深度學習在圖像識別領域的巨大成功,研究人員開始在語音增強方向應用類似的方法并取得成功[5].盡管神經網絡在語音增強中很大程度提高了降噪音頻的質量,但在這些模型中,增強過程在對背景噪聲抑制的同時,也對原始信號造成了較大的破壞.

說話人識別(Speaker Recognition,SR)又稱聲紋識別,同樣是語音識別任務中具有很大研究價值的方向.聲紋識別已經成為身份認證領域的重要手段,聲紋這一生物特征以經成功應用于監控、安全解鎖、智能手機以及智能電器聲控操作以及司法認證等領域.目前,神經網絡包括d-vector[6],x-vector[7]等模型已經在說話人識別領域取得了成功.這些模型在理想無干擾或者高信噪比條件下均取得了比較滿意的效果.但是,說話人識別任務在干擾環境特別是低信噪比干擾條件下的識別率迅速下降.雖然x-vector在數據集上做了加噪與加混響處理[8],但是這種方法更多是出于數據增強方面的考慮的,而且加入的噪聲能量相對較小,面對低信噪比環境效果依然不理想.所以,面對真實情況下復雜的噪聲類型以及信噪比環境,對語音進行預處理以及增強,提高說話人識別系統在噪聲環境下的魯棒性是很有必要的.文獻[9]中利用DNN 網絡擬合干凈語音和帶噪語音的i-vector特征矢量的非線性函數關系,獲得干凈語音i-vector的近似表征,降低了噪聲對說話人識別的影響.文獻[10]中將帶噪語音的梅爾頻譜倒譜系數(Mel frequency cepstrum coefficient,MFCC)和理想二值掩蔽(Ideal Binary Mask,IBM)與對數功率譜一起拼接并輸入DNN網絡中,預測對應干凈語音的這3項特征.相較于僅估計純凈語音對數功率譜的單任務模型,該框架對目標函數添加了額外的約束,提高了語音增強的效果.文獻[11]設計了一種去噪自動編碼器,并在其上疊加一個深度網絡形成深層結構,用這個神經網絡結構替換傳統i-vector的高斯混合模型.

受上述工作啟發,本文提出了一種基于多任務學習的卷積神經網絡語音增強模型.在多任務框架中,該模型不只學習帶噪語音與干凈語音的對數功率譜之間的映射關系,同時將離散的說話人標簽作為網絡的另一個輸出.并且把語音的連續特征(如MFCC,基音周期)作為多任務學習中的輔助任務,希望能給網絡提供更多的信息,并且作為限制項對輸出的功率譜做一個約束,從而提高語音增強和說話人識別效果.

2 基于CNN的頻譜映射模型

卷積神經網絡(Convolutional Neural Network,CNN)近年來在圖像識別領域取得了巨大的成功,并大規模應用于商業項目[12].CNN的原理是基于對生物視覺習慣和神經網絡的一種模擬,并對大腦皮層中的局部感知做一種近似.相較于標準的全連接DNN模型,CNN可以更好地適應音頻信息中時域和頻域維度的變化,并克服語音信號中不穩定環境與非平穩噪聲的影響[13].此外,由于CNN的卷積層采用了參數共享和稀疏連接的原理,相比于DNN,CNN模型(如圖1所示)的參數數量也大規模減少,提高了訓練和運算速度,使得其能在性能較弱的設備上更好的運行.

圖1 CNN模型結構

假設有一段干凈語音和一段噪聲,那由它們得到的加性帶噪語音為:

y=x+n

(1)

頻譜特征提取及語音重構流程如圖2所示.語音信號x和帶噪語音y經過分幀處理后的短時傅里葉變換(Short-Time Fourier Transform,STFT)記為X(n,k)和Y(n,k),其中,n=1,2,…,N代表幀數.k=1,2,…,K代表頻帶維度,傅里葉變換的點數為D,因為傅里葉變換具有對稱性,故幅值譜的有效頻帶維度K=D/2+1.語音信號的STFT的復數序列形如:

圖2 頻譜特征提取及語音重構流程

X(n,k)=Xr(n,k)+jXi(n,k)

(2)

Xr和Xi分別為STFT域上的實部和虛部.則其幅值F和相位φ的計算公式為:

(3)

(4)

Fx(n,k)=|X(n,k)|

(5)

因為人耳對音頻信號的感知是非線性的,故一般對幅值譜取對數來增強振幅微弱的部分,則得到對數功率譜(Logarithmic Power Spectra,LPS):

Px(n,k)=log(Fx(n,k))

(6)

(7)

首先需要對估計的LPS進行指數操作恢復為功率譜:

(8)

因為對干凈語音LPS的相位估計比較困難,而且實驗表明人耳對相位變化的感知不明顯,所以我們采用帶噪語音的相位來對干凈語音進行重構:

(9)

(10)

其中,K為上面提到的傅里葉變換的有效維度.

3 基于多任務學習的CNN聲學模型

3.1 融合網絡多任務學習

多任務學習(multi-task learning,MTL)概念的提出是相對于標準的單任務學習模型的.傳統的單任務模型一次只優化一個目標函數,針對單個任務.而多任務學習通過共享一些隱藏層的參數,來獲取多個任務之間的關聯性信息[14].

帶噪語音中不只混有語音與噪聲的信息,也含有不同說話人之間的音調、音色差異等信息.語音增強任務注重提取干凈語音之間的相似性,并區分語音與噪聲的差異.說話人識別注重區分不同說話人在語音信號中的個人特征,如發音習慣,音色等.因此,利用多任務學習的參數共享機制,通過神經網絡模型讓語音增強任務和說話人識別任務能夠獲得彼此之間的隱含信息.兩個任務之間的特性與共性也通過該機制體現,并可以對各自的訓練提供幫助.

(11)

這些線性函數的參數記為Λ,網絡就可以通過將ΛAB和ΛBA設置為0,來結束共享;通過將ΛAB和ΛBA附上更高的值來提高共享的程度.注意我們只在CNN的池化層或全連接層進行參數共享.

Λ是可以通過訓練學習的參數.因為單元內的函數為線性組合,所以損失函數L對于Λ的偏導可以按如下計算:

(12)

(13)

融合網絡多任務學習和CNN模型結構如圖3所示,本文設計的CNN模型包含多個卷積層和全連接層,其中每個卷積層和全連接層之后需要進行非線性變換操作,我們選擇線性整流函數(Rectified Linear Unit,ReLU)作為激活函數.卷積核的大小均為3×3,卷積核數量為64-64-128-128-256,步長均為1×1.池化層均采用最大池化(Max-Pooling),大小為2×2.卷積層之后為兩個全連接層,節點數量均為512.最后,語音增強任務的輸出層為包含101個節點的全連接層,說話人識別任務的輸出層也為全連接層,節點數量與訓練集說話人數目保持一致,最終通過softmax函數輸出.

圖3 融合網絡多任務學習CNN模型結構

3.2 特征聯合輔助訓練

在基于CNN的語音增強中,優化的目標函數為對數功率譜上輸入輸出之間的最小均方誤差[16,17].在對數功率譜域中,不同頻率之間是獨立假設的,各個維度的相互關系沒有被考慮,模型的預測缺乏約束,也不利于對人耳的聽覺特征的模擬與感知[18].

在本節,我們通過引入輔助學習(Auxiliary Learning)的方法來間接的優化目標函數.在多任務學習框架中,如果主任務的數據維度高,不相關特征較多,會對模型的擬合造成更多的困難.輔助任務對模型的訓練添加了約束,使得模型能將注意力更加集中于那些與結果緊密相關的特征.所以,輔助任務的引入讓模型不僅學習干凈語音的LPS,同時學習如梅爾頻譜倒譜系數和基音周期這樣的連續特征.

MFCC是常見的用于語音識別,聲紋識別和情感識別等任務的語音特征.MFCC的計算過程中,在倒譜上應用了跟人耳感知音高變化等距的梅爾濾波器組,凸顯了聲音中的低頻部分,并且強調了相鄰幀之間的聯系.在MFCC中,梅爾三角濾波對語音頻譜進行了平滑化,消除了諧波的作用,也使得語音的共振峰得到凸顯.因此MFCC并不反映一段語音的音調或音高,所以說,如果將MFCC 作為一個語音辨識系統的輸入特征,結果并不會受到輸入語音音高的影響.但實際上,音高的變化可以表示出不同說話人發音習慣上的不同,是描述語音激勵的一個重要特征.

基音(pitch)反映了人在發濁音時聲帶振動的周期性,而基音周期為聲帶振動頻率的倒數.說話人聲帶的薄厚,韌性,長短等與基音周期有很大的關系,所以基音周期在很大程度上反映了說話人聲音的個性.

本文采用小波變換法提取基音周期.由于小波變換對信號中頻率和時間分辨率特性與人耳的時頻分析特征極為類似,并且語音信號的小波變換極值點對應聲門的開啟和閉合點.所以基音周期就可以用小波變換中相鄰極值點之間的距離估算.信號中的突變位置反映在零點或極值點上.于是,根據小波信號中的奇異點,就可以實現對基音周期的檢測.

3.3 自適應損失

多任務學習中,多元回歸和分類任務通過從共享的表示中學習多個目標來提升效率,預測精度和泛化能力.但是,不同的任務之間尺度是不同的,這就涉及到多任務學習中不同單位尺度任務的目標函數的聯合學習.所以,多任務學習中很重要的一個問題是如何設計損失函數,平衡不同類型的任務,避免在訓練過程中整個模型被某一個任務主導.這就涉及到為不同任務的損失函數賦上不同的權重,將不同任務的損失統一成一個損失函數.常規方法是將各任務的損失簡單相加或者設置統一的權重,見式(14):

(14)

更進一步,可能會手動的進行權重調整,這樣會造成最終模型在有些任務上表現很好,而在其他任務上效果較差.

文獻[19]介紹了一種利用同方差的不確定性(Homoscedastic Uncertainty)自適應調整不同損失函數權重的方法.同方差的不確定性屬于偶然不確定性,這種不確定性捕捉了不同任務之間的相關性置信度,所以這種不確定性可以作為不同任務損失權重賦值的衡量標準.

假設fw(x)為神經網絡在輸入為x、模型參數為w時的輸出,y為對應的正確輸出.在多任務情況下,得到K個離散回歸任務的最大似然:

(15)

(16)

其中,每個模型都遵循帶有噪聲標量σ的高斯分布.對于分類問題,通常會通過softmax函數輸出,如下式所示:

p(y|fw(x))=softmax(fw(x))

(17)

所以最大似然的估算可以表示為下式中最小化模型的負對數似然:

-logp(y1,y1,…,yk|fw(x))∝

(18)

求得softmax分類的似然估計:

(19)

以兩個輸出連續性y1和離散型y2為例,分別用高斯分布和softmax建模,可得損失函數:

(20)

指定每一個任務對應的損失函數Li(w)=‖yi-fw(x)‖2,則最終多任務模型的聯合損失為:

(21)

當噪聲σ增大時,相對應的權重就會降低;反過來,隨著噪聲σ減小,相對應的權重就要增加.

4 實驗設計與結果分析

4.1 實驗設置

本實驗采用的語音數據為Free ST Chinese Mandarin Corpus中文語音庫,均為重采樣到8000Hz頻率、單通道的干凈語音.Free ST Chinese Mandarin Corpus語音庫包含855個說話人的每人120條,總計10余萬條的中文普通話語音數據.采用的噪聲數據來自ESC-50噪聲庫[20],包括50類、每類40條的噪音.

關于帶噪語音的合成,將每一條語音庫中的干凈語音,分別按-5dB,-2dB,0dB,5dB,10dB與噪音混合.其中,噪音是從ESC-50的50類噪音中隨機挑選一類,并隨機截取與干凈語音等長的片段,按照信噪比調整噪音能量,然后與原始語音混合.

語音預處理部分,先對原始語音利用譜熵法進行端點檢測(Speech Activity Detection,SAD);之后對信號進行分幀,幀長與STFT的點數保持一致,為200點(25ms);幀移為80點(10ms).之后在每一幀信號上加漢寧窗(hamming window)并計算STFT.MFCC變換中的STFT與上述保持一致,梅爾濾波器的個數為40.

測試集中的干凈語音來自Free ST Chinese Mandarin Corpus中與訓練集不重疊的127個說話人的254條語音;噪音來自ESC-50中的3種與訓練集不重疊的6段噪音,分別是Laughing、Wind和Train類噪音.測試集的干凈語音按照-5dB,0dB和10dB的信噪比分別與不同種類中隨機截取的噪聲混合,總計得到大小為4572條的帶噪測試集.

本實驗采用感知語音質量(Perceptual Evaluation of Speech Quality,PESQ)、短時客觀可懂度(Short Time Objective Intelligibility,STOI)和分段信噪比(Segmental SNR,SSNR)作為語音增強結果的評價指標.其中,PESQ偏重于增強語音的總體質量,是評價語音質量常用的標準方法,得分介于-0.5~4.5之間,越高代表語音質量越好;STOI是近幾年語音增強領域常用的評價語音可懂度的指標,得分介于0到1之間,越高代表可懂度越好;SSNR代表了增強之后語音的信噪比,越高代表增強語音的干凈程度越高.

4.2 實驗測試

為了驗證本文提出模型的效果,本實驗設計了基于DNN的語音增強模型的基線,模型采用LPS作為輸入輸出特征,其中每個輸入為包含上下文共11幀的LPS,輸出為對應的干凈頻譜的中間幀.模型共有4個隱藏層,每個隱藏層包含2048個節點,激活函數為ReLU;只包含語音增強和說話人識別兩個主任務的CNN模型記為CNN-Mul;本文提出的包含兩個主任務和輔助任務的CNN模型記為CNN-Mul-Aux.模型CNN-Mul-Aux的輔助訓練中,我們將帶噪語音的MFCC和基音周期與輸入端的LPS拼接在一起,并將干凈語音的MFCC和基音周期拼接在語音增強的輸出端.

表1、表2和表3分別在Laughing、Wind和Train類噪音下對模型性能進行了對比.從表1-表3可以看出,CNN增強模型在3種噪聲下均實現了不錯的效果,除了10dB的Train噪聲下的SSNR外,CNN在不同SNR級別以及環境下的各指標要一致的比DNN都要好.并且CNN在噪聲的濾除上也比DNN實現了更好的效果,說明CNN確實更好的利用了LPS頻域和時域的相關性,使其可以更好地估計語音中的平穩與非平穩噪聲.另外,加入輔助任務的CNN-Mul-Aux模型在各項指標上均好于未加入輔助任務的CNN-Mul模型和DNN,說明將MFCC特征和基音周期拼接在輸入輸出端確實可以顯著提升模型的增強效果,并且可以避免模型在單獨的LPS任務上過擬合,從而增強模型的魯棒性.

表1 Laughing噪聲下的語音增強性能測試

表2 Wind噪聲下的語音增強性能測試

表3 Train噪聲下的語音增強性能測試

如圖4所示分別為各模型對帶噪語音進行增強之后的結果的對數功率譜圖對比,可以更直觀的體現增強效果的差異.我們取一段加入-5dB的Train噪聲的語音并用各個模型進行增強,圖中從上到下依次為干凈語音、帶噪語音以及模型增強之后的對數功率譜圖.其中,橫軸代表分幀之后的幀數,縱軸代表頻率,Z軸代表信號在相應頻率的振幅.

從圖4中幾種算法的對數功率譜結果對比可以看出,采用CNN算法增強后的語音純凈度比DNN更高,對噪聲的抑制效果更好.另外,CNN-Mul-Aux相較于未加入輔助任務的CNN-Mul模型,更好的保留了原始語音的信息.

圖4 對數功率譜結果對比

本文通過x-vector說話人識別算法來評估經過增強后的語音在說話人信息上的失真程度.搭建的模型框架基于Kaldi工具箱,訓練集采用AISHELL-1中文語音數據集[21].x-vector與CNN說話人識別模型在測試階段均取softmax之前的向量并進行概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)打分.注冊集為Free ST Chinese Mandarin Corpus中與訓練集不重疊的127個說話人的1270條語音,測試集來自相同說話人的另外2540條語音.采用的性能評價指標為等錯誤率(equal error rate,EER)和最小檢測代價準則(minimum detection cost function,DCF).DCF函數計算公式如下:

DCF=CFREFRPtarget+CFACFA(1-Ptarget)

(22)

CFR與CFA分別為錯誤拒絕和錯誤接受的懲罰系數,Ptarget與(1-Ptarget)分別為真實說話測試和冒充測試的先驗概率.我們采用NIST SRE 2016設定的CFR=1,CFA=1,Ptarget=0.001這組參數.當這3個值選定后,選取一組FRR與FAR的取值使得DCF最小,此時的DCF即為minDCF.本文中采用NIST SRE 2016設定參數的minDCF記為minDCF16.因為minDCF16不僅考慮了兩種錯誤不同代價,還考慮到了測試情況的先驗概率,因此在評估說話人識別模型的性能上比EER更加合理.

為了驗證本文提出的模型的說話人識別性能,本文對比了幾種不同的方法.其中,x-vector為用x-vector模型直接識別帶噪語音的結果;DNN-x為經過DNN增強之后的語音在x-vector模型上的結果;CNN-ori-x為未加入輔助任務的多任務CNN模型增強之后的語音在x-vector模型上的結果;CNN-x為經過本文提出的CNN模型增強之后的語音在x-vector模型上的結果;CNN-direct為本文提出的CNN模型直接進行說話人識別的結果.各算法的在不同信噪比下的EER以及minDCF16如表4所示.

由表4可知,噪聲環境下,尤其是低信噪比情況,x-vector的識別效果受到了較大的影響,說明對帶噪語音進行預處理是有必要的.經過DNN增強之后的語音在x-vector上的識別率有了較大提高,但是效果依然不理想.另外可以看到,尤其在-5dB情況下,CNN增強之后的識別率要顯著高于DNN模型,說明融合網絡的說話人識別任務通過參數共享給增強模型提供了更多的說話人信息.這其中,CNN-x的效果要好于CNN-ori-x,說明輔助任務幫助CNN語音增強保留了更多的說話人信息;CNN-direct模型的效果要略好于CNN-x模型,原因可能是CNN的識別效果要好于x-vector中的TDNN、x-vector中的統計池化層(Statistic Pooling)和因為訓練集的不同所導致的信道差異.

表4 說話人識別性能測試結果

5 結 論

在本文中,針對傳統語音增強模型中忽略說話人信息的問題,研究了噪聲干擾下的語音增強技術及對說話人識別的影響,提出了一種基于多任務和輔助任務約束的卷積神經網絡語音增強方法.通過構建語音增強與說話人識別的融合網絡多任務學習模型,同時在輸入輸出端拼接MFCC和基音周期特征,以及利用同方差不確定性自適應調整損失權重,顯著提高了語音增強的效果,減少了去噪語音的失真,并在噪聲干擾下的說話人識別任務上取得了優秀的表現.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久精品最新免费国产成人| 国产男人天堂| 青青草原国产精品啪啪视频 | 国产精品视频3p| 国产小视频免费观看| 日韩精品无码一级毛片免费| 久青草网站| 国产97视频在线观看| 九色国产在线| 波多野结衣视频网站| 99这里只有精品在线| 天堂网亚洲综合在线| 国内精品久久人妻无码大片高| 国产成人永久免费视频| 国产一二三区视频| 正在播放久久| 男人天堂亚洲天堂| 波多野结衣一区二区三区四区视频| 99热这里都是国产精品| 国内精品视频| 9cao视频精品| 久久精品日日躁夜夜躁欧美| 亚洲色偷偷偷鲁综合| 韩国福利一区| 国产精品黄色片| 噜噜噜综合亚洲| 久久免费观看视频| 久久人人妻人人爽人人卡片av| 精品视频一区二区三区在线播| 精品无码国产自产野外拍在线| 欧美日本二区| 欧美激情第一欧美在线| 波多野结衣一区二区三视频| 午夜福利亚洲精品| 亚洲精品视频免费| 欧美笫一页| 尤物国产在线| 国产91高跟丝袜| 色网在线视频| 91精品人妻互换| 亚洲国产精品一区二区第一页免| 亚洲人视频在线观看| 一级不卡毛片| 亚洲欧美在线综合一区二区三区| 国产喷水视频| 亚洲一区二区无码视频| 午夜精品久久久久久久无码软件| 久久青草免费91线频观看不卡| 国产麻豆精品在线观看| 亚洲综合片| 国产精品欧美激情| 色哟哟国产精品| 国产美女免费网站| 亚洲欧美一区在线| 国产手机在线观看| 在线国产综合一区二区三区| 亚洲欧美不卡| 婷婷五月在线视频| 国产精品美女免费视频大全| 国精品91人妻无码一区二区三区| 国产丝袜啪啪| 国产无码高清视频不卡| 欧美在线网| 深爱婷婷激情网| 国产福利不卡视频| 在线观看91精品国产剧情免费| 国产另类乱子伦精品免费女| 精品91在线| 成人欧美在线观看| 国产精品尹人在线观看| 日本三区视频| 99精品视频九九精品| 伊人天堂网| 国模粉嫩小泬视频在线观看| 精品无码一区二区三区电影| 久久免费视频6| 国产精品一区在线麻豆| 国产剧情国内精品原创| 二级毛片免费观看全程| 日本成人在线不卡视频| 国产永久无码观看在线| 亚洲成人精品在线|