基于幅度和相位混合特征交叉的語音增強方法

2024-02-22 08:01:06卿朝進付小偉唐書海

計算機工程與設(shè)計 2024年2期

卿朝進，付小偉，唐書海

(西華大學(xué) 電氣與電子信息學(xué)院，四川成都 610039)

0 引言

近年來，基于深度學(xué)習(xí)的語音增強方法[1-4]，展示出了優(yōu)于經(jīng)典方法的語音增強效果[5-7]。然而，這些深度學(xué)習(xí)語音增強方法大都基于語音幅度信息構(gòu)建神經(jīng)網(wǎng)絡(luò)架構(gòu)，語音的相位信息并沒有得以充分開發(fā)。事實上，語音的相位信息對語音質(zhì)量和語音可懂度有較大的影響[8]。為此，本文從融合幅度與相位信息的視角出發(fā)，提出基于幅度和相位混合特征交叉的語音增強方法。首先，將含噪語音信號變換到時-頻域，提取對數(shù)功率譜和相位特征。其次，將提取到的對數(shù)功率譜和相位依次交叉排列形成混合交叉特征。最后，為充分利用特征的幀間相關(guān)性，對得到的混合交叉特征進行特征擴張。特別地，本文將復(fù)數(shù)掩模(complex ideal ratiomask，cIRM)作為網(wǎng)絡(luò)的學(xué)習(xí)目標，并將cIRM的實部和虛部依次交叉排列形成新的學(xué)習(xí)標簽。在此基礎(chǔ)上，本文基于幅度和相位混合交叉特征構(gòu)建幅度相位深度編解碼器網(wǎng)絡(luò)(amplitude phase deep encoder decoder network，APDEDN)，從而改善語音質(zhì)量感知評估(perceptual evaluation of speech quality，PESQ)評分和短時目標可懂度(short time objective intelligibility，STOI)。PESQ為ITU-T(國際電信聯(lián)盟電信標準化部)推薦的語音質(zhì)量評價指標，得分區(qū)間為[-0.5，4.5]，得分越高代表語音質(zhì)量越好[9]；STOI為短時可懂度與人類對語音可懂度的主觀評價高度相關(guān)，得分區(qū)間為[0，1]，得分越高代表語音可懂度越好[10]。

1 時頻掩模語音增強系統(tǒng)模型

在單通道語音增強系統(tǒng)中，時域含噪語音信號y[k] 可表示為

y[k]=s[k]+n[k]

(1)

其中，s[k] 和n[k] 分別為時域干凈信號和噪聲信號，k表示為時域樣本索引。時域含噪語音信號y[k] 經(jīng)過短時傅里葉變換(short time fourier transform，STFT)后，其時-頻域形式為

Yt，f=St，f+Nt，f

(2)

(3)

2 基于幅度和相位特征交叉的語音增強

本節(jié)詳述基于幅度和相位特征交叉的語音增強方法。首先，在2.1小節(jié)展示混合特征提取過程。隨后，在2.2節(jié)詳述標簽設(shè)計過程。最后，在2.3小節(jié)給出APDEDN網(wǎng)絡(luò)。

2.1 混合特征提取

混合特征提取流程如圖1所示。首先，利用STFT將時域含噪語音信號轉(zhuǎn)換到頻域，并根據(jù)頻域含噪語音信號提取對數(shù)功率譜和相位特征。隨后，將提取到的對數(shù)功率譜和相位依次交叉排列，形成混合交叉特征。最后，將混合交叉特征進行特征擴張，得到特征擴張后的特征矩陣。混合特征提取算法偽代碼見表1。

表1 混合特征提取算法偽代碼

圖1 特征提取

下面，詳述混合特征提取過程。

(1)特征提取

長度為N的時域含噪語音信號y經(jīng)STFT到時-頻域，得到時-頻域含噪語音信號Y∈T×F。其中，T=N/Nr+1表示含噪語音信號在時域的幀數(shù)，Nr為滑動步長；F=(NSTFT/2)+1表示頻點個數(shù)，NSTFT為STFT長度。Y∈T×F的第 (k，m) 的元素Y[k，m] 可表示為

(4)

其中，k=1，2，…，T，m=1，2，…，F(xiàn)；w(n) 為窗函數(shù)，Nr為滑動步長。當窗函數(shù)為漢明窗時，w(n) 可表示為

(5)

其中，Nl為窗長。為放大幅度譜特征，根據(jù)時-頻域含噪語音信號Y計算對數(shù)能量譜A∈T×F，其索引為 (k，m) 的元素可表示為

A[k，m]=log(|Y[k，m]|2)

(6)

根據(jù)時-頻域含噪語音信號Y提取含噪信號相位θ∈T×F，其索引為 (k，m) 的元素可表示為

θ[k，m]=arctan2(Re(Y[k，m])，Im(Y[k，m]))

(7)

(2)特征交叉

將對數(shù)能量譜和相位進行交叉處理，可得到混合交叉特征H∈T×2F，表示為

(8)

(9)

(3)特征擴張

為充分利用時-頻域信號的幀間相關(guān)性，根據(jù)文獻[12]方法對混合交叉特征H進行特征擴張，得到特征擴張后的特征矩陣O∈T′×F′，可表示為

(10)

(11)

(12)

(4)特征交叉與特征擴張示例

對于給定特征擴張系數(shù)c，幀數(shù)T和頻點數(shù)F的含噪語音信號，其對數(shù)功率譜和相位經(jīng)過特征交叉后，形成混合交叉特征H∈T×2F可表示為

(13)

特征擴張后的特征矩陣O∈T′×F′為

(14)

其中，T′=T-c+1，F(xiàn)′=2cF。

2.2 標簽設(shè)計

在增強時域語音信號時，為降低采用含噪信號相位重構(gòu)帶來的影響，本文采用cIRM作為網(wǎng)絡(luò)學(xué)習(xí)的目標，標簽設(shè)計流程如圖2所示。根據(jù)設(shè)計流程，計算cIRM、壓縮復(fù)數(shù)掩模并對cIRM進行實部和虛部交叉。

圖2 標簽處理流程

(1)cIRM計算

含噪語音信號y和干凈語音信號s∈N×1經(jīng)過STFT后得到Y(jié)和S∈T×F，將Y和S按實虛部展開獲得維度均為T×F的實數(shù)矩陣：Yr=Re(Y)，Yi=Im(Y)，Sr=Re(S)，Si=Im(S)；根據(jù)Y和S計算時-頻域復(fù)數(shù)掩模M∈T×F。

將S[k，m]=M[k，m]Y[k，m] 展開后可分別計算出復(fù)數(shù)掩模的實部Mr∈T×F和虛部Mi∈T×F， cIRM的具體推導(dǎo)過程詳見文獻[13]，有

(15)

(2)復(fù)數(shù)掩模壓縮

為提高網(wǎng)絡(luò)的收斂能力，根據(jù)文獻[13]的方法，對Mr和Mi進行壓縮。壓縮復(fù)數(shù)掩模的實部或虛部Rx∈T×F可表示為

(16)

其中，下標x代表r或i；壓縮復(fù)數(shù)掩模實部或虛部Rx∈[-K，K]；C為壓縮系數(shù)，控制著曲線的陡峭程度。

(3)cIRM實部和虛部交叉

(17)

對于給定的特征擴張系數(shù)c、幀數(shù)T和頻點數(shù)F，計算得到的交叉壓縮cIRM矩陣L∈T′×2F可表示為

(18)

其中，b=(c-1)/2+1，e=T-b+1。最后，對標簽設(shè)計算法流程進行總結(jié)，見表2。

表2 標簽設(shè)計算法偽代碼

2.3 APDEDN網(wǎng)絡(luò)

(1)網(wǎng)絡(luò)架構(gòu)

APDEDN由輸入層、編碼器、LSTM層、解碼器，以及輸出層組成。其中，編碼器和解碼器分別由3個不同維度的子編碼器和子解碼器組成。APDEDN具體架構(gòu)如圖3所示。

圖3 APDEDN架構(gòu)

輸入層由BN、ELU和線性激活組成，將一幀語音信號轉(zhuǎn)換到編碼器所需的輸入維度。輸出層采用線性激活。編碼器提取語音信號特征，兩層LSTM則對輸入信號在時間軸方向上的建模以捕獲語音信號時間上的相關(guān)性，解碼器為編碼器的逆操作，以還原降噪后的語音信號。APDEDN的一個實施實例的各層參數(shù)見表3。

表3 APDEDN參數(shù)示例

(2)網(wǎng)絡(luò)離線訓(xùn)練

1)數(shù)據(jù)集生成

訓(xùn)練和測試所用的干凈語音信號均來自于TIMIT數(shù)據(jù)集，該數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分。TIMIT數(shù)據(jù)集是記錄8個不同區(qū)域的630名說話人(男性438名，女性192名)特定語句的語音集合。訓(xùn)練所用的干凈語音信號從TIMIT訓(xùn)練集中的8個區(qū)域中隨機選擇380句干凈語音信號，測試所用干凈語音信號從TIMIT測試集中隨機選擇10句。訓(xùn)練和測試所用的噪聲數(shù)據(jù)集來自NOISEX-92數(shù)據(jù)庫，選擇其中的6種噪聲(Babble，Buccaneer，F(xiàn)actory，Destoryerengine，Volvo，White)。

將上述的訓(xùn)練和測試所用干凈語音信號和6種噪聲在6種不同信噪比(SNR，Signal-to-Noise Ratio){-5，0，5，10，15，20} dB條件下疊加，最終可得到13 680句的訓(xùn)練集和360句測試集。

根據(jù)收集到的含噪和干凈語音信號集合 {y，s}，并按式(4)～式(7)計算相應(yīng)的訓(xùn)練樣本集合 {O，L}。

2)訓(xùn)練參數(shù)設(shè)置

取短時傅里葉變換長度NSTFT=512，F(xiàn)=(NSTFT/2)+1=257，窗長Nl=512，窗移Nr=128；計算cIRM時，根據(jù)文獻[13]常數(shù)K取值為K=10，壓縮系數(shù)C=0.1； Batchsize取值為32，學(xué)習(xí)率取值為lr=10-4，優(yōu)化器為Adam[14]參數(shù)為默認參數(shù)。

3)模型訓(xùn)練

根據(jù)訓(xùn)練樣本集合 {O，L}，將擴張后的特征O輸入到APDEDN網(wǎng)絡(luò)中訓(xùn)練，訓(xùn)練的損失函數(shù)為均方誤差損失函數(shù)，可表示為

(19)

(3)網(wǎng)絡(luò)在線運行

根據(jù)含噪語音信號y，按式(4)～式(12)計算擴張后的特征O∈T′×F′；將擴張后的特征O輸入已訓(xùn)練的APDEDN網(wǎng)絡(luò)得到估計交叉壓縮復(fù)數(shù)掩模根據(jù)得到估計壓縮復(fù)數(shù)掩模實部T′×F和估計壓縮復(fù)數(shù)掩模虛部T′×F，可分別表示為

(20)

(21)

(22)

3 實驗仿真

本文采用PESQ和STOI對提出方法的有效性進行驗證。對比基線選擇文獻[4]中的cIRM語音增強方法，文獻[16]中編解碼器網(wǎng)絡(luò)架構(gòu)幅度譜映射方法和文獻[17]基于理想比值掩模的深度語音增強方法。

為簡化表達，本文采用“文獻[4]”，“文獻[16]”和“文獻[17]”分別表示文獻[4]中的基于cIRM語音增強的方法，文獻[16]中的基于編解碼器網(wǎng)絡(luò)架構(gòu)幅度譜映射方法和文獻[17]基于理想比值掩模的深度語音增強方法?！癙rop_1”和“Prop_2”表示提出的幅度和相位混合特征的語音增強方法(其中，“Prop_2”表示特征幅度和相位交叉，標簽cIRM進行實部和虛部交叉；“Prop_1”表示特征先放置幅度后放置相位，標簽cIRM先放置實部后放置虛部)。訓(xùn)練過程中本文采用方法和對比文獻方法訓(xùn)練損失收斂曲線圖，如圖4所示。

圖4 訓(xùn)練損失收斂曲線

表5和表6分別給出了提出方法與對比基線方法的PESQ評分和STOI。其中，NSTFT=512，F(xiàn)=(NSTFT/2)+1=257，窗長Nl=512，窗移Nr=128。根據(jù)文獻[15]，“文獻[4]”，“文獻[16]”，“文獻[17]”，“Prop_1”和“Prop_2”方法的特征擴張系數(shù)取值為c=3，即“文獻[4]”，“獻[16]”，“文獻[17]”，“Prop_1”和“Prop_2”方法中APDEDN的輸入層節(jié)點數(shù)F′=2cF=2×3×257=1542。

表5 PESQ評分測試結(jié)果(F′=1542)

表6 STOI測試結(jié)果(F′=1542)

相對于“文獻[4]”，“文獻[16]”方法和“文獻[17]”，從表5和表6分析可知：

(1)在PESQ評分上，提出的幅度和相位混合特征交叉語音增強方法“Prop_1”和“Prop_2”的PESQ評分性能優(yōu)于單一特征方法。在PESQ評分方面，“Prop_1”和“Prop_2”相對于“文獻[4]”，“文獻[16]”方法和“文獻[17]”，在各個給定的信噪比下，均獲得了更高的PESQ評分。例如，當SNR=15 dB時，“Prop_1”和“Prop_2”方法的PESQ評分分別為3.004和3.261，而“文獻[4]”，“文獻[16]”方法和“文獻[17]”方法PESQ評分分別為2.982，2.875和2.895。特別地，在各個給定的SNR下，“Prop_2”均獲得了最大的PESQ評分值。相對于對于“文獻[4]”，“文獻[16]”方法和“文獻[17]”方法，提出方法“Prop_1”和“Prop_2”提高了PESQ評分。此外，在各個給定的SNR下，“Prop_2”均能獲得最高的PESQ評分，含噪語音的幅度和相位交叉，以及學(xué)習(xí)標簽實部和虛部交叉帶來了更好的特征抽取性能。由此可見，幅度和相位特征混合，不但能更好地捕獲幅度特征信息，更有助于開發(fā)到不同維度的語音和噪聲相位特征信息，從而也更為有效地增強了語音的感知質(zhì)量。

(2)在STOI性能方面，提出方法“Prop_2”優(yōu)于“文獻[4]”，“文獻[16]”方法和“文獻[17]”方法。在各給定的SNR下，“Prop_2”均獲得了最大的STOI值。例如，當SNR=10時，“Prop_2”方法的STOI值為0.882，而對于“文獻[4]”，“文獻[16]”方法和“文獻[17]”方法STOI值分別0.856和0.829和0.864。在SNR={-5，0，5} 處，“Prop_1”的STOI值略低于“文獻[4]”和“文獻[16]”方法；除此之外，相對于“文獻[4]”和“文獻[16]”方法，“Prop_1”均獲得了更大的STOI值。由此可見，提出方法“Prop_1”和“Prop_2”較為有效地提高了語音的STOI。特別地，對含噪語音的幅度和相位交叉，標簽cIRM進行實部和虛部交叉，也即是“Prop_2”方法，特別有助于改善STOI性能。因此，本文提出的幅度和相位特征混合，在增強語音的可懂度上是有效的。

(3)“Prop_2”方法PESQ評分和STOI性能優(yōu)于“Prop_1”方法。幅度和相位特征交叉且cIRM實虛部交叉方法(即“Prop_2”)在語音增強性能PESQ評分和STOI方面優(yōu)于幅度和相位不交叉且cIRM實虛部不交叉方法“Prop_1”。如，在SNR=5 dB處，“Prop_2”方法的PESQ評分和STOI值分別為2.404和0.825；而“Prop_1”方法PESQ評分和STOI值分別為2.205和0.791?！癙rop_2”方法無論是PESQ評分還是STOI值均能在各給定的SNR下獲得最大值(最好性能)。因此，本文提出的幅度和相位交叉排列，更能充分利用含噪語音信號的特征以及特征之間的相關(guān)性與統(tǒng)計特性。除幅度特征外，本文還開發(fā)了語音信號的相位特征，從而更能有效地提高語音的感知和可懂度質(zhì)量。

此外，我們增大了對于“文獻[4]”，“文獻[16]”方法和“文獻[17]”方法中的APDEDN輸入節(jié)點數(shù)，驗證提出網(wǎng)絡(luò)可以更為輕型化。保持“Prop_1”和“Prop_2”方法的APDEDN輸入節(jié)點數(shù)為F′=1542，而對于“文獻[4]”，“文獻[16]”方法和“文獻[17]”方法中的APDEDN輸入節(jié)點數(shù)為F′=1799。 PESQ評分和STOI值分別在表7和表8中給出。

表7 PESQ評分測試結(jié)果

表8 STOI測試結(jié)果

從表7和表8的測試結(jié)果中可以看出，即使“文獻[4]”，“文獻[16]”方法和“文獻[17]”方法的APDEDN網(wǎng)絡(luò)輸入層節(jié)點數(shù)增大到F′=1799，提出方法“Prop_1”和“Prop_2”在保持網(wǎng)絡(luò)輸入為F′=1542時仍能獲得相當或更好的語音增強性能。如，當SNR=0 dB時，“Prop_1”和“Prop_2”的PESQ評分分別為1.865和2.049，而“文獻[4]”，“文獻[16]”方法和“文獻[17]”的PESQ評分分別為1.995和1.869和1.831。特別地，提出方法“Prop_2”在各給定的SNR下仍然獲得了最大的PESQ評分和STOI測試值。由此可見，提出方法“Prop_1”和“Prop_2”能在F′=1542情況下(更小的網(wǎng)絡(luò)輸入)獲得“文獻[4]”、“文獻[16]”方法和“文獻[17]”方法F′=1799時相當或更好的語音增強質(zhì)量(PESQ評分和STOI值)。因此，提出方法在保持相當?shù)恼Z音質(zhì)量的情況下，由于抽取到了語音的交叉特征，可使語音增強網(wǎng)絡(luò)更加輕量化。

4 結(jié)束語

本文從融合幅度與相位信息的視角出發(fā)，提出一種基于幅度和相位特征交叉的語音增強方法。本文提出方法旨在充分利用含噪語音信號的相位信息及其與幅度信息之間的相關(guān)性。實驗結(jié)果表明，提出的混合特征交叉方法語音增強性能優(yōu)于單一特征方法且能在網(wǎng)絡(luò)具有更少輸入節(jié)點的情況下，保持相當或更好的語音質(zhì)量和可懂度。此外，幅度和相位交叉排列能充分利用幅度和相位之間的相關(guān)性，有助于進一步提高語音質(zhì)量。