雙路徑多尺度混合感知語音分離模型

2023-06-21 17:44:23劉雄濤周書民方江雄

現(xiàn)代信息科技 2023年1期

劉雄濤周書民方江雄

摘? 要：單通道語音分離主要采用循環(huán)神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)對語音序列建模，但這些方法都存在對較長停頓的語音序列建模困難的問題。提出一種雙路徑多尺度多層感知混合分離網(wǎng)絡(luò)（DPMNet）去解決這個問題。提出多尺度上下文感知建模方法，將三個不同時間尺度的輸入通道特征融合。與傳統(tǒng)的方法相比，加入全連接層以弱化噪音的干擾，卷積和全連接的交叉融合增加了模型的感受野，強化了長序列建模能力。實驗表明，這種雙路徑多尺度混合感知的方案擁有更少的參數(shù)，在Libri2mix及其實驗嘈雜的版本W(wǎng)HAM！，以及課堂真實數(shù)據(jù)的ICSSD都表明DPMNet始終優(yōu)于其他先進的模型。

關(guān)鍵詞：多尺度上下文建模；混合感知；全連接層；雙路徑網(wǎng)絡(luò)；語音分離

中圖分類號：TP18? ? 文獻標識碼：A? 文章編號：2096-4706（2023）01-0008-06

Dual-Path Multi-Scale Hybrid Perceptual Speech Separation Model

LIU Xiongtao1， ZHOU Shumin1， FANG Jiangxiong2

（1.Jiangxi Engineering Research Center of Process and Equipment for New Energy， East China University of Technology， Nanchang? 330013， China; 2.School of Electronics and Information Engineering， Taizhou University， Taizhou? 318000， China）

Abstract： Single-channel speech separation mainly uses recurrent neural networks or convolutional neural networks to model speech sequences， but these methods all have the problem of difficulty in modeling speech sequences with longer pauses. A dual-path multi-scale multi-layer perceptual hybrid separation network （DPMNet） is proposed to solve this problem. A multi-scale context-aware modeling method is proposed to fuse the input channel features of three different time scales. Compared with the traditional method， adding the fully connected layer could weaken the interference of noise. And the cross-fusion of convolution and fully connected increases the receptive field of the model and strengthens the modeling ability of long sequences. Experiments show that this dual-path multi-scale hybrid perceptual scheme has a fewer parameters. In Libri2mix and its experimental noisy version WHAM！， as well as ICSSD on real classroom data show that DPMNet consistently outperforms other advanced models.

Keywords： multi-scale context modeling; hybrid perception; fully connected layer; dual-path network; speech separation

0? 引? 言

語音分離技術(shù)常被稱為雞尾酒會問題[1]，旨在從多個混合語音中提取單個說話人語音，噪聲條件下的語音分離是其重要組成部分。近年來，基于深度學(xué)習(xí)的時域語音分離方法得到了研究人員的關(guān)注，傳統(tǒng)的語音分離是在時頻中完成的（T-F）域[2-4]。為解決相位重構(gòu)以及STFT延遲的問題，基于時域的卷積音頻分離網(wǎng)絡(luò)被提出。

一方面，Tasnet采用“編碼器-解碼器”框架，這種方法省去了時域轉(zhuǎn)頻域步驟，并將分離問題轉(zhuǎn)換成掩碼問題[5]。但是，LSTM存在長序列梯度消失和無法并行計算的問題。使用TCN[6]代替LSTM的Conv-Tasnet在解決這些問題的同時擁有更靈活的感受野[7]。深度可分離卷積將原先的一種卷積操作，變?yōu)閮蓚€卷積操作，可以大大地減小參數(shù)量。使用最大化最佳尺度不變信噪比（OSI-SNR）[8]通過在訓(xùn)練時學(xué)習(xí)潛在目標分離模塊，更好的解釋了時域損失函數(shù)[9]。為了解決混亂場景分離效果不好的問題，Stacked-LSTM網(wǎng)絡(luò)[10]將長序列輸入劃分為更小的塊并堆疊在一起，相比于TCN收斂更快，模型更小，但是分離速度較慢。為了提高卷積網(wǎng)絡(luò)中語音特征提取的準確率，減少卷積和池化運算導(dǎo)致有效信息丟失，使用膠囊網(wǎng)絡(luò)在Conformer模型中引入了動態(tài)進程機制[11]。另外，在FurcaNeXt[12]、SuDoRM-RF[13]、SpEx[14]和SpEx+[15]模型中融合了在不同時間尺度上進行語音編碼的方法，稱為多尺度融合（MSF），相比單個分辨率能夠更好地還原原始特征[15，16]，能夠更好地提高語音分離效果。

另一方面，由于Conv-TasNet使用固定的時間上下文長度[7]，因此對單個說話者的長期跟蹤可能會失敗，尤其是當句子中存在較長停頓時。當輸入長序列數(shù)據(jù)集，由于一維卷積的感受野較小導(dǎo)致無法對話語間的關(guān)系進行建模，雙路徑遞歸神經(jīng)網(wǎng)絡(luò)（DPRNN）通過將長序列拆分成小塊進行塊內(nèi)和塊間操作[17]。使用多尺度Loss函數(shù)以及把單個雙向LSTM換成了平行的兩個LSTM實現(xiàn)了對多個說話人的語音分離[18]。目前主要的語音分離模型通?；谘h(huán)神經(jīng)網(wǎng)絡(luò)（RNN）或卷積神經(jīng)網(wǎng)絡(luò)（CNN）不能直接根據(jù)上下文對語音序列進行建模[19]，從而導(dǎo)致次優(yōu)的分離性能。例如，基于RNN的模型需要通過許多中間狀態(tài)傳遞信息。基于CNN的模型存在感受野有限的問題。幸運的是，基于自注意力機制的Transformer可以有效地解決這個問題[20]，其中輸入的元素可以直接交互。但Transformer通常的數(shù)據(jù)長度與端到端時域語音分離系統(tǒng)相比較短，雙路徑網(wǎng)絡(luò)是解決極長輸入序列建模的有效方法[17]。

值得注意的是，基于自注意力的架構(gòu)，尤其是Transformer被證實能夠很好地實現(xiàn)語音分離任務(wù)[20-23]。隨著ViT[24]結(jié)構(gòu)的在CV領(lǐng)域的爆火，基于mlp的改進將CNN和Transformers有效結(jié)合起來[25，26]的方法，在保證較小模型尺寸的情況下提高分離效果。MLP-Mixer，一個完全基于MLPs的結(jié)構(gòu)，其MLPs有兩種類型，分別是channel-mixing MLPs和token-mixing MLPs，前者獨立作用于image patches融合通道信息，后者跨image patches融合空間信息。

在本研究中，為了解決上述問題，提出雙路徑多尺度多層感知混合分離網(wǎng)絡(luò)DPMNet，包含語音編碼器，分離網(wǎng)絡(luò)，語音解碼器。具體來說，語音編碼器包含短、中、長三個不同尺度的采集窗口，將這些包含更多的長時間信息的不同尺度語音特征轉(zhuǎn)換成中間特征。分離網(wǎng)絡(luò)主要分析編碼器的輸出數(shù)據(jù)，得到各個源的掩碼。其中分別包含塊內(nèi)和塊間的卷積和全連接層，用于融合不同空間的語音特征，同時為了提高了模型的映射能力，降低訓(xùn)練難度，使用殘差網(wǎng)絡(luò)連接。最后中間特征與每個源的掩碼進行元素級相乘，解碼器將重構(gòu)每個源的波形。

本文的其余部分安排如下。第一節(jié)提出了使用多尺度卷積編碼器實現(xiàn)的不同時間域內(nèi)的特征融合，介紹分離網(wǎng)絡(luò)混合感知的方法。實驗的具體設(shè)置在第二節(jié)中說明。第三節(jié)顯示實驗結(jié)果。第四節(jié)得出結(jié)論。

1? 模型

1.1? 整體結(jié)構(gòu)

DPMNet模型如圖1所示，由語音編碼器，分離網(wǎng)絡(luò)和解碼器組成。該模型結(jié)構(gòu)與Conv-Tasnet[7]類似，在此基礎(chǔ)上，為了更好地表現(xiàn)長語音結(jié)構(gòu)特征，語音編碼器由L1、L2、L3三個不同大小的一維卷積組成，得到的多分辨率特征數(shù)據(jù)送到分離網(wǎng)絡(luò)中，通過分析得到不同說話人的掩碼。解碼器窗口與編碼器的參數(shù)相同，但是由三個轉(zhuǎn)置一維卷積構(gòu)成。分離器中包含一個塊內(nèi)和塊間感知層，分別由一維卷積和線性層組成，并通過殘差連接串聯(lián)在一起。其他部分還包含Dropout層Groupnorm層等。最后語音解碼器通過解碼還原各個說話人的語音波形。接下來將展開介紹編碼器，雙路徑混合感知分離網(wǎng)絡(luò)和解碼器。

1.2? 語音編碼器

由于單個卷積層的窗口相對固定，且當語音長度較長且句子中存在較長停頓時，單個的卷積無法準確地表現(xiàn)這些信息，所以本文中采用三個不同的窗口大小的卷積分別采集不同時間跨度的信息[15]，最后對信息進行融合，這在保證信息不變的情況下能夠更好地反應(yīng)句子中的細節(jié)問題。

語音編碼器由幾個并行的1-D具有不同濾波器長度的CNN會產(chǎn)生不同的時間分辨率。雖然多個尺度的數(shù)量可以因人而異，本文只研究三種不同的尺度。如果用X來表示輸入的混合語音，L來表示三個卷積的窗口的話，則編碼器中的聲音信號WK將用如下公式表示：

WK=ReLU（X*LK，K∈（1，2，3）? ? ? ? ? ? ? ? ? （1）

通過設(shè)置三個不同的時間窗口大小L1（short），L2（middle），L3（long），來實現(xiàn)句子中不同長度的特征關(guān)聯(lián)，步長分別是其窗口的一般。為了避免大小不同的數(shù)據(jù)直接相加造成的信息錯亂，在較短的數(shù)據(jù)后面補充對分離效果不產(chǎn)生影響的數(shù)據(jù)，最后通過如下公式將數(shù)據(jù)整合得到編碼器的輸出Xe。

Xe=cat（W1，W2，W3）? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（2）

1.3? 分離網(wǎng)絡(luò)

分離網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，由塊內(nèi)mlp和塊間mlp組成，之間通過殘差連接，網(wǎng)絡(luò)中由K個模塊串聯(lián)在一起。mlp block包含線性層、Layernorm層、Dropout層以及兩個mlp層，其中可以為一維卷積或者全連接層。采用殘差連接將線性層的輸出與第二個dropout層的輸出疊加。

首先，通過分塊（Segmentation）將二維的語音數(shù)據(jù)變換成三維數(shù)據(jù)。若原始音頻長度為L，寬度為C=1，則經(jīng)過分塊之后形成的長寬高分別為2P，S，C。其中P為分塊的長度，為了之后的切片（patch）的方便，這里設(shè)置2P和S是patch_size的整數(shù)倍，且他們相等。關(guān)系如下，其中Xe表示編碼器輸出，XS表示經(jīng)過分塊的模型輸出。

XS=Segmention（Xe，Patch_size，S，C）? ? ? ? ? ? （3）

分離網(wǎng)絡(luò)由塊內(nèi)的mlp和塊與塊之間的mlp，通過與ViT[24]相似的拆分思想，將按照默認patch_size=16，長與寬為16×16的大小將數(shù)據(jù)進行切分，將其展開成一條直線。通過塊內(nèi)的mlp計算每個patch內(nèi)語音的相關(guān)性，利用卷積操作在數(shù)據(jù)之間計算相關(guān)性。采用mlp的方式在較長的數(shù)據(jù)長度內(nèi)計算句子相關(guān)性，方便網(wǎng)絡(luò)對較長句子停頓的情況進行建模。為了更好地保留原始特征的比重，使用大量使用殘差連接彌補模型計算過程中的數(shù)據(jù)丟失。分離網(wǎng)絡(luò)中，塊內(nèi)mlp可以用Wr表示，Xseperate表示經(jīng)過分離網(wǎng)絡(luò)之后的模型輸出。

分離網(wǎng)絡(luò)的關(guān)系如下：

Wr=XS+row_mlp（XS）? ? ? ? ? ? ? ? ? ? ? ? ?（4）

Wseperate=Xr+col_mlp（Xr）? ? ? ? ? ? ? ? ? ? ? （5）

XO=Xseperate*Xe? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （6）

最后，使用二維卷積層為每個源計算一個掩碼。分離網(wǎng)絡(luò)的輸出Xseperate與原始混合音頻的特征數(shù)據(jù)Xe之間計算元素乘法得到每個源的波形。

1.4? 語音解碼器

一維卷積形式的解碼器只需要通過轉(zhuǎn)置計算即可得到分離完成的語音波形，但是在這篇文章中，首先需要通過逆向的切片運算把三維數(shù)據(jù)轉(zhuǎn)換為二維音頻數(shù)據(jù)。之后將每條通道中的數(shù)據(jù)與編碼器中的三個不同時間窗口的一維卷積進行逆向運算，LT為卷積模型的轉(zhuǎn)置參數(shù)，計算方式如下：

Xoutput_K=ReLU（X*LTK， K∈（1，2，3）? ? ? ? ? ? ? ?（7）

最后將三個通道內(nèi)的數(shù)據(jù)疊加在一起得到不同說話人的語音波形。

2? 實驗

2.1? 數(shù)據(jù)集

Libri2Mix-K：Libri2Mix[27]由兩個或三個揚聲器的混合以及來自WHAM！[28]的環(huán)境噪聲樣本組成。該數(shù)據(jù)集是使用train-100、train-360、dev和測試集構(gòu)建的LibriSpeech數(shù)據(jù)集[29]。使用train-100作為訓(xùn)練集，生成兩個說話人的音頻數(shù)據(jù)，大約41個小時，包含13 900條語音數(shù)據(jù)。測試集大約6個小時，包含3 000條語音數(shù)據(jù)，來自Librispeech的del數(shù)據(jù)。采樣率為16 kHz。為了保證對比的可行性，使用相同的數(shù)據(jù)對不同的模型進行測試。

Libri2Mix-N：這個數(shù)據(jù)集同樣由LibriSpeech[29]與WHAM！[28]生成。通過將咖啡館、餐廳和酒吧等環(huán)境噪聲與Libri2Mix混合在一起，SNR在-6 dB和3 dB，數(shù)據(jù)規(guī)模上與Libri2Mix數(shù)據(jù)集相同。該數(shù)據(jù)集是為了與Libri2Mix數(shù)據(jù)集形成對比，證明模型在噪音條件下的泛用性。

ICSSD：此數(shù)據(jù)集是本文提出的基于課堂的語音數(shù)據(jù)集，通過采集課堂中的聲音信息生成包含mix、noise、student和teacher四個部分數(shù)據(jù)，采樣率為16 kHz。訓(xùn)練集大約7小時，包含6 000條語音數(shù)據(jù)。測試集大約1小時，包含1 000條語音數(shù)據(jù)。與前兩個數(shù)據(jù)集不同的是本數(shù)據(jù)集中的語音為中文，而前兩個為英文。其次本數(shù)據(jù)集中的噪音包含教室鈴聲和與語音無關(guān)的學(xué)生竊竊私語聲等，更符合模型的實際使用情況。

2.2? 實施細節(jié)

編碼器和解碼器分別采用三個一維卷積和三個轉(zhuǎn)置一維卷積，在默認情況下，卷機核大小（kernel_size）分別為L1=10，L2=50，L3=100，步長分別是其窗口大小的一半，卷積產(chǎn)生的通道數(shù)為256，這與后面的塊大?。╬atch_size）有關(guān)。

每個模型都在Libri2Mix-K、Libri2Mix-N和ICSSD三個數(shù)據(jù)集上訓(xùn)練20個epoch，采樣率為16 kHz，批量處理大小為4，學(xué)習(xí)率為1×10-3。所有的實驗都是在Intel（R） Xeon（R） Silver 4210 CPU @ 2.20 GHz和GeForce RTX 3080 10G上進行的。

2.3? 模型訓(xùn)練

使用了尺度不變的信噪比改進SI-SNRi[30]和信號失真比率改進SDRi[31]作為衡量語音分離精度的評估指標的模型。SDR其計算公式為：

（8）

其中? 表示估計的信號，E表示語音中的噪音信號。

SISDR的計算公式為：

（9）

（10）

（11）

其中? 表示干凈的源信號，xE表示與估計信號相垂直的語音聲音信息無關(guān)的噪音信號。

3? 結(jié)? 果

3.1? 三種mlp_block結(jié)構(gòu)的比較

在對比卷積和mlp在含有噪音的語音進行特征采集時，如圖3所示，可以說明的是卷積會降低分貝值，卷積操作加重了無用數(shù)據(jù)的比重，不能更好地區(qū)別停頓的位置，且受噪音的影響較大。

為了證明不同卷積和線性連接在DP分離網(wǎng)絡(luò)中的作用，設(shè)計了如表1所示的三種方案，層數(shù)都為2，分別在Libri2mix-k上進行試驗。

其中L1=2，L2=12，L3=72，patch_size=16。由上面的結(jié)論結(jié)合表中的實驗結(jié)果得知，CC+LL的效果最好。通過利用卷積可以更好地挖掘塊內(nèi)的信息，而利用線性層則可以更好地獲取在較長時間內(nèi)的特征關(guān)系，便于對長數(shù)據(jù)的建模，減少較長句子停頓的影響，同時也可以減少噪音在數(shù)據(jù)中的比重。

3.2? 模型比較

設(shè)計了DPMNet網(wǎng)絡(luò)，其中包含CC+LL，為了證明不同patch_size和MS對系統(tǒng)的影響，在三個數(shù)據(jù)集上設(shè)計了表2所示的實驗列表。

由表2中數(shù)據(jù)可知，當編碼器解碼器的窗口大小逐漸增大時，模型的參數(shù)在不斷增大，但是模型的分離能力卻在下降，設(shè)計差別過大的時間窗口卷積不利于模型的建立，但是過小差別的編碼器也不利于模型對較長數(shù)據(jù)的建模。表3中patch_size表示將三維數(shù)據(jù)分塊的大小，layer表示mlp_block在網(wǎng)絡(luò)中的層數(shù)，他們之間是通過串聯(lián)連接的，L1，L2，L3表示編碼器解碼器窗口大小，表中包含了不同參數(shù)下Epoch=20的SI-SDR結(jié)果。Patch_size為分塊操作中的關(guān)鍵參數(shù)，從數(shù)據(jù)可知，在其他條件不變的情況下，越大的數(shù)值分離的效果越好，但是受限于設(shè)備原因，只測試了20輪訓(xùn)練的結(jié)果。

為了表現(xiàn)模型與其他模型的不同，分別在Libri2Mix-k、Libri2Mix-n和ICSSD數(shù)據(jù)集上進行測試，如表4所示，其中包含基于波形的語音分離模型DPCL++[32]和UPIT-BLSTM-ST[33]，基于時域語音分離的模型有BLSTM-TasNet[5]、Conv-TasNet[7]和DPRNN-TasNet[34]。DPMNet的模型尺寸只有2.7 M，且在ICASSD數(shù)據(jù)集上相比其他模型擁有更好的分離準確率。

3.3? 多尺度特征融合

多尺度特征輸入相比于單個的一維卷積能夠更好地提取語音特征，設(shè)計了如表5所示的實驗，最小的時間窗口為10，MS分別為10，50，100，分離網(wǎng)絡(luò)的結(jié)構(gòu)為CC+LL。由SISDR的結(jié)果可知，多尺度相比于單尺度擁有更好的分離效果。如圖4所示，多尺度編碼器相比單尺度擁有更好的特征表現(xiàn)能力。

4? 結(jié)? 論

ViT和mlp-mixer算法在圖像以及NLP領(lǐng)域得到廣泛應(yīng)用，通過對比基于卷積的模型發(fā)現(xiàn)其能夠更好地提取長序列的語音特征，同時提高模型速度。本文提出可否利用mlp-mixer的結(jié)構(gòu)將卷積的思想融合進來，一方面可以減少模型的參數(shù)量，另一方面對于語音的特征可以更好地提取。發(fā)現(xiàn)在不同的組合情況下，模型的表現(xiàn)不同，當兩個卷積與兩個全連接層相連接時，更能夠提取混合信號中的說話人特征。另外也發(fā)現(xiàn)結(jié)合多尺度的特征融合在長序列的語音分離任務(wù)中得到了更好的效果。

通過本次實驗證明卷積網(wǎng)絡(luò)主要存在三個問題：

（1）卷積算法會加重噪音在特征向量中的比重，其中，空洞卷積會丟失信息的連續(xù)性，使分離語音失真；

（2）卷積的長時間依賴性依然存在，數(shù)據(jù)中的有效信息占比越小，對分離的效果影響越大；

（3）卷積會降低句子的分貝，對于句子停頓的敏感性與全連接相比較差。為解決較長停頓的語音分離，提出了雙路徑多尺度多層感知混合分離網(wǎng)絡(luò)（DPMNet）。使用多尺度特征融合操作避免了單個卷積的視野固定，特征容易丟失的問題。使用雙路徑的混合感知結(jié)構(gòu)，結(jié)合卷積和多層感知機的優(yōu)點，在全局和局部之間讀取句子內(nèi)部，句子與句子之間的特征關(guān)系。該設(shè)計為單通道語音分離提供了新的思路。

盡管這些結(jié)果較為滿意，但是依然存在許多挑戰(zhàn)。在本文中沒有對三個說話人及以上的情況進行試驗，希望在之后進行位置數(shù)量源的語音分離。同時由于設(shè)備影響導(dǎo)致實驗數(shù)據(jù)較少，無法進行參數(shù)量更大的實驗也是本文的遺憾。

參考文獻：

[1] HAYKIN S，CHEN Z.The Cocktail Party Problem [J].Neural Comput，2005，17（9）：1875-902.

[2] HERSHEY J R，CHEN Z，ROUX J L，et al.Deep Clustering：Discriminative Embeddings for Segmentation and Separation [C]//2016 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）.Shanghai：IEEE，2016：31-35.

[3] CHEN Z，LUO Y，MESGARANI N.Deep Attractor Network for Single-Microphone Speaker Separation [C]//2017 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）.New Orleans：IEEE，2016：246-250.

[4] KOLBAEK M，YU D，TAN Z H，et al.Multitalker Speech Separation With Utterance-Level Permutation Invariant Training of Deep Recurrent Neural Networks [J].IEEE/ACM Transactions on Audio，Speech，and Language Processing，2017，25（10）：1901-1913.

[5] LUO Y，MESGARANI N.TasNet：Time-Domain Audio Separation Network for Real-Time，Single-Channel Speech Separation [C]//2018 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）.Calgary：IEEE，2018：696-700.

[6] BAI S J，KOLTER J Z，KOLTUN V.An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling [J/OL].arXiv：1803.01271 [cs.LG].[2022-08-09].https：//arxiv.org/abs/1803.01271.

[7] LUO Y，MESGARANI N.Conv-TasNet：Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation [J/OL].arXiv：1809.07454 [cs.SD].[2022-08-06].https：//arxiv.org/abs/1809.07454.

[8] MA C，LI D M，JIA X P.Two-Stage Model and Optimal SI-SNR for Monaural Multi-Speaker Speech Separation in Noisy Environment [J/OL].arXiv：2004.06332 [eess.AS].[2022-08-07].https：//arxiv.org/abs/2004.06332.

[9] WU X C，LI D M，MA C，et al.Time-Domain Mapping with Convolution Networks for End-to-End Monaural Speech Separation [C]//2020 IEEE 5th International Conference on Signal and Image Processing （ICSIP）.Nanjing：IEEE，2020：757-761.

[10] ZHAO M C，YAO X J，WANG J，et al.Single-Channel Blind Source Separation of Spatial Aliasing Signal Based on Stacked-LSTM [J].Sensors，2021，21（14）：4844.

[11] LIU Y K，LI T，ZHANG P Y，et al.Improved Conformer-based End-to-End Speech Recognition Using Neural Architecture Search [J/OL].arXiv：2104.05390 [eess.AS].[2022-08-07].https：//arxiv.org/abs/2104.05390v1.

[12] ZHANG L W，SHI Z Q，HAN J Q，et al.FurcaNeXt：End-to-End Monaural Speech Separation with Dynamic Gated Dilated Temporal Convolutional Networks [C]//26th International Conference on Multimedia Modeling.Daejeon：MMM，2020：653–665.

[13] TZINIS E，WANG Z P，SMARAGDIS P.Sudo RM-RF：Efficient Networks for Universal Audio Source Separation [C]//2020 IEEE 30th International Workshop on Machine Learning for Signal Processing（MLSP）.Espoo：IEEE，2020：1-6

[14] XU C L，RAO W，CHNG E S，et al.Time-Domain Speaker Extraction Network [C]//2019 IEEE Automatic Speech Recognition and Under-standing Workshop （ASRU）.Singapore：IEEE，2019：327-334.

[15] GE M，XU C L，WANG L B，et al.L-SpEx：Localized Target Speaker Extraction [C]//ICASSP 2022-2022 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）.Singapore：IEEE，2022：7287-7291

[16] TOLEDANO D T，MP FERN?NDEZ-GALLEGO，LOZANO-DIEZ A，et al.Multi-Resolution Speech Analysis for Automatic Speech Recognition Using Deep Neural Networks：Experiments on TIMIT [J/OL].PLoS ONE，2018，13（10）[2022-8-26]. https：//ideas.repec.org/a/plo/pone00/0205355.html.

[17] LUO Y，CHEN Z，YOSHIOKA T.Dual-Path RNN：Efficient Long Sequence Modeling for Time-Domain Single-Channel Speech Separation [C]//ICASSP 2020-2020 IEEE International Confer-ence on Acoustics，Speech and Signal Processing （ICASSP）.Barcelona：IEEE，2020：46-50.

[18] ZHAO Y，WANG D L，XU B Y，et al.Monaural Speech Dereverberation Using Temporal Convolutional Networks with Self Attention [J].IEEE/ACM Transactions on Audio，Speech，and Language Processing，2020，28：1598-1607.

[19] NACHMANI E，WOLF L，ADI Y M.Voice Separation with an Unknown Number of Multiple Speakers：US16853320 [P].[2020-04-20].

[20] SPERBER M，NIEHUES J，NEUBIG G，et al.Self-Attentional Acoustic Models [J/OL].arXiv：1803.09519 [cs.CL].[2022-08-19].https：//arxiv.org/abs/1803.09519v1.

[21] KAISER L，GOMEZ A N，SHAZEER N，et al.One Model To Learn Them All[J/OL].arXiv：1706.05137 [cs.LG].[2022-08-11].https：//arxiv.org/abs/1706.05137.

[22] SUBAKAN C，RAVANELLI M，CORNELL S，et al.Attention is All You Need in Speech Separation [J/OL].arXiv：2010.13154 [eess.AS].[2022-08-13].https：//arxiv.org/abs/2010.13154.

[23] SUN C，ZHANG M，WU R J，et al.A Convolutional Recurrent Neural Network with Attention Frame-Work for Speech Separation in Monaural Recordings [J].Scientific Reports，2021，11：1-14.

[24] DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al.An Image is Worth 16×16 Words：Transformers for Image Recognition at Scale [J/OL].arXiv：2010.11929 [cs.CV].[2022-08-14].https：//arxiv.org/abs/2010.11929.

[25] TOLSTIKHIN I，HOULSBY N，KOLESNIKOV A，et al.MLP-Mixer：An all-MLP Architecture for Vision [J/OL].arXiv：2105.01601 [cs.CV].[2022-08-17].https：//arxiv.org/abs/2105.01601.

[26] LIU H X，DAI Z H，SO D R，et al.Pay Attention to MLPs [J/OL].arXiv：2105.08050 [cs.LG].[2022-08-15].https：//arxiv.org/abs/2105.08050.

[27] COSENTINO J，PARIENTE M，CORNELL S，et al.LibriMix：An Open-Source Dataset for Generalizable Speech Separation [J/OL].arXiv：2005.11262 [eess.AS].[2022-08-16].https：//arxiv.org/abs/2005.11262.

[28] WICHERN G，ANTOGNINI J，F(xiàn)LYNN M，et al.WHAM?。篍xtending Speech Separation to Noisy En-vironments [J/OL].arXiv：1907.01160 [cs.SD].[2022-08-16].https：//arxiv.org/abs/1907.01160.

[29] PANAYOTOV V，CHEN G G，POVEY D，et al.Librispeech：An ASR Corpus Based on Public Domain Audio Books [C]//2015 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）.South Brisbane：IEEE，2015：5206-5210.

[30] ROUX J L，WISDOM S，ERDOGAN H，et al.SDR–Half-baked or Well Done？ [J/OL].arXiv：1811.02508 [cs.SD].[2022-08-17].https：//arxiv.org/abs/1811.02508.

[31] VINCENT E，GRIBONVAL R，F(xiàn)?VOTTE C.Performance Measurement in Blind Audio Source Separation [J].IEEE Transactions on Audio，Speech，and Language Processing，2006，14（4）：1462-1469.

[32] HERSHEY J R，ZHUO C，ROUX J L，et al.Deep Clustering：Discriminative Embeddings for Segmentation and Separation [C]//2016 International Conference on Acoustics，Speech and Signal Processing（ICASSP）.Shanghai：IEEE，2016：31-35.

[33] HUANG L，CHENG G F，ZHANG P Y，et al.Utterance-level Permutation Invariant Training with Latency-controlled BLSTM for Single-channel Multi-talker Speech Separation [J/OL].arXiv：1912.11613 [cs.SD].[2022-08-17].https：//arxiv.org/abs/1912.11613v1.

[34] ZHU J Z，YEH R，HASEGAWA-JOHNSON M.Multi-Decoder DPRNN：High Accuracy Source Counting and Separation [J/OL].arXiv：2011.12022 [cs.SD].[2022-08-18].https：//arxiv.org/abs/2011.12022v1.

作者簡介：劉雄濤（1999—），男，漢族，河北沙河人，研究生在讀，研究方向：控制工程。

收稿日期：2022-09-09

基金項目：國家自然科學(xué)基金項目（61966001，61866001，62163004，61866016，62206195）

現(xiàn)代信息科技2023年1期

現(xiàn)代信息科技的其它文章: 高校公共課混合式在線學(xué)習(xí)考試平臺的開發(fā)與實踐; 基于SPSS新高考高中選科組合學(xué)習(xí)特征分析; Mathematica在Winkler地基梁分析中的應(yīng)用; 基于LabVIEW的通信原理虛擬實驗平臺的設(shè)計; 基于大數(shù)據(jù)的精準教學(xué)在珠寶檢測類課程中的改革與應(yīng)用; 基于學(xué)科核心素養(yǎng)的多模態(tài)教學(xué)知識圖譜構(gòu)建研究