中圖分類號:TN911.7 文獻標志碼:A 文章編號:1000-5137(2025)02-0229-09
Abstract:Inthemulti-modalspeech separationfield,simpledimensionallalignedsplicing wasoftenabsorbedbytraditional featurefusionmethodsandthetri-modalsplicingconectionswereonlyestablishedbetweenneighboringmodalities,whichfailed todirectlycorrelatethefirstandlastfeatures,andleadtoinsuficientutilizationofmulti-modalinformation.Toovercomethe abovelimitation,anaudio-videoandtextfusionmethodbasedoncrossandresidualconections was proposed inthispaperto achievedeepfusionforaudio,video,and textfeatures topromote speechseparation.Conections between tworandommodals wereestablishedbythemethod,intermsofsharing informationwithallother modalsthroughcrossconnections.Besides, residualconnectionswereutilizedtocombineoriginalinputfeatureswithfeaturerepresentationsinprocessing.Theoriginal integrityofthefeaturesofeachmodalitywaspreserved,andtheinter-modalcorrelationwasalsoemploydbythemethod,sothat anymodalitycouldefectivelylearnthe informationofeachother,improving therobustnessofthefused features.The experimentalresultsshowedthatcomparedtothetraditionalfeaturesbysplicing-basedaudio-videooraudio-video-texpeech separationmethods,the introducedmethod otained significant improvement in key metricssuchassource distortionratio (SDR)and perceptual evaluation of speech quality (PESQ),which proved the advantages of the method.
Key Words:multi-modal speechseparation;audio-visualfeature;textfeature;feature fusion;cros-residualconection
0 引言
多模態集成與融合在語音分離中發揮了重要作用,多模態方法通常利用與音頻相關的視覺與文本等信息,從混合語音中得到獨立的語音源.在深度學習領域,多模態方法受到了普遍關注,有些研究基于注意力機制進行多模態融合[1-3],這些方法強化了音視頻模態在時間和空間上的表征能力,改進了模態間的互補性,從而增強了語音分離效果.有些工作專注于利用音頻與文本信息進行語音分離[46],文本因其不受環境噪聲影響,能夠提供穩定的語義指導,彌補音頻模態在惡劣條件下的缺陷,進一步提升語音分離模型的穩健性.此外,一些方法通過引人三模態一致性,使模型更好地匹配音頻、視覺和語言信息,提高了音源分離的精度[7-8.然而,音視頻通常是連續的時序數據,而文本是離散符號形式,模態間信息表達的差異會使特征融合變得困難.因此,特征融合的關鍵在于發現跨模態的時空相關性,以實現不同模態特征之間有效的信息交換與利用,從而提升語音分離的性能.
為了解決上述問題,本文作者提出了一種基于交叉-殘差連接的方法,用于融合音視頻與文本信息,構建三模態融合深層次的相互聯系,以此提升語音分離效果.特征拼接的方法只是將特征沿著某一維度連接,因此存在首尾兩個模態的信息缺乏關聯,未能實現任意兩個模態之間的有效交互.而本方法在處理某一模態特征時,利用交叉連接加入一部分其他模態特征,使得模型獲取多模態交互信息;通過殘差連接融入其他模態的原始信息,保持了各模態特征的完整性,在各個模態之間建立起一致性映射,有效提升了特征交互效率,
1基于多模態融合的語音分離方法
在信息傳達過程中,語音與視覺、文本模態相互補充.然而,對于機器而言,同時處理多種類型的信息需要考慮多模態融合問題,音視頻的時間特征明顯,而文本信息缺乏時間標記;此外,視頻和音頻數據之間可能存在時間異步,也會存在多模態匹配問題.為了克服這些挑戰,本文提出一種基于交叉-殘差連接音視頻與文本融合的多模態語音分離方法,介紹如下.
1.1基于交叉-殘差連接的融合模型
對于每個模態的特征對 (Fi,Fj) ,交叉連接可以表示為:

式中: x 表示經過交叉連接后的特征; Q,K 和 V 分別為查詢、鍵和值矩陣; d 為特征維度; soffmax(?) 為激活函數.對于提取到的音頻特征A、視覺特征 V 以及文本特征 T 進行交叉連接,并將其與原始模態特征相加,形成殘差連接,

式中: y 表示經過殘差連接后的特征.交叉連接與殘差連接同時對數據進行處理,得到最終的音視頻-文
本融合特征
F=yA+yV+yT.
1.2多模態語音分離框架
本模型如圖1所示,目標是從復雜的混合語音中分離出各自清晰的語音信號,并提高語音分離模型的準確性和可靠性.
模型主要框架使用U-net結構,首先將混合語音頻譜圖輸入編碼器,通過一系列卷積和池化操作,降低輸入音頻信號的空間維度,從而捕捉音頻信號中的長時相關性,并提取深層特征,這些特征捕捉語音信號的頻譜和時間特性.與此同時,模型利用輸入的說話人的視頻提取視覺特征,通常包括說話人的唇部運動信息,這些視覺特征有助于模型識別對應的語音信號.此外,模型還通過從視頻中提取的文本特征來進一步指導語音分離,這些文本特征反映了說話人表達的語義信息,并且與說話人唇部形狀有著對應關系.
多模態特征在送入解碼器之前,利用本文提出的三模態交叉-殘差連接方法,對音視頻和文本特征進行融合,旨在將不同模態的特征轉移到一個共同的特征空間中,以利用不同模態之間的互補關系,使更為豐富的特征被解碼器參考、接收.解碼器通過上采樣逐步增加特征的空間維度,恢復特征分辨率,生成與輸入頻譜圖具有相同維度的有界掩碼 M. 跳躍連接能夠將編碼器中高分辨率的特征直接傳遞到解碼器,解碼器將這些高分辨率的特征與自身處理的特征結合,從而保留足夠的細節信息來彌補處理過程中出現的特征缺失問題.利用掩碼預測損失 L?m 來評估掩碼預測準確性,

式中: Mi 為混合語音頻譜預測的掩碼;
為干凈語音頻譜得到的真實掩碼.語音分離的結果可以表示為:

式中: Si 為每個說話者的語音頻譜圖; Mix 為混合語音; Mi 為預測的音頻掩碼; * 為復乘法.對 Si 進行逆短時傅里葉變換,即可得到分離后的語音信號.
2 多模態特征提取
2.1 音視頻特征提取
在說話者的視頻中,需要提取每個說話者的嘴唇運動信息,并確定說話者的身份.這些視覺線索有助于提高模型在嘈雜環境下的語音分離能力.利用人臉檢測和跟蹤算法9來處理每個視頻幀,首先識別視頻幀中的人臉,然后持續跟蹤這些被檢測到人臉的位置和運動.該過程為每個說話人生成面部縮略圖,用于確定說話者身份,并裁剪出說話者的唇部區域.由于頭部轉動、光線變化和視頻模糊等因素,在視頻中不易捕捉說話者的嘴唇運動,因此,采用精確的關鍵點檢測方法裁剪出清晰的嘴唇區域圖像.關鍵點會隨著每一幀人臉的變動而變化,從而精確定位嘴唇運動區域.圖像嵌入網絡則用于將圖像轉換為固定大小的特征向量,這些特征向量包含嘴唇運動的基本信息.考慮到唇部運動所表現出的時空特性,其空間特征隨時間的變化過程反映了語音信號的產生,唇部復雜的運動和形狀的變化直接對應于語音中特定語音元素的產生,這對分析語音發音的細微差別提供了重要參考.將唇部運動特征輸入到3D卷積層和ShufleNetV2網絡中[10],以捕獲全面的空間特征.之后,時域卷積網絡(TCN)[]捕獲嘴唇運動中的時間依賴性.
對于音頻信號,其波形先進行短時傅里葉變換,獲得二維頻譜圖,然后將這個頻譜圖輸入U-net編碼器.編碼器使用一系列卷積層提取特征,每個卷積層通過滑動卷積核,對輸入進行卷積操作,以捕捉局部特征.在卷積操作后,引入激活函數ReLU,以增加模型的非線性,從而使其能夠學習更深層的特征表示.然后使用最大池化層,,降低特征圖的空間分辨率,而不影響特征信息的提取.編碼器通常由多個卷積層和池化層堆疊而成,每一層都對特征進行進一步提取.然后使用展平操作將其轉換為一維特征向量,提取音頻特征.同時,每一層的處理結果通過跳躍連接傳遞到解碼器,以幫助恢復空間分辨率.
2.2 文本特征提取
文本信息可以作為額外的上下文線索,輔助模型進行語音分離.選擇MA等2提出的視覺語音識別
(VSR)方法進行文本信息的提取,如圖2所示.采用3D最大池化層和3D卷積層來處理視頻的時間序列和空間特征,捕捉嘴唇的動態變化.隨后,模型通過一系列2D卷積層進行特征提取,這些卷積層的卷積核數量從64逐漸增加到512,以逐步豐富所提取的特征,進而捕捉更精細的嘴唇運動細節.此外,采用全局平均池化層進行特征壓縮,以提取最具代表性的特征.在特征提取之后,通過12個Conformer和Transformer解碼器處理序列數據,生成對應的文本特征T.

3多模態特征融合
基于拼接的三模態融合方法通常沿某一維度直接連接各模態的特征,只將模態特征并列排放,未考慮各個模態間的深層交互,無法實質性地共享全部特征信息.為了解決這一問題,采用交叉-殘差連接的多模態融合方法,充分發掘音視頻和文本信息之間的相關性.本研究集中于每種模態特征的預處理以及模態間的信息交換,這種信息交換可能發生在不同維數的數據之間,如圖3所示.通過在每兩個模
態之間引人交叉-殘差連接,使得每個模態都能與所有其他模態進行深入的特征交互.交叉連接允許不同模態特征之間進行相互交流,以增強模態間的關聯性;而殘差連接保留了各模態的原始特征信息,確保基礎信息得以完整傳遞.這種方法避免了簡單拼接造成的多模態信息割裂問題,還提高了模型對不同模態的特征互補信息的利用率.

預處理過程能夠將一維數據轉換為二維表示,反之亦然,以便于以端到端的方式將所含信息傳遞到其他模態的處理流程中.此外,可以進行多次交叉連接和不同深度之間的殘差連接,允許網絡在特征融合表示中彌補特征間的缺失.交叉連接的輸人是預處理后的特征,主要是進行模態間信息交換,以學習來自各個模態的特征.例如,音頻特征可以由一維轉換為二維,以便與視覺特征連接,同時視覺特征可以由二維轉換為一維,以便連接音頻特征,文本特征同樣如此,轉換方式如下.
1)二維轉一維.由卷積神經網絡(CNN)的卷積層和池化層提取二維特征,這些特征經過卷積操作后被展平成一維向量.然后,通過全連接層,學習不同模態特征之間的復雜關系.
2)一維轉二維.在多層感知機(MLP)網絡中,特征首先經過全連接層,調整數量以匹配反卷積操作所需的維度.然后,將特征重塑為適當的二維形狀,經過反卷積操作生成二維特征.
通過上述預處理過程,實現了一維特征與二維特征的有效轉換,使得各模態信息在同一特征空間內完成深層次的交互,進而完成交叉連接.
殘差連接的主要作用在于增強網絡的表達能力,尤其是在跨模態的特征融合過程中,確保每種模態的原始特征能直接嵌人多特征表示中.通過在特征融合中引人殘差連接,保留了每種模態的原始特征,同時增強了模態間的相互關聯性和數據完整性.交叉連接往往經過多層卷積、池化、反卷積等操作,可能導致一定程度的信息損失或誤差.殘差連接直接將未處理的輸人信息注入中間表示中,一定程度上糾正各模態中間處理過程以及模態間轉換造成的數據損失和錯誤.
對每兩個模態進行一次信息交互操作,以實現各模態特征的有效整合.以音視頻特征融合為例,交叉-殘差連接的過程如圖4所示.音頻特征經過Dense層、Reshape層和Conv2DTranspose層等一系列的預處理,變為二維特征 A12 ,同時保留一維特征 A11 .視覺特征也經過一系列預處理流程,獲得一維和二維特征表示 V21 和 V22. 將轉換為二維的音頻特征 A12 與視覺特征 V22 進行交叉連接,同時將變換后的一維視覺特征 V21 與原音頻特征 A11 進行交叉連接,使得音視頻模態信息在不同的表示空間中實現交互.進行多次交叉連接后,將得到的特征與初始未處理特征進行殘差連接,以確保融合特征中保留原始模態的信息,并結合來自其他模態的特征表示,形成互補.最后,進行交叉連接,得到最終的融合特征.對于音頻-文本和視頻-文本的特征融合,同樣采用該交叉-殘差連接的操作流程,最終獲得包含三模態信息的深度融合特征.

4實驗與分析
4.1 數據集與實驗設計
使用LRS2[13]數據集對語音分離模型進行訓練,該數據集是一個大規模的說話人視頻數據集,來自BBC 電視節目的片段,每個片段口語句子的長度最多為100個字符.數據集分為訓練集、驗證集和測試集.為了評估模型的泛化能力,在AVSpeech[14]、LILiRTwoTalk[15]和TCD-TIMIT[16]數據集上對訓練后的模型進行了評估,不同的數據集覆蓋了多樣化的場景,為多模態語音分離模型的訓練和評估提供了豐富的數據基礎.
視頻數據的幀率為25幀·s-1,音頻采樣率為 16kHz ,每個剪輯持續2s.在模型訓練過程中,每批數據樣本都從總共20000個樣本中隨機抽取,創建了許多新的樣本組合,以提升訓練數據集的多樣性.多模態語音分離框架在PyTorch中實現,訓練的目標是優化掩碼預測損失
短時傅里葉變換使用長度為400的Hann窗口,跳點大小為160,窗口大小為512.整個網絡使用Adam優化器進行訓練,初始學習率為10-4 ,批大小為128.實驗設備采用了NVIDIARTX4060顯卡,在GPU模式下運行.每500次迭代保存最新模型,每200次迭代進行一次模型驗證,訓練共進行50000個批次,并在第30000個和第40000個批次時降低學習率.
4.2 實驗結果及分析
對于AVSpeech,LILiRTwoTalk和TCD-TIMIT數據集,每個實驗都從中隨機選擇兩個揚聲器進行音視頻混合.兩個說話者的面容都顯示在視頻中,并伴隨混合的語音,這些信息被用作模型的輸入.將本研究方法與faster region CNN(FRCNN)[17]、VisualVoice[18]、CNN transformer cooperation(CTC)-Net[19]、采用音視頻交叉-殘差連接的音視頻-文本語音分離(AV-SS)和采用音視頻與文本交叉-殘差連接的音視頻-文本語音分離(AVT-SS)等方法進行比較分析.
評價指標選用信號失真比(SDR)、信號干擾比(SIR)和信號偽影比(SAR)[20.此外,使用語音質量感知評價(PESQ)[21]來評估語音清晰度,使用短時客觀可懂度(STOI)[23]來評估分離語音的可解度.在各數據集使用不同的語音分離方法進行實驗,結果如表2\~4所示.



從實驗結果來看,AV-SS和AVT-SS方法在所有數據集中均展現了卓越的性能,尤其在TCD-TIMIT和LILiRTwoTalk中優勢明顯.與單模態語音分離方法相比,音視頻語音分離方法的效果更為顯著.VisualVoice方法簡單地將音頻和視覺特征拼接在一起,僅強調跨模態特征的一致性,雖然能夠快速融合信息,適用于實現模態直接對齊的任務,但缺乏對音視頻模態間互補性的深人考慮.其拼接方法只是將特征沿著某個維度進行簡單合并,僅能對音視頻的一致性信息作出反應,對模態間更復雜的交互關系利用率較低.相較之下,CTC-Net考慮了多模態信息之間的關聯,使多模態信息獲得了更高的利用率,不僅實現了跨模態的一致性,也考慮了模態之間的一些互補關系.因此,CTC-Net能夠更好地捕捉音視頻特征的復雜關系,從而使語音分離效果有所提升.AV-SS方法使用音視頻交叉-殘差連接的融合方法,促進了音頻與視頻模態之間的信息交互,更有效地捕捉了模態間的互補關系.交叉-殘差連接不僅使得模態信息深人交互,還為各模態的信息在融合過程中提供了多層次的互補通道,實現了多模態關系之間的平衡性,使模型更好地利用所有模態的信息,提升了語音分離效果.在所有指標上,AVT-SS方法均取得了最優的表現,表明引入文本模態的AVT-SS方法顯著提升了語音分離效果.在音視頻基礎上加入文本信息,使得模型在語音分離任務中具備了更多的參考信息,這對于增強模型的分離能力至關重要.文本模態不受環境噪聲的影響,能夠對實際語音內容形成一種穩定的指導.當音視頻模態信息受到干擾或失效時,文本信息可補充丟失的內容,這種模態間的互補特性使AVT-SS方法能夠在復雜的嘈雜環境中維持較高的語音分離準確性,也證明了加人文本信息能有效改進語音分離.然而,當多種模態信息融合時,增加了參考信息量,往往也會增加特征處理的復雜度,尤其是當某一模態信息質量不佳時,可能導致信息冗余甚至沖突.因此,將AVT-SS與文獻[24-25]的方法在三模態處理的語音分離任務中比較語音分離效果,結果如表5所示.

實驗結果顯示,AVT-SS方法在音視頻-文本語音分離任務中仍然表現優異.文獻[24]的方法能在混合語音中提取文本信息,但噪聲可能導致文本信息提取不準確.如果提取的文本信息內容過于偏離目標說話者的實際發言,上下文理解可能會產生錯誤,從而影響語音分離效果.文獻[25]的方法要求音頻、視覺和文本信息在時空上高度一致,然而在實際應用中,視覺信息和音頻信息可能存在不同步或噪聲干擾的情況,多模態融合過程中存在冗余或沖突信息的風險,造成信息混淆.相比之下,本方法能夠在融合過程中保持每一模態特征原始信息的完整性,不僅能夠吸收來自其他模態的有用信息,還能確保不丟失自身模態的重要特征.AVT-SS方法不僅在信息模態上進行了擴展,還在融合方式上進行了優化,通過多層次的融合策略,將文本模態與音視頻特征逐層關聯,使三模態特征真正融合成為一體,從而提供了更好的語音分離效果.
為了驗證模型在噪聲影響下的穩健性,引入噪聲數據集 ESC-50[23] ,將其加入混合語音中,增加了信號處理的復雜度.將噪聲數據集中的風、雨和汽車引擎聲分別加人AVSpeech,LILiR TwoTalk和 TCD-TIMIT.AV-SS和AVT-SS方法的執行結果如表6和表7所示.

表6展示了AV-SS在不同噪聲和數據集組合下的表現.在加人風、雨噪聲時,由于這種自然噪聲頻譜分布較為不規律,可能與語音特征在低頻段存在重疊,會對語音分離產生一定的影響.盡管如此,AV-SS方法能夠保持相對穩定的表現,表明其對風、雨噪聲具有一定的穩健性.而面對汽車引擎聲這種人為的噪聲,其頻譜有規律可循且具有持續性,因此AV-SS表現更優.表7展示了AVT-SS在不同噪聲和數據集組合下的表現.音視頻-文本的融合使模型能夠從文本和視覺信息中提取更多語義和時序特征,從而在風、雨噪聲的影響下,還能獲得更優的分離效果,表現出明顯的抗噪能力.總體來看,AVT-SS方法在各類噪聲環境下均優于AV-SS方法,表明文本信息的加人有效提升了模型的抗噪性.在語音信號被噪聲掩蓋的情況下,視覺和文本模態提供了額外的參考.實驗結果顯示,汽車引擎聲這種人為的噪聲對模型影響較小,而風、雨噪聲等自然噪聲影響相對更大.AVT-SS能夠更好地從噪聲中提取目標語音,說明多模態信息在噪聲環境下具有較強的適應能力.盡管存在多樣化的噪聲,AVT-SS模型仍然保持較好的表現,這驗證了其在現實環境中潛在的適用性.AVT-SS方法相較于AV-SS方法具備更強的泛化能力和抗噪性,尤其是在復雜噪聲場景中.同時,這也驗證了本文所提出的交叉-殘差連接方法對于處理特征融合的有效性.
5結語
本文提出了一種基于交叉-殘差連接音視頻與文本融合的語音分離方法,在多模態信息的融合上,解決了不同模態在時間和空間維度上的交互問題,在保持各模態特征獨立性的同時,實現模態間的特征交換,以融合后的特征提升語音分離性能.實驗結果表明:與傳統方法相比,本文提出的語音分離方法表現更優;在音視頻-文本的語音分離方法對比中,所提出的AVT-SS方法也展現出最好的分離效果.總之,本方法在不同模態之間實現了更高的協同性,不僅在復雜噪聲環境下取得了更優的語音分離效果,還表現出更好的穩健性和適應性.然而,在說話人面部被遮擋或缺失的情況下,該方法可能會面臨一些挑戰.未來將研究面部遮擋或缺失對語音分離性能的影響,以進一步提升方法的穩健性.
參考文獻:
[1] PRAVEEN RG,DE MELOWC,ULLAHN,et al.A joint cross-attentionmodel foraudio-visual fusion indimensional emotionrecognition[C]// Conference on ComputerVision and Pattern Recognition.NewOrleans: IEEE,2022:2485- 2494.
[2]MONTESINOS JF,KADANDALE V S,HARO G. Vovit: low latency graph-based audio-visual voice separation transformer[C]// Conference on Computer Vision. Cham:Springer,2O22:1-17.
[3] BROUSMICHE M,ROUATJ,DUPONT S.Multimodal atentive fusion network for audio-visual event recognition[J]. InformationFusion,2022,85:52-59.
[4] WUYS,CHEN K,ZHANG TY,et al.Large-scale contrastive language-audio pretraining with feature fusion and keyword-to-captionaugmentation[C]//International Conference on Acoustics,Speech and Signal Processing.Rhodes Island:IEEE,2023:1-5.
[5]LI C D,QIAN Y,CHEN Z,et al. Target sound extraction with variable cross-modality clues [C]//International Conference on Acoustics,Speech and Signal Processing.Rhodes Island: IEEE,2023:1-5.
[6] MAHMUD T,AMIZADEH S,KOISHIDA K,et al.Weakly-supervisedaudio separation via bi-modal semantic similarity[J/OL].ArXiv preprint arXiv,2024:240401740[2024-09-07]. htps://rxiv.org/abs/2404.01740.
[7] TAN R,RAY A,BURNS A,et al. Language-guided audio-visual source separation via trimodal consistency[C]// Conference on Computer Visionand Pattern Recognition.Vancouver:IEEE,2O23:10575-10584.
[8]ZHANG Z W,ZHANG SM,NID,et al.Multimodal sensing for depresion risk detection:integrating audio,video, and text data[J].Sensors,2024,24(12):3714.
[9] ZHANG K P,ZHANG ZP,LI Z F,et al. Joint face detection and alignment using multitask cascaded convolutional networks [J]. IEEE Signal Processing Letters,2016,23(10):1499-503.
[10] MANN,ZHANG XY,ZHENG HT,et al.Shuflenet v2:Practical guidelines foreffcient cnarchitecture design[C]/ Conference on Computer Vision.Munich:Springer,2018:122-138.
[11] BAI SJ,KOLTER JZ,KOLTUN V.An empirical evaluation of generic convolutional and recurrent networks for sequence modeling[J/OL].ArXiv preprint arXiv,2018:180301271[2024-09-07].https://rxiv.org/abs/1803.01271.
[12] MA PC,PETRIDIS S,PANTIC M.Visual speech recognition for multiple languages in the wild[J].Nature Machine Intelligence,2022,4(11):930-939.
[13] AFOURAS T, CHUNG JS,SENIOR A,et al. Deep audio-visual speech recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,44(12):8717-8727.
[14] EPHRAT A,MOSSERII,LANGO,etal.Looking to listenat the cocktailparty:a speaker-independent audio-visual model forspeech separation[J/OL].ArXivpreprint arXiv:2018,180403619[2024-09-07].htps://arxiv.org/abs/ 1804.03619.
[15] SHEERMAN-CHASE T,ONG E J,BOWDEN R. Cultural factors in the regresion of non-verbal communication perception[C]/ International Conference on Computer Vision Workshops.Barcelona: IEEE,2011:1242-1249.
[16] HARTE N,GILLEN E. TCD-TIMIT:anaudio-visual corpus of continuous speech [J]. IEEE Transactions on Multimedia,2015,17(5):603-615.
[17] HU XL,LI K,ZHANG W Y,et al.Speech separation using an asynchronous fully recurrent convolutional neural network[J].Advances in Neural Information Processing Systems,2021,34:22509-22522.
[18] GAO RH,GRAUMAN K.Visualvoice: audio-visual speech separation with cross-modal consistency[C]//2021 IEEE/ CVF Conference on Computer Vision and Pattrn Recognition. Nashville: IEEE,2021:15490-15500.
[19] LI K,XIEFH,CHEN H,etal.Anaudio-visual speech separation model inspired bycortico-thalamo-corticalcircuits[J]. IEEE Transactions on Pattern Analysis and Machine Inteligence,2024,46(1O):6637-6651.
[20] RAFFELC,MCFEE B,HUMPHREY EJ,et al.MIR_EVAL:a transparent implementationof common MIR metrics [C]/ International Society for Music Information Retrieval Conference.Taipei,ISMIR,2O14:1-6.
[21] RIX A W,BEERENDS JG,HOLLIER MP,et al. Perceptual evaluation of speech quality (PESQ)-a new method for speech quality asessment of telephone networks and codecs [C]/ International Conference on Acoustics,Speech,and Signal Processing.Salt Lake City:IEEE,2001:749-752.
[22]TAAL C H,HENDRIKSR C,HEUSDENS R,et al.Analgorithm for intellgibility prediction of time-frequency weighted noisyspeech[J].IEEE Transactions onAudio,Speech,andLanguage Processing,2011,19(7):2125-2136.
[23] PICZAKKJ.ESC:dataset for environmental sound clasification[C]/ International Conference on Multimedia. Brisbane:ACM,2015:1015-1018.
[24] LI C D,QIAN YM.Listen,watch and understand at the cocktail party:audio-visual-contextual speech separationC]/ Interspeech.Shanghai:ISCA,2020:1426-1430..
[25] RAHIMIA,AFOURAS T,ZISSERMANA.Reading to listen atthe cocktail party: multi-modal speech separation [C]/ Conference on Computer Vision and Pattern Recognition.New Orleans:IEEE,2022:10483-10492.
(責任編輯:包震宇,顧浩然)