999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不確定性感知的語音分離方法*

2021-03-12 11:24:20涂斌煒呂俊
自動化與信息工程 2021年1期
關鍵詞:信號方法

涂斌煒 呂俊

技術應用

基于不確定性感知的語音分離方法*

涂斌煒 呂俊

(廣東工業大學自動化學院,廣東 廣州 510006)

為抵御噪聲的干擾,提出一種基于不確定性感知的語音分離方法。在訓練階段,采用雙鏈路架構分別學習噪聲和語音源成分的編解碼子網和分離子網;在測試階段,以閉式解的形式自適應更新噪聲編碼子網,減小訓練與測試噪聲在特征空間的均值偏移,降低認知不確定性,并盡量保持重要參數不變,間接限制語音分離的經驗誤差。在公開數據集LibriSpeech, NoiseX和NonSpeech上的實驗結果表明:本文提出的方法能夠快速有效地提高噪聲干擾下語音分離的尺度不變信噪比。

語音分離;噪聲干擾;不確定性感知

0 引言

語音分離一詞最初源于“雞尾酒會問題[1]”,是指從混合的兩個或多個說話人的聲音中得到想要的目標說話人(一人或多人)的語音信號,廣泛應用于語音識別、情感識別或翻譯等任務的前端處理。按信號輸入的通道數劃分,語音分離可分為單通道語音分離和多通道語音分離2種。本文主要討論單通道語音分離技術。

單通道語音分離技術又分為有背景噪聲和無背景噪聲2類。無背景噪聲的單通道語音分離技術發展較早,常見方法包括基于聽覺場景分析[2]、基于非負矩陣分解[3-4]和基于深度神經網絡的語音分離方法[5-6]。這些方法推動了單通道語音分離技術的發展,但沒有考慮噪聲干擾的影響,與真實使用場景相差較大。

近年,許多專家學者逐漸關注有背景噪聲的單通道語音分離技術。文獻[7]~文獻[9]通過串聯方法將語音降噪網絡和語音分離網絡結合起來,該方法已被證明能夠改善嘈雜環境下的語音識別性能;文獻[10]通過多場景訓練方法將語音降噪和語音分離結合在一起,2個任務共用1個網絡。上述方法改善了語音分離技術在噪聲環境下的分離效果,但沒有考慮異常噪聲帶來的分布差異問題。由于噪聲具有較強的多樣性,因此測試信號中難免會出現與訓練集噪聲相差較大的噪聲信號,這些異常噪聲會嚴重影響語音分離效果。

為抵御噪聲的干擾,本文提出一種基于不確定性感知的語音分離方法(speech separation based on uncertainty perception, SSUP)。該方法采用變換域特征的均值偏移來度量預測不確定性,采取雙鏈路網絡結構,通過自適應更新噪聲編碼網絡的參數,減小噪聲帶來的均值偏移,同時采用彈性權重固化(elastic weight consolidation, EWC)策略[11],間接保持較小的訓練集經驗誤差。

1 分離網絡

1.1 問題描述

1.2 網絡結構

現有的單通道語音分離方法主要采用單鏈路架構[12-13]。但由于噪聲與語音信號的分布不一樣,采用不同的表達方式更合理。本文提出的SSUP采用雙鏈路網絡架構,如圖1所示。

圖1 SSUP雙鏈路網絡架構

SSUP雙鏈路網絡包括網絡結構相同的2個鏈路,每個鏈路皆包含編碼器、分離器和解碼器3個主要部分。編碼器和解碼器分別為一維卷積和一維逆卷積網絡;分離器由多個雙路循環神經網絡(dual-path RNN, DPRNN)模塊組成[12]。其中,鏈路1的輸出為2個說話人的語音信號,鏈路2的輸出為噪聲信號。首先,在訓練集中訓練得到初始模型;然后,根據每條測試信號,有針對性地更新鏈路2中編碼器的參數,并保持其他參數不變。

依據驗證集的分離性能,SSUP雙鏈路網絡的參數設置如表1所示。模型訓練采用的優化器為Adam,迭代步長為10-3,迭代次數為100。

表1 SSUP雙鏈路網絡參數設置

1.3 訓練目標

網絡最終輸出是估計信號的時域波形。本文采用的訓練目標為最大化尺度不變信噪比(scale-invariant source-to-noise ratio, SI-SNR)[14]。在單通道語音分離中,標準的信號失真比(source-to-distortion, SDR)可能出現誤導性結果,即在感知上并沒有改變估計信號的情況下,僅依靠縮放估計信號便能提高SDR值,然而這種提高沒有實際意義[14]。為避免這種情況,SI-SNR取代SDR作為語音分離的評價指標[12,15],其定義為

2 基于不確定性感知的語音分離

2.1 不確定性感知

2.2 參數更新方法

測試信號與訓練集的編碼特征分布應盡量接近,以減小分離模型的認知不確定性。與此同時,采用彈性權重固化策略[11],間接保持較小訓練集經驗誤差,自適應地學習有利于目標信號實現語音分離的變換域。因此,設計代價函數為

若不引入費雪信息,式(5)的最后一項是Frobenius范數正則化約束,此時式(5)可改寫為

2.3 噪聲信號在特征空間上的均值偏移

為探究噪聲信號在特征空間上的均值偏移,本文從Nonspeech數據集中選取8種不同的噪聲數據[19],與語音信號生成8個測試集,每個測試集的樣本個數和所采用的語音信號皆相同。計算每個測試集的噪聲特征至訓練集噪聲特征中心的平均偏差為

8種不同噪聲特征至訓練集噪聲特征中心的平均偏差如圖2所示。

圖2 8種不同噪聲特征至訓練集噪聲特征中心的平均偏差

由圖2可知:animal和bell這2種噪聲的編碼特征偏離訓練數據均值中心0的程度非常明顯,給語音分離模型帶來較大的泛化風險;而另外6種噪聲的編碼特征偏離均值中心比較小,可見并非所有的噪聲都會在特征空間上帶來嚴重的均值偏差。因此,需要設置1個閾值,只有滿足閾值要求的測試信號才會觸發參數更新。

2.4 參數更新觸發條件

本文采用變換域特征的均值偏移來度量預測不確定性。針對不確定性較大的測試數據,將進行參數的動態調整。因此,設置了1個不確定性閾值,計算公式為

當測試信號的值大于,通過式(8)或式(10)對編碼器2的參數進行更新。

3 實驗及參數分析

3.1 實驗設置

實驗采用的深度學習框架為Pytorch,服務器CPU為8核3.90 GHz AMD Ryzen 3700X,內存為 32 GB,GPU為Nvidia RTX 2080 Ti。

本文采用公開的語音數據集LibriSpeech[20],噪聲數據集NoiseX[21]和Nonspeech[19]進行實驗。為方便網絡訓練,所有數據統一采樣率為8 kHz。本文的語音數據全部來自于LibriSpeech數據集中的“train-clean-100”子集,該子集包含了100 h來自251個不同個體的語音數據。首先,取任意2個不同說話人的語音以-2.5 dB~2.5 dB的任意比例混合,得到干凈的2個說話人的混合數據;然后,選取NoiseX數據集中的10種噪聲生成訓練集數據,同時將Nonspeech數據集中的8種噪聲生成測試集數據,詳情如表2所示。其中,噪聲與說話人聲按-5 dB~10 dB的任意信噪比混合,訓練集的樣本個數為8000,測試集中每種噪聲數據的樣本個數為3000。

表2 噪聲數據集

3.2 實驗結果

表3 4種方法的分離性能比較

由表3可知:1) BPU取得了比單鏈路更好的分離性能,說明雙鏈路網絡方法是有效的;2) FNR和FIW-FNR方法獲得的SI-SNR指標高于BPU,其中FIW-FNR是4種方法中分離性能最好的,可見本文提出的參數更新方法可以改善模型的分離性能。

3.3 參數分析

表4 取不同值時,3種方法的SI-SNR指標

表5 取不同值時,3種方法的SI-SNR指標

3.4 運行效率

針對每一條測試信號,本文提出的基于不確定性感知的語音分離方法都可以通過式(8)或式(10)閉式更新噪聲編碼網絡參數,而無需經過反向梯度傳播,從而保證了模型的運行效率。經過測試1000條數據,FIW-FNR方法平均處理一條測試信號的時間約為(0.150.01) s(每條數據長度為5 s)。

4 結語

為減小噪聲的干擾,本文提出一種基于不確定性感知的語音分離方法。針對每一條測試信號,自適應更新噪聲編碼網絡的參數,減小噪聲帶來的均值偏移,并盡量保持重要參數不變,間接限制語音分離的經驗誤差。該方法具有閉式解,執行效率高,能夠快速調整編碼網絡參數,增強語音分離模型對環境噪聲的泛化能力。

[1] BELL A J, SEJNOWSKI T J. An information-maximization approach to blind separation and blind deconvolution[J]. Neural Computation, 1995,7(6):1129-1159.

[2] WANG D L, BROWN G J. Computational auditory scene analysis: principles, algorithms, and applications[J]. IEEE Trans. Neural Networks, 2008,19(1):199.

[3] LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401(6755):788-791.

[4] 李煦,屠明,吳超,等.基于NMF和FCRF的單通道語音分離[J].清華大學學報(自然科學版),2017,57(1):84-88.

[5] WANG D L, CHEN J. Supervised speech separation based on deep learning: an overview[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018,26(10):1702-1726.

[6] 劉文舉,聶帥,梁山,等.基于深度學習語音分離技術的研究現狀與進展[J].自動化學報,2016,42(6):819-833.

[7] MA C, LI D, JIAN X. Two-stage model and optimal SI-SNR for monaural multi-speaker speech separation in noisy environment[J]. arXiv preprint arXiv: 2004.06332, 2020.

[8] LIU Y, DELARIA M, WANG D L. Deep casa for talker- independent monaural speech separation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020: 6354-6358.

[9] WANG X, DU J, CRISTIAN A, et al. A study of child speech extraction using joint speech enhancement and separation in realistic conditions[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 7304-7308.

[10] WU Y K, TUAN C I, LEE H Y, et al. SADDEL: Joint Speech separation and denoising model based on multitask learning[J]. arXiv preprint arXiv: 2005.09966, 2020.

[11] KIRKPATRICK J, PASCANU R, RABINOWITZ N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(13): 3521-3526.

[12] LUO Y, CHEN Z, YOSHIOKA T. Dual-Path RNN: efficient long sequence modeling for time-domain single-channel speech separation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020:46-50.

[13] LUO Y, MESGARANI N. Conv-tasnet: surpassing ideal time- frequency magnitude masking for speech separation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(8): 1256-1266.

[14] ROUX J L, WISDOM S, ERDOGAN H, et al. SDR half-baked or well done[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019: 626-630.

[15] LUO Y, CHEN Z, MESGARANI N. Speaker-independent speech separation with deep attractor network[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2018, 26(4):787-796.

[16] TAGASOVSKA N, LOPEZ-PAZ D. Single-model uncertainties for deep learning[C]. In Advances in Neural Information Processing Systems, 2019: 6414-6425.

[17] WELLING M, YEE W T. Bayesian learning via stochastic gradient Langevin dynamics[C]. Proceedings of the International Conference on Machine Learning (ICASSP), 2011: 681-688.

[18] GAL Y, GHAHRAMANI Z. Dropout as a Bayesian approximation: representing model uncertainty in deep learning[C]. Proceedings of the International Conference on Machine Learning (ICML), 2016: 1050-1059.

[19] HU G, WANG D L. A tandem algorithm for pitch estimation and voiced speech segregation[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010,18(8): 2067-2079.

[20] PANAYIOTOU V, CHEN G, POKEY D, et al. LibriSpeech: an ASR corpus based on public domain audio books[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015: 5206-5210.

[21] VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: Ii.noisex-92: A database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993,12(3): 247-251.

Speech Separation Method Based on Uncertainty Perception

Tu Binwei Lü Jun

(School of Automation, Guangdong University of Technology, Guangzhou 510006, China)

In order to resist the disturbances of noises, we proposed a speech separation method based on uncertainty perception. In the training phase, a two-link architecture is adopted to learn the codec subnet and separate subnet of noise and speech source components respectively. In the testing phase, the noise coding subnet is updated adaptively in the form of closed solution, so as to reduce the mean deviation of training and testing noises in the feature space, reduce cognitive uncertainty, keep the important parameters unchanged as far as possible, and indirectly limit the empirical error of speech separation. Experimental results on the public datasets LibriSpeech, NoiseX and NonSpeech show that the proposed approach can rapidly and effectively improve the scale-invariant source-to-noise ratio of speech separation under the interferences of unknown noises.

speech separation; noise interference; uncertainty perception

TN912

A

1674-2605(2021)01-0008-06

10.3969/j.issn.1674-2605.2021.01.008

廣東省自然科學基金(2018A030313306)

涂斌煒,男,1995年生,碩士研究生,主要研究方向:機器學習,語音分離。E-mail: tubinwei@mail2.gdut.edu.cn

呂俊(通信作者),男,1979年生,博士,副研究員,主要研究方向:生物信號檢測與識別。E-mail: lujun.rylj@gmail.com

猜你喜歡
信號方法
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
學習方法
孩子停止長個的信號
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 九九九久久国产精品| 亚洲国产高清精品线久久| 玖玖精品在线| 亚洲开心婷婷中文字幕| 欧美va亚洲va香蕉在线| 国产成人久视频免费| av一区二区无码在线| 香蕉视频在线观看www| 免费国产好深啊好涨好硬视频| 久久久久久国产精品mv| 日日拍夜夜操| 久久综合色天堂av| 中文纯内无码H| 国产精品99久久久| 国产喷水视频| 亚洲视频a| 欧美A级V片在线观看| 久久99久久无码毛片一区二区| 97影院午夜在线观看视频| 毛片免费在线| 国产精品成人啪精品视频| 亚洲无码37.| Jizz国产色系免费| 免费毛片全部不收费的| 丁香婷婷久久| 国产视频a| 亚洲第一区在线| 在线综合亚洲欧美网站| 亚洲国内精品自在自线官| 午夜视频www| 国产精品久线在线观看| 少妇人妻无码首页| 刘亦菲一区二区在线观看| 国产精品jizz在线观看软件| 免费国产小视频在线观看| 欧美精品亚洲日韩a| 99资源在线| 欧美激情网址| 四虎国产精品永久一区| 亚洲综合狠狠| 亚洲伊人久久精品影院| 国产高清免费午夜在线视频| 亚洲成人精品久久| 国产在线视频欧美亚综合| 日本不卡在线视频| 国模沟沟一区二区三区| 国产精品原创不卡在线| 久久99国产乱子伦精品免| 成人在线不卡| 永久在线播放| 91九色国产在线| 亚洲人成网线在线播放va| 在线观看热码亚洲av每日更新| 欧美国产日韩一区二区三区精品影视| 国产SUV精品一区二区6| 一级在线毛片| 国产一级一级毛片永久| 成年人国产网站| 国产女人在线| 亚洲91精品视频| 国产免费羞羞视频| 99精品视频在线观看免费播放| 亚洲精品午夜天堂网页| 日韩精品一区二区三区免费| 99精品在线看| 国产日本欧美在线观看| 毛片a级毛片免费观看免下载| 国产不卡网| 精品一区二区三区水蜜桃| 久久精品国产精品青草app| 中文一区二区视频| 五月婷婷综合色| 国产一区免费在线观看| 欧洲亚洲一区| 美女内射视频WWW网站午夜| 五月激激激综合网色播免费| 久久一本日韩精品中文字幕屁孩| 伊人中文网| 99精品影院| 亚洲日本中文综合在线| 国产精欧美一区二区三区| 九九九精品视频|