鐘秀章



摘要:文章提出了一種基于深度神經網絡的低延遲(≦算法延遲20 ms)聲源分離方法。方法利用了擴展的過去的上下文,輸出軟時頻掩碼用于分離音頻信號,比基本的NMF有更好的分離性能。實驗表明,基于DNN的方法比起基本的低延遲的NMF方法在不同幀長的處理幀和分析幀上,SDR+均至少提升1 dB,尤其是當處理幀較短時,效果尤為顯著。
關鍵詞:聲源分離;深度神經網絡;低延遲
聲源分離的目的是恢復由多個聲源混合而成的混合音中的單個聲音。這種技術最常見的用途有語音識別,語音去噪和助聽器。所有這些應用都可以采用在線的方式處理聲源分離,其中助聽器對處理延遲的要求最高,因為當延遲超過20 ms時,聽者的不適感顯著提高。另外聽者能夠感受到最低延遲為3 ms??紤]到這樣的應用,開發出一種能夠處理幀長非常短的聲源分離方法就變得很有必要。
有兩種流行的聲源分離方法:(l)基于組合模型的方法[1],如非負矩陣分解(Nonnegative Matrix Factor, NMF)或某種等價的概率潛在成分分析(Probabilistic LatentComponent Analysis,PLCA)。(2)基于深層神經網絡的方法。基于組合模型的方法基于固有結構,將復雜的聲學混合信號線性分解成更簡單的子單元或組件。另一方面,深神經網絡本質上是非線性模型,能夠學習復雜的非線性輸入和輸出之間的映射,輸入和輸出的關系被嵌入在隱藏層中的權重中。深度神經網絡( Deep Neural Networks,DNN)技術在聲源分離問題中的應用越來越廣泛,比起基于組合模型的方法表現出更好的性能。
對于低延遲的聲源分離,文獻[2]提出了一種監督的、基于字典的方法。該方法對更前面的上下文數據進行因式分解生成短幀掩碼,來預測單通道語音分離中相對困難的場景里用到的分離濾波器的權重。類似的方法可用于基于DNN分離的方法中,可以為非線性的數據建模提供更大的可能。
本文方法主要應用在對低延遲有比較高要求的場景,例如助聽器。我們使用來自聲音混合信號的頻譜特征向量作為DNN的輸入,再預測出時頻掩碼。我們發現把過去時間的上下文加入到DNN的輸入中,可以提高短幀低延時處理的性能。我們研究了這種加入時間上下文的時長對分離性能的影響,并將結果與基本的NMF進行了比較。
本文的結構如下:第2節介紹了提出的方法。第3節介紹實驗使用的樣本數據,用于評估的指標,還有實驗設置和結果。第4部分對論文進行總結。
1 基于神經網絡的聲源分離
在一般的基于頻譜的使用DNN進行聲源分離的方法中,混合聲音信號的頻譜特征作為DNN的輸入向量,然后在輸出端預測時頻掩碼。這些掩碼濾波器被應用到混合聲音頻譜的中,以獲得重構的單一源譜。在本文的方法中,我們把輸入的時域信號進行分塊處理。為了確保低延遲,運算在被稱為處理幀的短塊上進行。延遲取決于該幀的長度,因為在應用離散傅里葉變換( Discrete Fourier Transform,DFT)獲得頻譜特征之前,必須先緩沖所有的樣本。我們建議使用更長的過去時間上下文來生成與當前處理幀相對應的網絡輸入。這種擴展的時間上下文被稱為分析幀。因此,由分析幀導出的頻譜特征,作為DNN輸入用于預測處理幀的聲源分離的掩碼,這個過程如圖l所示。
1.1輸入特征
當前分析幀的頻譜特征,是通過短時傅里葉變換(Short-Time Fourier Transform,STFT)產生的。本文使用的窗長等于處理幀的幀長,重疊率為50%。分析幀比處理幀長,它可以生成一組特征向量,再串聯成更長的分析特征向量提供給每個處理幀,下面現在詳細闡述時頻掩碼的生成過程。
1.2時頻掩碼
本文提出的有監督的語音分離方法,目的是為了估計一個合適的時頻掩碼,可以提高分離出來的語音信號的分離度和清晰度。本文方法中使用的掩碼是一個軟時頻掩碼,定義為:
t是某處理幀的索引,/是離散傅里葉變換的索引。Sl和S2是對應語音信號的STFT特征向量。掩碼的值的范圍是[0,1],保證了數值的穩定性,為神經網絡的反向梯度訓練提供一個的目標輸出。
訓練時,對于每個處理幀,通過等式l得到了DNN目標輸出。DNN網絡的權值是通過相應的分析幀的特征和相應的處理幀的目標輸出進行調整的。其目的是從訓練數據中獲取相關特征,以生成合適的掩碼輸出。為了使系統的算法延遲較低,處理幀和相應的掩碼需要相應地保持得比較短,因為在所有需要的樣本被緩沖完之前,不能計算DFT。
1.3源重構
通過掩碼M(t,f),可以從混合譜Y(t,f)中分離出己分離信號的STFT復數譜:S,S,等式為:
這里,*表示元素相乘。通過離散傅立葉逆變換(InverseDiscrete Fourier Transform,IDFT)和疊加處理,在線從復數譜中重構出時域源信號的估計。同時,混合信號的頻譜的相位也被用于源重構。
2估計
本節闡述評估中使用的指標、數據集、實驗設置以及最終得到的結果。我們用有10 000個基原子的NMF作為基線。大的字典有更好的分離性能,因為它們能更好對混合信號進行建模。NMF配置使用的是文獻[2]中具有最好性能的NMF配置,從而為基于DNN的系統提出一個很好的基線。
2.1訓練數據
本文使用CMU北極數據集‘31來評估基于DNN的語音分離方法。數據集里5對說話人中有3名男性和2名女性。說話人分別為:US-awb,US-clb,US-jmk,US-ksp和US-slt??偣灿袃蓪δ心谢旌希瑑蓪δ信旌?,一對女女混合。為了生成每個說話人的訓練數據,從數據庫的語音集A中隨機選出32條語音。給每一對說話人總共生成所有可能的排列共1 024條混合信號作為訓練集。測試集是來源于CMU北極數據集B,以確保訓練,驗證和測試集不相交。每個說話人有10條語音,考慮所有可能的排列,則每對說話人有100條語音。在出現兩語音長度不一樣時,較短的語音進行補零。所有的語音都為16 kHz的采樣率。用于訓練DNN的訓練集也被用于生成基本的NMF的字典。
2.2評估指標
使用BSS-EVAL評估工具包評估分離性能。它包括3種指標:SIR (Source to Interference Ratio)、SAR (Source toArtifacts Ratio)、SDR( Source to Distortion Ratio)。其中SDR衡量整體的分離性能。在評估時,原時域混合信號以及相對應的時域分離信號被用來計算這些指標。
2.3 DNN的結構和訓練
使用Keras深度學習框架來訓練DNN。分別為五對說話人訓練單獨的DNN。DNN有3個隱藏層,每層有250個神經元。隱藏層和輸出層的激活函數都是Sigmoid函數,損失函數是均方誤差(Mean Square Error,MSE),優化方法為Adam。學習率η=0.001,decay分別為β1=0.9,β2=0.999,這3個參數也是Adam優化中的缺省參數。為了防止過擬合,使用了dropout正則化,批規范化。批規范化,除了保證更快的收斂性外,也能在驗證集上取得更好的性能。需要注意的是批規范化使用在隱藏層之間且在隱藏層的Sigmoid激活函數之后。另外,DNN訓練時還使用了early stop,若20 epochs后,驗證集的損失沒有降低就停止訓練。
2.4測試條件
對每對說話人,都用2.2節的評估指標來評估NMF和DNNs。處理幀長分別為5,10和20 ms(見表1)。當涉及低延遲的應用如助聽器時,較長的處理幀長度就不合適了。此外,每種長度的處理幀,都結合過去的上下文進行研究。具體而言,分別利用5,10,20,40,80,和160 ms的分析幀的長度進行研究。
2.5結果
計算了5對說話人的分離性能指標,并取平均得出最終結果。不同的分析幀長度的DNN的分離性能如圖2所示。據觀察,結合過去時間上下文使得處理幀為5 ms和10 ms的性能得到提升,尤其是5 ms。隨著上下文時間的變長,性能開始下降,當分析幀是處理幀2-4倍時,性能提升最大。當處理幀長度為20 ms時,性能沒有提升。同時,不管處理幀,分析幀的幀長是多少,DNN的分離性能都比NMF好。DNN和NMF的性能比較如表1所示。5 ms和10 ms的處理幀對應5,10,20,和40 ms的分析幀??梢钥闯?,基于DNN方法的性能一直優于其對應NMF。在SDR上,5 ms的處理幀的至少有1.5 dB的提升,10 ms的處理幀至少有l dB的提升。
3結語
本文提出了一種低延遲的基于DNN的單通道盲源分離方法,比起具有最好性能的低延遲基本NMF,它提供了一個更好的分離性能。實驗證明結合過去的上下文可以提高分離性能,尤其是處理幀的長度較短時如5ms,性能提升尤為顯著,這一觀察結果與報告的結果一致。
應該指出的是,分析幀長度增加時,DNN的輸入特征向量的維數也增加了。這種情況下,使用的DNN結構可能是次優的,通過增加隱藏層神經元數目或隱藏層層數可能有助于提高分離性能。此外,增加訓練數據量也將有助于提高分離性能。本研究利用傳統的前饋DNN結構。若使用能對時間依賴性進行建模的網絡結構,如長短時記憶(Long ShortTerm Memory, LSTM)有望進一步提高分離性能。
[參考文獻]
[IlVIRTANEN T, GEMMEKE J F. RAJ B. et aI.Compositional models for audio processing: Uncovering the structure of sound
mixtures[J] .IEEE Signal Processing Magazine. 2015 ( 2) : 125-144.
[2lBARKER T. VIRTANEN T. PONTOPPIDAN N H.Lowlatency sound-source-separation using non-negative matrix factorisation with
coupled analysis and synthesis dictionaries[Cl.Brisbane: IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP) . 2015.
[3lKOMINEK J A. BLACK W.The CMU arctic speech database[J].Processing of Isca Speech Synthesis Workshop, 2004 ( 4) : 223-224.