李鴻燕,屈俊玲,張雪英
(太原理工大學 信息工程學院,太原030024)
語音在實際傳輸環境中,總會受到各種各樣噪聲的干擾,如機器噪音、音樂干擾和其他說話者的聲音等。噪聲干擾對于諸如自動語音識別系統、助聽器、視頻會議等應用領域提出了挑戰[1-3]。針對這一問題,過去的幾十年里,研究人員做了大量的工作,開發計算機系統來分離目標語音或者減弱噪聲干擾。
目前,對于混合語音信號分離的研究主要有兩方面:盲信號分離(Blind source separation,BSS)和計算聽覺場景分析(Computational auditory scene analysis,CASA)[4-6]。盲信號分離有一些假設條件,如要求觀測信號的個數大于等于源信號的個數;假定噪聲不存在或噪聲很小,可以忽略不計等,這些假設條件在某種程度上限制了盲信號分離的應用[7]。近年來,CASA 算法由于其不需要假設信號的統計特性和單通道條件下的可實現性,已受到國內外研究學者的廣泛關注。語音由濁音和清音兩部分組成,濁音是語音信號的主要組成部分,含有語音信號的大部分信息[8]。對于單通道濁語音分離的問題,Hu 和Wang等[9]提出的基于諧波和幅度調制的混合語音分離系統有效地改善了目標語音的分離性能,并且優于以前的CASA 算法。但是,相比于低頻部分的信號來說,語音信號在高頻部分(>1kHz)的能量比較低,容易受到噪聲干擾,因此,當混合語音信號中的噪聲干擾變強時,將會干擾Hu-Wang算法中對應的聽覺線索,從而影響系統的分離效果[10]。聲學特性表明,濁語音具有準周期性,因此,諧波特性成為濁語音的重要特征。同時,在濁語音的諧波上還分布著語音信號的大部分能量,能量是濁音的一個重要特征[11]。由于語音信號的低頻信道上分布了信號的絕大部分能量信息,而在高頻信道上只占有非常少的能量。因此,對于混合語音信號,如果某個高頻信道上分布了足夠多的能量,可以認為,目標語音信號在該信道上受到噪聲嚴重干擾。
基于以上研究,本文提出了一種基于諧波特性[12]和能量特征的計算聽覺場景分析(CASA)算法,與經典的Hu-Wang模型不同之處在于,在語音的聽覺重組部分引入了能量特征來完成目標語音的重組,減小噪聲的影響,算法更加穩定,重組之后的目標語音信號更接近于原始純凈的語音信號。實驗結果顯示,本文提出的改進算法與Hu-Wang模型相比,分離性能有明顯提高。
本文提出的單通道濁語音改進算法包括混合語音信號的前端處理、聽覺特征提取、基于諧波特性的聽覺分割、基于能量特征的聽覺重組以及目標語音的重構5個部分,如圖1所示。

圖1 濁語音分離改進算法框圖Fig.1 Voiced speech separation improved algorithm block diagram
前端處理是將輸入的混合時域信號轉化成相應的時頻域表示形式。根據人耳的感知機理,將輸入混合聲音信號通過128個信道的Gammatone濾波器組進行帶通濾波,Gammatone濾波器對于人耳基底膜在不同頻率上的響應都能很好地模擬,是一種標準的聽覺濾波模型,該濾波器的中心頻率按照等距寬(Equivalent rectangular bandwidth,ERB)在80~5kHz之間準對數分布[13-14]。將時頻分解后的每一個Gammatone濾波器的輸出送入Meddis內耳毛細胞模型,得到神經發放率。然后,在時域上對每個毛細胞的輸出以幀長20 ms、50%重疊為幀移進行分幀處理。將輸入的混合語音信號分解成為一系列時頻單元,即T-F 單元。同時,為了高頻部分的特征提取和聽覺重組,對毛細胞輸出進行半波整流和低通濾波,從而得到每個通道的包絡特征。
經過前端處理過程,混合語音信號在時域和頻域上被分解成一系列的T-F 單元,在每個T-F單元中,計算下列特征函數:自相關函數AH、包絡自相關函數AE、主基音周期P(m)、相鄰信道互相關CH、相鄰信道包絡互相關CE。

式中:c 為信道;m 為時間幀;Nc為采樣點數;h(c,·)為神經發放率;時延τ∈[0,12.5]ms,表示幀移;hE(c,·)為毛細胞輸出包絡。

根據聽覺特征提取的特征函數,將混合語音信號經過聽覺前端處理后的那些T-F 單元合并成對應的聽覺片段。在時頻域中,將屬于某一個聲源的連續T-F單元的片段區域定義為段,它是介于時頻單元和語音聽覺流的中間表示。聽覺分段的目的在于分辨出時頻域中可以利用的那些連續T-F單元,并且每個分段惟一地對應著某一個聲源。
(1)類型“1”聽覺片段
Gammatone聽覺濾波器組中,由于相鄰的帶通頻率之間表現出明顯的重疊現象,從而多個鄰近濾波器受到同一個諧波的激勵,導致相鄰信道的高度相關性。聽覺濾波器相鄰信道互相關(CH)程度越高,即其值越接近于1,表明這兩個相鄰信道來自于同一聲源的可能性越大[14]。因此,對于頻率信道上的兩個相鄰T-F 單元,如果其相鄰信道互相關(CH)滿足式(6),則將這兩個T-F單元都標記為“1”。

語音信號具有時域連續性,通常會持續一段時間(>50ms)?;谡Z音信號的這兩個特性,可以成功地將標記是“1”的那些相鄰T-F 單元合并到聽覺片段中,從而得到類型“1”的聽覺片段,segment,完成混合語音信號低頻部分的聽覺分割。
(2)類型“2”聽覺片段
語音信號的高頻范圍(>1kHz)內,聽覺濾波器的頻率通帶較寬,一個濾波器會同時響應多個諧波,以至于這些不確定諧波的濾波響應產生幅度調制(AM)現象,并且相鄰通道的包絡具有很強的通道互相關。相鄰信道包絡互相關程度越高,表明高頻范圍內的兩個相鄰信道來自于同一聲源的可能性越大。因此,對于頻率通道上的兩個相鄰T-F單元,如果其相鄰信道包絡互相關CE滿足式(7),則將這兩個相鄰T-F 單元標記為“2”。

對于不確定性時頻單元,根據幅度調制現象和時域連續性這兩個特性,可以成功地將標記為“2”的相鄰T-F 單元合并到聽覺片段中,從而得到類型“2”的聽覺片段,{chf},完成了高頻區域連續T-F 單元的聽覺分割。
(3)對于不滿足上述條件的那些T-F 單元,不被合并到任何一個聽覺片段中,并且將其標記為“0”,即為噪聲片段。
聽覺重組是混合語音信號分離算法的重要部分,將上一階段來自同一個聲源的那些聽覺片段分別重組到對應的目標語音流和干擾噪聲流中,從而實現目標語音分離。
對于一段混合語音信號,如果有足夠多的能量信息分布在某個高頻信道上,則認為目標語音信號在該信道上受到噪聲嚴重干擾,將該T-F 單元標記為噪聲干擾主導?;诖?,在信號重組過程中,可以去除目標聽覺流中由噪聲主導的那些T-F單元,使得重組的目標聽覺流更少地受到噪聲干擾,性能更加穩定,效果更理想。
基于能量特性的聽覺組織改進算法主要集中在語音信號高頻部分的改進,具體步驟如下:
(1)T-F單元標記
對于類型“1”聽覺片段中的T-F 單元,利用該T-F單元的自相關函數和目標語音基音頻率來刻畫諧波關系,即周期性準則。如果片段“1”中的時頻單元滿足:

聽覺片段“2”中主要對應非確定T-F 單元,其濾波響應包絡具有明顯的幅度調制現象,這里采用幅度調制(AM)準則對其進行標記。如果片段“2”中的時頻單元)滿足:

根據上述標記的T-F單元,將混合語音信號的所有聽覺片段分別重組到對應的目標語音聽覺流 stream c,( m) = 1 和 噪 聲 干 擾 流中,為下一階段聽覺流調整奠定基礎。
(2)最終聽覺流形成
對于目標語音信號中高頻部分的那些T-F單元,為了估計其被噪聲干擾的程度,需要計算混合信號在各個頻率信道上的能量,本文通過對每一個信道上的信號提取時間包絡,進而可得到混合 信 號 在 各 個 信 道 上 的 能 量E (ci),ci∈
具體步驟如下:
①在混合語音信號的低頻范圍內(低于1 kHz),根據得到的各個頻率信道能量E (ci),ci∈,選擇3個能量最大值,按從小到大排序為E0,E1,E2。
②對高頻范圍內的T-F單元進行調整,如果某個頻率信道上的能量滿足:

則計算該頻率信道上所有T-F單元的平均能量:

式中:N 為該頻率信道ci中時間幀的總數。
③對于該頻率信道ci上的各個T-F 單元求取能量值,如果滿足下式:

則認為該T-F單元由噪聲干擾主導,將其從目標語音聽覺流stream)=1中去除掉,并且合并到噪聲干擾流stream)=0中。

圖2 目標語音二值掩膜圖Fig.2 Binary mask image of the target speech
利用二值模和Gammatone濾波器結構來合成目標語音信號的時域波形圖,從而實現語音信號的分離。目標語音重構算法的具體步驟如下:
(1)各個Gammatone濾波器信道的輸出信號先進行時間反轉,并將其結果再次送入Gammatone濾波器。
(2)由于濾波器頻率信道間存在相位延遲,需要將上一階段每個濾波輸出的信號再一次時間反轉來消除濾波器本身的時延。
(3)利用每幀20 ms,幀移10 ms的分幀原則,采用升余弦函數作為窗函數,對各個濾波信道的輸出信號分幀處理。
(4)以二值模為權值(即權值1和0),在頻率軸上對T-F單元濾波響應進行加權求和,其輸出結果即為重構后的目標語音信號。
實驗采用英國謝菲爾德大學提供的Cooke語音庫。它是由10句連續的濁語音與10種不同的噪聲干擾混合形成100個混合語音信號,其中,10句目標語音是由兩名男性分別朗讀5個句子,采樣頻率是16kHz,16bit量化。10種不同的噪聲干擾分別是:1kHz的純音調N0,白噪聲N1,突變噪聲N2,雞尾酒會噪聲N3,搖滾音樂N4,警報聲N5,電話鈴聲N6,女生語音N7,男生語音N8,女生語音N9。
為了評估改進算法的語音分離性能,需要采用一種客觀評價方法。通常人們根據信噪比(Signal to noise,SNR)的提高來對性能進行評估,但是SNR 并不能充分地反映語音信號的時變特性,因此,采用分段信噪比(Seg-SNR)作為評估標準,它是基于幀的SNR,計算公式如下:

式中:M 為語音信號的幀數;N 為每一語音幀的長度;s ()n 為純凈的原始語音;為系統分離后的語音。
以N6為干擾噪聲,V0為原始純凈的語音信號,其發聲內容是“I’ll willingly marry Marilyn”,簡單線性疊加信號為V0N6。圖3 給出了V0、V0N6以及分離語音的時域波形圖。

圖3 原始純凈語音和電話鈴聲混合的分離結果Fig.3 Separation speech of mixture with original speech and the jangle of the telephone
本文通過計算目標語音V0分離前后的Seg-SNR 來分析語音信號的分離性能,并與經典的Hu-Wang算法進行比較,如圖4所示。

圖4 本文算法與Hu-Wang算法的Seg-SNR比較Fig.4 Seg-SNR comparison between Hu-Wang and the improved algorithm
從圖4可以看出:在同一個噪聲干擾條件下,經過本文算法分離之后的目標語音Seg-SNR 相比于分離之前的Seg-SNR 都有非常明顯的提高,與Hu-Wang 算法相比,本文所提算法的Seg-SNR 平均提高了2.494dB。
為了進一步驗證算法的有效性和穩定性,計算改進算法分離之后的目標語音與原始純凈語音之間的相似系數,并且與Hu-Wang 算法進行比較,結果如圖5所示。其中,相似系數定義為:


圖5 本文算法與Hu-Wang算法分離語音的相似系數比較Fig.5 Similarity coefficient comparison between Hu-Wang and the improved algorithm
由圖5可以看出:兩種算法分離后目標語音與原始純凈語音的相似系數接近于1,相比于Hu-Wang算法,改進算法的相似系數更接近于1,算法更加穩定,分離效果更好。
為進一步驗證改進算法的抗干擾性,本文選用了兩種干擾噪聲(白噪聲N1和雞尾酒會噪聲N3),在目標語音為V0保持不變的情況下,分別改變這兩種干擾噪聲的強度使得混合語音信號Seg-SNR 在-15~20dB 范圍內變化,其輸出Seg-SNR 隨輸入Seg-SNR 的變化情況如圖6所示。

圖6 輸出Seg-SNR隨不同輸入Seg-SNR的變化Fig.6 Output Seg-SNR variation with different input Seg-SNR
由圖6可以看出:輸入Seg-SNR 在小于-10 dB范圍內,輸出Seg-SNR 幾乎為0,這是因為,噪聲干擾在所有的T-F 單元上幾乎都高于目標語音信號,以至于輸入信號都被噪聲干擾覆蓋。當輸入的Seg-SNR 不斷增大時,相應的輸出Seg-SNR 有較大的提高。但是,當輸入Seg-SNR 足夠大時,即大于15dB時,雖然目標語音信號在大部分時頻單元都高于噪聲干擾,但是經過該算法后仍然丟掉了一些目標語音的能量信息,因此,輸出Seg-SNR并沒有很大的提高。
基于語音信號的諧波特性以及能量特征,提出了一種對濁語音分離進行改進的基于語音能量特征的CASA 改進算法。該算法在以往算法的基礎上,對聽覺重組部分進行改進。算法將語音的能量特征應用于聽覺重組部分,通過語音信號高頻信道的能量信息,對目標聽覺流中的T-F 單元進行處理,降低噪聲對重組后的目標聽覺流的干擾,改善了以往純凈語音的大部分信息。實驗結果表明:相比于以往的方法,本文提出的算法能更好地分離濁語音信號,具有更穩定的性能,可以應用于語音識別和語音信號處理的前端處理設備。
[1]Hu K,Wang D L.Unvoiced speech segregation from nonspeech interference via CASA and spectral subtraction[J].IEEE Trans on Audio,Speech and Lang Process,2011,19(6):1600-1609.
[2]Hu K,Wang D L.An unsupervised approach to cochannel speech separation[J].IEEE Trans on Audio,Speech and Lang Process,2013,21(1):120-129.
[3]Hu G N,Wang D L.Auditory segmentation based on onset and offset analysis[J].IEEE Trans on Audio,Speech and Lang Process,2007,15(2):396-405.
[4]Narayanan A,Wang D L.A CASA based system for long-term SNR estimation[J].IEEE Trans on Audio,Speech and Lang Process,2012,20(9):2518-2527.
[5]Wang Y,Han K,Wang D L.Exploring monaural features for classification-based speech segregation[J].IEEE Trans on Audio Speech and Lang Process,2013,21(2):270-279.
[6]Hu G N,Wang D L.A tandem algorithm for pitch estimation and voiced speech segregation[J].IEEE Trans on Audio Speech and Lang Process,2010,18(8):2067-2079.
[7]李從清,孫立新,龍東,等.語音分離技術的研究現狀與展望[J].聲學技術,2008,27(13):779-785.Li Cong-qing,Sun Li-xin,Long Dong,et al.State and frontiers of research in speech separation[J].Technical Acoustics,2008,27(13):779-785.
[8]馬建芬.語音信號盲分離與增強算法的研究[M].北京:電子工業出版社,2012.
[9]Hu G N,Wang D L.Monaural speech segregation based on pitch tracking and amplitude modulation[J].IEEE Trans on Neural Networks,2004,15(5):1135-1150.
[10]趙立恒,汪增福.基于諧波和能量特征的單聲道濁語音分 離 方 法[J].聲 學 學 報,2012,37(2):218-224.Zhao Li-heng,Wang Zeng-fu.Monaural voiced speech separation based on harmonic and energy features[J].Acta Acustica,2012,37(2):218-224.
[11]Wang D L,Brown G J.Computational Auditory Scene Analysis[M].USA:IEEE Press,2006.
[12]張學良,劉文舉,李鵬,等.改進諧波組織規則的單通道濁語音分離系統[J].聲學學報,2011,36(1):88-96.Zhang Xue-liang,Liu Wen-ju,Li Peng,et al.Monaural voiced speech separation based on improved harmonic grouping rules[J].Acta Acustica,2011,36(1):88-96.
[13]Wang D L,Brown G J.Separation of speech from interfering sounds based on oscillatory correlation[J].IEEE Trans on Neural Networks,1999,10(3):684-697.
[14]蔣毅,梁維謙,周宏.低信噪比下二值掩蔽算法性能分析[J].清華大學學報:自然科學版,2012,52(5):636-641.Jiang Yi,Liang Wei-qian,Zhou Hong.Performance of binary time-frequency masks in low signal to noise ratio environments[J].Journal of Tsinghua University(Natural science edition),2012,52(5):636-641.