摘要:針對許多計算聽覺場景分析系統無法很好地解決多說話人混合語音信號分離的問題,提出了一種基于多基音跟蹤的單聲道混合語音分離系統。該系統充分利用了多基音跟蹤研究的最新成果,通過將多基音跟蹤得到的目標語音和干擾語音的基音軌跡信息結合到分離系統中,有效地改善了分離系統在包括多說話人混合在內的多種干擾情況下的分離效果,為多說話人語音分離問題的解決提供了新的思路。
關鍵詞:計算聽覺場景分析; 多基音跟蹤; 語音分離
中圖分類號:TN912.3文獻標志碼:A
文章編號:1001-3695(2008)06-1660-03
0引言
在語音信號處理中,一個重要的問題就是如何從混合語音信號中分離出人們感興趣的語音。這方面的研究大體上集中在盲源分離(BSS)及計算聽覺場景分析(CASA)兩方面。其在語音識別、多媒體檢索以及語音增強等領域都有著重要的意義[1,2]。
計算聽覺場景分析對人類聽覺的處理過程進行建模,從而使計算機具備從混合聲音中分離出各物理聲源并作出合理解釋的能力。它的出現大大激發了人們對人類聽覺系統研究的興趣,使長期以來一直困擾研究人員的技術難題(如語音識別系統在復雜現實環境中的應用)有了突破的可能。
近年來,基于計算聽覺場景分析的混合語音分離研究取得了快速的發展,相繼研制出了許多具有不同特色的分離系統。雖然這些系統在許多噪聲情況下具有很好的分離性能,但是對于多個說話人語音混合的情況,系統的性能并不令人滿意[2~4]。針對這一情況,本文提出了一種結合了多基音跟蹤算法的單聲道混合語音分離系統,提高了系統從多說話人混合語音中分離出目標語音的能力,并給出了詳細的評估結果。
1多基音跟蹤算法介紹
在多說話人語音混合的情況下,混合語音中存在多個基音,因此如果能夠準確地提取出每個說話人的基音,并利用提取出的基音對各說話人的語音進行組織的話,將有助于提高分離系統的性能。為此本文采用Wu等人[5]提出的多基音跟蹤算法與CASA系統進行結合來提高CASA系統的分離性能。選擇該算法主要基于以下兩方面的原因:
a)算法具有很好的跟蹤性能,能夠從具有多個基音的混合語音中比較準確地估計出其中的基音個數以及相應的基音軌跡。這一特點對于所提取基音的準確性對系統性能具有重要影響的CASA系統而言,有非常重要的意義。
b)由于算法在預處理階段采用了與許多CASA系統類似的處理方式[2~4],使用該算法進行多基音跟蹤時,可以充分利用CASA系統預處理的結果,減少因算法引入帶來的計算和資源消耗。
多基音跟蹤算法由四個階段組成,如圖1所示。算法的第一個階段是前端處理階段,該階段首先使用一組聽覺感知模型在各個通道內對信號進行濾波,提取出高頻通道內濾波后的信號包絡,然后計算歸一化的相關圖[3,4]。
算法的第二階段由通道選擇和峰值選擇構成。對于帶噪語音,部分通道受噪聲干擾比較明顯。通過選擇那些受影響較小的通道,可以明顯改善系統的魯棒性。通常算法中的通道選擇是在中心頻率高于1 270 Hz的中、高頻通道內進行的。Wu等人將通道選擇的思想擴展到了低頻通道,提出了一種對所有通道進行選擇的改進方法。此外,考慮到歸一化相關圖中的峰值揭示了信號的周期性,Wu等人還在算法中引入了峰值選擇來去除那些所給出的周期信息并不能反映信號真實周期的峰值。
算法的第三個階段是通道周期信息結合。傳統的在一個時間幀內對所有通道的自相關(或歸一化自相關)進行累加的周期信息結合方法雖然實現簡單,但是包含在通道中的周期性信息并沒有被充分利用。通過對真實基音周期與峰值選擇階段所選定的峰值時間延遲之間的統計關系進行研究,Wu等人用公式描述了通道支持某一基音假設的概率,并采用一個統計結合的方法來產生給定假設基音條件下觀測信號在某一時間幀內的條件概率。
多基音跟蹤算法的最后一個階段是使用隱馬爾可夫模型(HMM)形成連續的基音軌跡。Weintraub[6]使用HMM來決定信號中究竟出現了0個、1個還是2個基音。Gu等人[7]使用HMM來組織自下而上的基音確定算法所提出的基音候選,并形成連續的基音軌跡。Tokuda等人[8]基于多空間概率分布,利用HMM對基音模式進行建模。在這些研究中,基音均被視為觀測量,因此HMM的轉移概率和觀察概率都必須進行訓練。而在Wu等人提出的多基音跟蹤算法中,基音被明確地建模為隱藏狀態,因此只需從自然語音中提取基音的統計特性來確定轉移概率,然后利用Viterbi算法就可以獲得最優的基音軌跡。有關多基音跟蹤算法的詳細介紹參見文獻[5]。
2多基音跟蹤與CASA系統的結合
2.1系統描述
多基音跟蹤算法與CASA系統的結合如圖2所示。與Hu-Wang[2]系統類似,基于多基音跟蹤的單聲道語音分離系統也由分解和特征提取、初始分離、基音跟蹤和時頻單元標記、最終分離以及再合成五個階段組成。混合信號在經過前端預處理后進入多基音跟蹤模塊。經過多基音跟蹤模塊的處理,得到目標語音和干擾的基音軌跡。這些基音軌跡接下來被結合到初始分離階段中,并被用來指導初始分離的進行。
Hu-Wang系統在初始分離階段首先從濾波后的信號中估計出一個大致的全局基音輪廓;然后利用這一估計出的粗糙的基音輪廓對初始切分所形成的片段進行分組;之后,系統再進一步從分組得到的前景流中估計更可靠的基音軌跡,并利用這一估計出來的相對更可靠的基音軌跡對語音片段重新進行分組,從而為后續的處理提供可靠的前景流和背景流[2]。
與Hu-Wang系統不同,本文提出的分離系統已經通過多基音跟蹤算法獲得了有關目標語音和干擾的相對可靠的基音軌跡。因此在初始分離階段,系統可以直接利用多基音跟蹤的結果,對初始切分得到的語音片段進行分組,而無須再像Hu-Wang系統那樣通過復雜的處理來不斷地組織和調整前景流與背景流。
需要強調的是,由于多基音跟蹤算法可以同時給出語音中的多個基音軌跡,在使用多基音跟蹤的結果時,需要首先從算法估計出的多個基音軌跡中確認出目標語音的基音軌跡。考慮到本研究所要分離的目標語音都由濁音組成,因此可以很容易地在跟蹤得到的多個基音軌跡中,選擇其中連續的基音軌跡作為目標語音的基音軌跡。確定了目標語音的基音軌跡后,就可以利用它來進行前景流和背景流的劃分了。
在使用多基音跟蹤的結果對前景流和背景流進行組織時,除了目標語音的基音軌跡可以被充分利用外,干擾的基音軌跡也可以被利用。事實上,干擾基音軌跡的引入為前景流和背景流的劃分提供了更多的線索,有助于提高兩者的分組準確性。為此,本文對前景流與背景流的組織方法進行了相應的改進。改進后的方法不僅考慮了目標語音的基音與時—頻單元的符合程度,還考慮了干擾語音的基音與時—頻單元的符合程度。
2.2結合方式
具體而言,對于前景流和背景流的分組是通過比較時—頻單元的響應與目標語音以及干擾的基音周期來完成的。假設多基音跟蹤算法估計的目標語音的第m幀的基音周期為τs(m),干擾噪聲在第m幀的基音周期為τN(m),混合語音在通道c內相應的自相關函數為AH(c,m,τ),那么,時—頻單元ucm的響應周期與目標語音和干擾的基音周期的比較可以按照如下步驟進行:
a)如果時—頻單元響應的周期與對應的目標語音基音周期相當,則該時—頻單元與目標語音的基音相符合。也就是說,如果在似真基音范圍內,AH(c,m,τs(m))與AH(c,m,τ)的最大值滿足
完成上述比較后,可以根據比較的結果按照如下方法對語音片段進行分組:對于初始切分形成的任意一個語音片段,如果其中某一幀內超過一半的時—頻單元與該幀的目標語音的基音相符合,則稱該片段在這一幀上與目標語音的基音相符合。由于本研究中的目標語音全部是濁音,在切分形成的語音片段中,可以選擇最長的片段作為種子流(seed stream)。在某一幀內,如果某個片段與最長的片段同時符合或同時不符合目標基音的話,則稱這一片段與最長的片段在該幀內相符合。如果某個片段與最長的片段在兩者交疊的幀內有一半以上的幀相符合,那么該片段在最長片段的持續時間內的所有時—頻單元被分組到種子流中;否則,該片段被分組到競爭流中。最長的片段也被用來確定哪一個流對應目標語音。如果它有超過一半的幀與目標語音的基音相符合,那么它將非常可能包含了主要的目標語音。在這種情況下,將包含有最長片段的流視為前景流,記做S0F;而將競爭流視為背景流,記為S0B。否則,將上述兩個流的名稱互換。
上述處理完成后,系統將按照與Hu-Wang模型相同的處理方法對混合語音進行進一步的處理,最終形成分離出的目標語音[3]。
3評估與比較
本文使用了英國謝菲爾德大學Cooke搜集的100句混合語音數據集[9]對系統進行了評估。所使用的數據集由10句濁音句子與10種不同干擾噪聲組成,它被廣泛用于CASA系統的性能評估[2~4]。其中,10種干擾噪聲分別是:a)N0,1 kHz 純音;b)N1,白噪聲;c)N2,突發噪聲;d)N3,雞尾酒會噪聲;e)N4,搖滾樂;f)N5,警報聲;g)N6,電話顫音;h)N7,女說話人語音;i)N8,男說話人語音;j)N9,女說話人語音。這里使用信噪比(SNR)作為標準量化評估所提出的分離系統的性能。為了檢測分離前后語音的信噪比,使用混合前的目標語音作為純凈語音計算分離前語音的信噪比。為了補償合成過程中幅度和失真的影響,目標語音進行全1掩蔽[2,3]后的合成語音被用來作為純凈語音計算分離后語音的信噪比。
此外,為了明確本文所提出的基于多基音跟蹤的單聲道混合語音分離系統相比于其他分離系統的性能,筆者還將系統的分離結果與在Hu-Wang系統中使用真實基音的true pitch系統以及使用理想二值掩蔽的ideal mask系統進行了比較[2,3]。
表1給出了不同干擾情況下原始混合語音的信噪比以及所提出的系統、true pitch系統和理想二值掩蔽(ideal mask)系統所得分離語音的信噪比。其中,最后一行給出了各種噪聲條件下的平均信噪比。從表中可以看出,本文提出的基于多基音跟蹤的分離系統分離語音的信噪比相比原始混合語音在所有干擾條件下均得到了明顯的改善,平均信噪比提高約為10.65 dB。特別地,對于兩說話人的情況(N7、N8和N9),系統分離后的語音信噪比也得到了明顯的提高。另外,本文提出的系統與true pitch系統分離結果的平均信噪比11.508 dB相比僅相差0.444 dB,這表明系統在性能上已經非常接近使用基音作為分離線索的分離方法的上限。但是相比以二值掩蔽思想為基礎的分離方法的上限——ideal mask方法的平均信噪比14.571 dB,系統在性能上還有一定的上升空間。
4結束語
本文提出了一種基于多基音跟蹤的單聲道混合語音分離系統。該系統采用多基音跟蹤算法對混合語音中出現的多個基音進行估計,并將提取出來的多個基音的軌跡一同作為分離線索結合到計算聽覺場景分析系統中以指導分離。對系統的評估結果表明,該系統能夠很好地處理不同干擾條件下的語音分離問題。特別是對于多個說話人語音混合的情況,該系統能夠明顯提高分離后語音的信噪比,因而為多說話人語音分離研究提供了很好的解決思路。
參考文獻:
[1]DENBIGH P N, ZHAO J. Pitch extraction and separation of overlapping speech[J].Speech Communication,1992,11(2-3):119-125.
[2]LI Peng,GUAN Yong,XUBo,et al. Monaural speech separation based on computational auditory scene analysis and objective quality assessment of speech[J].IEEE Trans on Audio,Speech,and Language Processing,2006,14(6):2014-2023.
[3]HU Guo-ling,WANG De-liang. Monaural speech segregation based on pitch tracking and amplitude modulation[J].IEEE Trans on Neural Networks,2004,15(5):1135-1150.
[4]WANG De-liang, BROWN G J. Separation of speech from interfering sounds based on oscillatory correlation[J].IEEE Trans on Neural Networks,1999,10(3):684-697.
[5]WU Ming-yang,WANG De-liang,BROWN G J. A multi-pitch trac-king algorithm for noisy speech[J].IEEE Trans on Speech and Audio Processing,2003,11(3):229-241.
[6]WEINTRAUB M. A computational model for separating two simultaneous talkers[C]//Proc ofIEEE International Conference on Acoustics,Speech and Signal Processing.Tokyo:[s.n.],1986:81-84.
[7]GU Y,BOKHOVEN W M G van.Co-channel speech separation using frequency bin nonlinear adaptive filter[C]//Proc ofIEEE International Conference on Acoustics,Speech and Signal Processing.Wa-shington DC:IEEE Computer Society 1991:949-952.
[8]TOKUDA K,MASUKO T,MIYAZAKI N.Hidden Markov models based on multi-space probability distribution for pitch pattern modeling[C]//Proc ofIEEE International Conference on Acoustics,Speech and Signal Processing.Washington DC:IEEE Computer Society 1999:229-232.
[9]COOKE M.Modeling auditory processing and organization[D].Sheffield:University of Sheffield,1991.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文