摘 要:本文分析了同聲道語音檢測的典型算法WAVELET算法,介紹了算法的基本思想和流程。并用MATLAB工具進行驗證。
關鍵詞:同聲道語音 小波變換
引言
同聲道語音是指目標說話人語音混雜著另一個干擾者的說話語音。同聲道語音檢測屬于語音增強技術,是目前國際上的一個研究熱點和難點,國內罕有涉及者。
要實現目標語音的提取,首先要能正確地檢測出同聲道語音幀。同聲道語音和單個說話人語音不同之處在于:單個說話人語音波形具有諧波性,而同聲道語音波形不具有諧波性,這是區分它們的關鍵特征。
1. 同聲道語音檢測的基本概念和典型算法
1.1 同聲道語音檢測的基本概念
實際生活中經常遇到多人同時說話的情況,此時不需要的語音就形成了同聲道干擾,通信系統中鄰近信道的串話也是同聲道干擾。人類的聽覺系統擅長分辨在多人說話時某一人的聲音,然而,利用數學方法模仿人類的聽覺系統只取得了有限的進展。在本文中,我們將同聲道語音定義為目標說話人語音混雜著另一個干擾者的說話語音。由于語音是寬帶信號,目標語音和干擾語音在時域和頻域都發生混迭,不能按照常規的通過濾波器的方法來分離。因此,同聲道語音分離,是語音增強的一個難點。要實現目標語音的提取,首先要能正確地檢測出同聲道語音幀。同聲道語音和單個說話人語音不同之處在于:單個說話人語音波形具有諧波性,而同聲道語音波形不具有諧波性,這是區分它們的關鍵特征。
同聲道語音檢測問題可以解釋如下,給出一個混合的語音信號,該語音信號混合了兩人或者更多人,我們要做的就是檢測當前的語音幀是否是兩人或以上的語音幀。

在圖2中,我們有目標語音(speaker 1)和干擾語音(speaker 2)。混合語音信號含有speaker1的幀,含有speaker 2的幀,也含有speaker 1和speaker 2同時存在的幀。研究的目標就是開發一個系統,該系統要區分只含有目標語音幀和目標語音和干擾語音同時存在的幀,也就是區分單個人的語音幀和同聲道語音幀。
目前,同聲道語音檢測技術典型方法是頻譜自相關峰谷率法SAPVR(Spectral Auto Correlation Peak Valley Ratio)算法和基于小波的檢測算法。下面具體介紹基于小波的檢測算法(WAVELET)并驗證之。
1.2 基于小波變換的同聲道語音檢測算法分析
1.2.1 基于小波變換的同聲道語音檢測算法
小波變換是用一個母波函數對信號進行回旋處理,該過程要對時間進行平移,同時要對尺度參數進行變化。小波是一個數學函數,它能把信號數據分為不同頻率的各個部分,然后用一個合適的最佳尺度分析每一部分數據。小波在時域表現為突然激勵的有限能量,而且在一定的時間內振動。連續小波變換是用時間的平移和尺度的變換對信號回旋處理。該算法框圖如圖2所示:

1.2.2 加窗
在本算法中,加窗的方法采用漢明窗(Hamming),閾值取1到12。
1.2.3 進行DWT計算
計算已加窗的語音幀離散小波變換(DWT)系數。
與傅里葉變換相比,小波變換是空間(時間)和頻率的局部變換,通過伸縮和平移等運算,小波變換可以對函數或信號進行多尺度的細化分析。小波在時域和頻域都具有表征信號局部特征的能力,是一種窗口大小固定不變但形狀可改變,時間窗和頻率窗都可以改變的時頻局部化分析方法。小波分析在信號的高頻部分時間分辨率較高而頻率分辨率較低;在信號的低頻部分具有較高的頻率分辨率和較低的時間分辨率。也就是說,小波分析具有對信號的自適應性。除了微分方程的求解之外,原則上能用傅里葉分析的地方都能用小波分析,并能取得更好的結果。因此,Robert Yantorno在SAPVR算法的基礎上,提出了基于小波變換的同聲道語音檢測算法,用小波分析替代傅里葉分析,取得了良好的效果。
1.2.4 進行自相關計算
自相關函數用于測定一個信號自身在時域內的相似性,如果信號的兩個部分波形相同,則在超前、滯后處出現峰值,由此可以求出信號自身的相似程度。這里利用自相關函數來處理語音信號經過傅里葉變換以后的數據,可以有效地對數據諧波性做出判定。
1.2.5 設定閾值并比較
用求得的自相關值與閾值比較,大于閾值的是單個人語音,在本文的設定中就是可用語音,小于閾值的是同聲道語音。
1.3 基于小波變換的同聲道語音檢測算法的驗證及結果分析
1.3.1 本文對基于小波變換的同聲道語音檢測算法的實驗結果及分析
本文的實驗采用漢明窗,無重疊,窗函數從150到500數據點,每次增加50;閾值從1到12,增量為1。先檢測100幀同聲道語音,檢出幀數就是檢出率;再檢測100幀單個人語音,檢出的同聲道語音數就是虛警率。本文給出的基于小波變換的檢測算法的處理結果,如圖3所示:

上面第一幅圖是原始語音,和SAPVR算法處理的是同樣的語音。中間的圖是對原始語音做離散小波變換(DWT)得出的小波系數圖。小波系數圖有很明顯的特點:以語音長度的一半(這里是300/2,即150)為分界,左邊的波形能量占整個波形能量的90%左右,而右邊的只占10%。這是因為一維離散小波變換(DWT)的實質是將語音信號分為高頻和低頻兩個部分,低頻是信號的近似;高頻是信號的細節。然而對于不含噪聲的語音來說,正常語音范圍小,頻率低,含高頻少。
計算出第三幅圖的波形以后就可以計算自相關值來判斷語音是單個人語音還是同聲道語音了。
表1是本文給出的基于實驗語音樣本庫的實驗結果:

對于同一個實驗語音樣本庫,本文驗證的結果,基于小波變換的檢測算法確實比SAPVR算法檢出率要高,虛警率稍低。
閾值變化對檢出率和虛警率的影響
本文給出了基于實驗語音樣本庫的閾值變化對小波變換的檢測算法檢出率和虛警率的影響,如圖4所示:

閾值變化對算法結果的影響也比較大,但是比SAPVR算法的變化曲線稍微平緩些。
結束語
同聲道語音檢測是國際上的語音處理研究最近幾年興起的研究熱點和難點,但國內少有研究者。本文首先介紹了同聲道語音檢測的概念,詳細分析并實驗驗證了目前該領域中典型的WAVELET算法。
參考文獻:
[1]Arvind Ram an Kizhanatham. DETECTION OF COCHANNEL SPEECHANDUSABLE SPEECH[D]. the Temple University Graduate Board.
[2]Nishant Chandra. DETECTION OF USABLE SPEECH UNDER CO-CHANNEL SPEECH CONDITIONS[D]. Department of Electrical And Computer Engineering Temple University.
[3]StuartN.Wrigley,GuyJ.Brown.SPEECH AND CROSSTALK DETECTION IN MULTI-CHANNELAUDIO[C]. IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING,VOL. X,NO. Y,SEPTEMBER 2004.