楊登舟,劉 加,夏善紅
(1.中國科學院電子學研究所,北京 100190; 2.中國科學院大學,北京 100049;3.清華大學 電子工程系,北京 100084)
隨著電子通信和計算機技術的快速發展,大量的語音數據被存儲,如何快速地建立語音檢索是亟需解決的問題。說話人轉換檢測(Speaker Change Detection,SCD),也稱說話人分割[1],是語音信號處理中的一項實用技術,從一段語音中將不同說話人說話的時刻檢測出來,將語音分割出滿足要求的片段,可以很方便地建立索引,為信息的進一步處理提供便利[2-3]。
語音切分類問題可以抽象成模型判別問題,用特定長度的窗(定長窗或者變長窗)掃描整段語音,當窗內左右兩部分的語音之間的差異達到某個閾值,認為在窗左半部分和右半部分發生了明顯的改變,有理由懷疑此處語音的聲源發生了變化[4]。在說話人轉換檢測的研究中,窗左右兩側語音之間的差異度量方式主要有模型差異、參數差異以及模型和參數相結合[5-6]這三大類。在基于模型的方法中,從訓練數據中挑選出不同的發聲源,訓練出各自的模型,同時訓練出所有聲源的全局模型,通過分析全局模型和個體模型的不同之處,得到模型間轉化關系或者找到可區分的模型差異,常用的模型包括通用背景模型(Universal Background Model,UBM)、樣本說話人模型(Sample Speaker Model,SSM)、隱馬爾科夫模型(Hidden Markov Model,HMM)?;趨档姆椒?使用較多的特征主要包括時域短時能量、過零率、頻域的子帶能量、倒譜特征、線性預測系數等。通常使用差異度量準則有貝葉斯信息準則(Bayesian Information Criterion,BIC)、廣義似然比(Generalized Likelihood Ratio,GLR)、KL散度(Kullback-Leibler divergence)、歸一化交叉似然比(Normalized Cross Likelihood Ratio,NCLR)等。
在說話人識別問題中,由于事先可以獲取訓練數據,可以事先訓練出多個不同的說話人模型,在判決階段只要將一段語音的特征和所有參考模型做比較,和哪一個更近就判別成哪個,在閉集測試中,性能較好[7]。而說話人轉換檢測比說話人識別難度大,主要難點在于對一段語音做切分任務,并不會提供該語音中所包含的說話人的訓練語料,因此不能準確獲取到說話人的模型,特別是在短時說話人迅速轉變的對話口語語音中完成穩定說話人建模難度更大,需要挖掘短時說話人差異區分性大、能全面描述說話人發聲特性的特征。計算聽覺場景分析(Computational Auditory Scene Analysis,CASA)[8]根據聽覺生理學和聽覺心理學的研究成果,利用計算機模擬人耳耳蝸的聽覺處理機制來處理接收到的語音信息,該理論能夠較好地解決諸如同信道語音分離問題,充分利用語音的周期性和短時連續性2個重要的線索來區分不同的聲源。
本文提出一種基于聽覺場景分析的說話人轉換檢測方法,將語音分割成相鄰的若干語音子段,提取伽馬音能量倒譜系數特征,在貝葉斯信息準則的判決下得到初始說話人轉換點,最后利用濁音的基頻特征對漏檢和錯檢的轉換點進行后處理,以達到較好的檢測結果。
人每天在各種復雜的聲學環境中傾聽語音,提取需要的信息,可以從周圍嘈雜的多人說話環境中鎖定自己感興趣的聲源對象,只要信噪比合適,人耳可以將目標聲源的聲音從背景語音中完全分離出來,并且做得非常出色,取決于人類具有聽覺場景分析(Auditory Scene Analysis,ASA)[9]的能力。
人耳的耳蝸基底膜就好像是一個初級的頻率分析器,可以將聲音中的各種頻率在基底膜上的位置進行編碼。當基底膜上下振動,其柯蒂氏器(Corti)也隨之產生相同的振動模式,并促使毛細胞纖毛發生彎曲形變,毛細胞去極化并在其頂部產生耳蝸電位,該電位會引起毛細胞底部神經纖維的應激反應,釋放出化學物質,引導神經末梢興奮,傳輸至中樞神經。人耳除了具有頻率分析特性,對聲波強度的編碼也非常高效,通過神經單元興奮后發放神經沖動的數量來確定強度。
聽覺場景分析中將原始語音信號拆分成多個子帶信號的過程是通過Gammatone濾波器組[10]來實現的。Gammatone濾波器組是由一系列不同帶寬不同中心頻率的帶通濾波器組成,Gammatone濾波器的沖激響應為:
gc(t)=
(1)
其中,τ是濾波器的階數,φ是初始相位,B(fc)是濾波器組的帶寬,fc是中心頻率。當τ=4時和人耳聽覺濾波器非常吻合。濾波器的帶寬由中心頻率對應的等價直角帶寬(Equivalent Rectangular Bandwidth,ERB)確定:
ERB(f)=24.7×(4.37f/1 000+1)
(2)
B(f)=1.019×ERB(f)
(3)
線性頻率f和“ERB-rate”尺度頻率FERB的換算關系為:
FERB(f)=21.4×lg(0.004 37f+1)
(4)
將線性頻率80 Hz~5 000 Hz轉化為“ERB-rate”尺度頻率,并在“ERB-rate”尺度下均勻取出128個,生成子帶數C=128的Gammatone濾波器組。將原始語音信號s(t)通過濾波器組濾波,輸出C個子帶信號uc(t):
uc(t)=s(t)×gc(t),c=1,2,…,C
(5)
原始語音信號s(t)經過Gammatone濾波器濾波后得到uc(t),c=1,2,…,C(為表述方便,下文將省略子帶下標c,并不影響理解)。將u(t)經過Meddis毛細胞模型[11],可以得到描述聽覺神經觸發概率的信號v(t)。毛細胞觸發概率的計算過程通過以下4個方程完成:
(6)
(7)
(8)
(9)
在式(6)~式(9)中,g、r、l、h、A、B、x、y是模型常數,q(t)、c(t)、w(t)是中間變量,在毛細胞傳導模型中有具體意義,聽覺末梢發放概率v(t)=h·c(t)。
在語音識別、說話人識別和語種識別中都可以見到梅爾頻率倒譜系數(Mel-frequency Cepstral Coefficients,MFCC)[12]發揮的重要作用。梅爾頻率倒譜系數是將語音幀的快速傅里葉變換(Fast Fourier Transformation,FFT)頻譜通過相互交疊且中心頻率沿梅爾頻率線性分布的24個三角濾波器組,對三角頻窗內的能量計算對數,對數譜計算離散余弦變換(Discrete Cosine Transform,DCT)得到梅爾頻率倒譜系數。伽馬通頻率倒譜系數[13]借鑒了梅爾頻率倒譜系數特征提取的原理。MFCC中對能量求對數得到倒譜,在GFCC中變成了計算響度壓縮,本文建立了一個介于GFCC和MFCC之間的特征,伽馬通能量倒譜系數(Gammatone Energy Cepstral Coefficients,GECC),它和GFCC的提取不同之處如圖1所示,GECC僅在于利用響度和能量的差異。

圖1 特征提取流程
對毛細胞觸發模型的輸出v(t)進行100 Hz降采樣,得到分幀信號w(m),m=1,2,…,M,M是幀數。各幀能量記為Gc(m),對Gc(m),c=1,2,…,C計算M階的離散余弦變換來降低M個子帶間的數據相關性,取前D維的數據,得到GECC特征:
m=1,2,…,2M,k=0,1,…,D-1
(10)
從人的發音結構和語音的形成過程,可以把語音信號等效成激勵-濾波器模型,聲門產生激勵,聲門激勵滿足準周期性就可以產生有固定諧波結構的語音信號,這類語音稱之為濁音[14];將不具有周期性且與噪聲類似的聲門激勵生成的語音信號稱為清音。聲帶、嘴唇、口腔的作用可以等效成聲道濾波器響應。聲道濾波器反映的主要是語義信息(音素,詞匯),說話人的特性主要取決于聲門激勵。濁音的基頻在聽覺的感受就表現在音高上,每個人的音高略有不同,分布在50 Hz~500 Hz的范圍內,男性的音高比女性要低,成人的音高比小孩的要低。音高的差異可以作為說話人區分的一個重要特征。
對應某個特定子帶c、時間幀m內的毛細胞觸發輸出v(t)的自相關:
vc(mN/2-k-τ)×h2(k+N/2)
(11)

(12)
通常人類的基音范圍在80 Hz ~500 Hz,對應的延時區間是τ∈[2 ms,12.5 ms],通過搜索最大值得到音高Pm:
(13)
對檢測的音高序列做平滑處理,得到連續的基音軌跡。
本文基于聽覺場景分析的說話人轉換檢測由聽覺外圍處理、特征提取、轉換點判決3個部分組成,如圖2所示。聽覺外圍處理將語音信號經由伽馬通濾波器組濾波,再用Meddis毛細胞觸發模型得到聽覺神經末梢的發放概率。對發放概率按幀能量檢測對應幀是濁音、清音還是靜音,各幀的屬性標記以后,得到濁音的連續片段,稱為子段,記為S。對所有相鄰的子段對(Si,Si+1)進行貝葉斯信息準則判決,得到分割初步判決結果。經過貝葉斯信息準則判決后,已經得到一定數量的說話人轉換點,區間驗證的作用是試圖利用音高信息,對可疑的轉化點進行剔除,并嘗試找回已經被遺漏的轉化點。

圖2 基于聽覺場景分析說話人轉換檢測系統
對毛細胞觸發模型的輸出v(t)進行短時分幀,并計算在各子帶內每幀的能量圖E(c,m)。沿時間軸方向對子帶能量進行能量規整:
(14)
c=1,2,…,C,m=1,2,…,M
(15)
其中,th0為低能量判決門限,th1為高能量判決門限。
首先檢測濁音,在頻率小于950 Hz的低頻區(中心頻率離950 Hz最近的子帶記為Cs),濁音一定會有能量中心,而清音或者背景噪聲在此區域內的能量與濁音的諧波能量相比,幾乎可以忽略不計[15]。按以下約束對各幀進行標記:
c=1,2,…,Cs,m=1,2,…,M-1
(16)
其中,V表示濁音,X表示未定。標記為V的所有幀記為集合setV,標記為X的所有幀記為集合setX。
清音在高頻區(頻率大于950 Hz)雖然沒有能量中心,但和靜音相比有明顯的能量分布,在setX中各幀按照以下約束進行標記:
c=Cs…C,m∈setX
(17)
其中,U表示清音,S表示靜音,清音幀的集合記為setU,靜音幀的集合記為setS。
對分幀信號標記濁音、清音、靜音以后,可以得到語音的連續片段,稱為子段,記為S,Si={x1,x2,…,xMi},xj是第j幀的特征矢量,Mi是第i段的幀數。說話人A說了一串語音,該段語音中包含若干A的子段,然后轉變成B的若干子段。屬于同一說話人的子段之間相似度較高,而不同說話人之間的相似度較低。對完整語音按照說話人不同進行分割,就可以通過檢驗相鄰的子段對(Si,Si+1),對以下2種假設做出判決:
(18)
這是模型選擇問題,如果p(H0)>p(H1),則假設H0成立,反之亦然。對子段的特征訓練單高斯模型,Si~N(μi,Σi),Si+1~N(μi+1,Σi+1),Si∪Si+1~N(μ,Σ),單高斯模型對特征進行似然度打分:
(19)
(20)
(21)
此時判決結果可以表示為:
(22)
貝葉斯信息準則(BIC)在模型選擇問題上具有較好的性能,并有廣泛的應用[16],貝葉斯信息準則滿足:
(23)
其中,D是GECC特征維度,λ是調節因子,一般設為1即可。
對所有相鄰的子段對(Si,Si+1)進行貝葉斯信息準則判決,得到分割初步判決結果。
經過貝葉斯信息準則判決后,已經得到一定數量的說話人轉換點,區間驗證的作用是試圖利用音高信息,對可疑的轉化點進行剔除,并嘗試找回已經被遺漏的轉化點。
根據貝葉斯信息準則判決產生的相鄰轉換點之間的時間幀區間內存在的子段個數N,采用不同的處理策略。
當N=1時,兩相鄰轉換點之間有一個孤立子段,此時判斷孤立子段兩側轉換點之間的時間間隔是否足夠小,如果小于1 s且孤立子段的音高和左右兩側有一邊比較吻合,就剔除掉吻合度較低的那一側的轉化點。當1
測試數據庫選用conTIMIT數據集[17],一共包含55條語音波形文件,統計語音時長3 675 s,有效分割點數1 071個,平均每個說話人段長3.29 s,最短1.14 s,最長11.75 s,標準差1.75 s。語音采樣頻率為16 000 Hz,實驗中語音分幀幀長20 ms,幀移10 ms,GFCC特征選擇23維基本特征加一階差分特征,MFCC特征選擇13維基本特征加一階差分特征。
對說話人轉化檢測的性能評價,用等錯率和F1值。當虛警率(False Alarm Rate,FAR)和漏報率(Miss Detection Rate,MDR)相等時,得到等錯率(Equal Error Rate,EER):
(24)
(25)

(26)
用召回率(Recall)和準確率(Precision)計算F1值:
(27)
(28)
(29)
其中,FA是轉換點虛報個數,MD是未檢測出的轉換點個數,GT是實際的轉換點個數,GD是正確檢測出的轉換點個數。
在數據集上用貝葉斯信息準則作為距離準則得到說話人轉換點,并和加權距離度量(Weighted Distance Measure,WDM)[18]準則檢測的性能做對比。表1給出濁音子段、清音子段、語音子段(包含濁音和清音)的段長統計信息。分別計算分割邊界轉換點的漏報率-虛警率曲線,如圖3~圖5所示,對應的等錯率結果如表2所示。單獨計算濁音子段,BIC和WDM兩種方法的轉換點與檢測點都是非常差的,80%的子段段長落在0.1 s~0.5 s范圍內,造成BIC失效。在同樣極短時間的條件下,清音子段的表現比濁音好得多。把相鄰濁音和清音連接成語音子段,段長平均達到1.34 s,與說話人識別的最低2 s的要求已經比較接近,GECC特征在BIC準則下達到最好檢測效果,等錯率降到26.8%。

表1 濁音、清音、語音段長統計 s

圖3 濁音子段(V-S)虛警率和漏報率曲線

圖4 清音子段(U-S)虛警率和漏報率曲線

圖5 語音子段(UV-S)虛警率和漏報率曲線

表2 不同特征、不同子段類別切分等錯率 %
濁音子段的音高特征在說話剛開始時會出現跳高音陡降至穩態基頻區的過程,在說話結束時幾乎都會發生從穩態基頻降頻的收尾效應,但在同一個說話人語音內跳躍幅度比較平穩,在區間驗證的過程中利用這一信息,既可以剔除掉一些虛警轉換點,也可以找回一些已經漏掉的轉換點,從表3可以看到最終的等錯率可以下降到23.2%,相應的F1值為70.0%。

表3 結合音高補償后的檢測性能 %
在基于聽覺場景分析的說話人轉變檢測中,由于伽馬通濾波器和毛細胞模型對人耳聽覺系統的模擬,可以將語音信號按照人的聽覺感知對各個頻帶進行精細劃分,得到準確的清音和濁音信息以及穩健的基頻軌跡。基于此,本文一種提出基于聽覺場景分析的說話人轉換檢測方法。將語音分割成相鄰的若干語音子段(包含清音、濁音、極短靜音),提取伽馬通能量倒譜系數特征,在貝葉斯信息準則的判決下得到初始說話人轉換點,最后利用濁音的基頻特征對漏檢和錯檢的轉換點進行后處理,最終得到較好的檢測結果。在conTIMIT數據集上的測試結果表明,不做音高檢測,最優性能是選用GECC特征在BIC準則下等錯率達到26.8%,利用音高信息,得到GFCC特征在BIC準則下性能提高到23.2%,GECC和GECC特征的性能優于MFCC,BIC準則優于WDM準則,在短時語音說話人快速轉變的口語對話環境中,即使無法訓練說話人模型,也可以達到一定的檢測準確性。
[1] BAZYAR M,SUDIRMAN R.A New Speaker Change Detection Method in a Speaker Identification System for Two-speakers Segmentation[C]//Proceedings of 2014 ACM Symposium on Computer Applications and Industrial Electronics.New York,USA:ACM Press,2014:141-145.
[2] MALEQAONKAR A S,ARIYAEEINIA A M.Efficient Speaker Change Detection Using Adapted Gaussian Mixture Models[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(6):1859-1869.
[3] ZAHID S,HUSSAIN F,RASHID M,et al.Optimized Audio Classification and Segmentation Algorithm by Using Ensemble Methods[J].Mathematical Problems in Engineering,2015(11):209-214.
[4] 鄭繼明,張 萍.改進的BIC說話人分割算法[J].計算機工程,2010,36(17):240-242.
[5] KOTTI M,BENETOS E,KOTROPOULOS C.Computa-tionally Efficient and Robust BIC-based Speaker Segmenta-tion[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16(5):920-933.
[6] YANG J,HE Q,LI Y,et al.Speaker Change Detection Based on Mean Shift[J].Journal of Computers,2013,8(3):638-644.
[7] WU Z,EVANS N,KINNUNEN T,et al.Spoofing and Countermeasures for Speaker Verification:A Survey[J].Speech Communication,2015,66(1):130-153.
[8] 張學良,劉文舉,李 鵬,等.改進諧波組織規則的單通道濁語音分離系統[J].聲學學報,2011,36(1):88-96.
[9] CUSACK R,DECKS J,AIKMAN G,et al.Effects of Location,Frequency Region,and Time Course of Selective Attention on Auditory Scene Analysis[J].Journal of Experimental Psychology:Human Perception and Performance,2004,30(4):643-656.
[10] MAKA T.Change Point Determination in Audio Data Using Auditory Features[J].International Journal of Electronics and Telecommunications,2015,61(2):185-190.
[11] MEDDIS R.Simulation of Mechanical to Neural Transduction in the Auditory Receptor[J].The Journal of the Acoustical Society of America,1986,79(3):702-711.
[12] LI L.Performance Analysis of Objective Speech Quality Measures in Mel Domain[J].Journal of Software Engineering,2015,9(2):350-361.
[13] KAUR G,SINGH D,RANI P.Robust Speaker Recognition Biometric System a Detailed Review[J].Emerging Research in Management & Technology,2015,4(5):281-288.
[14] 王 民,任雪妮,孫 潔.一種高效的基音檢測與評估算法[J].計算機工程與應用,2014,50(14):126-132.
[15] 胡 瑛,陳 寧.基于小波變換的清濁音分類及基音周期檢測算法[J].電子與信息學報,2008,30(2):353-356.
[16] CHEN S,GOPALAKRISHNAN P.Speaker,Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion[C]//Proceedings of Broadcast News Transcription and Understanding Workshop.San Francisco,USA:Morgan Kaufmann Publishers,1998:127-132.
[17] SEO J S.Speaker Change Detection Based on a Graph-partitioning Criterion[J].The Journal of the Acoustical Society of Korea,2011,30(2):80-85.
[18] KWON S,NARAYANAN S S.Speaker Change Detection Using a New Weighted Distance Measure[C]//Pro-ceedings of the 7th International Conference on Spoken Language Processing.Washington D.C.,USA:IEEE Press,2002:2537-2540.